La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.

Presentazioni simili


Presentazione sul tema: "Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano."— Transcript della presentazione:

1

2 Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano per la Ricerca di Base (FIRB): “L’Italiano in Diacronia”

3 Corpus Stammerjohann N° Registrazioni: 30 Durata Totale: circa 47 Ore

4 TRACCIA 1 Scuola elementare Vitali / Perugi Artigiano Contini / Nencioni Conversazione in casa Vitali Conversazione Romoli Conversazione Braccini TRACCIA 2 San Frediano (Bendinelli) Bidello Magistero (Braschi) Artigiano San Frediano (Braschi) Barbiere via Faenza TRACCIA 1 Pinocchio (Pensione) Barbiere via Faenza Il grillo canterino Franco e Serena TRACCIA 2 Lilian’ s Barbiere via Faenza Conversazione Garavini TRACCIA 1 Conversazione in casa Vitali Barbiere via Faenza TRACCIA 2 Scherzo via San Gallo Copie Rai (Il grillo canterino) Facoltà di Lettere (Braccini) Barbiere via Faenza TRACCIA 1 Giardino d’ infanzia (Bendinelli) Amiche della Bendinelli Famiglia Studio Porcinai Il grillo canterino Rai Franco e Serena Giardino d’ infanzia San Frediano TRACCIA 2 Barbiere via Faenza

5 Durata Registrazioni (Totale: 2806 minuti)

6 Recupero del Corpus Stammerjohann Audio 1.Digitalizzazione 2.Campionamento Testo 1.Trascrizione in formato CHAT 2.Meta-dati Allineamento Testo-Audio dei testi con minore quantità di sovrapposizioni e migliore qualità acustica

7 Campionamento del corpus rispetto ai corpora di riferimento LABLITA e C-ORAL-ROM Campionamento del corpus rispetto ai corpora di riferimento LABLITA e C-ORAL-ROM per la comparabilità dei dati linguistici

8 CORPUS ITALIANO C-ORAL-ROM FORMAL INFORMAL ( parole; 460 locutori) 10 testi di parole 70 testi di parole testi di parole

9 C-ORAL-ROM ITALIANO INFORMALE DOMINIO SOCIOLOGICO D’USO STRUTTURA DELL’EVENTOCOMUNICATIVO Familiare e privato Pubblico Monologues convers dial&convers Monologues6.050dial&convers20.241

10 C-ORAL-ROM FORMAL Droit Débat politique Religion Enseignement Conférence Explications professionnelles Affaires (testi di parole) –dialogical structure News Météo Interviews Reportages Science Talk show (testi di parole) Dialogues Man-machine interactions Natural Natural context Media Téléphone ( campionamento per genere e dominio semantico) Trasmissione non naturale Trasmissione non naturale

11 CAMPIONAMENTO dell’insieme di registrazioni continue in testi di dimensione tra le 1500 e le 4500 parole Il campionamento dialogico informale è fortemente comparabile Il campionamento dialogico regolato/formale è comparabile, con cautela Il parlato monologico non è comparabile I media sono scarsamente comparabili

12 Campionamento rispetto ai corpora di riferimento LABLITA e C-ORAL-ROM Corpus Stammerjohann 1965 :47 h registrazioni trascritte 8h 31’ parole in 34 testi Corpus C-ORAL-ROM ’90 – 2003 :36 h trascritte per parole

13 TESTO Meta-dati Meta-dati: Informazioni sulla sessione e sui locutori (C-ORAL-ROM format )* Linea del testo Linea del testo: trascrizione ortografica Linea dipendente Linea dipendente: informazione contestuale e paralinguistica Format Format: CHAT (Codes Human Analysis of Transcripts) di B. McWhinney (1994) adattamento in (Cresti – Moneglia, 1997) * Anche in Format IMDI (Isle Metadata Iniziative) in collaborazione con il Max Planck Institute. Il metalinguaggio è sempre l’inglese

14 ifamcv19 PAL, Palmira, (woman, D, x, retired, conversation participant, Florence) CAR, Carlota, (woman, C, 3, researcher, conversation participant, Spain) GIU, Giuseppina, (woman, D, x, retired, conversation participant, Florence) 10/10/2001 shared-memories dialogue between relatives at home, not hidden, researcher participant events in family life C-ORAL-ROM informal, family/private, conversation 9’ 25’’ 1518 A Sabrina Signorini Paola Gramigni; Antonietta Scarano text collected by Carlota Nicolas Florence

15 Un esempio di testo trascritto

16 Unità di riferimento annotate nella trascrizione Turno dialogico: ogni presa di parola da parte di un parlante (identificabile con il cambiamento di voce) Enunciato: qualsiasi espressione interpretabile pragmaticamente, ossia ogni espressione attraverso cui viene compiuta una illocuzione (Cresti, 2000) (identificabile con un break prosodico terminale) Unità d’informazione: qualsiasi espressione che svolge una funzione informativa (Cresti, 2000). (identificabile con un break prosodico non terminale). Parte del discorso e lemma di ogni token (non realizzata)

17 Annotazione *PAL: guarda / ad aver perso i libri / io ho perso dimolto // l' era tutta + le [/] le novelle della nonna + *CAR: mh // *PAL: / l' // *GIU: [ / quelle erano belle // *PAL: ma / l' erano belle proprio / eh // le dètti all' Elda // la venne l' Elda // la mi disse / mi dai &de [///] le novelle della nonna / dice // e &di [/] e dicano le son tanto belle // %com: she' s laughing  Unità d’intonazione non terminale  Unità d’intonazione terminale terminale  Retracting  Interrupzione  Sovrapposizione  Frammento  Locutore  Linea dipendente

18 Allineamento testo suono Unità di allineamento: L’enunciato Il corpus come una Base di dati di enunciati TOOL: WinPitch Corpus, di Ph. Martin Il file multimediale per lo sfruttamento simultaneo dell’informazione acustica e testuale

19 Un esempio di audio e testo allineati WinPitchCorpus (P. Martin)

20 Un esempio di audio e testo allineati WinPitch Corpus (P. Martin)

21 Misure 1MLTw: Lunghezza media del Turno dialogico in parole 2MLU: Lunghezza media dell’enunciato in parole 3MLTone: Lunghezza media dell’unità tonale in parole 4MLTu: Lunghezza media del turno dialogico in enunciati 5MLUtone: Lunghezza media dell’enunciato in unità tonali 6MLTtone: Lunghezza media del Turno dialogico in unità tonali 7Speed w: Numero di parole al secondo 8Speed u: numero di parole al minuto 9FFE: Frequenza della frammentazione (sul totale degli enunciati) 10FIE: Frequenza delle interruzioni (sul totale degli enunciati)

22 Lemmatizzazione e tagging morfosintattico Lessico di frequenza Studi sintattici di superficie: (enunciati verbali e non verbali, principali indici di coordinazione, subordinazione, focalizzazione negativa) Studi diacronici: Modificazione del lessico di base toscano Ricerche future sul Corpus Stammerjohann

23 a) Pubblicazione on demand in DVD + Volume (Firenze University Press) b) Pubblicazione Volume + DVD (Collana degli Studi Linguistici del Dipartimento di Italianistica) Possibilità attuali per la pubblicazione dei risultati della ricerca FIRB in :

24 Tabella corpus (Informale)

25 Tabella corpus (Formale)

26 Stammerjohann - C-ORAL-ROM: misure a confronto


Scaricare ppt "Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano."

Presentazioni simili


Annunci Google