La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.

Presentazioni simili


Presentazione sul tema: "Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano."— Transcript della presentazione:

1 Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano per la Ricerca di Base (FIRB): “L’Italiano in Diacronia”

2 Corpus Stammerjohann N° Registrazioni: 30 Durata Totale: circa 47 Ore

3 TRACCIA 1 TRACCIA 2 TRACCIA 1 TRACCIA 2 TRACCIA 1 TRACCIA 2 TRACCIA 1
Scuola elementare Vitali / Perugi Artigiano Contini / Nencioni Conversazione in casa Vitali Conversazione Romoli Conversazione Braccini TRACCIA 2 San Frediano (Bendinelli) Bidello Magistero (Braschi) Artigiano San Frediano (Braschi) Barbiere via Faenza TRACCIA 1 Pinocchio (Pensione) Barbiere via Faenza Il grillo canterino Franco e Serena TRACCIA 2 Lilian’ s Conversazione Garavini TRACCIA 1 Conversazione in casa Vitali Barbiere via Faenza TRACCIA 2 Scherzo via San Gallo Copie Rai (Il grillo canterino) Facoltà di Lettere (Braccini) TRACCIA 1 Giardino d’ infanzia (Bendinelli) Amiche della Bendinelli Famiglia Studio Porcinai Il grillo canterino Rai Franco e Serena Giardino d’ infanzia San Frediano TRACCIA 2 Barbiere via Faenza

4 Durata Registrazioni (Totale: 2806 minuti)

5 Recupero del Corpus Stammerjohann
Audio Digitalizzazione Campionamento Testo Trascrizione in formato CHAT Meta-dati Allineamento Testo-Audio dei testi con minore quantità di sovrapposizioni e migliore qualità acustica

6 Campionamento del corpus rispetto ai corpora di riferimento LABLITA e C-ORAL-ROM per la comparabilità dei dati linguistici

7 CORPUS ITALIANO C-ORAL-ROM
( parole; 460 locutori) FORMAL INFORMAL 10 testi di parole 70 testi di parole testi di parole

8 C-ORAL-ROM ITALIANO INFORMALE
DOMINIO SOCIOLOGICO D’USO Familiare e privato Pubblico 26.352 Monologues 45.212 dial&convers 83.464 Monologues 6.050 dial&convers 20.241 STRUTTURA DELL’EVENTOCOMUNICATIVO

9 C-ORAL-ROM FORMAL Natural context Trasmissione non naturale 88.220
( campionamento per genere e dominio semantico) Natural context 68.324 Trasmissione non naturale Media 61.638 Téléphone 26.582 Droit Débat politique Religion Enseignement Conférence Explications professionnelles Affaires (testi di parole) –dialogical structure News Météo Interviews Reportages Science Talk show (testi di parole) Dialogues Man-machine interactions

10 CAMPIONAMENTO dell’insieme di registrazioni continue in testi di dimensione tra le e le 4500 parole Il campionamento dialogico informale è fortemente comparabile Il campionamento dialogico regolato/formale è comparabile, con cautela Il parlato monologico non è comparabile I media sono scarsamente comparabili

11 Campionamento rispetto ai corpora di riferimento LABLITA e C-ORAL-ROM
Corpus Stammerjohann 1965 : 47 h registrazioni trascritte 8h 31’ parole in 34 testi Corpus C-ORAL-ROM ’90 – 2003 : 36 h trascritte per parole

12 TESTO Format: CHAT (Codes Human Analysis of Transcripts)
di B. McWhinney (1994) adattamento in (Cresti – Moneglia, 1997) Meta-dati: Informazioni sulla sessione e sui locutori (C-ORAL-ROM format )* Linea del testo: trascrizione ortografica Linea dipendente: informazione contestuale e paralinguistica Il metalinguaggio è sempre l’inglese * Anche in Format IMDI (Isle Metadata Iniziative) in collaborazione con il Max Planck Institute.

13 Mata-dati @Title: Palmira @File: ifamcv19 @Participants:
PAL, Palmira, (woman, D, x, retired, conversation participant, Florence) CAR, Carlota, (woman, C, 3, researcher, conversation participant, Spain) GIU, Giuseppina, (woman, D, x, retired, conversation participant, Florence) @Date: 10/10/2001 @Place: Florence @Situation: shared-memories dialogue between relatives at home, not hidden, researcher participant @Topic: events in family life @Source: C-ORAL-ROM @Class: informal, family/private, conversation @Length: 9’ 25’’ @Words: 1518 @Acoustic_quality: A @Transcriber: Sabrina Signorini @Revisor: Paola Gramigni; Antonietta Scarano @Comments: text collected by Carlota Nicolas

14 Un esempio di testo trascritto

15 Unità di riferimento annotate nella trascrizione
Turno dialogico: ogni presa di parola da parte di un parlante (identificabile con il cambiamento di voce) Enunciato: qualsiasi espressione interpretabile pragmaticamente, ossia ogni espressione attraverso cui viene compiuta una illocuzione (Cresti, 2000) (identificabile con un break prosodico terminale) Unità d’informazione: qualsiasi espressione che svolge una funzione informativa (Cresti, 2000). (identificabile con un break prosodico non terminale). Parte del discorso e lemma di ogni token (non realizzata)

16 Annotazione Locutore Unità d’intonazione non terminale
*PAL: guarda / ad aver perso i libri / io ho perso dimolto // l' era tutta + le [/] le novelle della nonna + *CAR: mh // *PAL: / l' <erano> // *GIU: [<] <eh> / quelle erano belle // *PAL: ma / l' erano belle proprio / eh // le dètti all' Elda // la venne l' Elda // la mi disse / mi dai &de [///] le novelle della nonna / dice // e &di [/] e dicano le son tanto belle // %com: she' s laughing Interrupzione Retracting Sovrapposizione Frammento Linea dipendente

17 Allineamento testo suono
Unità di allineamento: L’enunciato Il corpus come una Base di dati di enunciati TOOL: WinPitch Corpus, di Ph. Martin Il file multimediale per lo sfruttamento simultaneo dell’informazione acustica e testuale

18 Un esempio di audio e testo allineati
WinPitchCorpus (P. Martin)

19 Un esempio di audio e testo allineati
WinPitch Corpus (P. Martin)

20 Misure 1 MLTw: Lunghezza media del Turno dialogico in parole
2 MLU: Lunghezza media dell’enunciato in parole 3 MLTone: Lunghezza media dell’unità tonale in parole 4 MLTu: Lunghezza media del turno dialogico in enunciati 5 MLUtone: Lunghezza media dell’enunciato in unità tonali 6 MLTtone: Lunghezza media del Turno dialogico in unità tonali 7 Speed w: Numero di parole al secondo 8 Speed u: numero di parole al minuto FFE: Frequenza della frammentazione (sul totale degli enunciati) FIE: Frequenza delle interruzioni (sul totale degli enunciati)

21 Ricerche future sul Corpus Stammerjohann
Lemmatizzazione e tagging morfosintattico Lessico di frequenza Studi sintattici di superficie: (enunciati verbali e non verbali, principali indici di coordinazione, subordinazione, focalizzazione negativa) Studi diacronici: Modificazione del lessico di base toscano

22 Possibilità attuali per la pubblicazione dei risultati della ricerca FIRB in :
a) Pubblicazione on demand in DVD + Volume (Firenze University Press) b) Pubblicazione Volume + DVD (Collana degli Studi Linguistici del Dipartimento di Italianistica)

23 Tabella corpus (Informale)

24 Tabella corpus (Formale)

25 Stammerjohann - C-ORAL-ROM: misure a confronto


Scaricare ppt "Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano."

Presentazioni simili


Annunci Google