Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano.

Slides:



Advertisements
Presentazioni simili
Dizionari elettronici in glottodidattica: possibilità attuali e potenzialità future Isabella Chiari Dizionari elettronici in glottodidattica: possibilità.
Advertisements

MISURA III.3 Qualificazione e valorizzazione dei sistemi parco Sottomisura III.3.1 Completamento e ottimizzazione dei sistemi di fruizione Sottomisura.
Abilità di calcolo e discalculia
Dentro l’italiano L2 Finora ho imparato tante parole basse , ma non so ancora le parole alte…….(Karim) Le parole cinesi hanno un solo vestito ; le parole.
La gestione dell'audio Creazione, acquisizione, formati di file a cura di Loris Tissìno (
Andrea Firpo – Voice XML: un linguaggio per la definizione di interazioni vocali 1 Voice XML: Un linguaggio per la definizione di interazioni vocali.
AULA VIRTUALE DI LINGUAGGIO E COMUNICAZIONE
Quale denominazione? Fachsprachen LSP Langues (langages) spécialisées, de spécialité, langues professionnelles, sur objectif spécifique…. Lingue (linguaggi)
Abilità di calcolo e discalculia
Leggere - Capire - Produrre
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Corpora e strumenti d’analisi non prodotti in Dipartimento
Silvio e il Presidente del Consiglio: Il discorso di Berlusconi tra Parlamento e Piazza UNIVERSITÀ DEGLI STUDI DI PAVIA FACOLTÀ DI ECONOMIA, GIURISPRUDENZA,
La pragmatica Morris divide il linguaggio in: Sintassi (relazione tra segni tra di loro) Semantica (relazione tra segni e oggetti a cui si riferiscono)
Leggere e scrivere Scuola dell’infanzia e Scuola primaria
Lingue media e pubblicità
Corso di Linguistica e Comunicazione prof.ssa Maria Catricalà
Mentre lerrore grammaticale è generalmente attribuito a ignoranza della lingua e facilmente scusato, lerrore pragmatico non viene percepito.
I. Calvino, L’antilingua del brigadiere
Linguaggio: sistema di comunicazione che permette di trasmettere informazioni (significati) attraverso dei comportamenti (segnali) che devono essere interpretati.
Lipertesto Il termine fu coniato nel 1965 da Ted Nelson per indicare documenti caratterizzati da una struttura non sequenziale delle idee, in alternativa.
ADSL VOIP Voice Over IP.
Corso di Laurea in Scienze e Tecnologie Chimiche corso di Informatica Generale Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
Corso di Laurea in Biotecnologie corso di Informatica Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
Che cos’è l’annotazione di un corpus?
Comunicazione e agire sociale
Restituzione questionario
Che cosa è un sintagma?.
CALCOLO MENTALE classi prime e seconde Istituto Comprensivo “C.Aschieri” anno scolastico
DSA e strumenti compensativi
Editoria multimediale lezione 1 Marco Lazzari Università di Bergamo Facoltà di Lettere e Filosofia A.A
Chiamata Telecom…….
Chiamata Telecom.
Il comportamento dellesaminatore nelle prove di produzione orale Siena, 17 settembre 2010.
Espressione polirematica
PROGETTO ITACA Indagine longitudinale sui percorsi post laurea
Note per il corso di Teorie e … multimediale lezione 1 Marco Lazzari Università di Bergamo Facoltà di Lettere e Filosofia A.A
SINTASSI.
Pragmatics is the study of linguistic acts and the contexts in which they are performed. (Stalnaker 1970) Il contesto: come individuarlo? quanto è rilevante?
LA GESTIONE DELLO SPAZIO CONDIVISO IN FORUM PER LA COSTRUZIONE DELLA CONOSCENZA.
Marina Mura GLI APPROCCI INTENZIONALI ALLA COMUN ICAZIONE LA C. è UNO SCAMBIO DI INTENZIONI COMUNICATIVE TRASMESSE CON I MESSAGGI se.
Laboratorio Radio In collaborazione con Progetto Comenius Radio HUB (Radio Hear Us Boy!) Le 10 regole del conduttore.
SINTASSI E PROSODIA IN UN CORPUS DI PARLATO SPONTANEO
Michele A. Cortelazzo Morfologia 1.
STRATEGIE DI AIUTO PER I BAMBINI CON DISTURBI SPECIFICI DELL’APPRENDIMENTO Sermide, 16 ottobre 2003.
A.P. cat. B - 1 Per chi vuole: Libro di testo D.P. Curtis, K. Foley, K. Sen, C. Morin Informatica di base 2° edizione Mc Graw-Hill Companies.
Il vangelo di Paolo. Gli studi su Paolo Dagli anni ’70 Uomo di tre culture: Ebraica Greca Romana Dal 1948 in poi Davies, Paolo e il giudaismo rabbinico:
Il Parallel Turin University Treebank Cristina Bosco – Manuela Informatica applicata alla comunicazione multimediale
Ad ogni termine singolare è associato un senso ( Sinn) e una
M. G. Baragli, M.D. Nesi, M. Ramella Seminario nazionale, Cidi Firenze, 8 maggio 2011.
RALLENTATORE VOCALE (1)
H.P. Grice: il significato del parlante
Sistemi formative Formative systems Insieme di elementi singoli Collections of single elements.
PENSIERO SIMBOLICO. PRODURRE Parlare automatico, spontaneo Scrivere solo in seguito all’istruzione Dagli errori e le pause (esitazioni) di produzione.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Tecnologie della lingua Human Language Technology (HLT)
Programma anno accademico Docente: Ramona Bongelli
Anno scolastico 2014 / 2015 SCUOLA PRIMARIA “ S. MARTINO “ CLASSE IV INS. SORRENTINO ANTONIETTA Progetto curricolare “ L'apprendista lettore “
L’italiano della comunicazione
Linguistica computazionale: come accedere all’informazione codificata nel linguaggio naturale (seconda parte) Cristina Bosco 2014 Informatica applicata.
Lasciate che i bambini siano felici a modo loro, non esiste modo migliore. (Dr. Johnson)
Competenza orale e scritta
Corso di “Teorie e pratiche della traduzione” “La scrittura accademica attraverso le lingue e le culture: studio su corpus della voce autoriale” Dott.ssa.
INFERENZA L'inferenza è il processo attraverso il quale da una proposizione accettata come vera, si passa a una proposizione la cui verità è considerata.
Aspetti della lingua della politica e dell'informazione scientifica nella televisione italiana ( )‏
Insegnare a conversare (2) TFA classe AC08 a.a
Che cos’è la linguistica?
Psicologia della Comunicazione Ramona Bongelli
M OODLE E D IDATTICA DELL’ I TALIANO L 2: U n P ercorso di L ingua e C I taliana O nline dott.ssa Antonella Elia, dott.ssa Maria De Santo Università.
Transcript della presentazione:

Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano per la Ricerca di Base (FIRB): “L’Italiano in Diacronia”

Corpus Stammerjohann N° Registrazioni: 30 Durata Totale: circa 47 Ore

TRACCIA 1 TRACCIA 2 TRACCIA 1 TRACCIA 2 TRACCIA 1 TRACCIA 2 TRACCIA 1 Scuola elementare Vitali / Perugi Artigiano Contini / Nencioni Conversazione in casa Vitali Conversazione Romoli Conversazione Braccini TRACCIA 2 San Frediano (Bendinelli) Bidello Magistero (Braschi) Artigiano San Frediano (Braschi) Barbiere via Faenza TRACCIA 1 Pinocchio (Pensione) Barbiere via Faenza Il grillo canterino Franco e Serena TRACCIA 2 Lilian’ s Conversazione Garavini TRACCIA 1 Conversazione in casa Vitali Barbiere via Faenza TRACCIA 2 Scherzo via San Gallo Copie Rai (Il grillo canterino) Facoltà di Lettere (Braccini) TRACCIA 1 Giardino d’ infanzia (Bendinelli) Amiche della Bendinelli Famiglia Studio Porcinai Il grillo canterino Rai Franco e Serena Giardino d’ infanzia San Frediano TRACCIA 2 Barbiere via Faenza

Durata Registrazioni (Totale: 2806 minuti)

Recupero del Corpus Stammerjohann Audio Digitalizzazione Campionamento Testo Trascrizione in formato CHAT Meta-dati Allineamento Testo-Audio dei testi con minore quantità di sovrapposizioni e migliore qualità acustica

Campionamento del corpus rispetto ai corpora di riferimento LABLITA e C-ORAL-ROM per la comparabilità dei dati linguistici

CORPUS ITALIANO C-ORAL-ROM (311.582 parole; 460 locutori) FORMAL 156.544 INFORMAL 155.048 10 testi di 4.500 parole 70 testi di 1.500 parole testi di 3.000 parole

C-ORAL-ROM ITALIANO INFORMALE DOMINIO SOCIOLOGICO D’USO Familiare e privato 128.696 Pubblico 26.352 Monologues 45.212 dial&convers 83.464 Monologues 6.050 dial&convers 20.241 STRUTTURA DELL’EVENTOCOMUNICATIVO

C-ORAL-ROM FORMAL Natural context Trasmissione non naturale 88.220 ( campionamento per genere e dominio semantico) Natural context 68.324 Trasmissione non naturale 88.220 Media 61.638 Téléphone 26.582 Droit Débat politique Religion Enseignement Conférence Explications professionnelles Affaires (testi di 3.000 parole) 30.598 –dialogical structure News Météo Interviews Reportages Science Talk show (testi di 3.000 parole) Dialogues Man-machine interactions

CAMPIONAMENTO dell’insieme di registrazioni continue in testi di dimensione tra le 1500 e le 4500 parole Il campionamento dialogico informale è fortemente comparabile Il campionamento dialogico regolato/formale è comparabile, con cautela Il parlato monologico non è comparabile I media sono scarsamente comparabili

Campionamento rispetto ai corpora di riferimento LABLITA e C-ORAL-ROM Corpus Stammerjohann 1965 : 47 h registrazioni trascritte 8h 31’ 96548 parole in 34 testi Corpus C-ORAL-ROM ’90 – 2003 : 36 h trascritte per 311.582 parole

TESTO Format: CHAT (Codes Human Analysis of Transcripts) di B. McWhinney (1994) adattamento in (Cresti – Moneglia, 1997) Meta-dati: Informazioni sulla sessione e sui locutori (C-ORAL-ROM format )* Linea del testo: trascrizione ortografica Linea dipendente: informazione contestuale e paralinguistica Il metalinguaggio è sempre l’inglese * Anche in Format IMDI (Isle Metadata Iniziative) in collaborazione con il Max Planck Institute.

Mata-dati @Title: Palmira @File: ifamcv19 @Participants: PAL, Palmira, (woman, D, x, retired, conversation participant, Florence) CAR, Carlota, (woman, C, 3, researcher, conversation participant, Spain) GIU, Giuseppina, (woman, D, x, retired, conversation participant, Florence) @Date: 10/10/2001 @Place: Florence @Situation: shared-memories dialogue between relatives at home, not hidden, researcher participant @Topic: events in family life @Source: C-ORAL-ROM @Class: informal, family/private, conversation @Length: 9’ 25’’ @Words: 1518 @Acoustic_quality: A @Transcriber: Sabrina Signorini @Revisor: Paola Gramigni; Antonietta Scarano @Comments: text collected by Carlota Nicolas

Un esempio di testo trascritto

Unità di riferimento annotate nella trascrizione Turno dialogico: ogni presa di parola da parte di un parlante (identificabile con il cambiamento di voce) Enunciato: qualsiasi espressione interpretabile pragmaticamente, ossia ogni espressione attraverso cui viene compiuta una illocuzione (Cresti, 2000) (identificabile con un break prosodico terminale) Unità d’informazione: qualsiasi espressione che svolge una funzione informativa (Cresti, 2000). (identificabile con un break prosodico non terminale). Parte del discorso e lemma di ogni token (non realizzata)

Annotazione Locutore Unità d’intonazione non terminale *PAL: guarda / ad aver perso i libri / io ho perso dimolto // l' era tutta + le [/] le novelle della nonna + *CAR: mh // *PAL: / l' <erano> // *GIU: [<] <eh> / quelle erano belle // *PAL: ma / l' erano belle proprio / eh // le dètti all' Elda // la venne l' Elda // la mi disse / mi dai &de [///] le novelle della nonna / dice // e &di [/] e dicano le son tanto belle // %com: she' s laughing Interrupzione Retracting Sovrapposizione Frammento Linea dipendente

Allineamento testo suono Unità di allineamento: L’enunciato Il corpus come una Base di dati di enunciati TOOL: WinPitch Corpus, di Ph. Martin Il file multimediale per lo sfruttamento simultaneo dell’informazione acustica e testuale

Un esempio di audio e testo allineati WinPitchCorpus (P. Martin)

Un esempio di audio e testo allineati WinPitch Corpus (P. Martin)

Misure 1 MLTw: Lunghezza media del Turno dialogico in parole 2 MLU: Lunghezza media dell’enunciato in parole 3 MLTone: Lunghezza media dell’unità tonale in parole 4 MLTu: Lunghezza media del turno dialogico in enunciati 5 MLUtone: Lunghezza media dell’enunciato in unità tonali 6 MLTtone: Lunghezza media del Turno dialogico in unità tonali 7 Speed w: Numero di parole al secondo 8 Speed u: numero di parole al minuto FFE: Frequenza della frammentazione (sul totale degli enunciati) FIE: Frequenza delle interruzioni (sul totale degli enunciati)

Ricerche future sul Corpus Stammerjohann Lemmatizzazione e tagging morfosintattico Lessico di frequenza Studi sintattici di superficie: (enunciati verbali e non verbali, principali indici di coordinazione, subordinazione, focalizzazione negativa) Studi diacronici: Modificazione del lessico di base toscano

Possibilità attuali per la pubblicazione dei risultati della ricerca FIRB in : a) Pubblicazione on demand in DVD + Volume (Firenze University Press) b) Pubblicazione Volume + DVD (Collana degli Studi Linguistici del Dipartimento di Italianistica)

Tabella corpus (Informale)

Tabella corpus (Formale)

Stammerjohann - C-ORAL-ROM: misure a confronto