SINTASSI E PROSODIA IN UN CORPUS DI PARLATO SPONTANEO

Slides:



Advertisements
Presentazioni simili
I DISTURBI SPECIFICI DI APPRENDIMENTO
Advertisements

TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
Frontespizio Economia Monetaria Anno Accademico
ISTITUTO COMPRENSIVO CAVALESE- SCUOLA SECONDARIA DI I GRADO AREA DI APPRENDIMENTO: LINGUE COMUNITARIE – LINGUA TEDESCA a.s. 2011/2012 Curricolo sperimentale.
Sistemi computazionali per il linguaggio naturale
Interaction Models Group. Funzionalità Interaction Models Group Consente lestrazione della struttura grammaticale di una frase La struttura grammaticale.
consapevolezza metafonologica
Dal concreto al concreto. GRAMMATICA RIFLESSIONELINGUISTICA REGOLE COMPETENZALINGUISTICA COMPETENZALINGUISTICA REGOLE.
I MATEMATICI E IL MONDO DEL LAVORO
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale Prof. M.T. PAZIENZA a.a
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Istituzioni di linguistica
Comunicazione: come (non) ci comprendiamo. Comprensione, incomprensione, rumore C C C (2,2,6,3,2,4)
Silvio e il Presidente del Consiglio: Il discorso di Berlusconi tra Parlamento e Piazza UNIVERSITÀ DEGLI STUDI DI PAVIA FACOLTÀ DI ECONOMIA, GIURISPRUDENZA,
Programmazione 1 9CFU – TANTE ore
Linguaggio FONETICA SEMANTICA SINTASSI PRAGMATICA.
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Il lessico Lessico: insieme delle parole di una lingua (astratto)
Gli Apprendimenti nella Disabilità uditiva e le Nuove Tecnologie
Chomsky La grammatica/sintassi è una proprietà della mente
Lingue media e pubblicità
Tabella di marcia e calendario
MULTICULTURALITÁ E APPRENDIMENTO LINGUISTICO (M-Z)
MULTICULTURALITÁ E APPRENDIMENTO LINGUISTICO (M-Z)
Mentre lerrore grammaticale è generalmente attribuito a ignoranza della lingua e facilmente scusato, lerrore pragmatico non viene percepito.
Master universitario di II livello in Ingegneria delle Infrastrutture e dei Sistemi Ferroviari Anno Accademico 2012/2013 Cultura dimpresa, valutazione.
La partita è molto combattuta perché le due squadre tentano di vincere fino all'ultimo minuto. Era l'ultima giornata del campionato e il risultato era.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Scritte scritte scritte scritte scritte scritte scritte Scritte scritte Titolo.
Linguaggio: sistema di comunicazione che permette di trasmettere informazioni (significati) attraverso dei comportamenti (segnali) che devono essere interpretati.
Punteggiatura.
Che cos’è l’annotazione di un corpus?
Chomsky La grammatica/sintassi è una proprietà della mente Distinta dalla capacità di comunicare E una facoltà autonoma ed innata La comunicazione è solo.
Eugenia Mascherpa Università della Calabria
Insegnare italiano L2 a scuola: dai primi passi all’autonomia Parte 2
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
Espressione polirematica
TECNOLOGIE DELLINFORMAZIONE E DELLA COMUNICAZIONE PER LE AZIENDE Materiale di supporto alla didattica.
I suoni delle lingue: fonetica e fonologia. 15 e 17 ottobre 2007
QUIZ – PATENTE EUROPEA – ESAME WORD
Maria Piscitelli Firenze, 3 dicembre 2010
Modelli di Calcolo e Lingue
Grammatiche, Linguaggio e Automi R. Basili TAL - a.a
LA COMUNICAZIONE EFFICACE
IL LINGUAGGIO VERBALE.
Parola di Vita Aprile 2014.
PROGRAMMAZIONE DISCIPLINARE DOCENTE: PELLEGRINETTI ENRICA
Comunicazione Attiva CORSO DI FORMAZIONE PER LA GESTIONE DELLE ASSEMBLEE PUBBLICHE E PER IL FUNZIONAMENTO DEGLI ORGANISMI DELIBERANTI NEGLI ISTITUTI DI.
La riflessione sulla lingua nelle Indicazioni nazionali
(L-LIN/01-Glottologia e Linguistica) Linguistica
Ambiguità Le lingue sono, per loro natura ambigue e sfumate:
Corso per Dirigenti Accompagnatori
M. G. Baragli, M.D. Nesi, M. Ramella Seminario nazionale, Cidi Firenze, 8 maggio 2011.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input.
H.P. Grice: il significato del parlante
PENSIERO SIMBOLICO. PRODURRE Parlare automatico, spontaneo Scrivere solo in seguito all’istruzione Dagli errori e le pause (esitazioni) di produzione.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Sistemi basati su conoscenza Linguaggio naturale: semantica Prof. M.T. PAZIENZA a.a
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Linguaggio come processo cognitivo
Fagioli, Caltagirone,Tomboletti e Delli Gatti.
La grammatica del parlato
La Comprensione frasale
Lucrezia Pedrali - Leno 2008 LINGUA ITALIANA Noi pensiamo un universo che è già pre-formato dalla nostra lingua E. Benveniste.
Elementi di linguistica italiana. Le strutture dell italiano.
Aspetti della lingua della politica e dell'informazione scientifica nella televisione italiana ( )‏
Che cos’è la linguistica?
La pragmatica Studia quegli aspetti che riguardano il linguaggio come azione; studia il parlare come forma di agire linguistico che si svolge all’interno.
Transcript della presentazione:

SINTASSI E PROSODIA IN UN CORPUS DI PARLATO SPONTANEO Rodolfo Delmonte, Antonella Bristot, Ciprian Bacalu, Luminita Chiran, Sara Tonelli Dipartimento di Scienze del Linguaggio Università Ca' Foscari - Ca' Garzoni-Moro San Marco, 3417 - 30124 Venezia (Italy) Tel.:041-2349464/52/19 E-mail:delmont@unive.it website:project.cgm.unive.it

Punti principali Parlato e scritto Trascrizione orto-fonetica e ortografica Architettura del sistema di annotazione Le sovrapposizioni Due modalità di approccio Alcuni esempi di rappresentazione sintattica

Parlato e Scritto la trascrizione orto(ideo)grafica forma linguistica - parole della lingua e dialettali; quasi linguistica - quasi parole e interiezioni di vario tipo; non linguistica - non parole, pause, e altri fenomeni di disfluenza.

Parlato e Scritto p1#94: no <sp> cioè sì c'ha<aa> <mh> <sp> una specie di tappo p1#96 <lp> c'ha prima una base un po' altina p1_94: no, cioè sì c'ha mh, una specie di tappo. p1_96: - c'ha prima una base un po' altina.

Regole di Traslitterazione 2.1 # diventa '<' oppure '>' 2.2 <eeh> e altre interiezioni vanno senza <> 2.3 il<ll> una<aa> <aa>arco = tolta parte tra <> 2.4 <sp> (pausa breve) sostituito da virgola o trattino. Se a fine turno può diventare punto o ..., in questo caso solo se il discorso risulta sospeso. 2.5 <eh!> diventa eh !. 2.6 / indica falsa partenza, sostituito da virgola. 2.7 <eh?> come <eh!> 2.8 des+ il segno + viene sostituito da un underscore 2.9 <lp> (pausa lunga) sostituito con punto, ... o - o ; 2.10 <P> sostituito da punteggiatura

Regole di Traslitterazione <inspiration> <laugh> <vocal> <breath> <unclear> <tongue-click> <breathe> <NOISE> <cough> <clear-throath> [whispering] [dialect] {whispered} [whispered]

Corpus AVIP diamo i numeri... tokens totali = 56337 di cui: punteggiatura e marcatori di turno = 18710 tokens parole, interiezioni, quasi parole ecc. = 37627 tokens

ARCHITETTURA LIVELLO I Forme Polirematiche Multiwords/Polywords Tokenizzatore Analisi Morfologica Lemmatizzazione Guessing Morfologico Database Linguistici Lessici Specialistici di Abbreviazioni e Forme Dialettali Separazione in Frasi

ARCHITETTURA LIVELLO I Forme Polirematiche Multiwords/Polywords Tokenizzatore Analisi Morfologica Lemmatizzazione Guessing Morfologico Database Linguistici Lessici Specialistici di Abbreviazioni e Forme Dialettali Separazione in Frasi

ARCHITETTURA LIVELLO II Disambiguazione Automi Stati Finiti Statistica/Sintattica Tagging Sintattico Grammaticale SHALLOW PARSING Accoppiamento Tratti Morfologici, Sintattici, Semantici Token Disambiguato MAPPING FUNZIONALE

ARCHITETTURA LIVELLO II Disambiguazione Automi Stati Finiti Statistica/Sintattica Tagging Sintattico Grammaticale SHALLOW PARSING Accoppiamento Tratti Morfologici, Sintattici, Semantici Token Disambiguato MAPPING FUNZIONALE

Alcuni esempi di marcatura xml il file ortografico <turn id="G001"> <w id=" w_40496 " case="cap"> Sara </w> <w id=" w_40497 " case="punt"> , </w> <w id=" w_40498 " case="low"> allora </w>

Alcuni esempi dell’output del tagger: il file tokens/tags tl(39, 4, e, [cong, congf], 2, 2577). tl(40, 4, quindi, [congf, in], 2, 2648). tl(41, 4, praticamente, [avv], 1, 2823). tl(42, 4, io, [pron], 1, 1957). tl(43, 4, ho, [ausa, vc], 2, 2019). tl(44, 4, un, [num, art], 2, 2945). tl(45, 4, percorso, [n, vppin, vppt, agn], 4, 3045).

Alcuni esempi dell’output del tagger: il file frasi f(1,1,11,[g001, senti, che_cosa, c, hai, ',', la, mappa, senza, il, tracciato, ?]). f(21,21,13,[g021, 'Poi', lo, aggiri, a, sinistra, ',', sempre, guardando, la, mappa, ',', eh, ?]). f(21,22,4,['A', sinistra, ',', okay, ?]).

Alcuni esempi dell’output del disambiguatore: il file mfeats <mword_file id="mfeats.xml"> <mw id="mw_0000" pos="I" mfeats="turn" href="orton.xml#id(w_01)"> G001</mw> <mw id="mw_0001" pos="N" mfeats="ms" lemma="ci" sfeats="nh" sems="hum" href="orton.xml#id(w_02)"> C</mw> <mw id="mw_0002" pos="V" mfeats="KL3s" lemma="essere" sfeats="vc" sems="cop" href="orton.xml#id(w_03)"> e'</mw> <mw id="mw_0003" pos="D" mfeats="fs" lemma="un" sfeats="art" sems="ind" href="orton.xml#id(w_04)"> un</mw>

Alcuni esempi dell’output del parser: il file sintattico <frase init ="mw_0000" end= "mw_0008"> <nodo id="sw_0001" type="CP"><foglia href="mfeats.xml#id(mw_0000)"> G001</foglia> <nodo id="sw_0002" type="F"> <nodo id="sw_0003" type="IBAR"><foglia href="mfeats.xml#id(mw_0001)">c</foglia> <foglia href="mfeats.xml#id(mw_0002)">e'</foglia></nodo> <nodo id="sw_0004" type="COMPC"> <nodo id="sw_0005" type="SN"><foglia href="mfeats.xml#id(mw_0003)">un</foglia> <foglia href="mfeats.xml#id(mw_0004)">cagnolino</foglia></nodo>

Alcuni esempi dell’output del parser: il file funzionale <turn val="G001"> <fw id="fw_0002" href="frase_1.xml#id=(sw_0006)"> G001</fw> <sent init="r02"> <node type= "index" ><leaf val="f2"> </leaf></node> <fw id="fw_0001" href="frase_1.xml#id=(sw_0003)" type="pred" ><leaf val="esserci"> </leaf> esserci</fw> <node type= "lex_form" ><leaf val="[sn/sogg/tema_bound/[_|_], xcomp/prop/[_|_]]"> </leaf></node> <node type= "voice" ><leaf val="active"> </leaf></node> <node type= "mood" ><leaf val="ind"> </leaf></node> <node type= "tense" ><leaf val="past"> </leaf></node> <node type= "cat" ><leaf val="esistenza"> </leaf></node>

Alcuni esempi dell’output del parser: il file funzionale <arc type= "subj/nonaff_theme" ><node type= "index" ><leaf val="sn13"> </leaf></node> <node type= "cat" ><leaf val="[animato]"> </leaf></node> <fw id="fw_0005" href="frase_1.xml#id=(sw_0004)" type="pred" ><leaf val="cane"> </leaf> cane</fw> <node type= "num" ><leaf val="sing"> </leaf></node> <node type= "pers" ><leaf val="3"> </leaf></node> <node type= "spec" ><node type= "def" ><leaf val="-"> </leaf></node></node> <arc type= "mod_a" ><node type= "index" ><leaf val="sa17"> </leaf></node> <node type= "cat" ><leaf val="[stato]"> </leaf></node> <fw id="fw_0006" href="frase_1.xml#id=(sw_0004)" type="pred" ><leaf val="*PICCOLO"> </leaf> *PICCOLO</fw></arc> <node type= "tab_ref" ><leaf val="[+ref, -pro, -ana, +class]"> </leaf></node> </arc>

DALLA SOVRAPPOSIZIONE ALLA ZUFFA: i dibattiti in TV MODERATORE PANZER Impedisce la sovrapposizione MODERATORE NATURALE Permette la sovrapposizione

DALLA SOVRAPPOSIZIONE ALLA ZUFFA: Random o con uno scopo? La sovrapposizione non avviene per caso La sovrapposizione ha uno scopo Interrompere Impadronirsi del turno Contrapporre la propria opinione Anticipare Correggere, ecc.

Definizione Preliminare e Tentativa La sovrapposizione è di norma un evento fisico che avviene in una singola unità temporale in cui due o più parlanti vogliono comunicare diverse e non coincidenti intenzioni comunicative. Salvo rare eccezioni di tipo casuale in cui i due o più parlanti intendevano dire la stessa cosa nella stessa unità di tempo.

PROBLEMA: le rappresentazioni linguistiche Sono tutte monodimensionali: Pragmatiche-conversazionali Semantiche Sintattiche Morfo-lessicali Fonologiche Fonetico-acustiche???

LE SOVRAPPOSIZIONI: diamo i numeri... DIALOGHI AVIP-API 1110 sovrapposizioni distribuite su 20 files per un totale di 4747 turni. Turni con più di una sovrapposizione al loro interno = 60 In media una sovrapposizione ogni 5 turni

LE SOVRAPPOSIZIONI: diamo i numeri... DIALOGHI IPAR Si parla dei 4 testi visionati sinora: dgtdb04R; dgmta01N; dgtda01n; dgmtb04R di 979 turni e circa 424 sovrapposizioni i turni che contengono più di una sovrapposizione sono 38. In media una sovrapposizione ogni 2 turni

MAPTASK & TRAINS FOLLOWER: what finish ? GIVER: at the ch- at the chestnut tree. FOLLOWER: right. GIVER: no do-- all right okay, we’ll we’ll forg--. FOLLOWER: I’m going I’m going right... I’m going right towards the yacht club? GIVER: we’ll forget about the yacht club just now.

IL PARADOSSO DI EINSTEIN

ENTROPIA E IRREVERSIBILITA’

IL RISCONTRO ACUSTICO (T)appo/ funghetto

IL RISCONTRO ACUSTICO (T)appo/ funghetto

SYNTACTIC SHALLOW STRUCTURE P1_12: Sui piedi ov_23 <ma va non> di Mario # si trovano un cane e il suo guinzaglio.