Linguistica computazionale e treebank

Slides:



Advertisements
Presentazioni simili
Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.
Advertisements

Il Parallel Turin University Treebank Cristina Bosco – Manuela Informatica applicata alla comunicazione multimediale
Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale
Linguistica computazionale e approcci corpus-based
Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.
LA MISURA IN PSICOLOGIA. Scopo del corso Il corso si propone di offrire allo studente:  un’introduzione alle tematiche connesse alla misura in psicologia.
Selezione avversa nella selezione del personale. Il problema Al momento dell’assunzione è molto costoso avere a che fare con lavoratori non adatti al.
Huffman Canonico: approfondimento. Come abbiamo visto, Huffman canonico ci permette di ottenere una decompressione più veloce e con un uso più efficiente.
1 Variabili. 2 Tipi di variabili Una variabile è qualche proprietà di un evento che è stata misurata. Le variabili sono attributi dei fenomeni e pertanto.
Basi di dati - Fondamenti
Il Parallel Turin University Treebank
La progettazione concettuale
Il trattamento statistico dei dati
Precorso di Statistica per le Lauree Magistrali
Progettazione di una base di dati relazionale
Linguistica computazionale e approcci corpus-based
LA STATISTICA DESCRITTIVA
© 2007 SEI-Società Editrice Internazionale, Apogeo
Piattaforma per industrie stampaggio
Rielaborato da Atzeni et al., Basi di Dati, Mc-Graw Hill
Non è chiaro quali siano le azioni/ o gli insegnamenti che portano al raggiungimento di alcuni obiettivi Non è chiaro quali siano le azioni/gli insegnamenti.
Linguistica computazionale, treebank e altre risorse
Presentazione di Camilla Giustiniani Rimini - 23 giugno 2017
LA MAPPA CONCETTUALE Istruzioni per l’uso
rielaborato da Atzeni-etal., Basi di dati, Capitolo 4
Statistica Prima Parte I Dati.
Il trattamento statistico dei dati
IL SISTEMA DI VALUTAZIONE DELLA PERFORMANCE della PROVINCIA DI PAVIA
Raccolta ed Analisi dei Requisiti nella Progettazione
Algoritmi e soluzioni di problemi
Universal Dependencies e treebank
Basi di Dati: Introduzione
Statistica Aziendale Tutti i fenomeni aziendali che si prestano ad analisi statistica dovrebbero rientrare, anche se in modo non esclusivo, nell’ambito.
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Studente/i Relatore Correlatore Committente Aris Piatti
Insiemi di punti: altre caratteristiche
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Linguistica e treebank
Computer assisted translation e terminologia
Precorso di Statistica per le Lauree Magistrali
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Laboratorio linguistico L’articolo di giornale
Laboratorio linguistico L’articolo di giornale
IL VERBO I modi & I tempi.
K4 è planare? E K3,3 e K5 sono planari? Sì!
Progetto CLIL Grammar IC “G. Marconi” Castelfranco Emilia
L’indagine statistica
Statistica Scienza che studia i fenomeni collettivi.
Basi di dati - Fondamenti
le fonti di informazione scientifica
Programmare.
I linguaggi non verbali sono molto vari, immediati, facili da apprendere e senza dubbio assumono un ruolo importante nella vita di relazione degli.
LA LINGUA E LO STILE PAG. 125 – 136.
Clicca qui per visualizzare la versione originale inglese
Sistemi informativi statistici
CAMBIAMENTI DI PRINCIPI CONTABILI OIC 26
VUOI SAPERE COME FARE UN RIASSUNTO?
* 07/16/96 Sez. 2: Ordinamento La consultazione di banche dati è sempre più cruciale in tutte le applicazioni dell’Informatica. Se vogliamo consultare.
Teoria della computabilità
Macchine Parlanti A.A. 2018/19 Titolo progetto (es. orologio parlante senza display) template per il progetto finale del corso di Documentazione Linguistica.
Precorso di Statistica per le Lauree Magistrali
Strategie di progetto Si possono utilizzare le strategie tipiche dello sviluppo di un processo di ingegnerizzazione (es. ingegneria del software). Strategie.
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Il questionario: progettazione e redazione II Modulo
Variabile interveniente
Gli Indici di Produttività di Divisia
I VERBI che ci accompagneranno
GRIGLIE PER LA VALUTAZIONE DELL’ORALE-CLIL
RELAZIONE SUI RISULTATI DELLE PROVE INVALSI DI LINGUA ITALIANA
Transcript della presentazione:

Linguistica computazionale e treebank Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2016-2017

Il progetto Turin University Treebank Obiettivo: sviluppare una risorsa linguistica, una banca di alberi sintattici per l’italiano Il nostro progetto si ispira ad altri sviluppati per altre lingue negli ultimi anni. Il più esteso treebank attualmente esistente è stato sviluppato da un gruppo di ricerca statunitense presso la Pennsylvania University. Il loro progetto è partito nella prima metà degli anni 90 e il loro treebank include oggi vari milioni di parole. Altri treebank sono stati sviluppati più recentemente per il ceco presso l’università di Praga e per il tedesco presso l’università di Saarbrucken. Per l’italiano non esiste ancora un treebank. Perchè è importante avere un treebank? Un treebank è una risorsa linguistica oggi fondamentale in LC perchè moltissimi strumenti di analisi del linguaggio presuppongono la presenza di una base di dati statistici. Un treebank è il principale strumento per la raccolta di dati statistici su una lingua. Avere una rappresentazione dettagliata di una porzione significativa di una lingua significa poter addestrare programmi di autoapprendimento che possono analizzare quella lingua. Es: se nel treebank posso trovare 1.000 occorrenze del verbo VEDERE, cioè dispongo di tutte le informazioni su come il verbo vedere si comporta in 1000 casi reali, allora posso fare una stima su come esso si comporta in altri casi ... so che in una certa percentuale di casi esso reggerà un soggetto ed un complemento oggetto o una particella come CHE e in generale potrò provare ad applicare le strutture che ho trovato nelle 1000 occorrenze ordinando tali strutture in base alla percentuale.

Fasi di sviluppo del progetto Selezione dei testi da annotare Definizione dello schema di annotazione Applicazione dello schema al corpus di testi (validità e consistenza) Lo schema di annotazione è dato dall’insieme delle relazioni grammaticali e delle regole relative alla loro applicazione. Definire lo schema significa decidere quali sono le informazioni importanti da rappresentare e in quale modo le si vuole rappresentare. Il lavoro di definizione dello schema è iniziato con una analisi delle caratteristiche dell’italiano, il fatto che l’ordine delle parole fosse relativamente libero ad es. ha motivato la scelta della rappresentazione basata sulle dipendenze, vari altri aspetti del formato sono stati decisi sulla base di studi fatti sulla nostra lingua. Ma dopo la definizione teorica è iniziato il confronto con i dati reali, con il corpus. L’obiettivo è costruire un formato in grado di rappresentare tutto quello che abbiamo trovato e che troveremo nel corpus. Il corpus annotato deve continuare ad espandersi e durante la sua espansione possono trovarsi dei fenomeni che ancora non erano stati presi in considerazione. Inoltre si deve garantire la consistenza dei dati: questo significa che si devono costantemente fare delle verifiche per essere sicuri che lo stesso fenomeno sia annotato sempre nello stesso modo. Anche se non sempre è facile identificare come tali due occorrenze dello stesso fenomeno. A volte può essere necessario introdurre nuove relazioni nello schema, oppure eliminare relazioni che di fatto non sono significative. Il confronto tra schema e corpus riserva sempre meno sorprese man mano che si procede, ma all’inizio sono state necessarie molte revisioni dello schema.

Selezione di testi in TUT Giornali quotidiani (1.100 frasi = 18,044 tokens) Codice civile (1.100 frasi = 28,048 tokens) Acquis (201 frasi = 7,455 tokens) Wikipedia (459 frasi = 14,746 tokens) Costituzione Italiana, intera (682 frasi = 13,178 tokens) Totale 3.452 frasi = 102.000 token L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico. Inoltre è un treebank per l’italiano che attualmente manca Consta di 1500 frasi che sono 41.771 tokens di cui 33.868 parole ed il resto punteggiatura e tracce Lung media di frase = 22,57 parole e 27,84 tokens Lung massima 91 parole Circa il 30% delle frasi ha lung compresa tra10 e 20 parole

Selezione in altri treebank TEXTS from PRAGUE newspapers, scientific and economic journals NEGRA newspaper Frankfurter Rundschau PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations Nei corpora utilizzati nel NLP l’attenzione al bilanciamento è per ora limitata (maggiore in linguistica), tuttavia essi di norma includono testi di genere e contenuto vario. Soprattutto i quotidiani vengono utilizzati nei corpora in quanto contengono campioni di letteratura relativamente varia almeno per quanto concerne i contenuti.

Definizione dello schema di annotazione Scelta del formalismo Scelta delle informazioni e strutture da rappresentare Lo schema di annotazione è dato dall’insieme delle relazioni grammaticali e delle regole relative alla loro applicazione. Definire lo schema significa decidere quali sono le informazioni importanti da rappresentare e in quale modo le si vuole rappresentare. Il lavoro di definizione dello schema è iniziato con una analisi delle caratteristiche dell’italiano, il fatto che l’ordine delle parole fosse relativamente libero ad es. ha motivato la scelta della rappresentazione basata sulle dipendenze, vari altri aspetti del formato sono stati decisi sulla base di studi fatti sulla nostra lingua. Ma dopo la definizione teorica è iniziato il confronto con i dati reali, con il corpus. L’obiettivo è costruire un formato in grado di rappresentare tutto quello che abbiamo trovato e che troveremo nel corpus. Il corpus annotato deve continuare ad espandersi e durante la sua espansione possono trovarsi dei fenomeni che ancora non erano stati presi in considerazione. Inoltre si deve garantire la consistenza dei dati: questo significa che si devono costantemente fare delle verifiche per essere sicuri che lo stesso fenomeno sia annotato sempre nello stesso modo. Anche se non sempre è facile identificare come tali due occorrenze dello stesso fenomeno. A volte può essere necessario introdurre nuove relazioni nello schema, oppure eliminare relazioni che di fatto non sono significative. Il confronto tra schema e corpus riserva sempre meno sorprese man mano che si procede, ma all’inizio sono state necessarie molte revisioni dello schema. Abbiamo visto che sono state elaborate delle teorie anche piuttosto complesse per rappresentare il livello sintattico (e molto lavoro è stato fatto anche sugli altri livelli). Ma in pratica a cosa serve? Al di là dell’obiettivo a lungo termine di comprendere il linguaggio esistono degli obiettivi più vicini, dei tipi di applicazioni che richiedono una forma di rappresentazione del linguaggio ed in cui si può anche vedere quale conseguenza comporta l’utilizzo di un formalismo invece che di un altro.

Struttura sintattica: scelta tra 2 aspetti L’organizzazione delle unitá della frase (sintagmi e constituent structure) La funzione degli elementi della frase (relazioni grammaticali e relational structure) La sintassi in realtà include aspetti diversi, non solo quelli che vengono rappresentati dalla struttura a costituenti, da un lato il fatto che esiste una organizzazione della frase in unità e dall’altro il fatto che queste unità svolgono funzioni ben precise all’interno della frase. Possiamo dire che i due paradigmi di rappresentazione della sintassi attualmente utilizzati in LC si basano uno sul primo e l’altro sul secondo di questi aspetti. Dal momento che le rappresentazioni sintattiche nell’ambito delle risorse linguistiche privilegiano l’uno o l’altro di questi aspetti, è importante capire le differenze tra questi due aspetti e vedere cosa comporta basare la rappresentazione sull’uno anziché sull’altro. La rappresentazione più diffusa e più comunemente accettata è sicuramente quella basata sui costituenti. Perché usarne un’altra? Abbiamo visto che esistono vari livelli a cui il linguaggio può essere descritto e conseguentemente analizzato. Tuttavia ci sono fenomeni in cui è difficile isolare ad es. gli aspetti cosiddetti sintattici da quelli semantici e di questo si deve tenere conto nella rappresentazione. I diversi formalismi di rappresentazione consentono più o meno di tenere conto di queste interazioni. E questo fatto è determinante nella scelta del formalismo a livello teorico. Inoltre bisogna tenere conto delle peculiarità della lingua che vogliamo rappresentare.

Relational structure Le parole della frase svolgono funzioni diverse Le funzioni sono espresse in termini di relazioni grammaticali La struttura relazionale della frase è quella che è stata utilizzata da secoli nell’ambito della grammatica tradizionale, quella non accademica, insegnata nelle scuole. Forse per questo è stata (e da alcuni viene tuttora considerata) come meno scientifica, ma diverse scuole linguistiche hanno riscoperto la validità delle idee legate a questo approccio. Si tratta in prevalenza di studi fatti sulle lingue slave (Mel’cuk e la scuola di Praga), ma anche sull’inglese (Hudson). Utilizzare la struttura relazionale come base della rappresentazione significa privilegiare il fatto che le parole svolgono funzioni diverse le une rispetto alle altre. Alla base di questo tipo di rappresentazione c’è l’idea che tutte le parole si comportano in modo simile al verbo nel senso che tendono a trattare altre parole come loro modificatori o argomenti, oppure si comportano rispetto ad altre parole come argomenti o modificatori. Per esprimere questo tipo di comportamento del verbo si parla normalmente di valenza. L’idea di relazione grammaticale generalizza questo concetto e lo estende ad altre categorie di parole, come i nomi o gli aggettivi.

Constituent structure Le parole della frase sono organizzate in unità (costituenti) che a loro volta sono oggetto di una organizzazione (constituent structure) in unità più grandi Questo tipo di rappresentazione è alla base di molto lavoro fatto sulla sintassi nell’ultimo secolo. Il principale teorico di questo approccio è Noham Chomsky. L’idea alla base della struttura a costituenti è che la frase può essere scomposta in unità che a loro volta possono essere scomposte in unità più piccole fino ad arrivare alle parole. Più o meno come avviene all’interno della singola parola, dove è possibile identificare delle sillabe.

Constituent structure Le relazioni tra le parole non sono tutte uguali: “Maria leggeva un libro in biblioteca” La constituent structure, in italiano la struttura sintagmatica, della frase mostra come le relazioni tra le parole sono organizzate all’interno della frase. Una frase non è una sequenza di parole, ogni parola non è legata nello stesso modo alle altre che le sono adiacenti nella sequenza. La relazione tra leggeva e un è mediata dal fatto che un libro forma una unità e che tale unità rappresenta l’oggetto del verbo leggere. Appare abbastanza chiaro intuitivamente che articolo e nome formano una unità, così come la formano la preposizione con il suo argomento, il verbo con I suoi argomenti e così via. Non ci possono essere molti dubbi rispetto al fatto che questo tipo di informazione è codificato nella frase, ma si possono avere dei dubbi sul fatto che le informazioni sintattiche siano solo queste o sul fatto che queste siano le più rilevanti.

ES: Penn annotation ( S S ( NP - SBJ (PRP I) ) ( ADVP - TMP ( RB never) ) ( VP (VBD had) ( NP (JJ many) (NNS clients) ) ( NP - ADV (DT a) ( NN day) )) )) S NP SBJ PRP ADVP TMP RB VP VBD NP DT NNS In Penn l’annotazione è basata sui costituenti, ma ai nomi dei NP ADV DT NN

ES: NEGRA annotation S VP OC HD SB NG MO HD OA PoS TAGs ADV Avverbio, VVPP Verbo al Participio passato, VAFIN Ausiliare di tempo finito, NE nome proprio FUNZIONI GRAMMATICALI MO per MODIFIER, HD per HEAD, OC per CLAUSAL OBJECT, SB per SUBJECT, OA per ACCUSATIVE OBJECT, NG per NEGATION Negra does not provide any partition of the functions, ovvero si annota praticamente nella relazione la sola componente sintattica e non viene considerato alcun aspetto semantico o morfosintatico. VERIFICA CHE ALTRO ANNOTANO nella tesi ADV VVPP VAFIN NE NE ADV

Costituenti e relazioni La struttura relazionale include le informazioni relative all’ organizzazione della frase in unità La struttura a costituenti non include le informazioni relative alla funzione delle parole La struttura relazionale è più compatta Da un primo confronto tra I due tipi di rappresentazione emergono alcune differenze: Le informazioni rappresentate nella struttura a costituenti sono presenti anche in quella relazionale (anche se non si inserisce un nodo che rappresenta il sintagma emerge chiaramente l’organizzazione in unità e sottounità della frase dal fatto che certi nodi sono vicini ad altri e che hanno tra loro delle relazioni dirette); sono informazioni fondamentali per rappresentare la sintassi di una lingua e entrambi i tipi di rappresentazione li includono 2) Le informazioni rappresentate nella struttura relazionale non sono presenti nella struttura a costituenti. Studi fatti sui treebank esistenti hanno dimostrato che queste informazioni sono di estrema importanza per molti tipi di trattamento del LN (vedi IE). Possono essere aggiunte anche in una rappresentazione a costituenti, ma perché aggiungerle se esiste un formalismo che le mette direttamente a disposizione? 3) La rappresentazione a costituenti è meno compatta, il numero di nodi dell’albero è sempre maggiore (questo è rilevante quanto si parla di trattamento automatico del LN … un programma di analisi deve materialmente leggere più nodi)

Costituenti e relazioni Sia le relazioni che i costituenti sono realizzati in modo diverso nelle diverse lingue La struttura relazionale include la struttura argomentale Le diverse lingue realizzano in modo diverso sia i costituenti sia le relazioni grammaticali. Nell’ambito dell’approccio a costituenti si sottolinea maggiormente però il fatto che esiste una base comune a tutte le lingue (detta grammatica universale) e che attraverso delle regole specifiche ogni singola lingua trasforma questa base per produrre una struttura sintattica detta superficiale sua propria. La struttura a costituenti e’ inoltre maggiormente legata all’ordine delle parole nella frase. E non è pertanto adatta a trattare lingue in cui l’ordine delle parole è libero o relativamente libero. L’organizzazione in costituenti infatti è per sua natura piuttosto rigida e quando un costituente non si presenta nella sua forma canonica, con tutte le sue parti nell’ordine normale si è costretti ad ipotizzare dei movimenti e a inserire delle tracce. Tipicamente la struttura relazionale coincide con le struttura predicato-argomento. Questo tipo di informazione è fondamentale per la comprensione del linguaggio. Si tratta di un tipo di informazione che difficilmente può essere colto sulla sola base dell’ordine delle parole nella frase, anche se certi studi sull’inglese lo suggeriscono.

La struttura argomentale relazioni grammaticali ruoli semantici uguali o distinti? Nella struttura argomentale sono inclusi due tipi di informazioni: RG soggetto, oggetto, oggetto indiretto … e ruoli semantici come paziente agente. In realtà si parla di norma di struttura argomentale facendo riferimento solo al secondo tipo di informazioni, ma dato che esistono forti interrelazioni e frequenti coincidenze tra relazioni grammaticali e ruoli semantici si tende a inglobarli nella stessa rappresentazione e a parlare di funzioni o relazioni grammaticali in senso più esteso includendo anche i ruoli. E’ importante notare che la struttura argomentale non riguarda solo i verbi: esistono i nomi derivanti dai verbi (la distruzione di …) e aggettivi (fedele a …) che hanno struttura argomentale.

Le relazioni grammaticali Le relazioni sono realizzate diversamente nelle varie lingue, a seconda dell’uso di casi, inflessioni give someone something dare a qualcuno qualcosa

Processo di annotazione MORPHO SYNT SEM PRAGUE semi-automatic NEGRA automatic interactive (probabilistic) PENN automatic (skeletal) PRAGA: nel parsing l’annotatore costruisce la struttura e il sistema propone le label con cui etichettarla che poi deveono essere corrette. NEGRA: nella fase di parsing interattivo l’annotatore corregge anche gli errori del tagger automatico, il parser propone le strutture (o parti di) con maggior probabilità e l’annotatore le accetta o rifiuta. PENN: alto grado di automazione, il lavoro di annotazione consiste solo nel correggere ed integrare il lavoro del tagger e del parser.

Processo di annotazione in TUT Part Of Speech tagging automatico Correzione manuale del tagging Parsing interattivo Verifica e revisione Il Part Of Speech tagging viene fatto in modo automatico. Il tagger ha un percentuale di errore inferiore al 4%. Questo significa che è comunque necessaria una correzione manuale dell’output prima di passare alla fase di parsing. Poi c’è il parsing. Il parsing interattivo consente una percentuale di errore reltivamente bassa. Tuttavia si pone il problema dell’accordo tra i diversi annotatori: a parte errori di distrazione, ci sono casi su in cui un annotatore può dare una interpretazione diversa da un altro annotatore dello stesso fenomeno, ci sono delle ambiguità e dei costrutti problematici. Possono presentarsi fenomeni nuovi e relazioni particolari mai incontrate prima. Infine la verifica e la revisione: si tratta del confronto tra annotatori, due responsabili del progetto verificano tutto il materiale annotato. La verifica viene fatta inizialmente in modo manuale, semplicemente leggendo il materiale annotato. Poi si passa a verifiche automatiche. Ogni file di frasi viene analizzato da un programma che controlla che tutte le relazioni inserite siano relazioni presenti nella gerarchia delle relazioni grammaticali previste nello schema di annotazione. In questo modo si possono correggere molti errori di distrazione. Un’altro programma verifica che non ci sia nessun elemento che non è legato a nessun altro nella frase, in questo modo si possono raccogliere eventuali nodi degli alberi che sono rimasti isolati. Un altro programma verifica che per ogni verbo sono stati inseriti tutti i ruoli tematici necessari (subj, obj ecc.).

Costruire un treebank Per costruire validi sistemi di analisi del linguaggio occorrono i treebank. Infatti è dimostrato che i sistemi di NLP che ottengono i migliori risultati sono quelli che prendono le informazioni da treebank) Le diverse lingue realizzano in modo diverso sia i costituenti sia le relazioni grammaticali. Nell’ambito dell’approccio a costituenti si sottolinea maggiormente però il fatto che esiste una base comune a tutte le lingue (detta grammatica universale) e che attraverso delle regole specifiche ogni singola lingua trasforma questa base per produrre una struttura sintattica detta superficiale sua propria. La struttura a costituenti e’ inoltre maggiormente legata all’ordine delle parole nella frase. E non è pertanto adatta a trattare lingue in cui l’ordine delle parole è libero o relativamente libero. L’organizzazione in costituenti infatti è per sua natura piuttosto rigida e quando un costituente non si presenta nella sua forma canonica, con tutte le sue parti nell’ordine normale si è costretti ad ipotizzare dei movimenti e a inserire delle tracce. Tipicamente la struttura relazionale coincide con le struttura predicato-argomento. Questo tipo di informazione è fondamentale per la comprensione del linguaggio. Si tratta di un tipo di informazione che difficilmente può essere colto sulla sola base dell’ordine delle parole nella frase, anche se certi studi sull’inglese lo suggeriscono.

Costruire un treebank Per costruire dei treebank occorrono validi sistemi di analisi del linguaggio. È impossibile costruire treebank in modo esclusivamente manuale per motivi di tempo e di correttezza. Le diverse lingue realizzano in modo diverso sia i costituenti sia le relazioni grammaticali. Nell’ambito dell’approccio a costituenti si sottolinea maggiormente però il fatto che esiste una base comune a tutte le lingue (detta grammatica universale) e che attraverso delle regole specifiche ogni singola lingua trasforma questa base per produrre una struttura sintattica detta superficiale sua propria. La struttura a costituenti e’ inoltre maggiormente legata all’ordine delle parole nella frase. E non è pertanto adatta a trattare lingue in cui l’ordine delle parole è libero o relativamente libero. L’organizzazione in costituenti infatti è per sua natura piuttosto rigida e quando un costituente non si presenta nella sua forma canonica, con tutte le sue parti nell’ordine normale si è costretti ad ipotizzare dei movimenti e a inserire delle tracce. Tipicamente la struttura relazionale coincide con le struttura predicato-argomento. Questo tipo di informazione è fondamentale per la comprensione del linguaggio. Si tratta di un tipo di informazione che difficilmente può essere colto sulla sola base dell’ordine delle parole nella frase, anche se certi studi sull’inglese lo suggeriscono.

Costruire un treebank In pratica l’annotazione dei treebank è prodotta da sistemi automatici di analisi morfologica (-4% errore) e sintattica (-10% errore) + annotatori umani che correggono le analisi prodotte in modo automatico Le diverse lingue realizzano in modo diverso sia i costituenti sia le relazioni grammaticali. Nell’ambito dell’approccio a costituenti si sottolinea maggiormente però il fatto che esiste una base comune a tutte le lingue (detta grammatica universale) e che attraverso delle regole specifiche ogni singola lingua trasforma questa base per produrre una struttura sintattica detta superficiale sua propria. La struttura a costituenti e’ inoltre maggiormente legata all’ordine delle parole nella frase. E non è pertanto adatta a trattare lingue in cui l’ordine delle parole è libero o relativamente libero. L’organizzazione in costituenti infatti è per sua natura piuttosto rigida e quando un costituente non si presenta nella sua forma canonica, con tutte le sue parti nell’ordine normale si è costretti ad ipotizzare dei movimenti e a inserire delle tracce. Tipicamente la struttura relazionale coincide con le struttura predicato-argomento. Questo tipo di informazione è fondamentale per la comprensione del linguaggio. Si tratta di un tipo di informazione che difficilmente può essere colto sulla sola base dell’ordine delle parole nella frase, anche se certi studi sull’inglese lo suggeriscono.

Le dipendenze nel TUT Ogni relazione di TUT può essere composta di 3 elementi: Morfo-sintattico: features che esprimono la categoria grammaticale Verb, Noun, … Funzionale-sintattico: relazioni sintattiche come Subject, Object Semantico: relazioni semantiche come Location, Time, Cause L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

1 In (IN PREP MONO) [7;PREP-RMOD-TIME] 2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG] 3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG] 4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ] 5 la (IL ART DEF F SING) [4;APPOSITION] 6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG] 7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB] 8 il (IL ART DEF F SING) [7;VERB-OBJ] 9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]

La stessa frase che abbiamo visto prima rappresentata con I costituenti è qui rappresentata con una struttura basata sulle relazioni grammaticali. Il numero di nodi di un albero di questo tipo è sempre esattamente uguale al numero di parole della frase. A differenza della struttura a costituenti, la struttura relazionale non comporta mai l’inserimento di nodi non terminali nell’albero. Ogni nodo è una parola della frase: questo equivale a dire che il formalismo è lessicalizzato. Non ha senso dire che si potrebbero identificare le relazioni con dei nodi ulteriori dell’albero: le relazioni rappresentano proprio i rapporti tra le parole e per questo sono rappresentate come archi che legano le parole tra loro etichettati con i nomi delle relazioni stesse. A differenza che nell’approccio a costituenti, non vengono ipotizzate delle entità non realizzate lessicalmente nella frase. La frase è fatta solo di parole e dei rapporti che legano queste ultime. Intuitivamente questo sembra molto vero.

La stessa frase che abbiamo visto prima rappresentata con I costituenti è qui rappresentata con una struttura basata sulle relazioni grammaticali. Il numero di nodi di un albero di questo tipo è sempre esattamente uguale al numero di parole della frase. A differenza della struttura a costituenti, la struttura relazionale non comporta mai l’inserimento di nodi non terminali nell’albero. Ogni nodo è una parola della frase: questo equivale a dire che il formalismo è lessicalizzato. Non ha senso dire che si potrebbero identificare le relazioni con dei nodi ulteriori dell’albero: le relazioni rappresentano proprio i rapporti tra le parole e per questo sono rappresentate come archi che legano le parole tra loro etichettati con i nomi delle relazioni stesse. A differenza che nell’approccio a costituenti, non vengono ipotizzate delle entità non realizzate lessicalmente nella frase. La frase è fatta solo di parole e dei rapporti che legano queste ultime. Intuitivamente questo sembra molto vero.

TUT Componente morfo-sintattica La nazione sogna ricchezza I sogni di ricchezza della nazione Velocemente / in modo veloce VERB-SUBJ VERB VERB-OBJ NOUN NOUN-OBJ NOUN-SUBJ ADV-role ADV-role

TUT Componente morfo-sintattica

TUT Componente morfo-sintattica Dati 944 differenti Verbi per un totale di 4.169 occorrenze nel corpus di TUT Il 30% di questi Verbi (e le strutture predicative argomentali ad essi associate) risulta presente anche in forma nominale

funzionale-sintattica TUT Componente funzionale-sintattica Egli non è stato visto da nessuno Egli non è stato visto da ieri ARG MOD

TUT Componente funzionale-sintattica

TUT Componente semantica Da qui è partito l’assalto LOC+FROM Succedeva dall’altra parte del mondo I miliardi stanziati dal 1991 Era impazzito dal dolore Trarrà beneficio dalla bonifica LOC+FROM LOC+IN TIME Facendo riferimento al TUT possiamo vedere empiricamente quale rilevanza assume una annotazione di questo tipo di conoscenza. LA ricerca è stata fatta su 1200 frasi del TUT e ha rilevato circa 600 occorrenze della preposizione DA e 7 valori semantici diversi quando da introduce un sintagma preposizionale REASONCAUSE SOURCE

TUT Componente semantica Facendo riferimento al TUT possiamo vedere empiricamente quale rilevanza assume una annotazione semantica di questo tipo di conoscenza. E’ stata fatta una ricerca su 1200 frasi del TUT che ha rilevato circa 600 occorrenze della preposizione DA e 7 valori semantici diversi quando da introduce un sintagma preposizionale che svolge il ruolo sintattico di modificatore.

TUT Componente semantica Dati 600 sintagmi preposizionali introdotti dalla preposizione DA e che svolgono il ruolo di modificatori È stato rilevato che essi possono assumere i seguenti 7 differenti valori semantici: LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE Facendo riferimento al TUT possiamo vedere empiricamente quale rilevanza assume una annotazione semantica di questo tipo di conoscenza. E’ stata fatta una ricerca su 1200 frasi del TUT che ha rilevato circa 600 occorrenze della preposizione DA e 7 valori semantici diversi quando da introduce un sintagma preposizionale che svolge il ruolo sintattico di modificatore.

1 In (IN PREP MONO) [7;PREP-RMOD-TIME] 2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG] 3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG] 4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ] 5 la (IL ART DEF F SING) [4;APPOSITION] 6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG] 7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB] 8 il (IL ART DEF F SING) [7;VERB-OBJ] 9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]

Applicare lo schema di annotazione a TUT significa che ogni sua frase: viene parsificata in modo automatico dal parser TULE, sviluppato in parallelo con TUT corretta da almeno 2 annotatori umani verificata da tool automatici appositi sottoposta a conversioni e applicazione di altri sistemi

Ricadute del progetto TUT Utilizzo in 3 diverse direzioni: Come raccolta di dati linguistici Come banco di prova per sistemi di NLP Come modello per lo sviluppo di altre risorse

Ricadute del progetto TUT Come raccolta di dati linguistici TUT ha consentito Studi sul comportamento dei verbi della lingua italiana (estrazione di conoscenza) Studio dell’ordine delle parole nella lingua italiana

Ricadute del progetto TUT (in 3500 sentences) L’ialiano è un linguaggio in cui l’ordine delle parole è relativamente libero. L’ordine prevalente è sicuramente Sogg, Verb, Compl; tuttavia tutti gli altri ordini di questi 3 elementi sono presenti in un campione di 1200 frasi annotate. Pertanto la scelta di un formato a dipendenze risulta ben motivata.

Ricadute del progetto TUT Come banco di prova per sistemi di NLP TUT ha consentito di raggiungere i risultati allo stato dell’arte per il parsing dell’italiano, errore intorno al 10% TUT è stato il treebank di riferimento nelle competizioni per parser di italiano (Evalita 07, 09, 11)

Ricadute del progetto TUT Come modello per lo sviluppo di altre risorse, TUT è utilizzato in: in prospettiva cross-linguistica, ha consentito lo sviluppo di un treebank parallelo per le lingue italiano, francese e inglese (ParallelTUT)

Ricadute del progetto TUT INOLTRE: TUT è stato tradotto in formati di altri treebank grazie a tool di conversione automatica Questo ha reso possibile l’applicazione di strumenti sviluppati per tali formati ed il confronto tra paradigmi e modelli linguistici differenti nell’ambito del dibattito su quale formato si rivela più adeguato per il NLP in generale e per le diverse lingue naturali

Il Turin University Treebank (TUT) e ParTUT sono tutti progetti del Content Centered Computing Group (C. Bosco, A. Mazzei, V. Lombardo, R. Damiano , V. Patti, M. Sanguinetti) del Dipartimento di Informatica dell’Università di Torino

Per ulteriori informazioni: http://www.di.unito.it/~tutreeb L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Il progetto ParallelTUT Un treebank parallelo italiano francese e inglese nel formato del TUT. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e valutazione Un importante problema per la LC è la valutazione: sia come confronto tra risultati degli umani e quelli del sistema di LC sia come confronto tra i risultati di sistemi diversi L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e valutazione L’esistenza di molte risorse diverse rende però difficile confrontare i risultati ottenuti da diversi sistemi e la valutazione deve sempre essere fatta in relazione alle stesse risorse. Se il sistema X e il sistema Y utilizzano lo stesso corpus per apprendere, ottengono lo stesso output? L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e valutazione La comunità della LC opera pertanto nella direzione di rendere confrontabili i risultati dei sistemi che svolgono lo stesso task. Questo significa ad esempio che si cerca di costruire risorse in cui si utilizza lo stesso formato di rappresentazione (standard). L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e standard La nozione di standard è particolarmente rilevante per i treebank e ha portato alla definizione di un formato universale detto Universal Dependency. Questo processo è durato vari anni e ha comportato vari passi all’interno delle varie comunità che operano sulle singole lingue. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e standard Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank (presso l’Istituto di Linguistica Computazionale CNR di Pisa). Questi sono stati fusi grazie ad un processo di conversione in un formato intermedio e poi tradotti in Universal Dependency. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Universal Dependency Questo formato soddisfa l’interesse per confronti multilingui e rende possibile sia campagne di valutazione multilingui sia l’apprendimento cross-linguistco a supporto della LC per lingue per cui non esistono risorse. http://universaldependencies.org/ L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.