Linguistica computazionale e treebank

Linguistica computazionale e treebank
Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale

Il progetto Turin University Treebank
Obiettivo: sviluppare una risorsa linguistica, una banca di alberi sintattici per l’italiano Il nostro progetto si ispira ad altri sviluppati per altre lingue negli ultimi anni. Il più esteso treebank attualmente esistente è stato sviluppato da un gruppo di ricerca statunitense presso la Pennsylvania University. Il loro progetto è partito nella prima metà degli anni 90 e il loro treebank include oggi vari milioni di parole. Altri treebank sono stati sviluppati più recentemente per il ceco presso l’università di Praga e per il tedesco presso l’università di Saarbrucken. Per l’italiano non esiste ancora un treebank. Perchè è importante avere un treebank? Un treebank è una risorsa linguistica oggi fondamentale in LC perchè moltissimi strumenti di analisi del linguaggio presuppongono la presenza di una base di dati statistici. Un treebank è il principale strumento per la raccolta di dati statistici su una lingua. Avere una rappresentazione dettagliata di una porzione significativa di una lingua significa poter addestrare programmi di autoapprendimento che possono analizzare quella lingua. Es: se nel treebank posso trovare occorrenze del verbo VEDERE, cioè dispongo di tutte le informazioni su come il verbo vedere si comporta in 1000 casi reali, allora posso fare una stima su come esso si comporta in altri casi ... so che in una certa percentuale di casi esso reggerà un soggetto ed un complemento oggetto o una particella come CHE e in generale potrò provare ad applicare le strutture che ho trovato nelle 1000 occorrenze ordinando tali strutture in base alla percentuale.

Fasi di sviluppo del progetto
Selezione dei testi da annotare Definizione dello schema di annotazione Applicazione dello schema al corpus di testi (validità e consistenza) Lo schema di annotazione è dato dall’insieme delle relazioni grammaticali e delle regole relative alla loro applicazione. Definire lo schema significa decidere quali sono le informazioni importanti da rappresentare e in quale modo le si vuole rappresentare. Il lavoro di definizione dello schema è iniziato con una analisi delle caratteristiche dell’italiano, il fatto che l’ordine delle parole fosse relativamente libero ad es. ha motivato la scelta della rappresentazione basata sulle dipendenze, vari altri aspetti del formato sono stati decisi sulla base di studi fatti sulla nostra lingua. Ma dopo la definizione teorica è iniziato il confronto con i dati reali, con il corpus. L’obiettivo è costruire un formato in grado di rappresentare tutto quello che abbiamo trovato e che troveremo nel corpus. Il corpus annotato deve continuare ad espandersi e durante la sua espansione possono trovarsi dei fenomeni che ancora non erano stati presi in considerazione. Inoltre si deve garantire la consistenza dei dati: questo significa che si devono costantemente fare delle verifiche per essere sicuri che lo stesso fenomeno sia annotato sempre nello stesso modo. Anche se non sempre è facile identificare come tali due occorrenze dello stesso fenomeno. A volte può essere necessario introdurre nuove relazioni nello schema, oppure eliminare relazioni che di fatto non sono significative. Il confronto tra schema e corpus riserva sempre meno sorprese man mano che si procede, ma all’inizio sono state necessarie molte revisioni dello schema.

Selezione di testi in TUT
Giornali quotidiani (1.100 frasi = 18,044 tokens) Codice civile (1.100 frasi = 28,048 tokens) Acquis (201 frasi = 7,455 tokens) Wikipedia (459 frasi = 14,746 tokens) Costituzione Italiana, intera (682 frasi = 13,178 tokens) Totale frasi = token L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico. Inoltre è un treebank per l’italiano che attualmente manca Consta di 1500 frasi che sono tokens di cui parole ed il resto punteggiatura e tracce Lung media di frase = 22,57 parole e 27,84 tokens Lung massima 91 parole Circa il 30% delle frasi ha lung compresa tra10 e 20 parole

Selezione in altri treebank
TEXTS from PRAGUE newspapers, scientific and economic journals NEGRA newspaper Frankfurter Rundschau PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations Nei corpora utilizzati nel NLP l’attenzione al bilanciamento è per ora limitata (maggiore in linguistica), tuttavia essi di norma includono testi di genere e contenuto vario. Soprattutto i quotidiani vengono utilizzati nei corpora in quanto contengono campioni di letteratura relativamente varia almeno per quanto concerne i contenuti.

Definizione dello schema di annotazione
Scelta del formalismo Scelta delle informazioni e strutture da rappresentare Lo schema di annotazione è dato dall’insieme delle relazioni grammaticali e delle regole relative alla loro applicazione. Definire lo schema significa decidere quali sono le informazioni importanti da rappresentare e in quale modo le si vuole rappresentare. Il lavoro di definizione dello schema è iniziato con una analisi delle caratteristiche dell’italiano, il fatto che l’ordine delle parole fosse relativamente libero ad es. ha motivato la scelta della rappresentazione basata sulle dipendenze, vari altri aspetti del formato sono stati decisi sulla base di studi fatti sulla nostra lingua. Ma dopo la definizione teorica è iniziato il confronto con i dati reali, con il corpus. L’obiettivo è costruire un formato in grado di rappresentare tutto quello che abbiamo trovato e che troveremo nel corpus. Il corpus annotato deve continuare ad espandersi e durante la sua espansione possono trovarsi dei fenomeni che ancora non erano stati presi in considerazione. Inoltre si deve garantire la consistenza dei dati: questo significa che si devono costantemente fare delle verifiche per essere sicuri che lo stesso fenomeno sia annotato sempre nello stesso modo. Anche se non sempre è facile identificare come tali due occorrenze dello stesso fenomeno. A volte può essere necessario introdurre nuove relazioni nello schema, oppure eliminare relazioni che di fatto non sono significative. Il confronto tra schema e corpus riserva sempre meno sorprese man mano che si procede, ma all’inizio sono state necessarie molte revisioni dello schema. Abbiamo visto che sono state elaborate delle teorie anche piuttosto complesse per rappresentare il livello sintattico (e molto lavoro è stato fatto anche sugli altri livelli). Ma in pratica a cosa serve? Al di là dell’obiettivo a lungo termine di comprendere il linguaggio esistono degli obiettivi più vicini, dei tipi di applicazioni che richiedono una forma di rappresentazione del linguaggio ed in cui si può anche vedere quale conseguenza comporta l’utilizzo di un formalismo invece che di un altro.

Struttura sintattica: scelta tra 2 aspetti
L’organizzazione delle unitá della frase (sintagmi e constituent structure) La funzione degli elementi della frase (relazioni grammaticali e relational structure) La sintassi in realtà include aspetti diversi, non solo quelli che vengono rappresentati dalla struttura a costituenti, da un lato il fatto che esiste una organizzazione della frase in unità e dall’altro il fatto che queste unità svolgono funzioni ben precise all’interno della frase. Possiamo dire che i due paradigmi di rappresentazione della sintassi attualmente utilizzati in LC si basano uno sul primo e l’altro sul secondo di questi aspetti. Dal momento che le rappresentazioni sintattiche nell’ambito delle risorse linguistiche privilegiano l’uno o l’altro di questi aspetti, è importante capire le differenze tra questi due aspetti e vedere cosa comporta basare la rappresentazione sull’uno anziché sull’altro. La rappresentazione più diffusa e più comunemente accettata è sicuramente quella basata sui costituenti. Perché usarne un’altra? Abbiamo visto che esistono vari livelli a cui il linguaggio può essere descritto e conseguentemente analizzato. Tuttavia ci sono fenomeni in cui è difficile isolare ad es. gli aspetti cosiddetti sintattici da quelli semantici e di questo si deve tenere conto nella rappresentazione. I diversi formalismi di rappresentazione consentono più o meno di tenere conto di queste interazioni. E questo fatto è determinante nella scelta del formalismo a livello teorico. Inoltre bisogna tenere conto delle peculiarità della lingua che vogliamo rappresentare.

Relational structure Le parole della frase svolgono funzioni diverse
Le funzioni sono espresse in termini di relazioni grammaticali La struttura relazionale della frase è quella che è stata utilizzata da secoli nell’ambito della grammatica tradizionale, quella non accademica, insegnata nelle scuole. Forse per questo è stata (e da alcuni viene tuttora considerata) come meno scientifica, ma diverse scuole linguistiche hanno riscoperto la validità delle idee legate a questo approccio. Si tratta in prevalenza di studi fatti sulle lingue slave (Mel’cuk e la scuola di Praga), ma anche sull’inglese (Hudson). Utilizzare la struttura relazionale come base della rappresentazione significa privilegiare il fatto che le parole svolgono funzioni diverse le une rispetto alle altre. Alla base di questo tipo di rappresentazione c’è l’idea che tutte le parole si comportano in modo simile al verbo nel senso che tendono a trattare altre parole come loro modificatori o argomenti, oppure si comportano rispetto ad altre parole come argomenti o modificatori. Per esprimere questo tipo di comportamento del verbo si parla normalmente di valenza. L’idea di relazione grammaticale generalizza questo concetto e lo estende ad altre categorie di parole, come i nomi o gli aggettivi.

Constituent structure
Le parole della frase sono organizzate in unità (costituenti) che a loro volta sono oggetto di una organizzazione (constituent structure) in unità più grandi Questo tipo di rappresentazione è alla base di molto lavoro fatto sulla sintassi nell’ultimo secolo. Il principale teorico di questo approccio è Noham Chomsky. L’idea alla base della struttura a costituenti è che la frase può essere scomposta in unità che a loro volta possono essere scomposte in unità più piccole fino ad arrivare alle parole. Più o meno come avviene all’interno della singola parola, dove è possibile identificare delle sillabe.

Constituent structure
Le relazioni tra le parole non sono tutte uguali: “Maria leggeva un libro in biblioteca” La constituent structure, in italiano la struttura sintagmatica, della frase mostra come le relazioni tra le parole sono organizzate all’interno della frase. Una frase non è una sequenza di parole, ogni parola non è legata nello stesso modo alle altre che le sono adiacenti nella sequenza. La relazione tra leggeva e un è mediata dal fatto che un libro forma una unità e che tale unità rappresenta l’oggetto del verbo leggere. Appare abbastanza chiaro intuitivamente che articolo e nome formano una unità, così come la formano la preposizione con il suo argomento, il verbo con I suoi argomenti e così via. Non ci possono essere molti dubbi rispetto al fatto che questo tipo di informazione è codificato nella frase, ma si possono avere dei dubbi sul fatto che le informazioni sintattiche siano solo queste o sul fatto che queste siano le più rilevanti.

ES: Penn annotation ( S S ( NP - SBJ (PRP I) )
( ADVP - TMP ( RB never) ) ( VP (VBD had) ( NP (JJ many) (NNS clients) ) ( NP - ADV (DT a) ( NN day) )) )) S NP SBJ PRP ADVP TMP RB VP VBD NP DT NNS In Penn l’annotazione è basata sui costituenti, ma ai nomi dei NP ADV DT NN

ES: NEGRA annotation S VP OC HD SB NG MO HD OA
PoS TAGs ADV Avverbio, VVPP Verbo al Participio passato, VAFIN Ausiliare di tempo finito, NE nome proprio FUNZIONI GRAMMATICALI MO per MODIFIER, HD per HEAD, OC per CLAUSAL OBJECT, SB per SUBJECT, OA per ACCUSATIVE OBJECT, NG per NEGATION Negra does not provide any partition of the functions, ovvero si annota praticamente nella relazione la sola componente sintattica e non viene considerato alcun aspetto semantico o morfosintatico. VERIFICA CHE ALTRO ANNOTANO nella tesi ADV VVPP VAFIN NE NE ADV

Costituenti e relazioni
La struttura relazionale include le informazioni relative all’ organizzazione della frase in unità La struttura a costituenti non include le informazioni relative alla funzione delle parole La struttura relazionale è più compatta Da un primo confronto tra I due tipi di rappresentazione emergono alcune differenze: Le informazioni rappresentate nella struttura a costituenti sono presenti anche in quella relazionale (anche se non si inserisce un nodo che rappresenta il sintagma emerge chiaramente l’organizzazione in unità e sottounità della frase dal fatto che certi nodi sono vicini ad altri e che hanno tra loro delle relazioni dirette); sono informazioni fondamentali per rappresentare la sintassi di una lingua e entrambi i tipi di rappresentazione li includono 2) Le informazioni rappresentate nella struttura relazionale non sono presenti nella struttura a costituenti. Studi fatti sui treebank esistenti hanno dimostrato che queste informazioni sono di estrema importanza per molti tipi di trattamento del LN (vedi IE). Possono essere aggiunte anche in una rappresentazione a costituenti, ma perché aggiungerle se esiste un formalismo che le mette direttamente a disposizione? 3) La rappresentazione a costituenti è meno compatta, il numero di nodi dell’albero è sempre maggiore (questo è rilevante quanto si parla di trattamento automatico del LN … un programma di analisi deve materialmente leggere più nodi)

Costituenti e relazioni
Sia le relazioni che i costituenti sono realizzati in modo diverso nelle diverse lingue La struttura relazionale include la struttura argomentale Le diverse lingue realizzano in modo diverso sia i costituenti sia le relazioni grammaticali. Nell’ambito dell’approccio a costituenti si sottolinea maggiormente però il fatto che esiste una base comune a tutte le lingue (detta grammatica universale) e che attraverso delle regole specifiche ogni singola lingua trasforma questa base per produrre una struttura sintattica detta superficiale sua propria. La struttura a costituenti e’ inoltre maggiormente legata all’ordine delle parole nella frase. E non è pertanto adatta a trattare lingue in cui l’ordine delle parole è libero o relativamente libero. L’organizzazione in costituenti infatti è per sua natura piuttosto rigida e quando un costituente non si presenta nella sua forma canonica, con tutte le sue parti nell’ordine normale si è costretti ad ipotizzare dei movimenti e a inserire delle tracce. Tipicamente la struttura relazionale coincide con le struttura predicato-argomento. Questo tipo di informazione è fondamentale per la comprensione del linguaggio. Si tratta di un tipo di informazione che difficilmente può essere colto sulla sola base dell’ordine delle parole nella frase, anche se certi studi sull’inglese lo suggeriscono.

La struttura argomentale
relazioni grammaticali ruoli semantici uguali o distinti? Nella struttura argomentale sono inclusi due tipi di informazioni: RG soggetto, oggetto, oggetto indiretto … e ruoli semantici come paziente agente. In realtà si parla di norma di struttura argomentale facendo riferimento solo al secondo tipo di informazioni, ma dato che esistono forti interrelazioni e frequenti coincidenze tra relazioni grammaticali e ruoli semantici si tende a inglobarli nella stessa rappresentazione e a parlare di funzioni o relazioni grammaticali in senso più esteso includendo anche i ruoli. E’ importante notare che la struttura argomentale non riguarda solo i verbi: esistono i nomi derivanti dai verbi (la distruzione di …) e aggettivi (fedele a …) che hanno struttura argomentale.

Le relazioni grammaticali
Le relazioni sono realizzate diversamente nelle varie lingue, a seconda dell’uso di casi, inflessioni give someone something dare a qualcuno qualcosa

Processo di annotazione
MORPHO SYNT SEM PRAGUE semi-automatic NEGRA automatic interactive (probabilistic) PENN automatic (skeletal) PRAGA: nel parsing l’annotatore costruisce la struttura e il sistema propone le label con cui etichettarla che poi deveono essere corrette. NEGRA: nella fase di parsing interattivo l’annotatore corregge anche gli errori del tagger automatico, il parser propone le strutture (o parti di) con maggior probabilità e l’annotatore le accetta o rifiuta. PENN: alto grado di automazione, il lavoro di annotazione consiste solo nel correggere ed integrare il lavoro del tagger e del parser.

Processo di annotazione in TUT
Part Of Speech tagging automatico Correzione manuale del tagging Parsing interattivo Verifica e revisione Il Part Of Speech tagging viene fatto in modo automatico. Il tagger ha un percentuale di errore inferiore al 4%. Questo significa che è comunque necessaria una correzione manuale dell’output prima di passare alla fase di parsing. Poi c’è il parsing. Il parsing interattivo consente una percentuale di errore reltivamente bassa. Tuttavia si pone il problema dell’accordo tra i diversi annotatori: a parte errori di distrazione, ci sono casi su in cui un annotatore può dare una interpretazione diversa da un altro annotatore dello stesso fenomeno, ci sono delle ambiguità e dei costrutti problematici. Possono presentarsi fenomeni nuovi e relazioni particolari mai incontrate prima. Infine la verifica e la revisione: si tratta del confronto tra annotatori, due responsabili del progetto verificano tutto il materiale annotato. La verifica viene fatta inizialmente in modo manuale, semplicemente leggendo il materiale annotato. Poi si passa a verifiche automatiche. Ogni file di frasi viene analizzato da un programma che controlla che tutte le relazioni inserite siano relazioni presenti nella gerarchia delle relazioni grammaticali previste nello schema di annotazione. In questo modo si possono correggere molti errori di distrazione. Un’altro programma verifica che non ci sia nessun elemento che non è legato a nessun altro nella frase, in questo modo si possono raccogliere eventuali nodi degli alberi che sono rimasti isolati. Un altro programma verifica che per ogni verbo sono stati inseriti tutti i ruoli tematici necessari (subj, obj ecc.).

Costruire un treebank Per costruire validi sistemi di analisi del linguaggio occorrono i treebank. Infatti è dimostrato che i sistemi di NLP che ottengono i migliori risultati sono quelli che prendono le informazioni da treebank) Le diverse lingue realizzano in modo diverso sia i costituenti sia le relazioni grammaticali. Nell’ambito dell’approccio a costituenti si sottolinea maggiormente però il fatto che esiste una base comune a tutte le lingue (detta grammatica universale) e che attraverso delle regole specifiche ogni singola lingua trasforma questa base per produrre una struttura sintattica detta superficiale sua propria. La struttura a costituenti e’ inoltre maggiormente legata all’ordine delle parole nella frase. E non è pertanto adatta a trattare lingue in cui l’ordine delle parole è libero o relativamente libero. L’organizzazione in costituenti infatti è per sua natura piuttosto rigida e quando un costituente non si presenta nella sua forma canonica, con tutte le sue parti nell’ordine normale si è costretti ad ipotizzare dei movimenti e a inserire delle tracce. Tipicamente la struttura relazionale coincide con le struttura predicato-argomento. Questo tipo di informazione è fondamentale per la comprensione del linguaggio. Si tratta di un tipo di informazione che difficilmente può essere colto sulla sola base dell’ordine delle parole nella frase, anche se certi studi sull’inglese lo suggeriscono.

Costruire un treebank Per costruire dei treebank occorrono validi sistemi di analisi del linguaggio. È impossibile costruire treebank in modo esclusivamente manuale per motivi di tempo e di correttezza. Le diverse lingue realizzano in modo diverso sia i costituenti sia le relazioni grammaticali. Nell’ambito dell’approccio a costituenti si sottolinea maggiormente però il fatto che esiste una base comune a tutte le lingue (detta grammatica universale) e che attraverso delle regole specifiche ogni singola lingua trasforma questa base per produrre una struttura sintattica detta superficiale sua propria. La struttura a costituenti e’ inoltre maggiormente legata all’ordine delle parole nella frase. E non è pertanto adatta a trattare lingue in cui l’ordine delle parole è libero o relativamente libero. L’organizzazione in costituenti infatti è per sua natura piuttosto rigida e quando un costituente non si presenta nella sua forma canonica, con tutte le sue parti nell’ordine normale si è costretti ad ipotizzare dei movimenti e a inserire delle tracce. Tipicamente la struttura relazionale coincide con le struttura predicato-argomento. Questo tipo di informazione è fondamentale per la comprensione del linguaggio. Si tratta di un tipo di informazione che difficilmente può essere colto sulla sola base dell’ordine delle parole nella frase, anche se certi studi sull’inglese lo suggeriscono.

Costruire un treebank In pratica l’annotazione dei treebank è prodotta da sistemi automatici di analisi morfologica (-4% errore) e sintattica (-10% errore) + annotatori umani che correggono le analisi prodotte in modo automatico Le diverse lingue realizzano in modo diverso sia i costituenti sia le relazioni grammaticali. Nell’ambito dell’approccio a costituenti si sottolinea maggiormente però il fatto che esiste una base comune a tutte le lingue (detta grammatica universale) e che attraverso delle regole specifiche ogni singola lingua trasforma questa base per produrre una struttura sintattica detta superficiale sua propria. La struttura a costituenti e’ inoltre maggiormente legata all’ordine delle parole nella frase. E non è pertanto adatta a trattare lingue in cui l’ordine delle parole è libero o relativamente libero. L’organizzazione in costituenti infatti è per sua natura piuttosto rigida e quando un costituente non si presenta nella sua forma canonica, con tutte le sue parti nell’ordine normale si è costretti ad ipotizzare dei movimenti e a inserire delle tracce. Tipicamente la struttura relazionale coincide con le struttura predicato-argomento. Questo tipo di informazione è fondamentale per la comprensione del linguaggio. Si tratta di un tipo di informazione che difficilmente può essere colto sulla sola base dell’ordine delle parole nella frase, anche se certi studi sull’inglese lo suggeriscono.

Le dipendenze nel TUT Ogni relazione di TUT può essere composta di 3 elementi: Morfo-sintattico: features che esprimono la categoria grammaticale Verb, Noun, … Funzionale-sintattico: relazioni sintattiche come Subject, Object Semantico: relazioni semantiche come Location, Time, Cause L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

1 In (IN PREP MONO) [7;PREP-RMOD-TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG] 3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG] 4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ] 5 la (IL ART DEF F SING) [4;APPOSITION] 6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG] 7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB] 8 il (IL ART DEF F SING) [7;VERB-OBJ] 9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]

La stessa frase che abbiamo visto prima rappresentata con I costituenti è qui rappresentata con una struttura basata sulle relazioni grammaticali. Il numero di nodi di un albero di questo tipo è sempre esattamente uguale al numero di parole della frase. A differenza della struttura a costituenti, la struttura relazionale non comporta mai l’inserimento di nodi non terminali nell’albero. Ogni nodo è una parola della frase: questo equivale a dire che il formalismo è lessicalizzato. Non ha senso dire che si potrebbero identificare le relazioni con dei nodi ulteriori dell’albero: le relazioni rappresentano proprio i rapporti tra le parole e per questo sono rappresentate come archi che legano le parole tra loro etichettati con i nomi delle relazioni stesse. A differenza che nell’approccio a costituenti, non vengono ipotizzate delle entità non realizzate lessicalmente nella frase. La frase è fatta solo di parole e dei rapporti che legano queste ultime. Intuitivamente questo sembra molto vero.

TUT Componente morfo-sintattica La nazione sogna ricchezza
I sogni di ricchezza della nazione Velocemente / in modo veloce VERB-SUBJ VERB VERB-OBJ NOUN NOUN-OBJ NOUN-SUBJ ADV-role ADV-role

TUT Componente morfo-sintattica

TUT Componente morfo-sintattica
Dati 944 differenti Verbi per un totale di occorrenze nel corpus di TUT Il 30% di questi Verbi (e le strutture predicative argomentali ad essi associate) risulta presente anche in forma nominale

funzionale-sintattica
TUT Componente funzionale-sintattica Egli non è stato visto da nessuno Egli non è stato visto da ieri ARG MOD

TUT Componente funzionale-sintattica

TUT Componente semantica Da qui è partito l’assalto LOC+FROM
Succedeva dall’altra parte del mondo I miliardi stanziati dal 1991 Era impazzito dal dolore Trarrà beneficio dalla bonifica LOC+FROM LOC+IN TIME Facendo riferimento al TUT possiamo vedere empiricamente quale rilevanza assume una annotazione di questo tipo di conoscenza. LA ricerca è stata fatta su 1200 frasi del TUT e ha rilevato circa 600 occorrenze della preposizione DA e 7 valori semantici diversi quando da introduce un sintagma preposizionale REASONCAUSE SOURCE

TUT Componente semantica
Facendo riferimento al TUT possiamo vedere empiricamente quale rilevanza assume una annotazione semantica di questo tipo di conoscenza. E’ stata fatta una ricerca su 1200 frasi del TUT che ha rilevato circa 600 occorrenze della preposizione DA e 7 valori semantici diversi quando da introduce un sintagma preposizionale che svolge il ruolo sintattico di modificatore.

TUT Componente semantica
Dati 600 sintagmi preposizionali introdotti dalla preposizione DA e che svolgono il ruolo di modificatori È stato rilevato che essi possono assumere i seguenti 7 differenti valori semantici: LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE Facendo riferimento al TUT possiamo vedere empiricamente quale rilevanza assume una annotazione semantica di questo tipo di conoscenza. E’ stata fatta una ricerca su 1200 frasi del TUT che ha rilevato circa 600 occorrenze della preposizione DA e 7 valori semantici diversi quando da introduce un sintagma preposizionale che svolge il ruolo sintattico di modificatore.

1 In (IN PREP MONO) [7;PREP-RMOD-TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG] 3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG] 4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ] 5 la (IL ART DEF F SING) [4;APPOSITION] 6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG] 7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB] 8 il (IL ART DEF F SING) [7;VERB-OBJ] 9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]

Applicare lo schema di annotazione a TUT significa che ogni sua frase:
viene parsificata in modo automatico dal parser TULE, sviluppato in parallelo con TUT corretta da almeno 2 annotatori umani verificata da tool automatici appositi sottoposta a conversioni e applicazione di altri sistemi

Ricadute del progetto TUT
Utilizzo in 3 diverse direzioni: Come raccolta di dati linguistici Come banco di prova per sistemi di NLP Come modello per lo sviluppo di altre risorse

Come raccolta di dati linguistici TUT ha consentito Studi sul comportamento dei verbi della lingua italiana (estrazione di conoscenza) Studio dell’ordine delle parole nella lingua italiana

(in 3500 sentences) L’ialiano è un linguaggio in cui l’ordine delle parole è relativamente libero. L’ordine prevalente è sicuramente Sogg, Verb, Compl; tuttavia tutti gli altri ordini di questi 3 elementi sono presenti in un campione di 1200 frasi annotate. Pertanto la scelta di un formato a dipendenze risulta ben motivata.

Come banco di prova per sistemi di NLP TUT ha consentito di raggiungere i risultati allo stato dell’arte per il parsing dell’italiano, errore intorno al 10% TUT è stato il treebank di riferimento nelle competizioni per parser di italiano (Evalita 07, 09, 11)

Come modello per lo sviluppo di altre risorse, TUT è utilizzato in: in prospettiva cross-linguistica, ha consentito lo sviluppo di un treebank parallelo per le lingue italiano, francese e inglese (ParallelTUT)

INOLTRE: TUT è stato tradotto in formati di altri treebank grazie a tool di conversione automatica Questo ha reso possibile l’applicazione di strumenti sviluppati per tali formati ed il confronto tra paradigmi e modelli linguistici differenti nell’ambito del dibattito su quale formato si rivela più adeguato per il NLP in generale e per le diverse lingue naturali

Il Turin University Treebank (TUT) e ParTUT sono tutti progetti
del Content Centered Computing Group (C. Bosco, A. Mazzei, V. Lombardo, R. Damiano , V. Patti, M. Sanguinetti) del Dipartimento di Informatica dell’Università di Torino

Per ulteriori informazioni:
L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Il progetto ParallelTUT
Un treebank parallelo italiano francese e inglese nel formato del TUT. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e valutazione
Un importante problema per la LC è la valutazione: sia come confronto tra risultati degli umani e quelli del sistema di LC sia come confronto tra i risultati di sistemi diversi L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

L’esistenza di molte risorse diverse rende però difficile confrontare i risultati ottenuti da diversi sistemi e la valutazione deve sempre essere fatta in relazione alle stesse risorse. Se il sistema X e il sistema Y utilizzano lo stesso corpus per apprendere, ottengono lo stesso output? L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

La comunità della LC opera pertanto nella direzione di rendere confrontabili i risultati dei sistemi che svolgono lo stesso task. Questo significa ad esempio che si cerca di costruire risorse in cui si utilizza lo stesso formato di rappresentazione (standard). L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e standard La nozione di standard è particolarmente rilevante per i treebank e ha portato alla definizione di un formato universale detto Universal Dependency. Questo processo è durato vari anni e ha comportato vari passi all’interno delle varie comunità che operano sulle singole lingue. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e standard Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank (presso l’Istituto di Linguistica Computazionale CNR di Pisa). Questi sono stati fusi grazie ad un processo di conversione in un formato intermedio e poi tradotti in Universal Dependency. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Universal Dependency Questo formato soddisfa l’interesse per confronti multilingui e rende possibile sia campagne di valutazione multilingui sia l’apprendimento cross-linguistco a supporto della LC per lingue per cui non esistono risorse. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Linguistica computazionale e treebank

Presentazioni simili

Presentazione sul tema: "Linguistica computazionale e treebank"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Linguistica computazionale e treebank

Presentazioni simili

Presentazione sul tema: "Linguistica computazionale e treebank"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back