Linguistica computazionale e approcci corpus-based

Linguistica computazionale e approcci corpus-based
Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale

Sistemi di NLP Per definire un sistema di NLP occorre conoscerne i seguenti aspetti: Input Algoritmi Conoscenza linguistica Output

INPUT: modalità Il sistema riceve in ingresso un input in linguaggio naturale L’input può assumere diverse modalità: scritto, parlato, gestuale o una mescolanza di queste tre modalità, che possono anche interagire tra loro. Noi ci occuperemo specificamente di linguaggio scritto, ma non va dimenticata la complessità derivante dalle altre, come la sintesi del parlato e i problemi derivanti dal “rumore”, la percezione ed interpretazione della gestualità.

Un esempio: l’input nelle lingue dei segni e nel parlato
Nel caso delle lingue dei segni, l’input è gestuale e si deve tenere conto della gestualità delle mani, principale strumento per “segnare”, ma anche delle espressioni del viso, della posizione del capo, delle spalle, braccia, ecc. Queste stesso componenti possono entrare in gioco anche quando il linguaggio è parlato … l’espressione del viso in molti casi è una fondamentale chiave di interpretazione del significato del testo enunciato.

INPUT: lingua e genere Il sistema riceve in ingresso un input in linguaggio naturale L’input può contenere testi di natura molto diversa tra loro a seconda di: - Lingua (francese, giapponese, swahili …) Genere testuale (prosa giornalistica, Twitter, poesia, romanzi, prosa scientifica, manualistica tecnica, previsioni meteo …)

ALGORITMI Il sistema deve anche avere gli algoritmi adeguati a utilizzare la conoscenza e a produrre un determinato output. Si deve pertanto assumere che le operazioni da fare sull’input siano ben definibili, e trovare un modo per definirle.

ALGORITMI Quali sono le operazioni da fare sull’input?
Potrebbero essere le stesse che fanno gli esseri umani (intelligenza artificiale forte) oppure differenti (intelligenza artificiale debole). In entrambi i casi possono esserci vari modi di produrre uno stesso output e il modo migliore può dipendere anche dall’input o dalla conoscenza.

ALGORITMI: un esempio, la traduzione
I sistemi che traducono in modo automatico adottano approcci diversi, traducono direttamente dalla lingua target alla lingua sorgente oppure tramite la mediazione di interlingue. Essi utilizzano tipi di conoscenza diversa, dizionari, ontologie ecc. (e non tutte queste basi di conoscenza sono disponibili per tutte le lingue).

CONOSCENZA LINGUISTICA
Assumiamo che una lingua sia trattabile da un sistema che contiene la conoscenza posseduta da un parlante di quella lingua. Occorre equipaggiare il sistema con tale conoscenza.

Il primo problema consiste nel delimitare la conoscenza necessaria alla comprensione del linguaggio. Essa deve essere rappresentata in modo opportuno (dizionari, ontologie, corpora, memorie di traduzione, basi terminologiche …).

Inoltre la conoscenza deve essere fornita al sistema in una forma adeguata. Questo è un problema che è stato molto discusso e che è determinante per chi progetta un sistema di NLP.

Acquisizione della conoscenza
Un sistema che tratta il linguaggio deve avere a disposizione la conoscenza linguistica necessaria. Ma come si mette la conoscenza dentro un sistema?

Esempio: che conoscenza occorre a un PoS tagger (analizzatore morfologico) per prendere in input “il cane dorme in giardino” e restituire in output “il ART, cane NOUN, dorme VERB, in PREP, giardino NOUN” ?

output = il ART, cane NOUN, dorme VERB, in PREP, giardino NOUN conoscenza = ART (il), NOUN (cane, giardino), VERB (dorme), PREP (in)

Esempio: che conoscenza occorre a un parser (analizzatore sintattico) per prendere in input “il cane dorme in giardino” e restituire in output “[S [NP (il – cane)] [VP (dorme) [PP (in – giardino)]]]” ?

output = [S [NP (il – cane)] [VP (dorme) [PP (in – giardino)]]] conoscenza = art + noun = NP verb + PP = VP prep + noun = PP NP + VP = S

Dove si trova la conoscenza? Le soluzioni sono 2: conoscenza dentro il sistema – rule-based conoscenza dentro un corpus di dati linguistici – corpus-based

Corpus versus rule-based
SISTEMA … grammatica lessico

SISTEMA apprendimento … grammatica lessico CORPUS

In entrambi i casi si presuppone che il linguaggio sia governato da regole (da conoscere per trattarlo) MA: nei sistemi corpus-based le regole sono apprese, nei rule-based sono date nei sistemi corpus-based le regole sono probabilistiche, nei rule-based sono deterministiche

Se le regole variano, ad es. da una lingua all’altra, da un genere testuale ad un altro, devono essere riscritte in un sistema rule-based, ma non in uno corpus-based.

Approccio corpus-based
Utilizzato dai linguisti dalla fine dell’800 e oggi molto diffuso Consiste nell’apprendere dal linguaggio le regole ed irregolarità del linguaggio

A causa delle critiche di Chomsky l’approccio corpus-based non è stato adottato dalla linguistica computazionale che negli ultimi 20 anni. Le critiche che Chomsky porta a questo approccio sono riducibili a 2.

Prima critica: Un corpus può adeguatamente rappresentare un linguaggio? Il numero di frasi di un linguaggio è infinito, mentre un corpus ne contiene comunque un numero finito, non tutte, e distribuite in modo casuale.

Risposta alla Prima critica: Un corpus può adeguatamente rappresentare un linguaggio se contiene un campione statisticamente significativo di esso. Non occorre che contenga tutte le frasi di un linguaggio, ma una sua porzione abbastanza ampia da contenere esempi di tutte le strutture di tale linguaggio.

Seconda critica: Perché studiare il linguaggio tramite osservazione diretta invece che introspezione? Nella nostra mente (grazie alla competence) sono presenti tutte le strutture corrette del linguaggio, mentre lo stesso non può accadere in un corpus per quanto grande.

Risposta alla Seconda critica: Solo l’osservazione diretta ci può dare conto di come il linguaggio è realmente usato, del fatto che i parlanti riescono a comunicare tra loro nonostante errori e rumore.

La posizione di Chomsky è razionalistica e fondata su dati artificiali e giudizi introspettivi che sono espressione della nostra conoscenza interiorizzata del linguaggio (competence). Al contrario l’approccio corpus-based è empiricista e fondato sull’osservazione di dati naturali che sono espressione empirica della conoscenza del linguaggio (performance).

Il suo principale vantaggio è di offrire un concreto supporto alla soluzione del problema dell’ambiguità. Se una frase è ambigua, il sistema che la tratta ne costruisce più strutture alternative. Analizzando un corpus possiamo scoprire quale ordine di preferenza dare alle alternative.

Si basa sull’idea che le co-occorrenze sono fonti importanti di informazioni sulla lingua Si ispira all’idea di apprendimento linguistico umano, tramite esposizione a esempi e basato su criteri statistici

Esempio: Nell’analisi sintattica (parsing), di fronte all’ambiguità e quindi generazione di più strutture, per una singola frase, si ricavano dai dati linguistici i CRITERI per scegliere la migliore delle strutture generate

L’approccio corpus-based assume che buona parte del successo del linguaggio umano nella comunicazione dipende dall’abilità che gli esseri umani hanno nel gestire ambiguità ed imprecisione in modo efficiente.

Gli esseri umani riescono infatti a cogliere la corretta interpretazione di un messaggio da un insieme di stimoli di varia natura (ad es. contestuali ed emotivi) oltre che dalle parole e strutture che compongono il messaggio stesso.

L’approccio corpus-based offre inoltre la possibilità di sfruttare la conoscenza che va al di là delle parole e delle strutture che compongono il linguaggio. È quindi un modo efficiente di acquisire la conoscenza sul linguaggio.

Si assume che un CORPUS C di un linguaggio L possa contenere (~tutta) la conoscenza necessaria a trattare L, e si acquisisce la conoscenza da esso

Il processo di apprendimento offre come risultato la conoscenza delle regole ed irregolarità del linguaggio (non-ristretto) MA SOPRATTUTTO la percezione della frequenza delle strutture linguistiche

In pratica per acquisire la conoscenza: si prende un campione di linguaggio, cioè un insieme di frasi = CORPUS si cercano nel corpus le strutture linguistiche e le loro probabilità = BASE di CONOSCENZA

In pratica un sistema corpus-based: se incontra una struttura ambigua cerca nella base di conoscenza l’informazione utile per costruire la rappresentazione più probabile della struttura

Ma come funziona un sistema statistico? ad ogni struttura S del linguaggio il sistema associa un valore di probabilità il valore di probabilità di S è dato dalla composizione delle probabilità delle parti di S

Esempio: “il cane dorme in giardino” P(il–cane: NP) = 95% P(in-giardino: PP) = 95% P(cane-dorme: VP) = 5% …

Ma come funziona un sistema statistico? la probabilità di ogni parte di una frase analizzata dipende dalla sua frequenza in un CORPUS di riferimento e dal modello statistico utilizzato

Ma come funziona un sistema statistico? Cosa è un modello probabilistico ? Serve a determinare come calcolare la probabilità di ogni risultato ottenuto dal sistema

Ma come funziona un sistema statistico? Esempio di un modello probabilistico molto usato: i bi-grammi:- per ogni coppia <a,b> di parole avremo una stima della probabilità che a e b siano associate sintatticamente (a=il e b=cane ha maggiore probabilità di occorrere che a=il e b=gatta)

i bi-grammi di “il cane dorme in giardino”: 1-il cane 2-cane dorme 3-dorme in 4-in giardino La probabilità di 1 sarà maggiore di quella di 2, quindi il sistema propone la costruzione di 1 invece che di 2.

A partire dagli anni ‘90 si sono sviluppati sistemi che apprendono la conoscenza da corpora di dati linguistici per moltissimi linguaggi. Si è progressivamente affermata anche la necessità di ANNOTARE i dati linguistici e si sono costruiti i TREEBANK.

Attualmente i TREEBANK sono le risorse linguistiche più utilizzate nel NLP.

Perché annotare i dati ? L’informazione è presente in forma implicita anche nei dati non annotati. Ma introdurre l’informazione in forma esplicita semplifica il processo di apprendimento, inoltre rende possibile la correzione.

Annotazione e treebank
Come annotare i dati ? Solitamente si annotano le informazioni di tipo morfologico e sintattico, più raramente quelle semantiche

Come annotare i dati ? Per ogni livello di annotazione vengono fatte delle scelte sia sulla teoria linguistica da prendere come riferimento sia sul modo in cui fisicamente mostrare i dati.

Quali dati annotare ? Occorre scegliere i testi da introdurre nel corpus in modo che siano rappresentativi del linguaggio che si vuole trattare.

Quali dati annotare ? un corpus é un campione significativo e rappresentativo di un linguaggio SE: contiene frasi non ristrette è “bilanciato” rispetto al genere, alla collocazione geografica e sociale, al tempo MA non rappresenta mai TUTTO il linguaggio nel suo complesso

Un progetto reale: Turin University Treebank
Obiettivo: sviluppare una risorsa linguistica, una banca di alberi sintattici per l’italiano Il nostro progetto si ispira ad altri sviluppati per altre lingue negli ultimi anni. Il più esteso treebank attualmente esistente è stato sviluppato da un gruppo di ricerca statunitense presso la Pennsylvania University. Il loro progetto è partito nella prima metà degli anni 90 e il loro treebank include oggi vari milioni di parole. Altri treebank sono stati sviluppati più recentemente per il ceco presso l’università di Praga e per il tedesco presso l’università di Saarbrucken. Per l’italiano non esiste ancora un treebank. Perchè è importante avere un treebank? Un treebank è una risorsa linguistica oggi fondamentale in LC perchè moltissimi strumenti di analisi del linguaggio presuppongono la presenza di una base di dati statistici. Un treebank è il principale strumento per la raccolta di dati statistici su una lingua. Avere una rappresentazione dettagliata di una porzione significativa di una lingua significa poter addestrare programmi di autoapprendimento che possono analizzare quella lingua. Es: se nel treebank posso trovare occorrenze del verbo VEDERE, cioè dispongo di tutte le informazioni su come il verbo vedere si comporta in 1000 casi reali, allora posso fare una stima su come esso si comporta in altri casi ... so che in una certa percentuale di casi esso reggerà un soggetto ed un complemento oggetto o una particella come CHE e in generale potrò provare ad applicare le strutture che ho trovato nelle 1000 occorrenze ordinando tali strutture in base alla percentuale.

Fasi di sviluppo del progetto
Selezione dei testi da annotare Definizione dello schema di annotazione Applicazione dello schema al corpus di testi (validità e consistenza) Lo schema di annotazione è dato dall’insieme delle relazioni grammaticali e delle regole relative alla loro applicazione. Definire lo schema significa decidere quali sono le informazioni importanti da rappresentare e in quale modo le si vuole rappresentare. Il lavoro di definizione dello schema è iniziato con una analisi delle caratteristiche dell’italiano, il fatto che l’ordine delle parole fosse relativamente libero ad es. ha motivato la scelta della rappresentazione basata sulle dipendenze, vari altri aspetti del formato sono stati decisi sulla base di studi fatti sulla nostra lingua. Ma dopo la definizione teorica è iniziato il confronto con i dati reali, con il corpus. L’obiettivo è costruire un formato in grado di rappresentare tutto quello che abbiamo trovato e che troveremo nel corpus. Il corpus annotato deve continuare ad espandersi e durante la sua espansione possono trovarsi dei fenomeni che ancora non erano stati presi in considerazione. Inoltre si deve garantire la consistenza dei dati: questo significa che si devono costantemente fare delle verifiche per essere sicuri che lo stesso fenomeno sia annotato sempre nello stesso modo. Anche se non sempre è facile identificare come tali due occorrenze dello stesso fenomeno. A volte può essere necessario introdurre nuove relazioni nello schema, oppure eliminare relazioni che di fatto non sono significative. Il confronto tra schema e corpus riserva sempre meno sorprese man mano che si procede, ma all’inizio sono state necessarie molte revisioni dello schema.

Selezione di testi in TUT
Giornali quotidiani (1.100 frasi = 18,044 tokens) Codice civile (1.100 frasi = 28,048 tokens) Acquis (201 frasi = 7,455 tokens) Wikipedia (459 frasi = 14,746 tokens) Costituzione Italiana, intera (682 frasi = 13,178 tokens) Totale frasi = token L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico. Inoltre è un treebank per l’italiano che attualmente manca Consta di 1500 frasi che sono tokens di cui parole ed il resto punteggiatura e tracce Lung media di frase = 22,57 parole e 27,84 tokens Lung massima 91 parole Circa il 30% delle frasi ha lung compresa tra10 e 20 parole

Selezione in altri treebank
TEXTS from PRAGUE newspapers, scientific and economic journals NEGRA newspaper Frankfurter Rundschau PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations Nei corpora utilizzati nel NLP l’attenzione al bilanciamento è per ora limitata (maggiore in linguistica), tuttavia essi di norma includono testi di genere e contenuto vario. Soprattutto i quotidiani vengono utilizzati nei corpora in quanto contengono campioni di letteratura relativamente varia almeno per quanto concerne i contenuti.

Definizione dello schema di annotazione
Scelta del formalismo Scelta delle informazioni e strutture da rappresentare Lo schema di annotazione è dato dall’insieme delle relazioni grammaticali e delle regole relative alla loro applicazione. Definire lo schema significa decidere quali sono le informazioni importanti da rappresentare e in quale modo le si vuole rappresentare. Il lavoro di definizione dello schema è iniziato con una analisi delle caratteristiche dell’italiano, il fatto che l’ordine delle parole fosse relativamente libero ad es. ha motivato la scelta della rappresentazione basata sulle dipendenze, vari altri aspetti del formato sono stati decisi sulla base di studi fatti sulla nostra lingua. Ma dopo la definizione teorica è iniziato il confronto con i dati reali, con il corpus. L’obiettivo è costruire un formato in grado di rappresentare tutto quello che abbiamo trovato e che troveremo nel corpus. Il corpus annotato deve continuare ad espandersi e durante la sua espansione possono trovarsi dei fenomeni che ancora non erano stati presi in considerazione. Inoltre si deve garantire la consistenza dei dati: questo significa che si devono costantemente fare delle verifiche per essere sicuri che lo stesso fenomeno sia annotato sempre nello stesso modo. Anche se non sempre è facile identificare come tali due occorrenze dello stesso fenomeno. A volte può essere necessario introdurre nuove relazioni nello schema, oppure eliminare relazioni che di fatto non sono significative. Il confronto tra schema e corpus riserva sempre meno sorprese man mano che si procede, ma all’inizio sono state necessarie molte revisioni dello schema. Abbiamo visto che sono state elaborate delle teorie anche piuttosto complesse per rappresentare il livello sintattico (e molto lavoro è stato fatto anche sugli altri livelli). Ma in pratica a cosa serve? Al di là dell’obiettivo a lungo termine di comprendere il linguaggio esistono degli obiettivi più vicini, dei tipi di applicazioni che richiedono una forma di rappresentazione del linguaggio ed in cui si può anche vedere quale conseguenza comporta l’utilizzo di un formalismo invece che di un altro.

Struttura sintattica: scelta tra 2 aspetti
L’organizzazione delle unitá della frase (sintagmi e constituent structure) La funzione degli elementi della frase (relazioni grammaticali e relational structure) La sintassi in realtà include aspetti diversi, non solo quelli che vengono rappresentati dalla struttura a costituenti, da un lato il fatto che esiste una organizzazione della frase in unità e dall’altro il fatto che queste unità svolgono funzioni ben precise all’interno della frase. Possiamo dire che i due paradigmi di rappresentazione della sintassi attualmente utilizzati in LC si basano uno sul primo e l’altro sul secondo di questi aspetti. Dal momento che le rappresentazioni sintattiche nell’ambito delle risorse linguistiche privilegiano l’uno o l’altro di questi aspetti, è importante capire le differenze tra questi due aspetti e vedere cosa comporta basare la rappresentazione sull’uno anziché sull’altro. La rappresentazione più diffusa e più comunemente accettata è sicuramente quella basata sui costituenti. Perché usarne un’altra? Abbiamo visto che esistono vari livelli a cui il linguaggio può essere descritto e conseguentemente analizzato. Tuttavia ci sono fenomeni in cui è difficile isolare ad es. gli aspetti cosiddetti sintattici da quelli semantici e di questo si deve tenere conto nella rappresentazione. I diversi formalismi di rappresentazione consentono più o meno di tenere conto di queste interazioni. E questo fatto è determinante nella scelta del formalismo a livello teorico. Inoltre bisogna tenere conto delle peculiarità della lingua che vogliamo rappresentare.

Relational structure Le parole della frase svolgono funzioni diverse
Le funzioni sono espresse in termini di relazioni grammaticali La struttura relazionale della frase è quella che è stata utilizzata da secoli nell’ambito della grammatica tradizionale, quella non accademica, insegnata nelle scuole. Forse per questo è stata (e da alcuni viene tuttora considerata) come meno scientifica, ma diverse scuole linguistiche hanno riscoperto la validità delle idee legate a questo approccio. Si tratta in prevalenza di studi fatti sulle lingue slave (Mel’cuk e la scuola di Praga), ma anche sull’inglese (Hudson). Utilizzare la struttura relazionale come base della rappresentazione significa privilegiare il fatto che le parole svolgono funzioni diverse le une rispetto alle altre. Alla base di questo tipo di rappresentazione c’è l’idea che tutte le parole si comportano in modo simile al verbo nel senso che tendono a trattare altre parole come loro modificatori o argomenti, oppure si comportano rispetto ad altre parole come argomenti o modificatori. Per esprimere questo tipo di comportamento del verbo si parla normalmente di valenza. L’idea di relazione grammaticale generalizza questo concetto e lo estende ad altre categorie di parole, come i nomi o gli aggettivi.

Relational structure ama Giorgio Maria SUBJ OBJ
La stessa frase che abbiamo visto prima rappresentata con I costituenti è qui rappresentata con una struttura basata sulle relazioni grammaticali. Il numero di nodi di un albero di questo tipo è sempre esattamente uguale al numero di parole della frase. A differenza della struttura a costituenti, la struttura relazionale non comporta mai l’inserimento di nodi non terminali nell’albero. Ogni nodo è una parola della frase: questo equivale a dire che il formalismo è lessicalizzato. Non ha senso dire che si potrebbero identificare le relazioni con dei nodi ulteriori dell’albero: le relazioni rappresentano proprio i rapporti tra le parole e per questo sono rappresentate come archi che legano le parole tra loro etichettati con i nomi delle relazioni stesse. A differenza che nell’approccio a costituenti, non vengono ipotizzate delle entità non realizzate lessicalmente nella frase. La frase è fatta solo di parole e dei rapporti che legano queste ultime. Intuitivamente questo sembra molto vero. Giorgio Maria

Constituent structure
Le parole della frase sono organizzate in unità (costituenti) che a loro volta sono oggetto di una organizzazione (constituent structure) in unità più grandi Questo tipo di rappresentazione è alla base di molto lavoro fatto sulla sintassi nell’ultimo secolo. Il principale teorico di questo approccio è Noham Chomsky. L’idea alla base della struttura a costituenti è che la frase può essere scomposta in unità che a loro volta possono essere scomposte in unità più piccole fino ad arrivare alle parole. Più o meno come avviene all’interno della singola parola, dove è possibile identificare delle sillabe.

ES: constituents S VP NP NP Nome-pr Verbo Nome-pr Giorgio ama Maria

(NP ( NOME Giorgio)) (VP (VERBO ama) (NP (NOME Maria) ) Questo tipo di rappresentazione è alla base di molto lavoro fatto sulla sintassi nell’ultimo secolo. Il principale teorico di questo approccio è Noham Chomsky. L’idea alla base della struttura a costituenti è che la frase può essere scomposta in unità che a loro volta possono essere scomposte in unità più piccole fino ad arrivare alle parole. Più o meno come avviene all’interno della singola parola, dove è possibile identificare delle sillabe.

Le relazioni tra le parole non sono tutte uguali: “Maria leggeva un libro in biblioteca” La constituent structure, in italiano la struttura sintagmatica, della frase mostra come le relazioni tra le parole sono organizzate all’interno della frase. Una frase non è una sequenza di parole, ogni parola non è legata nello stesso modo alle altre che le sono adiacenti nella sequenza. La relazione tra leggeva e un è mediata dal fatto che un libro forma una unità e che tale unità rappresenta l’oggetto del verbo leggere. Appare abbastanza chiaro intuitivamente che articolo e nome formano una unità, così come la formano la preposizione con il suo argomento, il verbo con I suoi argomenti e così via. Non ci possono essere molti dubbi rispetto al fatto che questo tipo di informazione è codificato nella frase, ma si possono avere dei dubbi sul fatto che le informazioni sintattiche siano solo queste o sul fatto che queste siano le più rilevanti.

ES: Penn annotation ( S S ( NP - SBJ (PRP I) )
( ADVP - TMP ( RB never) ) ( VP (VBD had) ( NP (JJ many) (NNS clients) ) ( NP - ADV (DT a) ( NN day) )) )) S NP SBJ PRP ADVP TMP RB VP VBD NP DT NNS In Penn l’annotazione è basata sui costituenti, ma ai nomi dei NP ADV DT NN

ES: NEGRA annotation S VP OC HD SB NG MO HD OA
PoS TAGs ADV Avverbio, VVPP Verbo al Participio passato, VAFIN Ausiliare di tempo finito, NE nome proprio FUNZIONI GRAMMATICALI MO per MODIFIER, HD per HEAD, OC per CLAUSAL OBJECT, SB per SUBJECT, OA per ACCUSATIVE OBJECT, NG per NEGATION Negra does not provide any partition of the functions, ovvero si annota praticamente nella relazione la sola componente sintattica e non viene considerato alcun aspetto semantico o morfosintatico. VERIFICA CHE ALTRO ANNOTANO nella tesi ADV VVPP VAFIN NE NE ADV

Costituenti e relazioni
La struttura relazionale include le informazioni relative all’ organizzazione della frase in unità La struttura a costituenti non include le informazioni relative alla funzione delle parole La struttura relazionale è più compatta Da un primo confronto tra I due tipi di rappresentazione emergono alcune differenze: Le informazioni rappresentate nella struttura a costituenti sono presenti anche in quella relazionale (anche se non si inserisce un nodo che rappresenta il sintagma emerge chiaramente l’organizzazione in unità e sottounità della frase dal fatto che certi nodi sono vicini ad altri e che hanno tra loro delle relazioni dirette); sono informazioni fondamentali per rappresentare la sintassi di una lingua e entrambi i tipi di rappresentazione li includono 2) Le informazioni rappresentate nella struttura relazionale non sono presenti nella struttura a costituenti. Studi fatti sui treebank esistenti hanno dimostrato che queste informazioni sono di estrema importanza per molti tipi di trattamento del LN (vedi IE). Possono essere aggiunte anche in una rappresentazione a costituenti, ma perché aggiungerle se esiste un formalismo che le mette direttamente a disposizione? 3) La rappresentazione a costituenti è meno compatta, il numero di nodi dell’albero è sempre maggiore (questo è rilevante quanto si parla di trattamento automatico del LN … un programma di analisi deve materialmente leggere più nodi)

Costituenti e relazioni
Sia le relazioni che i costituenti sono realizzati in modo diverso nelle diverse lingue La struttura relazionale include la struttura argomentale Le diverse lingue realizzano in modo diverso sia i costituenti sia le relazioni grammaticali. Nell’ambito dell’approccio a costituenti si sottolinea maggiormente però il fatto che esiste una base comune a tutte le lingue (detta grammatica universale) e che attraverso delle regole specifiche ogni singola lingua trasforma questa base per produrre una struttura sintattica detta superficiale sua propria. La struttura a costituenti e’ inoltre maggiormente legata all’ordine delle parole nella frase. E non è pertanto adatta a trattare lingue in cui l’ordine delle parole è libero o relativamente libero. L’organizzazione in costituenti infatti è per sua natura piuttosto rigida e quando un costituente non si presenta nella sua forma canonica, con tutte le sue parti nell’ordine normale si è costretti ad ipotizzare dei movimenti e a inserire delle tracce. Tipicamente la struttura relazionale coincide con le struttura predicato-argomento. Questo tipo di informazione è fondamentale per la comprensione del linguaggio. Si tratta di un tipo di informazione che difficilmente può essere colto sulla sola base dell’ordine delle parole nella frase, anche se certi studi sull’inglese lo suggeriscono.

La struttura argomentale
relazioni grammaticali ruoli semantici uguali o distinti? Nella struttura argomentale sono inclusi due tipi di informazioni: RG soggetto, oggetto, oggetto indiretto … e ruoli semantici come paziente agente. In realtà si parla di norma di struttura argomentale facendo riferimento solo al secondo tipo di informazioni, ma dato che esistono forti interrelazioni e frequenti coincidenze tra relazioni grammaticali e ruoli semantici si tende a inglobarli nella stessa rappresentazione e a parlare di funzioni o relazioni grammaticali in senso più esteso includendo anche i ruoli. E’ importante notare che la struttura argomentale non riguarda solo i verbi: esistono i nomi derivanti dai verbi (la distruzione di …) e aggettivi (fedele a …) che hanno struttura argomentale.

Le relazioni grammaticali
Identificabili da varie proprietà Diverse nelle varie lingue

Le relazioni grammaticali
Le relazioni sono realizzate diversamente nelle varie lingue, a seconda dell’uso di casi, inflessioni give someone something dare a qualcuno qualcosa

Processo di annotazione
MORPHO SYNT SEM PRAGUE semi-automatic NEGRA automatic interactive (probabilistic) PENN automatic (skeletal) PRAGA: nel parsing l’annotatore costruisce la struttura e il sistema propone le label con cui etichettarla che poi deveono essere corrette. NEGRA: nella fase di parsing interattivo l’annotatore corregge anche gli errori del tagger automatico, il parser propone le strutture (o parti di) con maggior probabilità e l’annotatore le accetta o rifiuta. PENN: alto grado di automazione, il lavoro di annotazione consiste solo nel correggere ed integrare il lavoro del tagger e del parser.

Processo di annotazione in TUT
Part Of Speech tagging automatico Correzione manuale del tagging Parsing interattivo Verifica e revisione Il Part Of Speech tagging viene fatto in modo automatico. Il tagger ha un percentuale di errore inferiore al 4%. Questo significa che è comunque necessaria una correzione manuale dell’output prima di passare alla fase di parsing. Poi c’è il parsing. Il parsing interattivo consente una percentuale di errore reltivamente bassa. Tuttavia si pone il problema dell’accordo tra i diversi annotatori: a parte errori di distrazione, ci sono casi su in cui un annotatore può dare una interpretazione diversa da un altro annotatore dello stesso fenomeno, ci sono delle ambiguità e dei costrutti problematici. Possono presentarsi fenomeni nuovi e relazioni particolari mai incontrate prima. Infine la verifica e la revisione: si tratta del confronto tra annotatori, due responsabili del progetto verificano tutto il materiale annotato. La verifica viene fatta inizialmente in modo manuale, semplicemente leggendo il materiale annotato. Poi si passa a verifiche automatiche. Ogni file di frasi viene analizzato da un programma che controlla che tutte le relazioni inserite siano relazioni presenti nella gerarchia delle relazioni grammaticali previste nello schema di annotazione. In questo modo si possono correggere molti errori di distrazione. Un’altro programma verifica che non ci sia nessun elemento che non è legato a nessun altro nella frase, in questo modo si possono raccogliere eventuali nodi degli alberi che sono rimasti isolati. Un altro programma verifica che per ogni verbo sono stati inseriti tutti i ruoli tematici necessari (subj, obj ecc.).

Costruire un treebank Per costruire validi sistemi di analisi del linguaggio occorrono i treebank. Infatti è dimostrato che i sistemi di NLP che ottengono i migliori risultati sono quelli che prendono le informazioni da treebank) Le diverse lingue realizzano in modo diverso sia i costituenti sia le relazioni grammaticali. Nell’ambito dell’approccio a costituenti si sottolinea maggiormente però il fatto che esiste una base comune a tutte le lingue (detta grammatica universale) e che attraverso delle regole specifiche ogni singola lingua trasforma questa base per produrre una struttura sintattica detta superficiale sua propria. La struttura a costituenti e’ inoltre maggiormente legata all’ordine delle parole nella frase. E non è pertanto adatta a trattare lingue in cui l’ordine delle parole è libero o relativamente libero. L’organizzazione in costituenti infatti è per sua natura piuttosto rigida e quando un costituente non si presenta nella sua forma canonica, con tutte le sue parti nell’ordine normale si è costretti ad ipotizzare dei movimenti e a inserire delle tracce. Tipicamente la struttura relazionale coincide con le struttura predicato-argomento. Questo tipo di informazione è fondamentale per la comprensione del linguaggio. Si tratta di un tipo di informazione che difficilmente può essere colto sulla sola base dell’ordine delle parole nella frase, anche se certi studi sull’inglese lo suggeriscono.

Costruire un treebank Per costruire dei treebank occorrono validi sistemi di analisi del linguaggio. È impossibile costruire treebank in modo esclusivamente manuale per motivi di tempo e di correttezza. Le diverse lingue realizzano in modo diverso sia i costituenti sia le relazioni grammaticali. Nell’ambito dell’approccio a costituenti si sottolinea maggiormente però il fatto che esiste una base comune a tutte le lingue (detta grammatica universale) e che attraverso delle regole specifiche ogni singola lingua trasforma questa base per produrre una struttura sintattica detta superficiale sua propria. La struttura a costituenti e’ inoltre maggiormente legata all’ordine delle parole nella frase. E non è pertanto adatta a trattare lingue in cui l’ordine delle parole è libero o relativamente libero. L’organizzazione in costituenti infatti è per sua natura piuttosto rigida e quando un costituente non si presenta nella sua forma canonica, con tutte le sue parti nell’ordine normale si è costretti ad ipotizzare dei movimenti e a inserire delle tracce. Tipicamente la struttura relazionale coincide con le struttura predicato-argomento. Questo tipo di informazione è fondamentale per la comprensione del linguaggio. Si tratta di un tipo di informazione che difficilmente può essere colto sulla sola base dell’ordine delle parole nella frase, anche se certi studi sull’inglese lo suggeriscono.

Costruire un treebank In pratica l’annotazione dei treebank è prodotta da sistemi automatici di analisi morfologica (-4%) e sintattica (-10%) + annotatori umani che correggono le analisi prodotte in modo automatico Le diverse lingue realizzano in modo diverso sia i costituenti sia le relazioni grammaticali. Nell’ambito dell’approccio a costituenti si sottolinea maggiormente però il fatto che esiste una base comune a tutte le lingue (detta grammatica universale) e che attraverso delle regole specifiche ogni singola lingua trasforma questa base per produrre una struttura sintattica detta superficiale sua propria. La struttura a costituenti e’ inoltre maggiormente legata all’ordine delle parole nella frase. E non è pertanto adatta a trattare lingue in cui l’ordine delle parole è libero o relativamente libero. L’organizzazione in costituenti infatti è per sua natura piuttosto rigida e quando un costituente non si presenta nella sua forma canonica, con tutte le sue parti nell’ordine normale si è costretti ad ipotizzare dei movimenti e a inserire delle tracce. Tipicamente la struttura relazionale coincide con le struttura predicato-argomento. Questo tipo di informazione è fondamentale per la comprensione del linguaggio. Si tratta di un tipo di informazione che difficilmente può essere colto sulla sola base dell’ordine delle parole nella frase, anche se certi studi sull’inglese lo suggeriscono.

La stessa frase che abbiamo visto prima rappresentata con I costituenti è qui rappresentata con una struttura basata sulle relazioni grammaticali. Il numero di nodi di un albero di questo tipo è sempre esattamente uguale al numero di parole della frase. A differenza della struttura a costituenti, la struttura relazionale non comporta mai l’inserimento di nodi non terminali nell’albero. Ogni nodo è una parola della frase: questo equivale a dire che il formalismo è lessicalizzato. Non ha senso dire che si potrebbero identificare le relazioni con dei nodi ulteriori dell’albero: le relazioni rappresentano proprio i rapporti tra le parole e per questo sono rappresentate come archi che legano le parole tra loro etichettati con i nomi delle relazioni stesse. A differenza che nell’approccio a costituenti, non vengono ipotizzate delle entità non realizzate lessicalmente nella frase. La frase è fatta solo di parole e dei rapporti che legano queste ultime. Intuitivamente questo sembra molto vero.

Turin University Treebank (2)
Ogni relazione di TUT può essere composta di 3 elementi: Morfo-sintattico: features che esprimono la categoria grammaticale Verb, Noun, … Funzionale-sintattico: relazioni sintattiche come Subject, Object Semantico: relazioni semantiche come Location, Time, Cause L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

1 In (IN PREP MONO) [7;PREP-RMOD-TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG] 3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG] 4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ] 5 la (IL ART DEF F SING) [4;APPOSITION] 6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG] 7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB] 8 il (IL ART DEF F SING) [7;VERB-OBJ] 9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]

TUT Componente morfo-sintattica La nazione sogna ricchezza
I sogni di ricchezza della nazione Velocemente / in modo veloce VERB-SUBJ VERB VERB-OBJ NOUN NOUN-OBJ NOUN-SUBJ ADV-role ADV-role

TUT Componente morfo-sintattica

TUT Componente morfo-sintattica
Dati 944 differenti Verbi per un totale di occorrenze nel corpus di TUT Il 30% di questi Verbi (e le strutture predicative argomentali ad essi associate) risulta presente anche in forma nominale

funzionale-sintattica
TUT Componente funzionale-sintattica Egli non è stato visto da nessuno Egli non è stato visto da ieri ARG MOD

TUT Componente funzionale-sintattica

TUT Componente semantica Da qui è partito l’assalto LOC+FROM
Succedeva dall’altra parte del mondo I miliardi stanziati dal 1991 Era impazzito dal dolore Trarrà beneficio dalla bonifica LOC+FROM LOC+IN TIME Facendo riferimento al TUT possiamo vedere empiricamente quale rilevanza assume una annotazione di questo tipo di conoscenza. LA ricerca è stata fatta su 1200 frasi del TUT e ha rilevato circa 600 occorrenze della preposizione DA e 7 valori semantici diversi quando da introduce un sintagma preposizionale REASONCAUSE SOURCE

TUT Componente semantica
Facendo riferimento al TUT possiamo vedere empiricamente quale rilevanza assume una annotazione semantica di questo tipo di conoscenza. E’ stata fatta una ricerca su 1200 frasi del TUT che ha rilevato circa 600 occorrenze della preposizione DA e 7 valori semantici diversi quando da introduce un sintagma preposizionale che svolge il ruolo sintattico di modificatore.

TUT Componente semantica
Dati 600 sintagmi preposizionali introdotti dalla preposizione DA e che svolgono il ruolo di modificatori È stato rilevato che essi possono assumere i seguenti 7 differenti valori semantici: LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE Facendo riferimento al TUT possiamo vedere empiricamente quale rilevanza assume una annotazione semantica di questo tipo di conoscenza. E’ stata fatta una ricerca su 1200 frasi del TUT che ha rilevato circa 600 occorrenze della preposizione DA e 7 valori semantici diversi quando da introduce un sintagma preposizionale che svolge il ruolo sintattico di modificatore.

1 In (IN PREP MONO) [7;PREP-RMOD-TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG] 3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG] 4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ] 5 la (IL ART DEF F SING) [4;APPOSITION] 6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG] 7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB] 8 il (IL ART DEF F SING) [7;VERB-OBJ] 9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]

Applicare lo schema di annotazione a TUT significa che ogni sua frase:
viene parsificata in modo automatico dal parser TULE, sviluppato in parallelo con TUT corretta da almeno 2 annotatori umani verificata da tool automatici appositi sottoposta a conversioni e applicazione di altri sistemi

Ricadute del progetto TUT
Utilizzo in 3 diverse direzioni: Come raccolta di dati linguistici Come banco di prova per sistemi di NLP Come modello per lo sviluppo di altre risorse

Come raccolta di dati linguistici TUT ha consentito Studi sul comportamento dei verbi della lingua italiana (estrazione di conoscenza) Studio dell’ordine delle parole nella lingua italiana

(in 3500 sentences) L’ialiano è un linguaggio in cui l’ordine delle parole è relativamente libero. L’ordine prevalente è sicuramente Sogg, Verb, Compl; tuttavia tutti gli altri ordini di questi 3 elementi sono presenti in un campione di 1200 frasi annotate. Pertanto la scelta di un formato a dipendenze risulta ben motivata.

Come banco di prova per sistemi di NLP TUT ha consentito di raggiungere i risultati allo stato dell’arte per il parsing dell’italiano, errore intorno al 10% TUT è il treebank di riferimento nelle competizioni per parser di italiano (Evalita 07, 09, 11, 14)

Come modello per lo sviluppo di altre risorse, TUT è utilizzato in: in prospettiva cross-linguistica, è in corso di sviluppo un treebank parallelo per le lingue italiano, francese e inglese (ParTUT) per lo studio di fenomeni legati all’espressione di sentimenti, opinioni ed emozioni, è in corso di sviluppo un corpus di testi di Twitter annotato morfologicamente (SentiTUT)

INOLTRE: TUT è stato tradotto in formati di altri treebank grazie a tool di conversione automatica Questo ha reso possibile l’applicazione di strumenti sviluppati per tali formati ed il confronto tra paradigmi e modelli linguistici differenti nell’ambito del dibattito su quale formato si rivela più adeguato per il NLP in generale e per le diverse lingue naturali

Il Turin University Treebank (TUT), ParTUT e SentiTUT sono tutti progetti
del Content Centered Computing Group (C. Bosco, A. Mazzei, V. Lombardo, R. Damiano , V. Patti, M. Sanguinetti) del Dipartimento di Informatica dell’Università di Torino

Per ulteriori informazioni:
L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Linguistica computazionale e approcci corpus-based

Presentazioni simili

Presentazione sul tema: "Linguistica computazionale e approcci corpus-based"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Linguistica computazionale e approcci corpus-based

Presentazioni simili

Presentazione sul tema: "Linguistica computazionale e approcci corpus-based"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back