Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010
2 Problemi nellelaborare il linguaggio Problema 1: Il linguaggio contiene molte ambiguità che rendono difficile elaborarlo Problema 2: Il linguaggio è usato sovente in forma non corretta
Problema 1 Cosa succede se una frase (o sua componente) è ambigua? si costruiscono più strutture alternative e le si gestisce in parallelo, fino alla soluzione dellambiguità MA NON BASTA (quandanche possibile in un sistema reale) occorre avere CRITERI efficienti per ORDINARE le alternative e scegliere la migliore
Problema 2 Esempio: in inglese il soggetto precede il verbo, ma i parlanti comprendono una frase anche se il suo soggetto si trova dopo il verbo QUINDI LA VIOLAZIONE delle REGOLE non impedisce la COMUNICAZIONE
Elaborare il linguaggio Raffinare le tecniche di elaborazione Applicare il trattamento a testi ristretti (ad es. come genere) Sviluppare risorse linguistiche di grandi dimensioni e facilmente riutilizzabili ed accessibili per ottenere basi statistiche
Approccio corpus-based Utilizzato dai linguisti dalla fine dell800 e tuttora molto diffuso Consiste nellapprendere dal linguaggio le regole ed irregolarità del linguaggio
Approccio corpus-based Esempio: nel parsing, di fronte allambiguità e quindi generazione di più strutture, per una singola frase, si ricavano dai dati linguistici i CRITERI per scegliere la migliore delle strutture generate
Approccio corpus-based In pratica: si prende un campione di linguaggio, cioè un insieme di frasi = CORPUS si cercano nel corpus le strutture linguistiche e le loro probabilità = BASE di CONOSCENZA se si incontra una struttura ambigua si cerca nella base di conoscenza linformazione utile per costruire la rappresentazione più probabile della struttura
Un progetto reale: TUT Obiettivo: sviluppare una risorsa linguistica, una banca di alberi sintattici per litaliano
Fasi di sviluppo del progetto Selezione dei testi da annotare Definizione dello schema di annotazione Applicazione dello schema al corpus di testi (validità e consistenza)
Selezione di testi in TUT 45% testi da giornali quotidiani e riviste 45% testi dal codice civile 10% testi da un corpus multilingue della CE
ES: corpora balancing TEXTS from PRAGUE newspapers, scientific and economic journals NEGRA newspaper Frankfurter Rundschau PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations
Definizione dello schema di annotazione Scelta del formalismo Scelta delle informazioni e strutture da rappresentare
Struttura sintattica: scelta tra 2 aspetti Lorganizzazione delle unitá della frase (sintagmi e constituent structure) La funzione degli elementi della frase (relazioni grammaticali e relational structure)
Relational structure Le parole della frase svolgono funzioni diverse Le funzioni sono espresse in termini di relazioni grammaticali
Giorgio ama Maria SUBJOBJ Relational structure
Constituent structure Le parole della frase sono organizzate in unità (costituenti) che a loro volta sono oggetto di una organizzazione (constituent structure) in unità più grandi
ES: constituents GiorgioamaMaria Nome-pr Verbo VP S NP
Constituent structure (S (NP ( NOME Giorgio)) (VP (VERBO ama) (NP (NOME Maria) )
Constituent structure Le relazioni tra le parole non sono tutte uguali: Maria leggeva un libro in biblioteca
ES: Penn annotation ( S ( NP - SBJ (PRP I) ) ( ADVP - TMP ( RB never) ) ( VP (VBD had) ( NP (JJ many) (NNS clients) ) ( NP - ADV (DT a) ( NN day) )) )) NP VP NP ADVP NP S SBJ TMP PRP RB VBD NNSDT NNDT ADV
ES: NEGRA annotation S VP HDSBNG MOHDOA OC ADV VVPP VAFIN NE NE ADV
Costituenti e relazioni La struttura relazionale include le informazioni relative all organizzazione della frase in unità La struttura a costituenti non include le informazioni relative alla funzione delle parole La struttura relazionale è più compatta
Sia le relazioni che i costituenti sono realizzati in modo diverso nelle diverse lingue La struttura relazionale include la struttura argomentale Costituenti e relazioni
La struttura argomentale relazioni grammaticali ruoli semantici uguali o distinti?
Le relazioni grammaticali Identificabili da varie proprietà Diverse nelle varie lingue
ES: annotation processes MORPHOSYNTSEM PRAGUE semi- automatic NEGRA automaticinteractive (probabilistic) PENN automaticautomatic (skeletal)
Processo di sviluppo del TUT Part Of Speech tagging automatico Correzione manuale del tagging Parsing interattivo Verifica e revisione
6.4. TUT application and future Study of the Italian word order Extraction of grammar Conversion in other treebank formats …
ES: word order in Italian (in 1200 sentences)
6.2.2 TUT relation components Morpho-syntactic: m orpho-syntactic features such as Verb, Noun … Functional-syntactic: syntactic relations such as Subject, Object Semantic: semantic relations such as Location, Time, Cause
ES: morpho-syntactic component La nazione sogna ricchezza I sogni di ricchezza della nazione Velocemente / in modo veloce VERB-SUBJ NOUN-OBJ NOUN-SUBJ VERB-OBJ VERB NOUN ADV-role
ES: morpho-syntactic component in TUT
Empirical evidence for the morpho- syntactic component in TUT Given 944 different Verbs = 4169 occurrences 30% of these Verbs (and associated predicative structure) are present in the nominal morpho-syntactic variant too
ES: functional-syntactic component Egli non è stato visto da nessuno Egli non è stato visto da ieri ARG MOD
ES: functional-syntactic component in TUT
ES: semantic component Da qui è partito lassalto Succedeva dallaltra parte del mondo I miliardi stanziati dal 1991 Era impazzito dal dolore Trarrà beneficio dalla bonifica LOC+FROM LOC+IN TIME REASONCAUSE SOURCE
ES: semantic component in TUT
Empirical evidence for the semantic component in TUT Given 600 prepositional phrases introduced by the Preposition DA and playing the functional-syntactic role RMOD They assume 7 different semantic values: LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE
ES: Annotation in TUT 1 In (IN PREP MONO) [7;PREP-RMOD-TIME] 2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG] 3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG] 4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ] 5 la (IL ART DEF F SING) [4;APPOSITION] 6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG] 7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB] 8 il (IL ART DEF F SING) [7;VERB-OBJ] 9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]
END For further information: