Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010

2 Problemi nellelaborare il linguaggio Problema 1: Il linguaggio contiene molte ambiguità che rendono difficile elaborarlo Problema 2: Il linguaggio è usato sovente in forma non corretta

Problema 1 Cosa succede se una frase (o sua componente) è ambigua? si costruiscono più strutture alternative e le si gestisce in parallelo, fino alla soluzione dellambiguità MA NON BASTA (quandanche possibile in un sistema reale) occorre avere CRITERI efficienti per ORDINARE le alternative e scegliere la migliore

Problema 2 Esempio: in inglese il soggetto precede il verbo, ma i parlanti comprendono una frase anche se il suo soggetto si trova dopo il verbo QUINDI LA VIOLAZIONE delle REGOLE non impedisce la COMUNICAZIONE

Elaborare il linguaggio Raffinare le tecniche di elaborazione Applicare il trattamento a testi ristretti (ad es. come genere) Sviluppare risorse linguistiche di grandi dimensioni e facilmente riutilizzabili ed accessibili per ottenere basi statistiche

Approccio corpus-based Utilizzato dai linguisti dalla fine dell800 e tuttora molto diffuso Consiste nellapprendere dal linguaggio le regole ed irregolarità del linguaggio

Approccio corpus-based Esempio: nel parsing, di fronte allambiguità e quindi generazione di più strutture, per una singola frase, si ricavano dai dati linguistici i CRITERI per scegliere la migliore delle strutture generate

Approccio corpus-based In pratica: si prende un campione di linguaggio, cioè un insieme di frasi = CORPUS si cercano nel corpus le strutture linguistiche e le loro probabilità = BASE di CONOSCENZA se si incontra una struttura ambigua si cerca nella base di conoscenza linformazione utile per costruire la rappresentazione più probabile della struttura

Un progetto reale: TUT Obiettivo: sviluppare una risorsa linguistica, una banca di alberi sintattici per litaliano

Fasi di sviluppo del progetto Selezione dei testi da annotare Definizione dello schema di annotazione Applicazione dello schema al corpus di testi (validità e consistenza)

Selezione di testi in TUT 45% testi da giornali quotidiani e riviste 45% testi dal codice civile 10% testi da un corpus multilingue della CE

ES: corpora balancing TEXTS from PRAGUE newspapers, scientific and economic journals NEGRA newspaper Frankfurter Rundschau PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations

Definizione dello schema di annotazione Scelta del formalismo Scelta delle informazioni e strutture da rappresentare

Struttura sintattica: scelta tra 2 aspetti Lorganizzazione delle unitá della frase (sintagmi e constituent structure) La funzione degli elementi della frase (relazioni grammaticali e relational structure)

Relational structure Le parole della frase svolgono funzioni diverse Le funzioni sono espresse in termini di relazioni grammaticali

Giorgio ama Maria SUBJOBJ Relational structure

Constituent structure Le parole della frase sono organizzate in unità (costituenti) che a loro volta sono oggetto di una organizzazione (constituent structure) in unità più grandi

ES: constituents GiorgioamaMaria Nome-pr Verbo VP S NP

Constituent structure (S (NP ( NOME Giorgio)) (VP (VERBO ama) (NP (NOME Maria) )

Constituent structure Le relazioni tra le parole non sono tutte uguali: Maria leggeva un libro in biblioteca

ES: Penn annotation ( S ( NP - SBJ (PRP I) ) ( ADVP - TMP ( RB never) ) ( VP (VBD had) ( NP (JJ many) (NNS clients) ) ( NP - ADV (DT a) ( NN day) )) )) NP VP NP ADVP NP S SBJ TMP PRP RB VBD NNSDT NNDT ADV

ES: NEGRA annotation S VP HDSBNG MOHDOA OC ADV VVPP VAFIN NE NE ADV

Costituenti e relazioni La struttura relazionale include le informazioni relative all organizzazione della frase in unità La struttura a costituenti non include le informazioni relative alla funzione delle parole La struttura relazionale è più compatta

Sia le relazioni che i costituenti sono realizzati in modo diverso nelle diverse lingue La struttura relazionale include la struttura argomentale Costituenti e relazioni

La struttura argomentale relazioni grammaticali ruoli semantici uguali o distinti?

Le relazioni grammaticali Identificabili da varie proprietà Diverse nelle varie lingue

ES: annotation processes MORPHOSYNTSEM PRAGUE semi- automatic NEGRA automaticinteractive (probabilistic) PENN automaticautomatic (skeletal)

Processo di sviluppo del TUT Part Of Speech tagging automatico Correzione manuale del tagging Parsing interattivo Verifica e revisione

6.4. TUT application and future Study of the Italian word order Extraction of grammar Conversion in other treebank formats …

ES: word order in Italian (in 1200 sentences)

6.2.2 TUT relation components Morpho-syntactic: m orpho-syntactic features such as Verb, Noun … Functional-syntactic: syntactic relations such as Subject, Object Semantic: semantic relations such as Location, Time, Cause

ES: morpho-syntactic component La nazione sogna ricchezza I sogni di ricchezza della nazione Velocemente / in modo veloce VERB-SUBJ NOUN-OBJ NOUN-SUBJ VERB-OBJ VERB NOUN ADV-role

ES: morpho-syntactic component in TUT

Empirical evidence for the morpho- syntactic component in TUT Given 944 different Verbs = 4169 occurrences 30% of these Verbs (and associated predicative structure) are present in the nominal morpho-syntactic variant too

ES: functional-syntactic component Egli non è stato visto da nessuno Egli non è stato visto da ieri ARG MOD

ES: functional-syntactic component in TUT

ES: semantic component Da qui è partito lassalto Succedeva dallaltra parte del mondo I miliardi stanziati dal 1991 Era impazzito dal dolore Trarrà beneficio dalla bonifica LOC+FROM LOC+IN TIME REASONCAUSE SOURCE

ES: semantic component in TUT

Empirical evidence for the semantic component in TUT Given 600 prepositional phrases introduced by the Preposition DA and playing the functional-syntactic role RMOD They assume 7 different semantic values: LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE

ES: Annotation in TUT 1 In (IN PREP MONO) [7;PREP-RMOD-TIME] 2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG] 3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG] 4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ] 5 la (IL ART DEF F SING) [4;APPOSITION] 6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG] 7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB] 8 il (IL ART DEF F SING) [7;VERB-OBJ] 9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]

END For further information: http://www.di.unito.it/~tutreeb (bosco@di.unito.itbosco@di.unito.it http://www.di.unito.it/~bosco)

Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Presentazioni simili

Presentazione sul tema: "Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Presentazioni simili

Presentazione sul tema: "Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back