La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Presentazioni simili


Presentazione sul tema: "Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010."— Transcript della presentazione:

1 Elaborare il linguaggio naturale Cristina Bosco (bosco@di.unito.it) Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010

2 2 Problemi nellelaborare il linguaggio Problema 1: Il linguaggio contiene molte ambiguità che rendono difficile elaborarlo Problema 2: Il linguaggio è usato sovente in forma non corretta

3 Problema 1 Cosa succede se una frase (o sua componente) è ambigua? si costruiscono più strutture alternative e le si gestisce in parallelo, fino alla soluzione dellambiguità MA NON BASTA (quandanche possibile in un sistema reale) occorre avere CRITERI efficienti per ORDINARE le alternative e scegliere la migliore

4 Problema 2 Esempio: in inglese il soggetto precede il verbo, ma i parlanti comprendono una frase anche se il suo soggetto si trova dopo il verbo QUINDI LA VIOLAZIONE delle REGOLE non impedisce la COMUNICAZIONE

5 Elaborare il linguaggio Raffinare le tecniche di elaborazione Applicare il trattamento a testi ristretti (ad es. come genere) Sviluppare risorse linguistiche di grandi dimensioni e facilmente riutilizzabili ed accessibili per ottenere basi statistiche

6 Approccio corpus-based Utilizzato dai linguisti dalla fine dell800 e tuttora molto diffuso Consiste nellapprendere dal linguaggio le regole ed irregolarità del linguaggio

7 Approccio corpus-based Esempio: nel parsing, di fronte allambiguità e quindi generazione di più strutture, per una singola frase, si ricavano dai dati linguistici i CRITERI per scegliere la migliore delle strutture generate

8 Approccio corpus-based In pratica: si prende un campione di linguaggio, cioè un insieme di frasi = CORPUS si cercano nel corpus le strutture linguistiche e le loro probabilità = BASE di CONOSCENZA se si incontra una struttura ambigua si cerca nella base di conoscenza linformazione utile per costruire la rappresentazione più probabile della struttura

9 Un progetto reale: TUT Obiettivo: sviluppare una risorsa linguistica, una banca di alberi sintattici per litaliano

10 Fasi di sviluppo del progetto Selezione dei testi da annotare Definizione dello schema di annotazione Applicazione dello schema al corpus di testi (validità e consistenza)

11 Selezione di testi in TUT 45% testi da giornali quotidiani e riviste 45% testi dal codice civile 10% testi da un corpus multilingue della CE

12 ES: corpora balancing TEXTS from PRAGUE newspapers, scientific and economic journals NEGRA newspaper Frankfurter Rundschau PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations

13 Definizione dello schema di annotazione Scelta del formalismo Scelta delle informazioni e strutture da rappresentare

14 Struttura sintattica: scelta tra 2 aspetti Lorganizzazione delle unitá della frase (sintagmi e constituent structure) La funzione degli elementi della frase (relazioni grammaticali e relational structure)

15 Relational structure Le parole della frase svolgono funzioni diverse Le funzioni sono espresse in termini di relazioni grammaticali

16 Giorgio ama Maria SUBJOBJ Relational structure

17 Constituent structure Le parole della frase sono organizzate in unità (costituenti) che a loro volta sono oggetto di una organizzazione (constituent structure) in unità più grandi

18 ES: constituents GiorgioamaMaria Nome-pr Verbo VP S NP

19 Constituent structure (S (NP ( NOME Giorgio)) (VP (VERBO ama) (NP (NOME Maria) )

20 Constituent structure Le relazioni tra le parole non sono tutte uguali: Maria leggeva un libro in biblioteca

21 ES: Penn annotation ( S ( NP - SBJ (PRP I) ) ( ADVP - TMP ( RB never) ) ( VP (VBD had) ( NP (JJ many) (NNS clients) ) ( NP - ADV (DT a) ( NN day) )) )) NP VP NP ADVP NP S SBJ TMP PRP RB VBD NNSDT NNDT ADV

22 ES: NEGRA annotation S VP HDSBNG MOHDOA OC ADV VVPP VAFIN NE NE ADV

23 Costituenti e relazioni La struttura relazionale include le informazioni relative all organizzazione della frase in unità La struttura a costituenti non include le informazioni relative alla funzione delle parole La struttura relazionale è più compatta

24 Sia le relazioni che i costituenti sono realizzati in modo diverso nelle diverse lingue La struttura relazionale include la struttura argomentale Costituenti e relazioni

25 La struttura argomentale relazioni grammaticali ruoli semantici uguali o distinti?

26 Le relazioni grammaticali Identificabili da varie proprietà Diverse nelle varie lingue

27 ES: annotation processes MORPHOSYNTSEM PRAGUE semi- automatic NEGRA automaticinteractive (probabilistic) PENN automaticautomatic (skeletal)

28 Processo di sviluppo del TUT Part Of Speech tagging automatico Correzione manuale del tagging Parsing interattivo Verifica e revisione

29 6.4. TUT application and future Study of the Italian word order Extraction of grammar Conversion in other treebank formats …

30 ES: word order in Italian (in 1200 sentences)

31 6.2.2 TUT relation components Morpho-syntactic: m orpho-syntactic features such as Verb, Noun … Functional-syntactic: syntactic relations such as Subject, Object Semantic: semantic relations such as Location, Time, Cause

32 ES: morpho-syntactic component La nazione sogna ricchezza I sogni di ricchezza della nazione Velocemente / in modo veloce VERB-SUBJ NOUN-OBJ NOUN-SUBJ VERB-OBJ VERB NOUN ADV-role

33 ES: morpho-syntactic component in TUT

34 Empirical evidence for the morpho- syntactic component in TUT Given 944 different Verbs = 4169 occurrences 30% of these Verbs (and associated predicative structure) are present in the nominal morpho-syntactic variant too

35 ES: functional-syntactic component Egli non è stato visto da nessuno Egli non è stato visto da ieri ARG MOD

36 ES: functional-syntactic component in TUT

37 ES: semantic component Da qui è partito lassalto Succedeva dallaltra parte del mondo I miliardi stanziati dal 1991 Era impazzito dal dolore Trarrà beneficio dalla bonifica LOC+FROM LOC+IN TIME REASONCAUSE SOURCE

38 ES: semantic component in TUT

39 Empirical evidence for the semantic component in TUT Given 600 prepositional phrases introduced by the Preposition DA and playing the functional-syntactic role RMOD They assume 7 different semantic values: LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE

40 ES: Annotation in TUT 1 In (IN PREP MONO) [7;PREP-RMOD-TIME] 2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG] 3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG] 4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ] 5 la (IL ART DEF F SING) [4;APPOSITION] 6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG] 7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB] 8 il (IL ART DEF F SING) [7;VERB-OBJ] 9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]

41 END For further information: http://www.di.unito.it/~tutreeb (bosco@di.unito.itbosco@di.unito.it http://www.di.unito.it/~bosco)


Scaricare ppt "Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010."

Presentazioni simili


Annunci Google