La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Elaborazione del linguaggio naturale

Presentazioni simili


Presentazione sul tema: "Elaborazione del linguaggio naturale"— Transcript della presentazione:

1 Elaborazione del linguaggio naturale
Fabio Massimo Zanzotto FMZ

2 Modular and Robust parsing
Part seven Modular and Robust parsing FMZ

3 Our Aim Lines of development Grammatical Representation Power:
CFG (context free grammars)  DCG Feature Structures Tree Adjoining Grammars (TAG) Grammar Use: CYK Chart and Early Algorithm FMZ

4 Lesson learnt Lexicon (i.e. words) is a very important piece of the Language and of the language model Words carry meaning and govern the syntactic structure of sentences FMZ

5 Limits of the previous approaches
When parsing or: one interpretation is active at each processing step (for example, DCG in Prolog) all interpretations are active (for example, CYK or Chart Parsing) Processing complexity depends on the number of active interpretation FMZ

6 Observation Question:
is it possible to fix some ambiguity in early step of the analysis? Art Prn mangia ... la FMZ

7 Decomposizione del processo
Processori Pi che si occupano di specifici fenomeni accoppiati con una possibile funzione di disambiguazione basata su informazioni locali P1 Pn P1 Pn FMZ

8 Decomposizione del processo
Ricerca di obbiettivi (o rappresentazioni) intermedi raggiungibili (e utili) Criteri psicolinguistici Requisiti computazionali Esigenze applicative È possibile trovare soluzioni approssimate per problemi più semplici? FMZ

9 Decomposizione del processo
L'industria giapponese dei robot, una delle poche a non risentire della grave crisi economica, ha sfornato una versione perfezionata del robot umanoide "Db", fatto nascere due anni fa in un laboratorio vicino a Kyoto. FMZ

10 Decomposizione del processo
Esiste un livello di aggregazione nel testo che si pone tra parole e frasi. Gli aggregati non si sovrappongono (i.e. non sono “ricorsivi”) FMZ

11 Chunking: esempio di stratificazione di un albero
VP NP NP VP NP PP NP AdjP NP AdjP NP A N Adj V V A N Adj PA N Adj N L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”. FMZ

12 Chunking: esempio di stratificazione di un albero
VP NP AdjP NP VP PP NP AdjP NP NP A N Adj V V A N Adj PA N Adj N L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”. FMZ

13 Chunking: esempio di stratificazione di un albero
VP NP VP NP PP NP AdjP NP AdjP NP A N Adj V V A N Adj PA N Adj N L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”. FMZ

14 Chunking: esempio di stratificazione di un albero
NP VP PP NP AdjP NP NP A N Adj V V A N Adj PA N Adj N L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”. FMZ

15 Decomposizione del processo
Chunk: livello intermedio di rappresentazione giustificato psico-linguisticamente (Abney, 1991) Definizione (intuitiva) di chunk: Sequenza di parole fortemente connessa con un unico portatore di significato costante alle differenti interpretazioni FMZ

16 Decomposizione del processo
LESSICALIZZAZIONE: Controllo dell’ambiguità verbi controllano semantica delle proposizioni quindi controllano le relazioni sintattiche I medici operano un paziente al femore : aveva 105 anni. FMZ

17 Decomposizione del processo
Controllo dell’ambiguità verbi controllano semantica delle proposizioni quindi controllano le relazioni sintattiche SUBJ operare OBJ PP(a) I medici operano un paziente al femore : aveva 105 anni. FMZ

18 Definizione di chunk Bottom-up: Top-down:
Una sequenza di parole che rappresenta il nucleo non ricorsivo di sintagmi nominali, preposizionali, verbali ed aggettivali Top-down: Una sequenza di parole le cui relazioni non sono influenzate dal comportamento dei verbi FMZ

19 Chunk: osservazioni Chunk
nuclei “non ricorsivi”* di sintagmi particolari Chunk sono riconoscibili con automi a stati finiti * “non ricorsivi” = ricorsivi destri che non rimandano a sintagmi superiori FMZ

20 Chunking: prototipi Prototipo: regola per catturare chunk
esprimibile utilizzando informazione di POS tags tramite espressioni regolari/trasduttori (Fastus, Alembic, Chanod&Ait) marker iniziale e finale (ACL, 2001) FMZ

21 Chunking: prototipi Esempi di espressioni regolari: NPK:
Art N | Art A N VPK: V | V V PPK: P Art N | P Art A N FMZ

22 Chunking: prototipi Esempi di marker iniziale e finale: NPK:
MI: Art MF: N VPK: MI: V MF: V PPK: MI: P MF: N FMZ

23 Chunking: considerazioni
Identificazione e classificazione: possibile nel livello sintattico risolvibile con macchinari semplici (i.e. FSA) La grammatica (ovvero i prototipi) indipendente dal dominio di applicazione Domanda: Qualora fosse la sola informazione estratta, sarebbe utile per una qualche applicazione? FMZ

24 Prerequisiti Chunking Riconoscimento dei legami verbali:
Part-of-speech tagging Riconoscimento dei legami verbali: Individuazione dei limiti delle proposizioni (clause boundary recognition) FMZ

25 Part-of-speech tagging
Definizione del problema w1…wn t1…tn Strategies to use with questions you cannot answer NNS TO VB IN PRP MD FMZ

26 Part-of-speech tagging
Origini (1989) sotto la spinta dell’Information Extraction alla Message Understanding Conference Approcci approcci simbolici (regole trasformazionali, Brill 94) approcci statistici (a seguire) FMZ

27 POS Tagging basato sulle trasformazioni (Brill, 94)
Dato un primo tagging (dizionario con tag più frequenti), applicare regole di trasformazione fino a che l’errore non diminuisca sotto una soglia FMZ

28 Trasformazioni Regole di riscrittura Esempio
t1  t2 se <condizione nello spazio circostante (triggering environment)> Esempio NN  VB se il tag precedente è TO Strategies to use with questions you cannot answer NNS TO VB IN PRP MD TO NN VB Strategies to use with questions you cannot answer NNS TO NN IN PRP MD VB FMZ

29 Trasformazioni: Schemi dei triggering environments
ti ti-3 ti-2 ti-1 ti+1 ti+2 ti+3 * * * * * * * * * FMZ

30 Trasformazioni: algoritmo di apprendimento
Quali trasformazioni? Quale ordine di applicazione? FMZ

31 Trasformazioni: algoritmo di apprendimento
C0:= Corpus con tag più frequenti for k:=0 step 1 do v:= trasformazione n che minimizza E(n(Ck)) if (E(Ck) - E(n(Ck))) < e then break Ck+1 :=v(Ck) tk+1:= v end OUTPUT: sequenza t1, …, tk FMZ

32 POS Tagging basato sulle trasformazioni
Tagging delle parole sconosciute basato sulla morfologia Tutte le parole sconosciute vengono taggate con NN Il tag viene cambiato seguendo alcune regole trasformazionali morfologiche Es: NN NNS la parola termina con -s FMZ

33 POS Tagging basato sulle trasformazioni
Qualità dell’attività di POS Tagging dipende: dall’insieme dei tag obbiettivo dalla possibilità di recuperare informazione disambiguante nei contesti di attivazione Es.: che in italiano (pronome/congiuzione) dal materiale di apprendimento FMZ

34 Clause boundary recognition
Definizione del problema ( ) L'industria giapponese dei robot, una delle poche a non risentire della grave crisi economica , ha sfornato una versione perfezionata del robot umanoide "Db", fatto nascere due anni fa in un laboratorio vicino a Kyoto . ( ) ( ) FMZ

35 Clause boundary recognition
Proposizioni sono utili per: Conversione Text-to-speech Allineamento di testi Traduzione automatica Particolarità Ricorsività non presente nei chunks FMZ

36 Clause boundary recognition
contribute-NP-PP(to) value-NP-PP(at) Inf(S1) Inf(S2) [ Mr. Gaubert ] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American] FMZ

37 Clause boundary recognition
contribute-NP-PP(to) value-NP-PP(at) Inf(S1) Inf(S2) [ Mr. Gaubert ] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American] FMZ

38 Clause boundary recognition
contribute-NP-PP(to) value-NP-PP(at) Inf(S1) Inf(S2) [ Mr. Gaubert ] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American] FMZ

39 Clause boundary recognition
Algoritmo: Ipotesi iniziale di minima estensione delle proposizioni gerarchia derivata Finché ci sono verbi da analizzare (da destra verso sinistra): Riconoscere il legami verbali Espandere l’estensione minima della proposizione FMZ

40 Controllo del processo
Passi analisi: POS Tagging Chunking Clause Boundary Recognition Verb Argument Detection FMZ

41 Controllo del processo
Situazione problematica: necessità di definire i tipi di dati trattati P1 Pn P1 Pn FMZ

42 Controllo del processo
Situazione problematica: necessità di definire i tipi di dati trattati P1 Pn Giudice FMZ

43 Formalismo di rappresentazione
Requisiti: Rappresentazione di analisi parziali Rappresentazione di legami distanti Information hiding rendere disponibile la sola informazione necessaria … ma capace di esprimere tutti i vincoli correnti FMZ

44 Formalismo di rappresentazione
Rappresentazione a costituenti Context-free Grammar (Tree) Well Formed Substring Table (WFST): chart Tree-Adjoint Grammar (TAG) Rappresentazione a dipendenze Link Grammar Rappresentazione miste Extended Dependency Graph (XDG) FMZ

45 XDG: eXtended Dependency Graph
an XDG is a graph: XDG=(constituents,dependencies) Nice property: allow to store persistent ambiguity (for interpretations projected by the same nodes) Each constituent has: a potential governor a grammatical head FMZ

46 Pi(Si,Ki)=Si+1  Pi(Si)=Si+1
Modular approach Syntactic parser SP(S,K)=I  SP(S)=I Syntactic parsing module: Pi(Si,Ki)=Si+1  Pi(Si)=Si+1 Modular syntactic parser SP = Pn... P2P1 FMZ

47 Classification of parsing modules
Pi(XDGi,Ki)=Pi(XDGi)=XDGi+1 The classification is performed according to: the type of information K used how they manipulate the sentence representation FMZ

48 Decomposizione del processo
Principi: Scegliere i fenomeni trattati in ogni livello Scegliere l’algoritmo migliore per ogni task Scegliere un opportuno formalismo di rappresentazione FMZ

49 Back to the beginning... x Marinaio (x).( y Ragazza(y)  Ama (x, y))  y Ragazza(y).(x Marinaio (x)  Ama (x, y)) conosenza simbolica incerta ? conosenza simbolica abilità linguistica apprendimento “Tutti i marinai amano una ragazza” FMZ

50 Interpreting Language Through Syntax
Assunzione di Chomsky: i differenti significati hanno differenti strutture sintattiche “profonde” Esempio: Luigina ha chiesto in prestito la borsetta di pelle di nonna. Possibili Costruzioni Sintattiche in alberi: ...(la borsetta di (pelle di nonna)) ...(la (borsetta di pelle) di nonna) FMZ

51 Where we worked Lines of development Grammatical Representation Power:
CFG (context free grammars)  DCG Feature Structures Tree Adjoining Grammars (TAG) Grammar Use: CYK Chart and Early Algorithm Modular Parsing and Cascades of Different Theories (XDG) FMZ

52 NLP Applications Information Extraction Q&A Ontological Q&A
Textual Entailment FMZ


Scaricare ppt "Elaborazione del linguaggio naturale"

Presentazioni simili


Annunci Google