Elaborazione del linguaggio naturale

Slides:



Advertisements
Presentazioni simili
Primary Italian Saying How You Are.
Advertisements

OPTICS BY THE NUMBERS LOttica Attraverso i Numeri Michael Scalora U.S. Army Research, Development, and Engineering Center Redstone Arsenal, Alabama,
1 Implementazione di Linguaggi 2 PARTE 5 Implementazione di Linguaggi 2 PARTE 5 Massimo Ancona DISI Università di Genova Testo: A.V. Aho, R. Sethi, J.D.Ullman.
Strategie per la progettazione di algoritmi:
Sistemi computazionali per il linguaggio naturale
Domenica 21 ottobre Domenica 21 ottobre 2012.
REALIZING CONSTRUCTIVIST OBJECTIVES THROUGH COLLABORATIVE TECHNOLOGIES: THREADED DISCUSSIONS Donald Weasenforth Sigrum Biesenbach- Lucas Christine Meloni.
Semantica approcci computazionali
Intelligenza Artificiale Linguaggio naturale
Elaborazione del linguaggio naturale automi & morfologia Maria Teresa PAZIENZA a.a
Elaborazione del linguaggio naturale sintassi
Maria Teresa PAZIENZA a.a
Maria Teresa PAZIENZA a.a
Elaborazione del linguaggio naturale Analisi sintattica: parsing CHAOS Maria Teresa PAZIENZA a.a
Elaborazione del linguaggio naturale Analisi sintattica: parsing CHAOS
FMZ, Giugno 2001 Parsing del linguaggio naturale Fabio Massimo Zanzotto Università di Tor Vergata.
Elaborazione del linguaggio naturale Analisi sintattica: parsing
Maria Teresa PAZIENZA a.a
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale Prof. M.T. PAZIENZA a.a
Elaborazione del linguaggio naturale morfologia, FSA, FST, POS esercizi Maria Teresa PAZIENZA a.a
Sistemi basati su conoscenza Conoscenza e ragionamento Prof. M.T. PAZIENZA a.a
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Digressione: il linguaggio di query CQP
Chomsky La grammatica/sintassi è una proprietà della mente
Intelligenza Artificiale
INSIEMI NUMERABILI L’analisi matematica introduce il concetto di insieme numerabile come insieme i cui elementi possono essere “contati” ossia che possiede.
LINGUAGGI DI PROGRAMMAZIONE
Elementi di Informatica
Rappresentazione della Conoscenza
Chomsky La grammatica/sintassi è una proprietà della mente Distinta dalla capacità di comunicare E una facoltà autonoma ed innata La comunicazione è solo.
Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.
SINTASSI.
Fabio Massimo Zanzotto (slides di Andrea Turbati con aggiunte)
Trattamento Automatico delle Lingue R. Basili a.a
Grammatiche, Linguaggio e Automi R. Basili TAL - a.a
Elaborazione del linguaggio naturale automi & morfologia
La vita Nato il 26/04/1564 a Stratford-on- Abon. Frequentò la Grammar School . Nei primi anni dell a sua giovinezza lavora con il padre. William.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale (grammatica, semantica) Prof. M.T. PAZIENZA a.a
Gli Algoritmi L’algoritmo è un insieme ordinato di operazioni non ambigue ed effettivamente computabili che, quando eseguito, produce un risultato e si.
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
Elaborazione del linguaggio naturale CFG: esercizi Maria Teresa PAZIENZA a.a
Componenti formali del linguaggio
I giorni della settimana
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
Elaborazione del linguaggio naturale automi & morfologia Maria Teresa PAZIENZA a.a
Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale
1 Università degli Studi di Pisa Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informaticaa Corso di Intelligenza Artificiale: Trattamento.
Linguistica computazionale e approcci corpus-based
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Semantica approcci computazionali Maria Teresa PAZIENZA a.a
TEORIE E TECNICHE DEL RICONOSCIMENTO
Sistemi basati su conoscenza Linguaggio naturale: semantica Prof. M.T. PAZIENZA a.a
Elaborazione del linguaggio naturale morfologia, FSA, FST, POS esercizi Maria Teresa PAZIENZA a.a
Elaborazione del linguaggio naturale morfologia, FSA, FST, POS esercizi Maria Teresa PAZIENZA.
Parsing Sintattico con Context Free Grammars Michelangelo Falco - Seminari del Corso di Linguistica Computazionale Siena 19.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale (grammatica, semantica) Prof. M.T. PAZIENZA a.a
TEORIE E TECNICHE DEL RICONOSCIMENTO
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Istituzioni di linguistica
Elaborazione del linguaggio naturale Analisi sintattica: parsing Maria Teresa PAZIENZA a.a
La Comprensione frasale
Simple Sentences in Italian
Corso di “Teorie e pratiche della traduzione” “La scrittura accademica attraverso le lingue e le culture: studio su corpus della voce autoriale” Dott.ssa.
Stare essere avere Irregular Verbs Meaning: To Be To Have.
Linguaggi e Grammatiche Alfabeto : insieme non vuoto di elementi detti simboli A = { a, b, c } Stringa : sequenza di simboli di un alfabeto ab abc abcab.
ROMA 23 GIUGNO 2016 AREA TEMATICA 1. PROSPETTIVE DEI SISTEMI STATISTICI Validation: un approccio metodologico comune per la validazione dei dati e l’automazione.
MSc in Communication Sciences Program in Technologies for Human Communication Davide Eynard Facoltà di scienze della comunicazione Università della.
Adolf Luther Born 1912 in Krefeld, Germany. Died 1990 Krefeld.
Transcript della presentazione:

Elaborazione del linguaggio naturale Fabio Massimo Zanzotto FMZ

Modular and Robust parsing Part seven Modular and Robust parsing FMZ

Our Aim Lines of development Grammatical Representation Power: CFG (context free grammars)  DCG Feature Structures Tree Adjoining Grammars (TAG) Grammar Use: CYK Chart and Early Algorithm FMZ

Lesson learnt Lexicon (i.e. words) is a very important piece of the Language and of the language model Words carry meaning and govern the syntactic structure of sentences FMZ

Limits of the previous approaches When parsing or: one interpretation is active at each processing step (for example, DCG in Prolog) all interpretations are active (for example, CYK or Chart Parsing) Processing complexity depends on the number of active interpretation FMZ

Observation Question: is it possible to fix some ambiguity in early step of the analysis? Art Prn mangia ... la FMZ

Decomposizione del processo Processori Pi che si occupano di specifici fenomeni accoppiati con una possibile funzione di disambiguazione basata su informazioni locali P1 Pn … P1 Pn FMZ

Decomposizione del processo Ricerca di obbiettivi (o rappresentazioni) intermedi raggiungibili (e utili) Criteri psicolinguistici Requisiti computazionali Esigenze applicative È possibile trovare soluzioni approssimate per problemi più semplici? FMZ

Decomposizione del processo L'industria giapponese dei robot, una delle poche a non risentire della grave crisi economica, ha sfornato una versione perfezionata del robot umanoide "Db", fatto nascere due anni fa in un laboratorio vicino a Kyoto. FMZ

Decomposizione del processo Esiste un livello di aggregazione nel testo che si pone tra parole e frasi. Gli aggregati non si sovrappongono (i.e. non sono “ricorsivi”) FMZ

Chunking: esempio di stratificazione di un albero VP NP NP VP NP PP NP AdjP NP AdjP NP A N Adj V V A N Adj PA N Adj N L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”. FMZ

Chunking: esempio di stratificazione di un albero VP NP AdjP NP VP PP NP AdjP NP NP A N Adj V V A N Adj PA N Adj N L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”. FMZ

Chunking: esempio di stratificazione di un albero VP NP VP NP PP NP AdjP NP AdjP NP A N Adj V V A N Adj PA N Adj N L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”. FMZ

Chunking: esempio di stratificazione di un albero NP VP PP NP AdjP NP NP A N Adj V V A N Adj PA N Adj N L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”. FMZ

Decomposizione del processo Chunk: livello intermedio di rappresentazione giustificato psico-linguisticamente (Abney, 1991) Definizione (intuitiva) di chunk: Sequenza di parole fortemente connessa con un unico portatore di significato costante alle differenti interpretazioni FMZ

Decomposizione del processo LESSICALIZZAZIONE: Controllo dell’ambiguità verbi controllano semantica delle proposizioni quindi controllano le relazioni sintattiche I medici operano un paziente al femore : aveva 105 anni. FMZ

Decomposizione del processo Controllo dell’ambiguità verbi controllano semantica delle proposizioni quindi controllano le relazioni sintattiche SUBJ operare OBJ PP(a) I medici operano un paziente al femore : aveva 105 anni. FMZ

Definizione di chunk Bottom-up: Top-down: Una sequenza di parole che rappresenta il nucleo non ricorsivo di sintagmi nominali, preposizionali, verbali ed aggettivali Top-down: Una sequenza di parole le cui relazioni non sono influenzate dal comportamento dei verbi FMZ

Chunk: osservazioni Chunk nuclei “non ricorsivi”* di sintagmi particolari Chunk sono riconoscibili con automi a stati finiti * “non ricorsivi” = ricorsivi destri che non rimandano a sintagmi superiori FMZ

Chunking: prototipi Prototipo: regola per catturare chunk esprimibile utilizzando informazione di POS tags tramite espressioni regolari/trasduttori (Fastus, Alembic, Chanod&Ait) marker iniziale e finale (ACL, 2001) FMZ

Chunking: prototipi Esempi di espressioni regolari: NPK: Art N | Art A N VPK: V | V V PPK: P Art N | P Art A N FMZ

Chunking: prototipi Esempi di marker iniziale e finale: NPK: MI: Art MF: N VPK: MI: V MF: V PPK: MI: P MF: N FMZ

Chunking: considerazioni Identificazione e classificazione: possibile nel livello sintattico risolvibile con macchinari semplici (i.e. FSA) La grammatica (ovvero i prototipi) indipendente dal dominio di applicazione Domanda: Qualora fosse la sola informazione estratta, sarebbe utile per una qualche applicazione? FMZ

Prerequisiti Chunking Riconoscimento dei legami verbali: Part-of-speech tagging Riconoscimento dei legami verbali: Individuazione dei limiti delle proposizioni (clause boundary recognition) FMZ

Part-of-speech tagging Definizione del problema w1…wn t1…tn Strategies to use with questions you cannot answer NNS TO VB IN PRP MD FMZ

Part-of-speech tagging Origini (1989) sotto la spinta dell’Information Extraction alla Message Understanding Conference Approcci approcci simbolici (regole trasformazionali, Brill 94) approcci statistici (a seguire) FMZ

POS Tagging basato sulle trasformazioni (Brill, 94) Dato un primo tagging (dizionario con tag più frequenti), applicare regole di trasformazione fino a che l’errore non diminuisca sotto una soglia FMZ

Trasformazioni Regole di riscrittura Esempio t1  t2 se <condizione nello spazio circostante (triggering environment)> Esempio NN  VB se il tag precedente è TO Strategies to use with questions you cannot answer NNS TO VB IN PRP MD TO NN VB Strategies to use with questions you cannot answer NNS TO NN IN PRP MD VB FMZ

Trasformazioni: Schemi dei triggering environments ti ti-3 ti-2 ti-1 ti+1 ti+2 ti+3 * * * * * * * * * FMZ

Trasformazioni: algoritmo di apprendimento Quali trasformazioni? Quale ordine di applicazione? FMZ

Trasformazioni: algoritmo di apprendimento C0:= Corpus con tag più frequenti for k:=0 step 1 do v:= trasformazione n che minimizza E(n(Ck)) if (E(Ck) - E(n(Ck))) < e then break Ck+1 :=v(Ck) tk+1:= v end OUTPUT: sequenza t1, …, tk FMZ

POS Tagging basato sulle trasformazioni Tagging delle parole sconosciute basato sulla morfologia Tutte le parole sconosciute vengono taggate con NN Il tag viene cambiato seguendo alcune regole trasformazionali morfologiche Es: NN NNS la parola termina con -s FMZ

POS Tagging basato sulle trasformazioni Qualità dell’attività di POS Tagging dipende: dall’insieme dei tag obbiettivo dalla possibilità di recuperare informazione disambiguante nei contesti di attivazione Es.: che in italiano (pronome/congiuzione) dal materiale di apprendimento FMZ

Clause boundary recognition Definizione del problema ( ) L'industria giapponese dei robot, una delle poche a non risentire della grave crisi economica , ha sfornato una versione perfezionata del robot umanoide "Db", fatto nascere due anni fa in un laboratorio vicino a Kyoto . ( ) ( ) FMZ

Clause boundary recognition Proposizioni sono utili per: Conversione Text-to-speech Allineamento di testi Traduzione automatica Particolarità Ricorsività non presente nei chunks FMZ

Clause boundary recognition contribute-NP-PP(to) value-NP-PP(at) Inf(S1) Inf(S2) [ Mr. Gaubert ] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American] FMZ

Clause boundary recognition contribute-NP-PP(to) value-NP-PP(at) Inf(S1) Inf(S2) [ Mr. Gaubert ] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American] FMZ

Clause boundary recognition contribute-NP-PP(to) value-NP-PP(at) Inf(S1) Inf(S2) [ Mr. Gaubert ] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American] FMZ

Clause boundary recognition Algoritmo: Ipotesi iniziale di minima estensione delle proposizioni gerarchia derivata Finché ci sono verbi da analizzare (da destra verso sinistra): Riconoscere il legami verbali Espandere l’estensione minima della proposizione FMZ

Controllo del processo Passi analisi: POS Tagging Chunking Clause Boundary Recognition Verb Argument Detection FMZ

Controllo del processo Situazione problematica: necessità di definire i tipi di dati trattati P1 Pn … P1 Pn … FMZ

Controllo del processo Situazione problematica: necessità di definire i tipi di dati trattati P1 Pn … Giudice FMZ

Formalismo di rappresentazione Requisiti: Rappresentazione di analisi parziali Rappresentazione di legami distanti Information hiding rendere disponibile la sola informazione necessaria … ma capace di esprimere tutti i vincoli correnti FMZ

Formalismo di rappresentazione Rappresentazione a costituenti Context-free Grammar (Tree) Well Formed Substring Table (WFST): chart Tree-Adjoint Grammar (TAG) Rappresentazione a dipendenze Link Grammar Rappresentazione miste Extended Dependency Graph (XDG) FMZ

XDG: eXtended Dependency Graph an XDG is a graph: XDG=(constituents,dependencies) Nice property: allow to store persistent ambiguity (for interpretations projected by the same nodes) Each constituent has: a potential governor a grammatical head FMZ

Pi(Si,Ki)=Si+1  Pi(Si)=Si+1 Modular approach Syntactic parser SP(S,K)=I  SP(S)=I Syntactic parsing module: Pi(Si,Ki)=Si+1  Pi(Si)=Si+1 Modular syntactic parser SP = Pn... P2P1 FMZ

Classification of parsing modules Pi(XDGi,Ki)=Pi(XDGi)=XDGi+1 The classification is performed according to: the type of information K used how they manipulate the sentence representation FMZ

Decomposizione del processo Principi: Scegliere i fenomeni trattati in ogni livello Scegliere l’algoritmo migliore per ogni task Scegliere un opportuno formalismo di rappresentazione FMZ

Back to the beginning... x Marinaio (x).( y Ragazza(y)  Ama (x, y))  y Ragazza(y).(x Marinaio (x)  Ama (x, y)) conosenza simbolica incerta ? conosenza simbolica abilità linguistica apprendimento “Tutti i marinai amano una ragazza” FMZ

Interpreting Language Through Syntax Assunzione di Chomsky: i differenti significati hanno differenti strutture sintattiche “profonde” Esempio: Luigina ha chiesto in prestito la borsetta di pelle di nonna. Possibili Costruzioni Sintattiche in alberi: ...(la borsetta di (pelle di nonna)) ...(la (borsetta di pelle) di nonna) FMZ

Where we worked Lines of development Grammatical Representation Power: CFG (context free grammars)  DCG Feature Structures Tree Adjoining Grammars (TAG) Grammar Use: CYK Chart and Early Algorithm Modular Parsing and Cascades of Different Theories (XDG) FMZ

NLP Applications Information Extraction Q&A Ontological Q&A Textual Entailment FMZ