Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoRenato Brunetti Modificato 9 anni fa
1
Sistemi avanzati di Web Information retrieval e Elaborazione del linguaggio Naturale
2
Sistemi Avanzati di IR Sistemi di classificazione automatica Sistemi di Information Extraction Sistemi di Question Answering NLP, IA
3
Information Extraction –Viene specificato un argomento (avvicendamenti di managers in aziende di informatica) –Vengono filtrate notizie rilevanti –Vengono riempiti dei “templates” (simili a basi di dati) Question answering –Lezioni di J. Bos
4
Fasi nell’analisi automatica di testi Elaborazione linguaggio naturale Analisi frasiAnalisi discorso generazione MorfologiaSintassiSemantica
5
Metodologie Linguaggi regolari (automi) Grammatiche context-free Grammatiche estese + apprendimento automatico, metodi probabilistici
6
Analisi Morfologica radice parte del discorso (POS)
7
Approcci all'analisi morfologica:
8
Strutture dati necessarie
9
Approcci (2): linguaggi regolari
10
Grammatiche regolari (2)
11
Esempio Fox, bat, fly
12
Esempio complesso di regola di inflessione per Inglese
13
Apprendimento di Analizzatori Morfologici Metodi stocastici (specialmente per POS tagging) –si etichettano con il POS archivi documentali di grandi dimensioni (learning set) –Si utilizza il learning set per imparare delle probabilità (es: P(N/V,art) = probabilità di osservare un nome dopo che si siano osservati un verbo ed un articolo) –Treetagger usa metodi probabilistici aumentati con alberi di decisione –http://www.ims.uni- stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagge r.html
14
Esempio
15
Analisi Sintattica
16
Metodologie Grammatiche libere da contesto Grammatiche ad attributi Lexical Grammars (le “regole” sono associate ai termini di un lessico) Trasduttori (le transizioni vengono “apprese” utilizzando metodi stocastici, come per il caso del POS tagging)
17
Grammatiche ad Attributi
18
Grammatiche ad attributi (2)
19
Parser sintattico
20
Esempio S NP VP Det Noun Verb PP NP Il bimbo mangia Prep NP Det Noun con Det Noun la minestra il cucchiaio
21
Parsers e Chunkers Un parser tenta di produrre una struttura completa della frase, evidenziando le dipendenze fra “phrases” (NP, VP, S, CONJ..) Un “chunker” si limita a riconosce i costituenti principali (in genere, gruppi nominali e verbali)
22
Esempio: The/DT cat/N eats/V the/DT mouse/N
23
Analisi Semantica L'obiettivo dell'analisi semantica è comprendere il significato di una frase. Da un punto di vista pratico questo vuol dire: per una frase dichiarativa, provarne la verit à, o inferire da essa nuove informazioni per una frase imperativa, eseguire l'azione richiesta per una frase interrogativa, rispondere al quesito
24
Approccio Composizionale Approccio composizionale: evidenzia il significato di ogni concetto in termini di concetti pi ù specifici, o primitive GO ENTITY MOVE DESTINATION SOURCE
25
Approccio relazionale evidenzia la semantica superficiale, ovvero la natura delle relazioni fra i termini che appaiono nella frase. Es: (John goes home) person: John AGENT GO DEST home
26
Analisi Semantica Formalismo di rappresentazione (es: FOL) Algoritmo di analisi Base di conoscenza semantica –Esempi: Ontologia Corpora annotati Basi di dati statistiche sulle associazioni fra concetti
27
Word Sense Disambiguation L’analisi semantica comporta la trasformazione di un testo (o documento) in una struttura formale (es. un grafo, o una espressione FOL) Es: [John] agent [go] dest [city:Boston] manner [bus]
28
WSD (2) La Word Sense Disambiguation è un compito più semplice. Data un frase o contesto, l’obiettivo è associare ad ogni parola il concetto, o senso, appropriato rispetto ad un lessico semantico (catalogo di sensi, esempio, WordNet, CYC,..)
29
Esempio The river banks are green River: * S: (1) river (a large natural stream of water (larger than a creek)) "the river was navigable for 50 miles” Bank# S: (1) depository financial institution, bank, banking concern, banking company (a financial institution that accepts deposits and channels the money into lending activities) "he cashed a check at the bank"; "that bank holds the mortgage on my home" # S: (2) bank (sloping land (especially the slope beside a body of water)) "they pulled the canoe up on the bank"; "he sat on the bank of the river and watched the currents" # S: (3) bank (a supply or stock held in reserve for future use (especially in emergencies)) # S: (4) bank, bank building (a building in which the business of banking transacted) "the bank is on the corner of Nassau and Witherspoon” ……(in totale 10 sensi)
30
Metodi per WSD Metodi probabilistici –Apprendono contesti probabili per i vari sensi, basandosi su corpora o dizionari on- line Metodi basati su conoscenza –Utilizzano basi di conoscenza (ontologie)
31
Word Sense Disambiguation: esempio waiterservedwhite port The
32
N N N N N N N N N N N N N N N Word Sense Disambiguation: esempio waiterservedwhite port The V N A A V N N waiter#1 waiter#2 serve#5 serve#15 white#1 white#3 port#2 port#1 N N N fortified wine#1 wine#1 N white wine#1 N beverage#1 N alcohol#1 N N person#1 player#1 intermediate nodeword sense of interest #1#5#3#2
33
Structural Semantic Interconnections (SSI) Un metodo di WSD basato su pattern matching strutturato A partire da un elenco di termini (il contesto) genera un elenco di concetti (i sensi dei termini) e associate relazioni. Usa wordNet come catalogo di concetti. T = [t 1, t 2, …, t n ] contesto I = [S t 1, S t 2, …, S t n ] interpretazione semantica SSI giustificazione per la scelta dei sensi
34
SSI è un algoritmo basato su conoscenza Lexical Knowledge Base (LKB) generato integrando diverse risorse: –WordNet –Oxford Collocations –Longman Language Activator –SemCor e LDC-DSO (semantically annotated corpora) –Siti on-line di collocazioni L’integrazione delle risorse è ottenuta semi- automaticamente –I’inventario di sensi è quello di WordNet
35
Def. Una rappresentazione strutturale di un senso S è un grafo ottenuto applicando un taglio al LKB, centrato in S, che includa tutti i nodi a distanza massima d da S Bus (transport) Bus (connector) Structural Representations
36
Selezione e pesatura dei cammini semantici E’ definita una grammatica context Free che riconosce cammini significativi (es. sequenze di iperonimia, iperonimia + part_of..) I percorsi vengono pesati sulla base della rilevanza e della lunghezza : f I (S, t) è una funzione di pesatura dei patterns S 1 E 1 S 1 | E 1 (hyperonymy/meronymy) E 1 e kind-of | e part-of S 2 E 2 S 2 | E 2 (hyponymy/holonymy) E 2 e has-kind | e has-part S 3 e kind-of S 3 e has-kind | e kind-of e has-kind (parallelism)
37
Formalizzazione del problema T (il context) è un elenco di termini correlati t T è un termine ambiguo S 1 t, S 2 t, …, S n t sono specifiche strutturali (grafi) dei possibili senti di t I (il semantic context) è una lista di specifiche strutturali del contesto T (inizialmente vuota) G è una grammatica che descrive correlazioni rilevanti fra specifiche strutturali Determina il senso S 1 t, S 2 t, …, S n t che si correla meglio con I, usando G Seleziona il senso migliore S i t
38
Tre implementazioni Ricerca esaustiva –Precision e recall alte –Molto lento (non adatto a contesti ampi) Implementazione greedy iterativa –Abbastanza veloce –Un errore può influenzare tutte le scelte successive Iterativa basata su link analysis (Kleinberg’s HITS) –La più veloce –Affidabile
39
Un esempio dell’implementazione greedy “A retrospective is an exhibition of a representative selection of an artist's life work” Inizializzazione: –T = [ retrospective, exhibition, representative, selection, artist, life, work ] –I = [ retrospective#1, -, -, -, artist#1, -, -]
40
Iterazione 1: –T = [ retrospective, exhibition, representative, selection, artist, life, work ] –I = [ retrospective#1, exhibition#2, -, -, artist#1, -, -] Esempio (2)
41
Iterazione 2: –T = [ retrospective, exhibition, representative, selection, artist, life, work ] –I = [ retrospective#1, exhibition#2, -, -, artist#1, -, work#5] Esempio (3)
42
Esempio (4) Iterazione 3: –T = [ retrospective, exhibition, representative, selection, artist, life, work ] –I = [ retrospective#1, exhibition#2, -, -, artist#1, life#8, work#5]
43
Implementazione con HITS Applica HITS per ottenere un ranking dei concetti dato T = [ w 1, w 2, …, w n ], costruiamo G = (V, E), dove: –V è il set dei possibili sensi delle parole in T rispetto a WordNet –E è il set delle interconnessioni fra coppie {S w, S’ w } dove w ≠ w’; e: Interconnesioni multiple fra le stesse coppie vengono collassate in un unico arco il cui peso è calcolato come somma normalizzata dei singoli pesi le interconnessioni sono simmetriche (sia “hubs” che “authorities” ) Applichiamo HITS iteraticvamente
44
w 1T = [ w 1, w 2, w 3, w 4 ] I = [ -, -, -, - ] Implementing SSI with HITS 1 4 2 3 1 2 3 1 w1w1 w2w2 w3w3 w4w4 1 3 2 1 2 3 3 1 1 1 2 2 3 4
45
1 4 2 3 1 2 3 1 w1w1 w2w2 w3w3 w4w4 1 3 2 2 3 3 1 1 1 2 2 3 4 1 w 1T = [ w 1, w 2, w 3, w 4 ] I = [ -, -, -, #1 ]
46
Implementing SSI with HITS 1 4 2 3 1 2 3 1 w1w1 w2w2 w3w3 w4w4 1 3 2 1 3 2 3 1 1 1 2 2 3 4 w 1T = [ w 1, w 2, w 3, w 4 ] I = [ -, #2, -, #1 ]
47
Implementing SSI with HITS 1 4 2 3 1 2 3 1 w1w1 w2w2 w3w3 w4w4 1 3 2 3 1 2 3 1 1 1 2 2 3 4 w 1T = [ w 1, w 2, w 3, w 4 ] I = [ -, #2, #1, #1 ]
48
Implementing SSI with HITS 1 4 2 3 1 2 3 1 w1w1 w2w2 w3w3 w4w4 1 3 2 3 1 2 3 1 1 1 2 2 3 4 w 1T = [ w 1, w 2, w 3, w 4 ] #3I = [ #3, #2, #1, #1 ]
49
On-line su http://lcl.di.uniroma1.it/ssi/
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.