La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Sistemi avanzati di Web Information retrieval e Elaborazione del linguaggio Naturale.

Presentazioni simili


Presentazione sul tema: "Sistemi avanzati di Web Information retrieval e Elaborazione del linguaggio Naturale."— Transcript della presentazione:

1 Sistemi avanzati di Web Information retrieval e Elaborazione del linguaggio Naturale

2 Sistemi Avanzati di IR Sistemi di classificazione automatica Sistemi di Information Extraction Sistemi di Question Answering NLP, IA

3 Information Extraction –Viene specificato un argomento (avvicendamenti di managers in aziende di informatica) –Vengono filtrate notizie rilevanti –Vengono riempiti dei “templates” (simili a basi di dati) Question answering –Lezioni di J. Bos

4 Fasi nell’analisi automatica di testi Elaborazione linguaggio naturale Analisi frasiAnalisi discorso generazione MorfologiaSintassiSemantica

5 Metodologie Linguaggi regolari (automi) Grammatiche context-free Grammatiche estese + apprendimento automatico, metodi probabilistici

6 Analisi Morfologica radice parte del discorso (POS)

7 Approcci all'analisi morfologica:

8 Strutture dati necessarie

9 Approcci (2): linguaggi regolari

10 Grammatiche regolari (2)

11 Esempio Fox, bat, fly

12 Esempio complesso di regola di inflessione per Inglese

13 Apprendimento di Analizzatori Morfologici Metodi stocastici (specialmente per POS tagging) –si etichettano con il POS archivi documentali di grandi dimensioni (learning set) –Si utilizza il learning set per imparare delle probabilità (es: P(N/V,art) = probabilità di osservare un nome dopo che si siano osservati un verbo ed un articolo) –Treetagger usa metodi probabilistici aumentati con alberi di decisione –http://www.ims.uni- stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagge r.html

14 Esempio

15 Analisi Sintattica

16 Metodologie Grammatiche libere da contesto Grammatiche ad attributi Lexical Grammars (le “regole” sono associate ai termini di un lessico) Trasduttori (le transizioni vengono “apprese” utilizzando metodi stocastici, come per il caso del POS tagging)

17 Grammatiche ad Attributi

18 Grammatiche ad attributi (2)

19 Parser sintattico

20 Esempio S NP VP Det Noun Verb PP NP Il bimbo mangia Prep NP Det Noun con Det Noun la minestra il cucchiaio

21 Parsers e Chunkers Un parser tenta di produrre una struttura completa della frase, evidenziando le dipendenze fra “phrases” (NP, VP, S, CONJ..) Un “chunker” si limita a riconosce i costituenti principali (in genere, gruppi nominali e verbali)

22 Esempio: The/DT cat/N eats/V the/DT mouse/N

23 Analisi Semantica L'obiettivo dell'analisi semantica è comprendere il significato di una frase. Da un punto di vista pratico questo vuol dire: per una frase dichiarativa, provarne la verit à, o inferire da essa nuove informazioni per una frase imperativa, eseguire l'azione richiesta per una frase interrogativa, rispondere al quesito

24 Approccio Composizionale Approccio composizionale: evidenzia il significato di ogni concetto in termini di concetti pi ù specifici, o primitive GO ENTITY  MOVE DESTINATION SOURCE

25 Approccio relazionale evidenzia la semantica superficiale, ovvero la natura delle relazioni fra i termini che appaiono nella frase. Es: (John goes home)  person: John  AGENT  GO  DEST  home 

26 Analisi Semantica Formalismo di rappresentazione (es: FOL) Algoritmo di analisi Base di conoscenza semantica –Esempi: Ontologia Corpora annotati Basi di dati statistiche sulle associazioni fra concetti

27 Word Sense Disambiguation L’analisi semantica comporta la trasformazione di un testo (o documento) in una struttura formale (es. un grafo, o una espressione FOL) Es: [John]  agent  [go]  dest  [city:Boston]  manner  [bus]

28 WSD (2) La Word Sense Disambiguation è un compito più semplice. Data un frase o contesto, l’obiettivo è associare ad ogni parola il concetto, o senso, appropriato rispetto ad un lessico semantico (catalogo di sensi, esempio, WordNet, CYC,..)

29 Esempio The river banks are green River: * S: (1) river (a large natural stream of water (larger than a creek)) "the river was navigable for 50 miles” Bank# S: (1) depository financial institution, bank, banking concern, banking company (a financial institution that accepts deposits and channels the money into lending activities) "he cashed a check at the bank"; "that bank holds the mortgage on my home" # S: (2) bank (sloping land (especially the slope beside a body of water)) "they pulled the canoe up on the bank"; "he sat on the bank of the river and watched the currents" # S: (3) bank (a supply or stock held in reserve for future use (especially in emergencies)) # S: (4) bank, bank building (a building in which the business of banking transacted) "the bank is on the corner of Nassau and Witherspoon” ……(in totale 10 sensi)

30 Metodi per WSD Metodi probabilistici –Apprendono contesti probabili per i vari sensi, basandosi su corpora o dizionari on- line Metodi basati su conoscenza –Utilizzano basi di conoscenza (ontologie)

31 Word Sense Disambiguation: esempio waiterservedwhite port The

32 N N N N N N N N N N N N N N N Word Sense Disambiguation: esempio waiterservedwhite port The V N A A V N N waiter#1 waiter#2 serve#5 serve#15 white#1 white#3 port#2 port#1 N N N fortified wine#1 wine#1 N white wine#1 N beverage#1 N alcohol#1 N N person#1 player#1 intermediate nodeword sense of interest #1#5#3#2

33 Structural Semantic Interconnections (SSI) Un metodo di WSD basato su pattern matching strutturato A partire da un elenco di termini (il contesto) genera un elenco di concetti (i sensi dei termini) e associate relazioni. Usa wordNet come catalogo di concetti. T = [t 1, t 2, …, t n ] contesto I = [S t 1, S t 2, …, S t n ] interpretazione semantica SSI giustificazione per la scelta dei sensi

34 SSI è un algoritmo basato su conoscenza Lexical Knowledge Base (LKB) generato integrando diverse risorse: –WordNet –Oxford Collocations –Longman Language Activator –SemCor e LDC-DSO (semantically annotated corpora) –Siti on-line di collocazioni L’integrazione delle risorse è ottenuta semi- automaticamente –I’inventario di sensi è quello di WordNet

35 Def. Una rappresentazione strutturale di un senso S è un grafo ottenuto applicando un taglio al LKB, centrato in S, che includa tutti i nodi a distanza massima d da S Bus (transport) Bus (connector) Structural Representations

36 Selezione e pesatura dei cammini semantici E’ definita una grammatica context Free che riconosce cammini significativi (es. sequenze di iperonimia, iperonimia + part_of..) I percorsi vengono pesati sulla base della rilevanza e della lunghezza : f I (S, t) è una funzione di pesatura dei patterns S 1  E 1 S 1 | E 1 (hyperonymy/meronymy) E 1  e kind-of | e part-of S 2  E 2 S 2 | E 2 (hyponymy/holonymy) E 2  e has-kind | e has-part S 3  e kind-of S 3 e has-kind | e kind-of e has-kind (parallelism)

37 Formalizzazione del problema T (il context) è un elenco di termini correlati t  T è un termine ambiguo S 1 t, S 2 t, …, S n t sono specifiche strutturali (grafi) dei possibili senti di t I (il semantic context) è una lista di specifiche strutturali del contesto T (inizialmente vuota) G è una grammatica che descrive correlazioni rilevanti fra specifiche strutturali Determina il senso S 1 t, S 2 t, …, S n t che si correla meglio con I, usando G Seleziona il senso migliore S i t

38 Tre implementazioni Ricerca esaustiva –Precision e recall alte –Molto lento (non adatto a contesti ampi) Implementazione greedy iterativa –Abbastanza veloce –Un errore può influenzare tutte le scelte successive Iterativa basata su link analysis (Kleinberg’s HITS) –La più veloce –Affidabile

39 Un esempio dell’implementazione greedy “A retrospective is an exhibition of a representative selection of an artist's life work” Inizializzazione: –T = [ retrospective, exhibition, representative, selection, artist, life, work ] –I = [ retrospective#1, -, -, -, artist#1, -, -]

40 Iterazione 1: –T = [ retrospective, exhibition, representative, selection, artist, life, work ] –I = [ retrospective#1, exhibition#2, -, -, artist#1, -, -] Esempio (2)

41 Iterazione 2: –T = [ retrospective, exhibition, representative, selection, artist, life, work ] –I = [ retrospective#1, exhibition#2, -, -, artist#1, -, work#5] Esempio (3)

42 Esempio (4) Iterazione 3: –T = [ retrospective, exhibition, representative, selection, artist, life, work ] –I = [ retrospective#1, exhibition#2, -, -, artist#1, life#8, work#5]

43 Implementazione con HITS Applica HITS per ottenere un ranking dei concetti dato T = [ w 1, w 2, …, w n ], costruiamo G = (V, E), dove: –V è il set dei possibili sensi delle parole in T rispetto a WordNet –E è il set delle interconnessioni fra coppie {S w, S’ w } dove w ≠ w’; e: Interconnesioni multiple fra le stesse coppie vengono collassate in un unico arco il cui peso è calcolato come somma normalizzata dei singoli pesi le interconnessioni sono simmetriche (sia “hubs” che “authorities” ) Applichiamo HITS iteraticvamente

44 w 1T = [ w 1, w 2, w 3, w 4 ] I = [ -, -, -, - ] Implementing SSI with HITS 1 4 2 3 1 2 3 1 w1w1 w2w2 w3w3 w4w4 1 3 2 1 2 3 3 1 1 1 2 2 3 4

45 1 4 2 3 1 2 3 1 w1w1 w2w2 w3w3 w4w4 1 3 2 2 3 3 1 1 1 2 2 3 4 1 w 1T = [ w 1, w 2, w 3, w 4 ] I = [ -, -, -, #1 ]

46 Implementing SSI with HITS 1 4 2 3 1 2 3 1 w1w1 w2w2 w3w3 w4w4 1 3 2 1 3 2 3 1 1 1 2 2 3 4 w 1T = [ w 1, w 2, w 3, w 4 ] I = [ -, #2, -, #1 ]

47 Implementing SSI with HITS 1 4 2 3 1 2 3 1 w1w1 w2w2 w3w3 w4w4 1 3 2 3 1 2 3 1 1 1 2 2 3 4 w 1T = [ w 1, w 2, w 3, w 4 ] I = [ -, #2, #1, #1 ]

48 Implementing SSI with HITS 1 4 2 3 1 2 3 1 w1w1 w2w2 w3w3 w4w4 1 3 2 3 1 2 3 1 1 1 2 2 3 4 w 1T = [ w 1, w 2, w 3, w 4 ] #3I = [ #3, #2, #1, #1 ]

49 On-line su http://lcl.di.uniroma1.it/ssi/


Scaricare ppt "Sistemi avanzati di Web Information retrieval e Elaborazione del linguaggio Naturale."

Presentazioni simili


Annunci Google