Sistemi avanzati di Web Information retrieval e Elaborazione del linguaggio Naturale.

Slides:



Advertisements
Presentazioni simili
Sommario Nelle lezioni precedenti abbiamo introdotto tutti gli elementi che formano un particolare tipo di linguaggio logico, denominato linguaggio predicativo.
Advertisements

Sintassi (prima parte)
Linguaggi di Programmazione e compilatori
Sistemi di supporto alle decisioni 2. Features space
Sistemi computazionali per il linguaggio naturale
Interaction Models Group. Funzionalità Interaction Models Group Consente lestrazione della struttura grammaticale di una frase La struttura grammaticale.
"In Internet non siamo in grado di selezionare, almeno a colpo docchio, fra una fonte credibile e una folle. Abbiamo bisogno di una.
Semantica approcci computazionali
Intelligenza Artificiale Linguaggio naturale
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Metodologie per la gestione di conoscenza ontologica Prof. M.T. PAZIENZA a.a
Gestione dei dati e della conoscenza (agenti intelligenti) M.T. PAZIENZA a.a
Intelligenza Artificiale 1 Gestione della conoscenza lezione 7 Prof. M.T. PAZIENZA a.a
FMZ, Giugno 2001 Parsing del linguaggio naturale Fabio Massimo Zanzotto Università di Tor Vergata.
Maria Teresa PAZIENZA a.a
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale Prof. M.T. PAZIENZA a.a
Sistemi basati su conoscenza Basi di conoscenza: rappresentazione e ragionamento (2 - Reti semantiche, Frames) Prof. M.T. PAZIENZA a.a
Sistemi basati su conoscenza Conoscenza e ragionamento Prof. M.T. PAZIENZA a.a
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Apprendimento Non Supervisionato
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Modeling, managing and accessing e-content Linguistic Computing Laboratory Prof. Paola Velardi.
Digressione: il linguaggio di query CQP
Apprendimento di movimenti della testa tramite Hidden Markov Model
L’indagine OCSE-PISA: il framework e i risultati per la matematica
Chomsky La grammatica/sintassi è una proprietà della mente
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006.
Unità Didattica 2 I Linguaggi di Programmazione
Metodologie di Annotazione Semantica per la Rappresentazione della Conoscenza nellambito dei Beni Culturali Paola Velardi Dipartimento di Informatica Università
INSIEMI NUMERABILI L’analisi matematica introduce il concetto di insieme numerabile come insieme i cui elementi possono essere “contati” ossia che possiede.
LINGUAGGI DI PROGRAMMAZIONE
Elementi di Informatica
Chomsky La grammatica/sintassi è una proprietà della mente Distinta dalla capacità di comunicare E una facoltà autonoma ed innata La comunicazione è solo.
Lezione 1 Linguaggi di programmazione – Algoritmi –Istruzioni
Il Semantic Web applicato ai percorsi formativi nelle organizzazioni innovative By CSTAdvising CSTAdvising, professionisti della conoscenza,
SINTASSI.
Fabio Massimo Zanzotto (slides di Andrea Turbati con aggiunte)
Valutazione delle prstazioni di un sistema di retrieval
Web Communities and their identificaton
Trattamento Automatico delle Lingue R. Basili a.a
Grammatiche, Linguaggio e Automi R. Basili TAL - a.a
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale (grammatica, semantica) Prof. M.T. PAZIENZA a.a
Gli Algoritmi L’algoritmo è un insieme ordinato di operazioni non ambigue ed effettivamente computabili che, quando eseguito, produce un risultato e si.
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
Elaborazione del linguaggio naturale CFG: esercizi Maria Teresa PAZIENZA a.a
Realizzazione di un motore di ricerca semantico basato sul contesto
Componenti formali del linguaggio
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
GLI ALGORITMI VISIBILE SUL BLOG INFORMATICA ANNO SCOLASTICO 2013 / 2014 GABRIELE SCARICA 2°T.
Trattamento Automatico del Linguaggio Naturale (1)
Elaborazione del linguaggio naturale automi & morfologia Maria Teresa PAZIENZA a.a
1 Università degli Studi di Pisa Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informaticaa Corso di Intelligenza Artificiale: Trattamento.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Semantica approcci computazionali Maria Teresa PAZIENZA a.a
Informatica applicata alla comunicazione multimediale
L'analisi dei testi per la realizzazione del Web Semantico: quali gli strumenti e le applicazioni Paolo Poto Expert System Spa.
Grammatiche Grammatiche libere da contesto Grammatiche regolari
Sistemi basati su conoscenza (agenti intelligenti) Prof. M.T. PAZIENZA a.a
KAPPAELLE Problemi Aperti Carlo Tasso LIA - UNiUD Gruppo infoFACTORY.
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Linguistica computazionale: come accedere all’informazione codificata nel linguaggio naturale (seconda parte) Cristina Bosco 2014 Informatica applicata.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Tecniche di ricerca semantica a supporto del recupero di link di tracciabilità tra artefatti software RelatoreCandidato Chiar.mo Prof. Rocco OlivetoStefano.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Dispositivi Mobili per Sentiment Analysis
Corso di “Teorie e pratiche della traduzione” “La scrittura accademica attraverso le lingue e le culture: studio su corpus della voce autoriale” Dott.ssa.
Parsing ricorsivo discendente Il parsing ricorsivo discendente (recursive descent parsing) è un metodo di tipo top-down che può essere facilmente codificato.
Transcript della presentazione:

Sistemi avanzati di Web Information retrieval e Elaborazione del linguaggio Naturale

Sistemi Avanzati di IR Sistemi di classificazione automatica Sistemi di Information Extraction Sistemi di Question Answering NLP, IA

Information Extraction –Viene specificato un argomento (avvicendamenti di managers in aziende di informatica) –Vengono filtrate notizie rilevanti –Vengono riempiti dei “templates” (simili a basi di dati) Question answering –Lezioni di J. Bos

Fasi nell’analisi automatica di testi Elaborazione linguaggio naturale Analisi frasiAnalisi discorso generazione MorfologiaSintassiSemantica

Metodologie Linguaggi regolari (automi) Grammatiche context-free Grammatiche estese + apprendimento automatico, metodi probabilistici

Analisi Morfologica radice parte del discorso (POS)

Approcci all'analisi morfologica:

Strutture dati necessarie

Approcci (2): linguaggi regolari

Grammatiche regolari (2)

Esempio Fox, bat, fly

Esempio complesso di regola di inflessione per Inglese

Apprendimento di Analizzatori Morfologici Metodi stocastici (specialmente per POS tagging) –si etichettano con il POS archivi documentali di grandi dimensioni (learning set) –Si utilizza il learning set per imparare delle probabilità (es: P(N/V,art) = probabilità di osservare un nome dopo che si siano osservati un verbo ed un articolo) –Treetagger usa metodi probabilistici aumentati con alberi di decisione – stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagge r.html

Esempio

Analisi Sintattica

Metodologie Grammatiche libere da contesto Grammatiche ad attributi Lexical Grammars (le “regole” sono associate ai termini di un lessico) Trasduttori (le transizioni vengono “apprese” utilizzando metodi stocastici, come per il caso del POS tagging)

Grammatiche ad Attributi

Grammatiche ad attributi (2)

Parser sintattico

Esempio S NP VP Det Noun Verb PP NP Il bimbo mangia Prep NP Det Noun con Det Noun la minestra il cucchiaio

Parsers e Chunkers Un parser tenta di produrre una struttura completa della frase, evidenziando le dipendenze fra “phrases” (NP, VP, S, CONJ..) Un “chunker” si limita a riconosce i costituenti principali (in genere, gruppi nominali e verbali)

Esempio: The/DT cat/N eats/V the/DT mouse/N

Analisi Semantica L'obiettivo dell'analisi semantica è comprendere il significato di una frase. Da un punto di vista pratico questo vuol dire: per una frase dichiarativa, provarne la verit à, o inferire da essa nuove informazioni per una frase imperativa, eseguire l'azione richiesta per una frase interrogativa, rispondere al quesito

Approccio Composizionale Approccio composizionale: evidenzia il significato di ogni concetto in termini di concetti pi ù specifici, o primitive GO ENTITY  MOVE DESTINATION SOURCE

Approccio relazionale evidenzia la semantica superficiale, ovvero la natura delle relazioni fra i termini che appaiono nella frase. Es: (John goes home)  person: John  AGENT  GO  DEST  home 

Analisi Semantica Formalismo di rappresentazione (es: FOL) Algoritmo di analisi Base di conoscenza semantica –Esempi: Ontologia Corpora annotati Basi di dati statistiche sulle associazioni fra concetti

Word Sense Disambiguation L’analisi semantica comporta la trasformazione di un testo (o documento) in una struttura formale (es. un grafo, o una espressione FOL) Es: [John]  agent  [go]  dest  [city:Boston]  manner  [bus]

WSD (2) La Word Sense Disambiguation è un compito più semplice. Data un frase o contesto, l’obiettivo è associare ad ogni parola il concetto, o senso, appropriato rispetto ad un lessico semantico (catalogo di sensi, esempio, WordNet, CYC,..)

Esempio The river banks are green River: * S: (1) river (a large natural stream of water (larger than a creek)) "the river was navigable for 50 miles” Bank# S: (1) depository financial institution, bank, banking concern, banking company (a financial institution that accepts deposits and channels the money into lending activities) "he cashed a check at the bank"; "that bank holds the mortgage on my home" # S: (2) bank (sloping land (especially the slope beside a body of water)) "they pulled the canoe up on the bank"; "he sat on the bank of the river and watched the currents" # S: (3) bank (a supply or stock held in reserve for future use (especially in emergencies)) # S: (4) bank, bank building (a building in which the business of banking transacted) "the bank is on the corner of Nassau and Witherspoon” ……(in totale 10 sensi)

Metodi per WSD Metodi probabilistici –Apprendono contesti probabili per i vari sensi, basandosi su corpora o dizionari on- line Metodi basati su conoscenza –Utilizzano basi di conoscenza (ontologie)

Word Sense Disambiguation: esempio waiterservedwhite port The

N N N N N N N N N N N N N N N Word Sense Disambiguation: esempio waiterservedwhite port The V N A A V N N waiter#1 waiter#2 serve#5 serve#15 white#1 white#3 port#2 port#1 N N N fortified wine#1 wine#1 N white wine#1 N beverage#1 N alcohol#1 N N person#1 player#1 intermediate nodeword sense of interest #1#5#3#2

Structural Semantic Interconnections (SSI) Un metodo di WSD basato su pattern matching strutturato A partire da un elenco di termini (il contesto) genera un elenco di concetti (i sensi dei termini) e associate relazioni. Usa wordNet come catalogo di concetti. T = [t 1, t 2, …, t n ] contesto I = [S t 1, S t 2, …, S t n ] interpretazione semantica SSI giustificazione per la scelta dei sensi

SSI è un algoritmo basato su conoscenza Lexical Knowledge Base (LKB) generato integrando diverse risorse: –WordNet –Oxford Collocations –Longman Language Activator –SemCor e LDC-DSO (semantically annotated corpora) –Siti on-line di collocazioni L’integrazione delle risorse è ottenuta semi- automaticamente –I’inventario di sensi è quello di WordNet

Def. Una rappresentazione strutturale di un senso S è un grafo ottenuto applicando un taglio al LKB, centrato in S, che includa tutti i nodi a distanza massima d da S Bus (transport) Bus (connector) Structural Representations

Selezione e pesatura dei cammini semantici E’ definita una grammatica context Free che riconosce cammini significativi (es. sequenze di iperonimia, iperonimia + part_of..) I percorsi vengono pesati sulla base della rilevanza e della lunghezza : f I (S, t) è una funzione di pesatura dei patterns S 1  E 1 S 1 | E 1 (hyperonymy/meronymy) E 1  e kind-of | e part-of S 2  E 2 S 2 | E 2 (hyponymy/holonymy) E 2  e has-kind | e has-part S 3  e kind-of S 3 e has-kind | e kind-of e has-kind (parallelism)

Formalizzazione del problema T (il context) è un elenco di termini correlati t  T è un termine ambiguo S 1 t, S 2 t, …, S n t sono specifiche strutturali (grafi) dei possibili senti di t I (il semantic context) è una lista di specifiche strutturali del contesto T (inizialmente vuota) G è una grammatica che descrive correlazioni rilevanti fra specifiche strutturali Determina il senso S 1 t, S 2 t, …, S n t che si correla meglio con I, usando G Seleziona il senso migliore S i t

Tre implementazioni Ricerca esaustiva –Precision e recall alte –Molto lento (non adatto a contesti ampi) Implementazione greedy iterativa –Abbastanza veloce –Un errore può influenzare tutte le scelte successive Iterativa basata su link analysis (Kleinberg’s HITS) –La più veloce –Affidabile

Un esempio dell’implementazione greedy “A retrospective is an exhibition of a representative selection of an artist's life work” Inizializzazione: –T = [ retrospective, exhibition, representative, selection, artist, life, work ] –I = [ retrospective#1, -, -, -, artist#1, -, -]

Iterazione 1: –T = [ retrospective, exhibition, representative, selection, artist, life, work ] –I = [ retrospective#1, exhibition#2, -, -, artist#1, -, -] Esempio (2)

Iterazione 2: –T = [ retrospective, exhibition, representative, selection, artist, life, work ] –I = [ retrospective#1, exhibition#2, -, -, artist#1, -, work#5] Esempio (3)

Esempio (4) Iterazione 3: –T = [ retrospective, exhibition, representative, selection, artist, life, work ] –I = [ retrospective#1, exhibition#2, -, -, artist#1, life#8, work#5]

Implementazione con HITS Applica HITS per ottenere un ranking dei concetti dato T = [ w 1, w 2, …, w n ], costruiamo G = (V, E), dove: –V è il set dei possibili sensi delle parole in T rispetto a WordNet –E è il set delle interconnessioni fra coppie {S w, S’ w } dove w ≠ w’; e: Interconnesioni multiple fra le stesse coppie vengono collassate in un unico arco il cui peso è calcolato come somma normalizzata dei singoli pesi le interconnessioni sono simmetriche (sia “hubs” che “authorities” ) Applichiamo HITS iteraticvamente

w 1T = [ w 1, w 2, w 3, w 4 ] I = [ -, -, -, - ] Implementing SSI with HITS w1w1 w2w2 w3w3 w4w

w1w1 w2w2 w3w3 w4w w 1T = [ w 1, w 2, w 3, w 4 ] I = [ -, -, -, #1 ]

Implementing SSI with HITS w1w1 w2w2 w3w3 w4w w 1T = [ w 1, w 2, w 3, w 4 ] I = [ -, #2, -, #1 ]

Implementing SSI with HITS w1w1 w2w2 w3w3 w4w w 1T = [ w 1, w 2, w 3, w 4 ] I = [ -, #2, #1, #1 ]

Implementing SSI with HITS w1w1 w2w2 w3w3 w4w w 1T = [ w 1, w 2, w 3, w 4 ] #3I = [ #3, #2, #1, #1 ]

On-line su