Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici.

Metodi per il trattamento avanzato di documenti

Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici (parole chiave) –Query: un elenco di parole –Risposta: un elenco di documenti contenenti le parole Sistemi di Document Classification & Retrieval –Query: un elenco di parole con operatori booleani –Risposta:un elenco di documenti pertinenti Sistemi di Information Extraction –Query: una specifica formale del tipo di informazioni di interesse –Risposta:una base di dati strutturata Sistemi di Open-Domain Question Answering –Query: una domanda qualsiasi in linguaggio naturale –Risposta:una risposta in linguaggio naturale

Influenza delle metodologie di AI nei sistemi di reperimento di informazioni

Metodi di Classificazione di Documenti (1) Obiettivo: –A partire da: Un insieme di categorie C: {C 1,..C n }(es: articoli di sport, finanza, medicina..) eventualmente strutturate in una tassonomia Un insieme di documenti appartenenti a ciascuna classe D i 1.. D i n.(learning set) –Apprendi un modello formale h i di ciascuna classe tale che h i (D i k )= C i (D i k )

Metodi di Classificazione di Documenti (2) Metodo –Rappresenta ogni D mediante un vettore di caratteristiche f(D)=( … ) –Le caratteristiche sono coppie parola/peso –Vari metodi (statistici+NLP) per selezionare le parole rilevanti e determinare i pesi –Per ogni classe C i e set di documenti D i k genera insieme di esempi S: x = doveC i (D j k )=1 se D j k C i

Esempio: Documento (Reuters collection): Colombia opened coffee export registrations for April and May with the National Coffee Growers' Federation setting no limit, Gilberto Arango, president of the private exporters' association, said. Vettore delle caratteristiche: (Colombia, open, coffee, export, registr, April/ date, May/ date, National_Coffee_Growers_Federation/ org, president_Gilberto_Arango/ pers, exporter_association) (in realtà il vettore contiene V attributi binari a i, dove V è la taglia del vocabolario, a i =1 se la parola i-esima di V è presente, inoltre gli attributi possono essere pesati, come abbiamo visto nei modelli IR classici)

Metodi di Classificazione di Documenti (3) Per ogni classe Ci ed ogni set di esempi D si apprende un modello della classe h(Ci) Metodi di apprendimento/ classificazione: –Modello bag of words o vector space model h (Ci) è un cluster di vettori, centr(Ci) è il centroide del cluster –Le parole sono pesate con tf-idf, la similarità fra un nuovo documento e i modelli delle classi è la cosine similarity già vista per IR

Metodi di Classificazione di Documenti (4) Metodi di apprendimento/ classificazione (contd) –Funzioni lineari –Alberi di decisione p i j <val k p i n >val n Ci

Metodi di Classificazione di Documenti (5) Utilizzo di tecniche di NLP per migliorare la classificazione: –Rimpiazzare i termini con la radice (categorizzare, categorizziamo, categorizzazione) –Disambiguazione morfologica (es: piano/ agg o piano/ nome ) –Identificare termini complessi: nomi propri (president Bill Clinton) terminologia ( real estate) espressioni regolari (date, numeri, espressioni monetarie) –Espansione semantica: rimpiazzare (alcuni) termini con liste di sinonimi o categorie semantiche (es: money (money,currency,monetary system))

Estrazione di Informazioni (1) Obiettivo: creazione di una rappresentazione strutturata (template) da informazioni selezionate estratte da archivi di testi Es: Sam Swartz retired as executive vice president of the famous hot dog manifacturer, Hupplewhite Inc. He will be succeeded by Harry Himmelfarb. EVENTleave job PERSONSam Swartz POSITIONExecutive vice president COMPANYHupplewhite Inc EVENTstart job PERSONHarry Himmelfarb POSITIONExecutive vice president COMPANYHupplewhite Inc

Analisi del testo nei sistemi di IE (1) Identificazione dei costituenti : il testo viene segmentato in costrituenti sintattici semplici (vp e np) cui possono eventualmente essere aggiunte informazioni morfo-sintattiche np e1: Sam Swartz vp: retired as np e2:executive vice president of np e3: the famous hot-dog manifacturer np e4: Hupplewhite Inc.. np e5:He vp: will be succeeded by np e6: Harry Himmelfab

Analisi del testo nei sistemi di IE (2) Classificazione dei segmenti: e1type: person name "Sam Schartz" e2type: human role "executive vice president" e3type: human org "manifacturer" e4type: company name : "Hupplewhite Inc." e5type: person "He" e6type: person name "Harry Himmelfarb"

Analisi del testo nei sistemi di IE (3) Pattern matching: L'obiettivo di questa fase è di identificare segmenti di frase che siano istanze di segmenti generalizzati, o patterns. person retires as position person is succeded by person …. I patterns possono essere definiti mediante espressioni regolari, equivalenti ad automi a stati finiti.

Analisi del testo nei sistemi di IE (4) Coreference resolution L'obiettivo di questa fase è identificare istanze dello stesso concetto, espresse con forme superficiali diverse nel testo. Ad esempio, nella frase di esempio fin qui analizzata, i gruppi nominali e1 (Sam Swartz) e e5 (He) si riferiscono alla stessa entità. I modelli di risoluzione di co-referenze fanno uso di informazioni sintattiche (ad esempio, "He" deve corrispondere ad una persona maschile singolare) e semantiche.

KR & reasoning nei sistemi di IE (1) Inferenze e riempimento dei templates L'obiettivo di questa fase è di riempire i templates con porzioni di testo rilevanti. Perché ciò sia possibile, è necessario effettuare alcune inferenze il cui obiettivo è stabilire un collegamento -altrimenti non evidente - fra patterns e "slot-fillers" dei templates (o valori degli attributi, se si vuol vedere un template come un vettore di attributi)

KR & reasoning nei sistemi di IE (2) Ad esempio se il template è: IN: EVENTleave job PERSONleave-job person POSITIONleave-job position COMPANYleave-job company OUT: EVENTstart job PERSONstart-job person POSITIONstart-job position COMPANYstart-job company e se i patterns catturati sono: Sam Schwartz] person retires as executive vice president] position Harry Himmelfarb] person succeeds Sam Schwartz] person una necessaria regola di inferenza è: leave_job(X-person,Y- position) succeed(Z-person,X- person) start-job(Z-person, Y- position) e simmetricamente: start_job(X-person,Y- position) succeed(X-person,Z- person) leave-job(Z-person, Y- position)

Valutazione dei Sistemi di IE Uno dei vantaggi dei sistemi di IE consiste nell'esistenza di procedure consolidate di valutazione, rappresentate dalle Message Understanding Conferences (MUC) http://www.muc.saic.com/proceedings/muc_7_toc.html Queste conferenze sono in realtà "gare" di prestazione di sistemi di IE, in cui le prestazioni vengono valutate sulla base di: -Test set comuni -Indici di prestazione pre-stabiliti dagli organizzatori -Procedure di valutazione comuni, preventivamente predisposte

Sistemi di Open-Domain Question Answering Obiettivo: rispondere in LN a domande in LN di argomento qualsiasi Es (le prime due da TREC-9 http://trec.nist.gov/pubs.html): What tourist attractions are there in Reims? When was the Brandeburg gate in Berlin built? I would like to know if ACE has in its DB candidates in the financial area, with 10 years of experience and fluency in English? La tecnologia dei sistemi di QA è ancora in fase di definizione/assestamento

Architettura del miglior sistema: FALCON, della SMU (1)

Fase 1: analisi e trasformazione della domanda

Alcuni metodi utilizzati in questa fase in FALCON Identificare riformulazioni di domande simili e mantenere una cache di risposte (es: What are tourist attractions in Reims? What can one see in Reims?) Dettagliata tassonomia delle Domande( e tipi di Risposta) (es. di top classes: DATE, TIME, REASON, MANNER…), collegata con una tassonomia generale (WordNet) Stabilire collegamenti fra i termini nella domanda e tassonomia (es: What is the wingspan of a condor?(wingspan QUANTITY) Rappresentazione semantica e logica della domanda QUANTITY wingspan(x) condor(y) QUANTITY(x) Wingspan condor

Esempio: Question: why did David Koresh ask the FBI for a word processor? Logic representation: [REASON(x)&David(y)&Koresh(y)&ask(e,x,y,z,p) &FBI(z)&processor(p)&word(p)] Semantic expansion: ask ask, enquire, request,make a request word processor word processor, word processing system

Fase 2: Estrazione di porzioni rilevanti dai documenti

Metodi utilizzati in questa fase in FALCON Espansione della query: –Espansioni morfologiche: invent: inventORinventorOR invent –Espansioni lessicali e semantiche (killer: assassinORkiller, like: likeORprefer)

Fase 3: generazione della risposta

Metodi usati in questa fase in FALCON Generazione di una forma semantica per il testo della risposta Dapprima tenta di unificare domanda e risposta IF fail, applica espansioni lessicali finché lunificazione non ha successo Infine, genera una prova abduttiva dalla risposta alla domanda, eventualmente applicando ulteriori espansioni semantiche.

Esempio Testo estratto: Over the week-end Mr Koresh sent a request for a word processor to enable him to record his revelations Forma logica ottenuta: Mr(71)&Koresh(71)&word(72)&processor(72)&&revelations(74)&rec ord(73 74 75)&enable(75 73 76)&request(76)&sent(77 76 78 71)&weekend(78)&_PERSON(71)&DATE(78) Esempio di dimostrazione ( e assiomi utilizzati): Proving:David(1)&Koresh(1)&word(2)&processor(2)&FBI(4)&ask( 34215)&_REASON(5)&_PERSON(1)&ORG(4) unifying axioms: David(1):=Mr(1).. ask(12345):=sent(1674)&request(6) _ORG(1):=FBI(1)….. Se la dimostrazione fallisce, alcune regole di abduzione consentono di unificare costanti che sono differenti ma che sono argomenti dello stesso predicato

Performance di FALCON a TREC-9 79% risposte corrette Il secondo miglior sistema intorno al 55% I moduli di abduzione e espansione semantica hanno avuto un ruolo determinante nel 25% dei casi I progettisti di FALCON sostengono che il ruolo di unaopen-domain linguistic ontology such as WordNet è stato determinante

Per concludere (sulle tecniche di elaborazione dei testi) Luso di tecniche di AI-intensive è fortemente crescente nei sistemi di accesso a informazioni testuali Comunità Europea e DARPA spingono progetti orientati al reperimento, manipolazione, presentazione di contenuti sulla rete (e-content, Semantic web., Open-domain question answering..) La disponibilità di open-domain Ontologies e linguaggi di formattazione intermedia di documenti (XML etc.) potrà avere un forte impatto sulle prestazioni dei sistemi di DC/IE/QA

Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici.

Presentazioni simili

Presentazione sul tema: "Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici.

Presentazioni simili

Presentazione sul tema: "Metodi per il trattamento avanzato di documenti. Quanta analisi del testo nei sistemi di accesso a documenti? Motori di ricerca, sistemi di IR classici."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back