Relevance Feedback & Query Expansion. Tema: come migliorare la recall di una query? 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion.

Slides:



Advertisements
Presentazioni simili
L’algoritmo PageRank.
Advertisements

Le distribuzioni di probabilità continue
1 t Mobilità internazionale e conversione dei voti Maria Sticchi Damiani Università della Calabria 8 febbraio 2013.
ECTS: la conversione dei voti Maria Sticchi Damiani Parte IV Conservatorio di Musica “N. Paganini” Genova, 2 maggio
1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle.
Corsi per il personale Bicocca-Insubria
Sistemi per il recupero delle informazioni SISTEMI PER IL RECUPERO DELLINFORMAZIONE.
6. Catene di Markov a tempo continuo (CMTC)
Algoritmi e Strutture Dati
Lez. 3 - Gli Indici di VARIABILITA’
Sistemi di supporto alle decisioni 2. Features space
6. Catene di Markov a tempo continuo (CMTC)
"In Internet non siamo in grado di selezionare, almeno a colpo docchio, fra una fonte credibile e una folle. Abbiamo bisogno di una.
Esercitazioni su circuiti combinatori
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Apprendimento Non Supervisionato
Metodi di Ensemble Metaclassificatori.
Metodi di ranking probabilistici
Process synchronization
Capitolo 9 Il problema della gestione di insiemi disgiunti (Union-find) Algoritmi e Strutture Dati.
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
D2I - Tema 3 Analysis and comparison of methods and algorithms for data mining.
CONTROLLO DI SUPPLY CHAIN MEDIANTE TECNICHE H-INFINITO E NEGOZIAZIONE
VERIFICA DEI RIFLESSI …Tutto ciò che avreste voluto sapere e non avete mai osato chiedere… M. & D.
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Modelli probabilistici
Relevance Feedback. Query Expansion. Argomenti 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion - Usando un thesaurus.
Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Strutture di controllo in C -- Flow Chart --
Notazioni Asintotiche e Ordini di Grandezza delle funzioni
Il calcolo di radiosity
Database & Information Retrieval
Applicazioni di modelli matematici alla ricerca semantica
Elementi di Informatica di base
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
1 SOSTEGNO PSICOLOGICO SCUOLE DELLAQUILA. 2 Aiuto ai docenti in qualità di persone. L obiettivo è quello di sostenere e contenere lo stato emotivo personale.
1 Questionario di soddisfazione ATA - a. sc. 2008/09 Il questionario è stato somministrato nel mese di aprile Sono stati restituiti 29 questionari.
Passo 3: calcolo del costo minimo
La tabella dei voti ECTS Maria Sticchi Damiani Sapienza, Roma 26 settembre
La versione 18 di Aleph500: le novità CATALOGAZIONE Rita Vanin Ottobre 2007.
Discovering Relative Importance of Skyline Attributes Gruppo 8 Altobelli Andrea (Relatore) Ciotoli Fabio Denis Mindolin, Jan Chomicki.
Fondamenti delle Reti di Computer Seconda parte Carasco 15/04/2010.
Multimedia Information Retrieval
Valutazione delle prstazioni di un sistema di retrieval
Metodi di ranking probabilistici
Web Communities and their identificaton
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
Sviluppare un programma in C che, dato un array da 100 elementi interi caricato con numeri casuali compresi tra [10,100], sia in grado di cercare il valore.
(Una) Definizione di Ingegneria del Software (IEEE) Strategie sistematiche, a partire da richieste formulate del committente, per lo sviluppo, esercizio.
Modelli di Illuminazione
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Algoritmi e basi del C Marco D. Santambrogio – Ver. aggiornata al 13 Marzo 2014.
Capitolo 7 Tavole hash Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
1 PerfectFit06 Sistema di personalizzazione dei contenuti per gli scavi archeologici di Ercolano Candidato: Vincenzo Scognamiglio Relatore: Prof. Ernesto.
Definizione(i) di Ingegneria del Software (IEEE) Strategie sistematiche, a partire da richieste formulate del committente, per lo sviluppo, esercizio e.
Obiettivi e utilità della Prevenzione Oncologica : cosa percepisce il paziente Maurizio Mancuso MMG - SNAMID Elaborazione dati a cura di : Vanessa Vecchi.
A.P. cat. B - 1 Per chi vuole: Libro di testo D.P. Curtis, K. Foley, K. Sen, C. Morin Informatica di base 2° edizione Mc Graw-Hill Companies.
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Come affrontare un problema… Marco D. Santambrogio – Ver. aggiornata al 21 Agosto.
Realizzazione di un motore di ricerca semantico basato sul contesto
1 Microsoft Access Gruppo di lavoro Alberti, Boldi, Gaito, Grossi, Malchiodi, Mereghetti, Morpurgo, Rosti, Palano, Zanaboni Informatica per laurea triennale.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
SONIA: A Service for Organizing Networked Information Autonomously Stud. Davide D’Alessandro Prof. Amedeo Cappelli Seminario di ELN – A.A. 2002/2003.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Calcolatori Elettronici Valutazione delle Prestazioni Francesco Lo Presti Rielaborate da Salvatore Tucci.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Transcript della presentazione:

Relevance Feedback & Query Expansion

Tema: come migliorare la recall di una query? 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion - Con co-occorrenze - Usando un thesaurus

Relevance Feedback Dopo la presentazione di un set inziale di documenti, chiedi allutente di selezionare i più rilevanti Usa questo feedback per riformulare la query Presenta nuovi risultati allutente. Eventualmente, itera il processo.

Relevance Feedback IR System Documenti Ranked Documents 1. Doc1 2. Doc2 3. Doc3. 1. Doc1 2. Doc2 3. Doc3. Feedback Query aggiorn ata ReRanked Documents 1. Doc2 2. Doc4 3. Doc5. Query Reformulation

Query Reformulation Come tener conto del feedback? –Query Expansion: Aggiungi alla query nuovi termini estratti dai documenti prescelti dallutente –Term Reweighting: Aumenta il peso dei termini che compaiono nei documenti rilevanti e diminuisci il peso di quelli che non vi compaiono. Diversi algoritmi per effettuare la riformulazione della query.

Query Reformulation nel modello vettoriale Modifica il vettore della query: –Aggiungi i vettori dei documenti rilevanti al vettore della query. –Sottrai i vettori dei documenti irrelevanti al vettore della query.

Optimal Query Sia C r il set dei vettori dei documenti rilevanti (selezionati dallutente). Allora la migliore query che classifichi tutti e solo i documenti giudicati rilevanti è: Dove N è il numero totale di documenti sottoposti allutente per giudizio.

Slide 7 Esempio d1:(1,1,0,0,0) d2: (1,1,0,0,1) d3: (0,0,0,0,1) d4: (0,0,0,1,0) d1,d2 rilevanti, d3 d4 non rilevanti q=1/2 (2,2,0,0,1) - 1/2(0,0,0,1,1)= 1/2(2,2,0,-1,0) =(1,1,0,-1/2,0)

Metodo di Rocchio Ovviamente non si conoscono tutti i documenti rilevanti, ma solo, fra quelli proposti allutente, la frazione dei rilevanti (D r ) e irrelevanti (D n ) rispetto alla query iniziale q. Formula di Rocchio: : Un peso (regolabile) per la query iniziale. : peso dei documenti rilevanti. : peso dei documenti irrilevanti. I tre parametri sono regolabili

Ide Regular Method In questa variante, si evita la normalizzazione, nellipotesi che ulteriore feedback migliori il grado di riformulazione :

Ide Dec Hi Method Si utilizza solo, fra gli irrilevanti, quello con più alto rank :

Paragone dei metodi Dati sperimentali non indicano sostanziali differenze. Tutti e 3 i metodi migliorano sia la recall che la precisione. In generale: = = = 1

Tuttavia il feedback esplicito non è molto usato Gli utenti sono a volte riluttanti. E più difficile capire perché un documento sia stato selezionato (lutente può rendersi conto di aver mal formulato la query e le sue selezioni appaiono inconsistenti con i primi risultati proposti).

Pseudo Feedback Non chiedere esplicito aiuto allutente. Assumi che i primi m top-ranked siano i più interessanti. Espandi la query includendo termini correlati con i termini della query, usando gli m top- ranked.

Pseudo Feedback Architecture Rankings IR System Document corpus Ranked Documents 1. Doc1 2. Doc2 3. Doc3. Query String ReRanked Documents 1. Doc2 2. Doc4 3. Doc5. Revise d Query Reformulation 1. Doc1 2. Doc2 3. Doc3. Pseudo Feedback

PseudoFeedback In alcune competizioni internazionali (TREC) lo pseudo-feedback si è dimostrato utile. Funziona ancor meglio se si usa un metodo booleano esteso (ad esempio, i termini correlati vengono aggiunti in or)

Relevance Feedback on the Web Alcuni motori di ricerca offrono una facility similar/related pages (che è una forma semplificata di relevance feedback) –Google, Altavista (ma funziona molto male!!) Altri motori preferiscono non sovraccaricare lutente: –Alltheweb –msn –Yahoo

Query Expansion utilizzando un Thesaurus Cosè un thesaurus: un glossario, con informazioni aggiuntive Ad esempio,oltre alle definizioni, un thesaurus fornisce informazioni di sinonimia e correlazione fra termini

Slide 18 WordNet 3.0 Iponimi: struttura gerarchica fratelli: termini correlati

Slide 19 Iponimi e sinonimi migliorano la ricerca?? Esempi nel seguito In generale: –NO se i termini della ricerca sono pochi e poco specifici (ambiguità genera rumore) –SI se i termini non sono ambigui (dominii tecnici) –NI se si applicano algoritmi di word sense disambiguation: SI per query lunghe (molto contesto migliora WSD) NO per query corte e generiche (poca precsione nella disambiguazione)

Slide 20

Slide 21 Art and Architecture Art and Architecture Thesaurus

Slide 22

Slide 23

Slide 24

Slide 25

Query Expansion con un Thesaurus (2) Per ogni termine t, in una query, espandi la query con sinonimi e termini correlati nel thesaurus. In genere i pesi dei termini aggiunti sono più bassi. In genere questo metodo aumenta la recall. Ma diminuisce la precisione, per via dellambiguità semantica

Slide 27 Esempio

Slide 28 Aggiungere sinonimi in AND peggiora

Slide 29..un po meglio se si espande con OR

Espansione della query con co- occorrenze: Automatic Global Analysis 1. Determina la similarità fra termini usando delle statistiche pre-calcolate sulla collezione di documenti. 2. Calcola delle matrici associative (matrici di co- occorrenze) che quantificano la correlazione fra termini. 3. Espandi la query con i termini più simili, sulla base di questa matrice.

Matrice delle associazioni w 1 w 2 w 3 …………………..w n w1w2w3..wnw1w2w3..wn c 11 c 12 c 13 …………………c 1n c 21 c 31. c n1 c ij : fattore di correlazione fra termine i e termine j f ik : Frequenza del termine i nel documento k

Matrice Normalizzata La matrice delle frequenze favorisce i termini più frequenti. Normalizza i fattori di associazione (Jaccard): Il fattore normalizzato di associazione è 1 se due termini hanno la stessa frequenza nei documenti.

Altre metriche di correlazione Le misure di correlazione precedenti non tengono conto della prossimità dei termini correlati in un documento. La seguente metrica tiene conto della prossimità. V i : Set delle occorrenze di un termine i in un qualsiasi documento r(k u,k v ): Distanza in parole fra due occorrenze k u e k v ( se k u e k v capitano in documenti diversi).

Metriche normalizzate Funzione normalizzata:

Espansione della query con matrici di correlazione Per ogni termine i della query, espandi con gli n termini con i valori più alti di c ij (s ij ). Questo aggiunge solo termini semanticamente correlati (sulla base della prossimità).

Problemi: Resta il problema dellambiguità: –Apple computer Apple red fruit computer Poiché i termini sono in ogni caso altamente correlati, lespansione potrebbe non aggiungere molti nuovi documenti rispetto alla query non espansa!

Un altro metodo di espansione: Automatic Local Analysis Al momento della query, determina dinamicamente i termini correlati usando i documenti top-ranked sulla base dei criteri classici. Lanalisi dei termini correlati non è basata sullintera collezione, ma solo sui documenti localmente recuperati sulla base della query iniziale. Questo riduce il problema della ambiguità semantica, perché i documenti, essendo recuperati sulla base di tutti termini della query, molto probabilmente contengono ogni termine nel senso corretto per lutente –Apple computer Apple computer Powerbook laptop

Global vs. Local Analysis Lanalisi globale richiede di fare dei calcoli una volta per tutte. Lanalisi locale va fatta in tempo reale, sulla base di ogni query Ma fornisce risultati migliori.

Miglioramenti del metodo di analisi globale Espandi solo i termini che hanno una similarità al di sopra di una soglia rispetto a TUTTI i termini della query. Esempio: –fruit non viene aggiunto a Apple computer perché è non correlato a computer. –fruit è aggiunto a apple pie poichè fruit è correlato sia con apple che con pie. Inoltre si usano funzioni di pesatura più sofisticate (rispetto alla frequenza) per calcolare la correlazione (es. Dice factor, mutual information..)

Slide 40 Misure di correlazione Dice(x,y)= Mutual Information(x,y)= Nota: le due formule sono in realtà stime, poiché la definizione vera di queste misure è probabilistica. Le due formule si calcolano stimando la probabilità di occorrenza di un termine x come: D è la collezione di documenti

Slide 41 LSI per determinare correlazioni fra termini Il metodo LSI può essere utilizzato per determinare automaticamente clusters di termini simili (Shutze 1998)

Slide 42 Google query expansion Word stemming: translator -> translator, translation Acronimi: NATO -> North Atantic Treaty Organization (pericoloso… Northen Arts Tactical Offensive) Errori di digitazione: wigets ->widgets Sinonimi: solo se appare evidente che la parola è usata in modo improprio (information lost ->loss) Traduzione (organizzazione mondiale sanità -> world health organization) Related Search (migliorata dal 2009 dopo laccordo con Orion) Lagoritmo di Ori Allon non è noto, ma si basa sullidentificare pagine strettamente correlate alla keyword di ricerca e estrarre da queste altre Keywords.

Conclusioni Lespansione delle query può migliorare le prestazioni, in particolare la recall (ridurre i silenzio). Tuttavia, il problema principale resta quello dellambiguità semantica, che può influire negativamente sulal precisione. Metodi di WSD (word sense disambiguation) possono esere usate (con dei limiti) per selezionare il senso corretto