Relevance Feedback. Query Expansion. Argomenti 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion - Usando un thesaurus.

Slides:



Advertisements
Presentazioni simili
Algoritmi e Strutture Dati
Advertisements

L’algoritmo PageRank.
SD e LSD Lezione tenuta dal Presentazione di: Prof. P. D’Arco
1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle.
DBMS (DataBase Management System)
Sistemi per il recupero delle informazioni SISTEMI PER IL RECUPERO DELLINFORMAZIONE.
Metodologie di Programmazione = decomposizione basata su astrazioni
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
6. Catene di Markov a tempo continuo (CMTC)
Algoritmi e Strutture Dati
Variabili casuali a più dimensioni
Sistemi di supporto alle decisioni 2. Features space
6. Catene di Markov a tempo continuo (CMTC)
"In Internet non siamo in grado di selezionare, almeno a colpo docchio, fra una fonte credibile e una folle. Abbiamo bisogno di una.
Essere creativi Sono quasi 200 le tecniche descritte e usate per generare idee nelle organizzazioni e da consulenti di creatività. Gli ingredienti attivi.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Apprendimento Non Supervisionato
Metodi di Ensemble Metaclassificatori.
Algoritmi e Strutture Dati (Mod. B)
Algoritmi e Strutture Dati (Mod. B)
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
Access: Query semplici
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Modelli probabilistici
Concetti di base IR spiegati con l'esempio di Google.
Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Analisi delle corrispondenze
Data mining for e-commerce sites
DBMS ( Database Management System)
Il calcolo di radiosity
APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Database & Information Retrieval
Applicazioni di modelli matematici alla ricerca semantica
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Passo 3: calcolo del costo minimo
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
TRATTAMENTO DEI DATI ANALITICI
Multimedia Information Retrieval
Valutazione delle prstazioni di un sistema di retrieval
Metodi di ranking probabilistici
Web Communities and their identificaton
FASTVID RENTALS: CONCLUSIONI I PUNTI DI FORZA DEL PROGETTO, GLI SVILUPPI FUTURI 1.
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
Relevance Feedback & Query Expansion. Tema: come migliorare la recall di una query? 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion.
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.
MUTAZIONE: cambio di un bit Viene effettuata con bassa frequenza, ad es. 1bit ogni 1000 Ha la funzione di recupero di eventuali perdite di informazione.
PSYCINFO.
Realizzazione di un motore di ricerca semantico basato sul contesto
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
1 Tipi di Dato §descrittori, tipi, controllo e inferenza dei tipi §specifica (semantica) e implementazione di tipi di dato l implementazioni “sequenziali”
Tag IMG Per inserire un'immagine in una pagina HTML basta inserire il tag: ; questo tag non ha bisogno di chiusura. Affinché l'immagine venga visualizzata.
SONIA: A Service for Organizing Networked Information Autonomously Stud. Davide D’Alessandro Prof. Amedeo Cappelli Seminario di ELN – A.A. 2002/2003.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Calcolatori Elettronici Valutazione delle Prestazioni Francesco Lo Presti Rielaborate da Salvatore Tucci.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Analisi della similarità tra immagini.
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
Linguistica computazionale: come accedere all’informazione codificata nel linguaggio naturale (seconda parte) Cristina Bosco 2014 Informatica applicata.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Average Distance Measure Gianluca Demartini Università degli Studi di Udine 15/06/2005.
Accademia europea dei pazienti sull'innovazione terapeutica Lo scopo e i fondamenti della statistica negli studi clinici.
REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.
Proprietà macromolecolari Il calcolo delle proprietà macromolecolari implica l’utilizzo della statistica della catena polimerica in termini di distanze.
Transcript della presentazione:

Relevance Feedback. Query Expansion

Argomenti 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion - Usando un thesaurus

Relevance Feedback Dopo la presentazione di un set inziale di documenti, chiedi allutente di selezionare i più rilevanti Usa questo feedback per riformulare la query Presenta nuovi risultati allutente. Eventualmente, itera il processo.

Relevance Feedback Rankings IR System Documenti Ranked Documents 1. Doc1 2. Doc2 3. Doc3. 1. Doc1 2. Doc2 3. Doc3. Feedback Query aggiorn ata ReRanked Documents 1. Doc2 2. Doc4 3. Doc5. Query Reformulation

Query Reformulation Come tener conto del feedback?: –Query Expansion: Aggiungi alla query nuovi termini estratti dai documenti prescelti –Term Reweighting: Aumenta il peso dei termini che compaiono nei documenti rilevanti e diminuisci il peso di quelli che non vi compaiono. Diversi algoritmi per effettuare la riformulazione della query.

Query Reformulation in Vectorial Model Modifica il vettore della query. Aggiungi i vettori dei documenti relevanti al vettore della query. Sottrai i vettori dei documenti irrelevanti al vettore della query.

Optimal Query Sia C r il set dei vettori dei documenti rilevanti. Allora la migliore query che classifichi tutti e solo i documenti rilevanti è: Dove N è il numero totale di documenti.

Metodo di Rocchio Ovviamente non si conoscono tutti i documenti rilevanti, ma solo, fra quelli proposti allutente, la frazione dei rilevanti (D r ) e irrelevanti (D n ) rispetto alla query iniziale q. : Un peso (regolabile) per la query iniziale. : peso dei documenti rilevanti. : peso dei documenti irrilevanti. I tre parametri sono regolabili

Ide Regular Method In questa variante, si evita la normalizzazione, nellipotesi che ulteriore feedback migliori il grado di riformulazione :

Ide Dec Hi Method Si utilizza solo, fra gli irrilevanti, quello con più alto rank :

Paragone dei metodi Dati sperimentali non indicano sostanziali differenze. Tutti e 3 i metodi migliorano sia la recall che la precisione. In generale: = = = 1

Tuttavia il feedback esplicito non è molto usato Gli utenti sono a volte riluttanti. E più difficile capire perché un documento sia stato selezionato (lutente può rendersi conto di aver mal formulato la query e le sue selezioni appaiono inconsistenti con i primi risultati proposti).

Pseudo Feedback Non chiedere esplicito aiuto allutente. Assumi che i primi m top-ranked siano i più interessanti. Espandi la query includendo termini correlati con i termini della query, usando gli m top-ranked.

Pseudo Feedback Architecture Rankings IR System Document corpus Ranked Documents 1. Doc1 2. Doc2 3. Doc3. Query String Revise d Query ReRanked Documents 1. Doc2 2. Doc4 3. Doc5. Query Reformulation 1. Doc1 2. Doc2 3. Doc3. Pseudo Feedback

PseudoFeedback In alcune competizioni internazionali (TREC) lo pseudo- feedback si è dimostrato utile. Funziona ancor meglio se si usa un metodo booleano esteso (ad esempio, i termini correlati vengono aggiunti in or)

Relevance Feedback on the Web Alcuni motori di ricerca offrono una facility similar/related pages (che è unna forma semplificata di relevance feedback) –Google Altavista Altri motori preferiscono non sovraccaricare lutente: –Alltheweb –msn –Yahoo Relevance feedback per immagini –

Query Expansion con un Thesaurus Un thesaurus fornisce informazioni di sinonimia e correlazione fra termini Ex: physician syn: ||croaker, doc, doctor, MD, medical, mediciner, medico, ||sawbones rel: medic, general practitioner, surgeon,

Query Expansion con un Thesaurus (contd) Per ogni terimie t, in una query, espandi la query con sinonimi e termini correlati nel thesaurus. In genere i pesi dei termini aggiunti sono più bassi. In genere questo metodo aumenta la recall. Ma diminuisce la precisione, per via dellambiguità semantica

Automatic Global Analysis Determina la similarità fra termini usando delle statitiche precalcolare sulla collezione di documenti. Calcola delle matrici associative che quantificano la correlazione fra termini. Espandi la query con i termini più simili, sulla base di questa matrice.

Matrice delle associazioni w 1 w 2 w 3 …………………..w n w1w2w3..wnw1w2w3..wn c 11 c 12 c 13 …………………c 1n c 21 c 31. c n1 c ij : fattore di correlazione fra termine i e termine j f ik : Frequenza del termine i nel documento k

Matrice Normalizzata La matrice delle frequenze favorisce i termini più frequenti. Normalizza i fattori di associazione: Il fattore normalizzato di associazione è 1 se due termini hanno la stessa frequenza nei documenti.

Metriche di correlazione Le misure di correlazione precedenti non tengono conto della prossimità dei termini correlati in un documento. La seguente metrica tiene conto della prossimità. V i : Set delel occorrenze di un termine i in un qualsiasi documento r(k u,k v ): Distanza in parole fra due occorrenze k u e k v ( se k u e k v capitano in documenti diversi).

Metriche normalizzate Funzione normalizzata:

Espansione con matrici di correlazione Per ogni termine i della query, espandi con gli n termini con i valori più alti di c ij (s ij ). Questo aggiunge solo termini semanticamente correlati (sulla base della prossimità).

Problemi: Resta il problema dellambiguità: –Apple computer Apple red fruit computer Poiché i termini sono in ogni caso altamente correlati, lspansione potrebbe non aggiungere molti nuovi documenti rispetto alla query non espansa!

Automatic Local Analysis Al momento della query, determina dinamicamente i termini simili usando i documenti top-ranked sulla base dei criteri classici. Lanalisi dei termini correlati non è basata sullintera collezione, ma solo sui documenti localmente recuperati sulla base della query iniziale. Questo riduce il problema della ambiguità semantica, perché i documenti, essendo recuperati sulla base di tutti termini della query, molto probabilmente contengono ogni termine nel senso corretto per lutente –Apple computer Apple computer Powerbook laptop

Global vs. Local Analysis Lanalisi globale richiede di fare dei calcoli una volta per tutte. Lanalisi locale va fatta in tempo reale, sulal base di ogni query Ma fornisce risultati migliori.

Miglioramenti dellanalisi globale Espandi solo i termini che hanno una similarità al di sopra di una soglia rispetto a TUTTI i termini della query. –fruit non viene aggiunto a Apple computer perché è non correlato a computer. –fruit è aggiunto a apple pie poichè fruit è correlato sia con apple che con pie. Inoltre si usano funzioni di pesatura più sofisticate (rispetto alla frequenza) per calcolare la correlazione (es. Dice factor, mutual information..)

Conclusioni Lespansione delle query può migliorare le prestazioni, in particolare la recall (ridurre i silenzio). Tuttavia, il problema principale resta quello dellambiguità semantica, che può influire negativamente sulal precisione. Metodi di WSD (word sense disambiguation) per selezionare il senso corretto