Valutazione delle prstazioni di un sistema di retrieval

Slides:



Advertisements
Presentazioni simili
TIC per ricerca e condivisione dell'informazione
Advertisements

1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle.
Sistemi di Classificazione usando NCD
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità C1 Il linguaggio SQL.
Sistemi Operativi Menù: 1) Introduzione al sistema operativo
GLI ORGANI AZIENDALI.
"In Internet non siamo in grado di selezionare, almeno a colpo docchio, fra una fonte credibile e una folle. Abbiamo bisogno di una.
ECONOMIA E GESTIONE DELL INNOVAZIONE AZIENDALE Docente A.Federico Giua a.a / 2010 UNIVERSITA CARLO CATTANEO 8° Capitolo SELEZIONE DEL CONCEPT SPECIFICHE.
Valutazione delle Prestazioni di un Classificatore
Apprendimento Non Supervisionato
Apprendimento Automatico: Valutazione delle Prestazioni
CONFRONTO TRA DUE MEDIE:
1 Esempi di consistenza sui limiti Non consistente sui limiti, considera Z=2, poi X-3Y=10 Ma il dominio qui sotto e consistente sui limiti: Confrontare.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: i motori di ricerca e la gestione dellinformazione biomedica CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE.
Testing e Debugging.
ESERCITAZIONE 2.
Access: Query semplici
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Modelli probabilistici
Relevance Feedback. Query Expansion. Argomenti 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion - Usando un thesaurus.
Concetti di base IR spiegati con l'esempio di Google.
Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006.
MetaLib Lucia Soranzo, Antonella Zane Servizi digitali e portali accademici – Biblioteca del Dipartimento di Filosofia – 10 aprile 2006.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Data mining for e-commerce sites
Equivalenza di espressioni
Modello E-R Generalizzazioni
Modello E-R Generalizzazioni
Elementi di Informatica
U.O. Statistica ASCOLTARE I CITTADINI: MONITOR SULLA SODDISFAZIONE DEI SERVIZI DELLA CITTA DI FERRARA SERVIZIO ATTIVITA PRODUTTIVE - COMMERCIO.
Modellazione di terreni a risoluzione adattiva
Large linguistically-processed Web corpora for multiple languages Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese.
Trattamento di Foto e Immagini Digitali
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
Studio di euristiche per il miglioramento di algoritmi di ranking per il World-Wide Web Università degli Studi di Milano Corso di Laurea in Informatica.
Database & Information Retrieval
Elementi di Informatica di base
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Il Semantic Web applicato ai percorsi formativi nelle organizzazioni innovative By CSTAdvising CSTAdvising, professionisti della conoscenza,
Strutture dati per insiemi disgiunti
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
Web Communities and their identificaton
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
Corso JAVA Lezione n° 11 Istituto Statale di Istruzione Superiore “F. Enriques”
Relevance Feedback & Query Expansion. Tema: come migliorare la recall di una query? 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion.
Traduzione e computer (3) Cristina Bosco Informatica applicata alla comunicazione multimediale 2013.
Architettura Centralizzata di un DBMS Relazionale
Interrogare il database
Sessione live Testing. Esercizio Quesito 1 Soluzione 1.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Implementazione di dizionari Problema del dizionario dinamico Scegliere una struttura dati in cui memorizzare dei record con un campo key e alcuni altri.
Eprogram informatica V anno. ASP.NET Introduzione ASP.NET (Active Server Page) è il linguaggio che, sfruttando la tecnologia.NET, permette di: -scrivere.
Programmazione Web PHP e MySQL 1. 2Programmazione Web - PHP e MySQL Esempio: un blog.
InternetInternet Sede: Salvo D’acquisto 2010/2011 Docente: Vito Monno.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Fondamenti di Informatica1 Memorizzazione su calcolatore L'unità atomica è il bit (BInary DigiT) L'insieme di 8 bit è detta byte Altre forme di memorizzazione:
Progettazione di una base di dati Ciclo di vita di un sistema informativo Studio di fattibilità definisce le varie alternative possibili, i relativi costi.
Trasformata di Hough.
Rappresentazione in virgola mobile (floating-point) Permette di rappresentare numeri con ordini di grandezza molto differenti utilizzando per la rappresentazione.
Elementi di statistica Le cifre significative
La codifica dei numeri.
Indicizzazione di documenti semistrutturati Sistemi informativi – AA D’Este Laura.
Ingegneria del software Modulo 2 -Il software come prodotto Unità didattica 2 - I costi del software Ernesto Damiani Università degli Studi di Milano Lezione.
Average Distance Measure Gianluca Demartini Università degli Studi di Udine 15/06/2005.
STATISTICHE DESCRITTIVE
SISR-USABILITÀ VALUTAZIONE DI USABILITÀ (fonte prof. Polillo)
Cercare In Internet. Cercare in Rete La scuola ha un ruolo preciso in relazione a quella che nei paesi anglosassoni viene denominata: Information Literacy.
1 Prospettive ed opportunità dello sviluppo locale: i Progetti Integrati Locali (PIL) Lorenzo Bisogni Fermo – 7 marzo 2016 SERVIZIO AMBIENTE E AGRICOLTURA.
Gli strumenti di misura
Transcript della presentazione:

Valutazione delle prstazioni di un sistema di retrieval

Misure di valutazione per un motore di ricerca Velocità di indicizzazione Numero di documenti/ora (In funzione della dimensione media del documento) Velocità di ricerca Latenza: funzione della dimensione dell’indice Espressività del “query language” (booleano, parole chiave..) Velocità di retrieval per query complesse

Misure di valutazione per un motore di ricerca Tutti i criteri precedenetemente citati sono misurabili: possiamo quantificare il rapporto velocità/dimensione, e anche il concetto di espressività può essere precisato La misura più importante è la soddisfazione dell’utente La velocità di risposta è importante per l’utente Ma un sistema veloce che fornisca risposte irrilevanti non può soddisfare l’utente Occorre quantificare in qualche modo la soddisfazione dell’utente

Misure di “soddisfazione” Le misure dipendono anche dal tipo di utente e dagli scopi del sistema di retrieval Web engine: se l’utente trova ciò che vuole, tornerà ad usare il motore di ricerca Si può misurare la frequenza di questi “ritorni” Un sito di eCommerce : l’utente trova quel che vuole ed acquista un bene Ma in tal modo si misura la soddisfazione dell’utente, o del sito di eCommerce? Misurare il tempo necessario per un acquisto, o la frazione di utenti che diventano acquirenti?

Misure di soddisfazione Impresa (società/amministrazione/accademia): Danno peso alla “user productivity” Quanto tempo risparmia il mio utente usando questo sistema? Esistono anche altri criteri, come ampiezza delle informazioni memorizzate, sicurezza degli accessi, privacy..

Soddisfazione: difficile da misurare Il metodo di misura “approssimativo” più comunemente usato: rilevanza dei risultati Come misuriamo la rilevanza? Per una valutazione sperimentale servono 3 elementi: Una collezione standard di documenti Un set standard di queries Una stima binaria della rilevanza o irrilevanza di ogni coppia query-doc, effettuata da esperti

Valutazione dei sistemi IR Il bisogno informativo viene tradotto in una query Ma la rilevanza va misurata con riferimento al bisogno informativo! ES: Bisogno informativo: I'm looking for information on whether drinking red wine is more effective at reducing your risk of heart attacks than white wine. Query: drink wine red white heart attack effective Non è così importante la presenza di tutte queste parole, quanto che si parli di ciò che l’utente vuole sapere!

Valutazioni standardizzate (benchmarks) di rilevanza TREC - National Institute of Standards and Testing (NIST trec.nist.gov/ ) ha preparato per molti anni benchmarks su larga scala, e “gare” di retrieval con vari “tasks” Utilizza le collezioni Reuters (agenzia stampa) e altri archivi di grandi dimensioni Vengono specificati i compiti di retrieval in modo preciso Esperti umani assegnano un indicatore di rilevanza ad ogni documento per ogni query, R o I

5 “traccie” per la gara 2008

Altre traccie degli anni passati: Question Answering Track Spam Track Genomics Track Cross- language Track ..

Misure di rilevanza: Precision e Recall Precision: frazione dei documenti recuperati che sono rilevanti = P(rilevanti|recuperati) Recall: frazione dei documenti rilevanti che vengono recuperati = P(recuperati|rilevanti) Precision P = tp/(tp + fp) Recall R = tp/(tp + fn) Relevant Not Relevant Retrieved tp (true positive) fp (false positive) Not Retrieved fn tn

Esempio Rilevanti nella collezione: 12 Rilevanti recuperati: 8 Recuperati totali: 10 Precision=8/10=0,8 Recall=8/12=0,66 - - + -

Accuracy – una misura alternativa Data una query il sistema di ricerca classifica i documenti della collezione come “Rilevanti” o “Irrilevanti”. Accuracy del motore di ricerca: la frazione di questa classificazione che risulta corretta

Esempio Rilevanti nella collezione: 12 Irrilevantinella collezione: 9 Rilevanti recuperati: 8 Irrilevanti non recuperati : 7 Accuracy=(tp+tn)/totali =(8+7)/(12+9)=15/21=0,71 - - + -

Perché l’accuracy non basta? Come costruire un motore con accuracy 99.9999% con un budget limitato Poiché la frazione di rilevanti è spessissimo minima rispetto agli irrilevanti, classificare tutto come irrilevante dà una accuracy molto alta!! Snoogle.com Search for: 0 matching results found.

Precision/Recall Anche qui c’è il trucco.. E’ possibile ottenere una recall=1 (ma 0 precision) recuperando tutti i documenti della collezione!

Difficoltà di utilizzo di precision/recall Si dovrebbe mediare su un ampio numero di documenti e tipi di query E’ necessario il giudizio di esperti umani Non affidabile: in genere si impiegano più esperti (si misura “inter-annotator-agreement”, che difficilmente è superiore all’80%) I giudizi devono essere binari (I o R) Ma spesso un giudizio ha una gradazione!! Dipendenza dal corpus di documenti I risultati spesso non sono trasferibili da un dominio all’altro

Una misura combinata: F La F-measure media fra precision e recall (media armonica pesata): In genere si usa una F- measure bilanciata: cioè  = 1 o  = ½

F1 e altre combinazioni di P e R

Ranked results Valutazione dei risultati “pesati” : E’ possibile restituire qualsiasi numero k di risultati (con k prefissato, oppure fissando una “soglia” per il valore minimo di rank) Scegliendo vari valori k per il numero di documenti restituiti (il che corrisponde a fissare diversi livelli di recall), si può costruire una curva precision-recall Queste misure sono più utili per i motori di ricerca, infatti, non conta tanto la precisione e la recall globale, quanto che i documenti “buoni” siano presentati nella prima, o prime due, pagine!

Curve Precision-Recall L’andamento è a dente di sega: se il (k+1)-esimo documento non è rilevante, la recall sarà la stessa che per i primi k, ma la precisione calerà. Se invece è rilevante, sia P che R aumentano in valore.

Valutazione: altre misure Precision con recall fissa Appropriata per web search: si preferisce avere buoni risultati nella prima, o prime due, pagine di risultati 11-point interpolated average precision Si traccia una curva precision-recall e si esegue una interpolazione nel seguente modo: la precisione interpolata a livello r è la più alta precisione che si ottiene per ogni livello di recall Rr Pinterp(r)= maxRrP(R ) La “11-point” è una curva interpolata, per i seguenti 11 valori di k: 0.0, 0.1, 0.2, ..., 1.0 Si esegue una media artimetica dei valori di precisione interpolati, su tutte le query del benchmark

Esempio