La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Valutazione delle prstazioni di un sistema di retrieval.

Presentazioni simili


Presentazione sul tema: "Valutazione delle prstazioni di un sistema di retrieval."— Transcript della presentazione:

1 Valutazione delle prstazioni di un sistema di retrieval

2 Misure di valutazione per un motore di ricerca Velocità di indicizzazione –Numero di documenti/ora –(In funzione della dimensione media del documento) Velocità di ricerca –Latenza: funzione della dimensione dellindice Espressività del query language (booleano, parole chiave..) –Velocità di retrieval per query complesse

3 Misure di valutazione per un motore di ricerca Tutti i criteri precedenetemente citati sono misurabili: possiamo quantificare il rapporto velocità/dimensione, e anche il concetto di espressività può essere precisato La misura più importante è la soddisfazione dellutente –La velocità di risposta è importante per lutente –Ma un sistema veloce che fornisca risposte irrilevanti non può soddisfare lutente Occorre quantificare in qualche modo la soddisfazione dellutente

4 Misure di soddisfazione Le misure dipendono anche dal tipo di utente e dagli scopi del sistema di retrieval Web engine: se lutente trova ciò che vuole, tornerà ad usare il motore di ricerca –Si può misurare la frequenza di questi ritorni Un sito di eCommerce : lutente trova quel che vuole ed acquista un bene –Ma in tal modo si misura la soddisfazione dellutente, o del sito di eCommerce? –Misurare il tempo necessario per un acquisto, o la frazione di utenti che diventano acquirenti?

5 Misure di soddisfazione Impresa (società/amministrazione/accademia): Danno peso alla user productivity –Quanto tempo risparmia il mio utente usando questo sistema? –Esistono anche altri criteri, come ampiezza delle informazioni memorizzate, sicurezza degli accessi, privacy..

6 Soddisfazione: difficile da misurare Il metodo di misura approssimativo più comunemente usato: rilevanza dei risultati Come misuriamo la rilevanza? Per una valutazione sperimentale servono 3 elementi: Una collezione standard di documenti Un set standard di queries Una stima binaria della rilevanza o irrilevanza di ogni coppia query-doc, effettuata da esperti

7 Valutazione dei sistemi IR Il bisogno informativo viene tradotto in una query Ma la rilevanza va misurata con riferimento al bisogno informativo! ES: Bisogno informativo: I'm looking for information on whether drinking red wine is more effective at reducing your risk of heart attacks than white wine. Query: drink wine red white heart attack effective Non è così importante la presenza di tutte queste parole, quanto che si parli di ciò che lutente vuole sapere!

8 Valutazioni standardizzate (benchmarks) di rilevanza TREC - National Institute of Standards and Testing (NIST trec.nist.gov/ ) ha preparato per molti anni benchmarks su larga scala, e gare di retrieval con vari tasks Utilizza le collezioni Reuters (agenzia stampa) e altri archivi di grandi dimensioni Vengono specificati i compiti di retrieval in modo preciso Esperti umani assegnano un indicatore di rilevanza ad ogni documento per ogni query, R o I

9

10 5 traccie per la gara 2008

11

12 Altre traccie degli anni passati: Question Answering Track Spam Track Genomics Track Cross- language Track..

13 Misure di rilevanza: Precision e Recall Precision: frazione dei documenti recuperati che sono rilevanti = P(rilevanti|recuperati) Recall: frazione dei documenti rilevanti che vengono recuperati = P(recuperati|rilevanti) Precision P = tp/(tp + fp) Recall R = tp/(tp + fn) RelevantNot Relevant Retrieved tp (true positive) fp (false positive) Not Retrieved fntn

14 Esempio Rilevanti nella collezione: 12 Rilevanti recuperati: 8 Recuperati totali: 10 Precision=8/10=0,8 Recall=8/12=0,66

15 Accuracy – una misura alternativa Data una query il sistema di ricerca classifica i documenti della collezione come Rilevanti o Irrilevanti. Accuracy del motore di ricerca: la frazione di questa classificazione che risulta corretta

16 Esempio Rilevanti nella collezione: 12 Irrilevantinella collezione: 9 Rilevanti recuperati: 8 Irrilevanti non recuperati : 7 Accuracy=(tp+tn)/totali =(8+7)/(12+9)=15/21=0,71

17 Perché laccuracy non basta? Come costruire un motore con accuracy % con un budget limitato Poiché la frazione di rilevanti è spessissimo minima rispetto agli irrilevanti, classificare tutto come irrilevante dà una accuracy molto alta!! Search for: 0 matching results found.

18 Precision/Recall Anche qui cè il trucco.. E possibile ottenere una recall=1 (ma 0 precision) recuperando tutti i documenti della collezione!

19 Difficoltà di utilizzo di precision/recall Si dovrebbe mediare su un ampio numero di documenti e tipi di query E necessario il giudizio di esperti umani –Non affidabile: in genere si impiegano più esperti (si misura inter-annotator-agreement, che difficilmente è superiore all80%) I giudizi devono essere binari (I o R) –Ma spesso un giudizio ha una gradazione!! Dipendenza dal corpus di documenti –I risultati spesso non sono trasferibili da un dominio allaltro

20 Una misura combinata: F La F-measure media fra precision e recall (media armonica pesata): In genere si usa una F - measure bilanciata: – cioè = 1 o = ½

21 F 1 e altre combinazioni di P e R

22 Ranked results Valutazione dei risultati pesati : –E possibile restituire qualsiasi numero k di risultati (con k prefissato, oppure fissando una soglia per il valore minimo di rank) –Scegliendo vari valori k per il numero di documenti restituiti (il che corrisponde a fissare diversi livelli di recall), si può costruire una curva precision- recall –Queste misure sono più utili per i motori di ricerca, infatti, non conta tanto la precisione e la recall globale, quanto che i documenti buoni siano presentati nella prima, o prime due, pagine!

23 Curve Precision-Recall Landamento è a dente di sega: se il (k+1)-esimo documento non è rilevante, la recall sarà la stessa che per i primi k, ma la precisione calerà. Se invece è rilevante, sia P che R aumentano in valore.

24 Valutazione: altre misure Altre misure –Precision con recall fissa Appropriata per web search: si preferisce avere buoni risultati nella prima, o prime due, pagine di risultati –11-point interpolated average precision Si traccia una curva precision-recall e si esegue una interpolazione nel seguente modo: la precisione interpolata a livello r è la più alta precisione che si ottiene per ogni livello di recall R r P interp (r)= max R r P(R ) La 11-point è una curva interpolata, per i seguenti 11 valori di k: 0.0, 0.1, 0.2,..., 1.0 Si esegue una media artimetica dei valori di precisione interpolati, su tutte le query del benchmark

25 Esempio


Scaricare ppt "Valutazione delle prstazioni di un sistema di retrieval."

Presentazioni simili


Annunci Google