La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle.

Presentazioni simili


Presentazione sul tema: "1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle."— Transcript della presentazione:

1 1 Metodi di ranking probabilistici

2 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle Metodi di ranking: Binary Independence Model Bayesian networks Lidea chiave è di classificare i documenti in ordine di probabilità di rilevanza rispetto allinformazione richiesta: Lidea chiave è di classificare i documenti in ordine di probabilità di rilevanza rispetto allinformazione richiesta: P(rilevante|documento i, query)

3 3 Probability Ranking Principle Sia d un documento della collezione. Sia R la rilevanza di un documento rispetto ad una (specifica) query (R=1) e sia NR la non-rilevanza (R=0). p(d|R,q), p(d|NR,q) - probabilità che, se si trova un documento rilevante (non-rilevante), questo sia d. Si vuole stimare p(R|d,q) - la probablità che d sia rilevante, data la query q. p(R|q),p(NR|q) - prob. a priori di recuperare un documento (non) rilevante

4 4 Probability Ranking Principle (PRP) Bayes Optimal Decision Rule d è rilevante iff p(R|d,q) > p(NR|d,q) Osservate che, modellando il processo di retrieval in termini probabilistici, l occorrenza di una query, la rilevanza o non rilevanza di un documento, l occorrenza di un termine in un documento sono tutti eventi aleatori

5 5 Probability Ranking Principle Come si calcolano le probabilità condizionate? Si usano stimatori Il modello più semplice è il Binary Independence Retrieval (BIR) Assunzioni La Rilevanza di ogni documento è indipendente dalla rilevanza degli altri documenti. Usare un modello di rilevanza Booleano: Osservare un insieme iniziale di risultati può aiutare lutente a raffinare la sua query R={0,1}

6 6 Strategia di Retrieval probabilistico Si stima quanto i singoli termini contribuiscano alla rilevanza Es Si combinano queste stime per assegnare una stima allintero documento Si ordinano i documenti per probabilità decrescente

7 7 In generale per i modelli probabilistici: Si modella un problema in termini probabilistici (es: la rilevanza di un documento rispetto ad una query è stimata dalla P(R|d,q)) Poiché in generale è difficile stimare una certo modello probabilistico (stimare??), si effettuano una serie di passaggi (ad es. invertire variabile aleatoria condizionante e condizionata con Bayes) e semplificazioni (ad es. assumere lindipendenza statistica di certe variabili) al fine di rappresentare il modello probabilistico iniziale in termini di probabilità più facili da stimare su un campione.

8 8 Binary Independence Model Binary = Boolean: i documenti d vengono rappresentati mediante un vettore booleano iff w i è contenuto in d j. Indipendenza: i termini occorrono nei documenti indipendentemente luno dallaltro Questo è implicitamente assunto anche nel modello vettoriale, ma in un modello probabilistico si tratta di una assunzione esplicita.

9 9 Binary Independence Model di q R Obiettivo: stimare P(R/q,d i ) Rank(d i )=f( P(R/q,d i )) documento query La freccia indica la dipendenza statistica: l evento aleatorio R dipende dall evento q

10 10 Binary Independence Model Query: vettore booleano Data una query q, 1. Per ogni documento d calcola p(R|q,d). 2. Sostituisci con il calcolo di p(R|q,x) dove x è il vettore booleano che rappresenta d 3. Si utilizza la regola di Bayes ed il concetto di odd: I documenti vengono ordinati (ranking) sulla base del valore di O

11 11 Binary Independence Model Si usa lassunzione di Indipendenza : Costante per ogni query Va stimato Dunque :

12 12 Binary Independence Model: effetto dellinversione delle probabilità R q d xn x1 x2 xi

13 13 Binary Independence Model Ma x i (componente del vettore binario associata a wi) è o 0 o 1 : Sia Si assume, per tutti i termini che non occorrono nella query: allora... NOTA: pi: xi=1, R=1 ri: xi=1, R=0 (1-pi): xi=0, R=1 (1-ri): xi=0, R=0

14 14 Esempio V{information retrieval paper rank set web} Q: information retrieval paper D: information retrieval web

15 15 Binary Independence Model Q= D= V{information retrieval paper rank set web} Q: information retrieval paper D: information retrieval web

16 16 Esempio Q= D= qi=1,xi=1 qi=1

17 17 Binary Independence Model Costante per ogni query Questa è la sola quantità che va stimata per il ranking Retrieval Status Value:

18 18 Binary Independence Model Tutto si riduce a stimare RSV. Come calcoliamo i c i dai dati a disposizione ? I documenti sono ordinati secondo il RSV. Questo dipende dall intersezione fra parole della query e parole del documento (il set xi=qi=1) ma anche dai valori di pi e ri

19 19 Binary Independence Model Stimare i coefficienti RSV Per ogni termine i della query osserva la tabella dei documenti rilevanti e non : Stime: Per ora, assumiamo non esistano termini che non compaiono mai.

20 20 Binary Independence Model Ma come si può riempire la tabella di rilevanza per ciascun termine della collezione? Data una collezione di N documenti, posso calcolare n (il numero di documenti con X i =1) e dunque N-n (quelli con X i =0), ma come si stima il valore S (numero di documenti complessivamente rilevanti per la query)??

21 21 Stima di r i (P(xi=1/NR,q)) Posso approssimare N-S con N (se N>>S N-S N). Allora, r i (prob. di un documento non rilevante data una query) è stimata da: n/N, e: log (1– r i )/r i log (N– n i )/ n i log N/ n i = IDF! p i (probabilità di occorrenza di w i in documenti rilevanti, data la query) si può stimare in vari modi: Facendo selezionare allutente alcuni documenti rilevanti di esempio Con una costante, dipendente solo dal valore idf dei termini (i termini più comuni nella collezione hanno probabilità più bassa di rilevanza) Proporzionale alloccorrenza dei termini nella collezione ( i termini più frequenti in assoluto sono i più rilevanti. In generale si usa il log della frequenza) + comuni + frequenti

22 22 Stima iterativa di p i (P(xi=1/R,q)) 1. Assumi p i costante per tutti i termini w i della query p i = 0.5 per ogni termine presente nella query 2. Ordina i documenti della collezione sulla base dei c i (formula RSV) calcolati per tutti i termini della query, e mostra allutente i primi |V | : Nota: se p i = 0.5 e r i n i /N allora c i IDF! 3. Si cerca di migliorare le stime di p i e r i, nel seguente modo: Si utilizza la distribuzione dei termini w i nei documenti di V. Sia V i il set di documenti in V che contiene w i p i = |V i | / |V| Si assume che quelli non in V non siano rilevanti: r i = (n i – |V i |) / (N – |V|) 4. Torna allo step 2. e continua fino alla convergenza p i si approssima con la distribuzione dei termini della query nei documenti recuperati

23 23 Aggiustamenti della stima Per piccoli valori di V e Vi (ex. Rispettivamente 0 e 1) si usano degli aggiustamenti, per evitare che pi e ri (o i loro complementi) vadano a zero, portando a zero num o denom dellargomento del logaritmo : Una formula pi ù semplice utilizza 1/2 al posto di ni/N

24 24 Esempio

25 25 Step 1 p i = 0.5, r i n i /N c i IDF! |V|=2

26 26 STEP 2 V=2 N=7 ni= occorrenze di wi nella collezione Vi=occorrenze di wi in V RSV

27 27 Probabilistic Relevance Feedback 1. Come prima, assegna un valore costante ai p i ed estrai un primo set V di documenti. 2. Interagisci con lutente e chiedi di selezionare alcuni documenti rilevanti e non rilevanti in V (in tal modo ottengo un subset di V documenti dei quali conosco S e V-S) 3. Stima nuovamente p i e r i sulla base di questi documenti Oppure combina questa informazione con la precedente, aumentando o diminuendo le precedenti stime 4. Ripeti, generando una successione di approssimazioni.

28 28 Conclusioni sul BIM E possibile ottenere delle stime di rilevanza. Tuttavia è necessario fare delle assunzioni restrittive: Indipendenza dei termini I termini non presenti nella query non determinano il risultato Si usa una rappresentazione booleana dei documenti e delle query Alcune di queste assunzioni possono essere rimosse

29 29 Riferimenti su BIM book/html/htmledition/probabilistic-approaches- to-relevance-feedback-1.html book/html/htmledition/probabilistic-approaches- to-relevance-feedback-1.html

30 30 Rimuovere lassunzione di indipendenza dei termini In generale i termini non occorrono indipendentemente Ma la stima delle dipendenze può essere molto complessa van Rijsbergen (1979) propose un semplice modello di dipendenza Ogni termine dipende da uno più termini

31 31 Reti Bayesiane per IR Cosa è una Bayesian network? Un grafo aciclico diretto DAG Nodi: Eventi, variabili aleatorie, o variabili Possono assumere valori Per semplicità, nel modell BN-IR, tali valori si assumono booleani Archi: Modellano una dipendenza diretta fra nodi

32 32 Bayesian Networks ab c a,b,c - nodi p(c|ab) per ogni valore di a,b,c p(a) p(b) Le reti Bayesiane modellano la dipendenza fra eventi Inference in Bayesian Nets: note le probabilità a priori per le radici del grafo e le probabilità condizionate (archi) si può calcolare la probabilità a priori di ogni evento condizionato. Se sono noti i valori di verità di alcuni nodi (ad esempio, losservazione dellevento b e di a) si possono ricalcolare le probabilità dei nodi Dipendenza condizionale

33 33 Bayesian Networks LINK MATRIX (matrice dei collegamenti) ab c p(a) p(b) c/ab P(c=1/a=1,=1)

34 34 Esempio giocattolo Depressione (g) Esame (f) Consegna progetto (d) Notte insonne (n) Cioccolata e panna (t) LINK MATRIX

35 35 Assunzioni di Indipendenza Assunzione di indipendenza: P(t|g,f,d)=P(t|g) Probabilità congiunte: P(f d n g t) =P(f) P(d) P(n|f) P(g|f d) P(t|g) Depressione (g) Esame (f) Consegna progetto (d) Notte insonne (n) Cioccolata e panna (t)

36 36 Chained inference Evidenza - si parte dal valore di alcuni nodi (ad es. radice) Inferenza Si calcola la credenza o belief (rappresentata eventualmente da probabilità) degli altri nodi Probabilità condizionata allevidenza rappresentata dai nodi conosciuti Due tipi di inferenza: Diagnostica (dallevento alla causa) o Predittiva (date le possibili cause, stimare la prob. di osservare levento causato) Complessità computazionale Per una generica rete (grafo ciclico) : NP-hard Le reti ad albero sono più facilmente trattabili Alcuni autori propongono metodi approssimati (ad esempio basati su programmazione dinamica)

37 37 Esempio giocattolo Depressione (g) Esame (f) Consegna progetto (d) Notte insonne (n) Cioccolata e panna (t) vero falso P(t)=0,99x0,9+0,1x0,1 vera

38 38 Modello bayesiano per IR Obiettivo Data una richiesta di informazione da parte di un utente (evidenza) stima la probabilità che un documento soddisfi la richiesta (inferenza) Modello di Retrieval Modella i documenti come una rete (document network) Modella il bisogno informativo come una query network

39 39 Belief Network Model: un modello di ranking basato su Reti Bayesiane Definizioni: K={k 1, k 2,...,k t } spazio di campionamento (o spazio dei concetti) u K un subset di K (un concetto) k i un termine indice (concetto elementare) k=(k 1, k 2,...,k n ) n t un vettore associato ad ogni concetto u tale che g i (k)=1 k i u (pesi unitari) k i una variabile aleatoria binaria (cioè ki 0,1 ) associata al termine indice k i, t.c. k i = 1 g i (k)=1 k i u

40 40 Belief Network Model Definizioni (2): un documento d j e una query q sono rappresentati come concetti in K, composti dai termini indice contenuti in d j e q. Sia dunque c un concetto generico in K (documento o query) P(c)= u P(c|u) P(u) è una distribuzione di probabilità P su K P(c) è il definito come il grado di copertura dello spazio K mediante c Questa copertura è stimata confrontando ogni concetto in K ( u) con c, e sommando i contributi, pesati con le probabilità dei singoli concetti u. Si assume inizialmente equiprobabilità delle sottostringhe u in K (se ho t termini, ciascuno dei quali può essere presente o assente in u, ci sono 2 t possibili modi di formare concetti u), cioè: P(u)=(1/2) t

41 41 Belief Network Model Topologia della rete lato query lato documento cqcq c d1 cdncdn

42 42 Q Information retrieval probability information finding probability retrieval calculus information retrieval calculus information retrieval journal information calculus retrieval probability journal finding d1 d2 d3 d4

43 43 Belief Network Model grado di copertura che il concetto d j fornisce al concetto q. Il ranking di un documento d j rispetto ad una query q è interpretato come una relazione di corrispondenza fra concetti, e riflette il grado di copertura che il concetto d j fornisce al concetto q. Documenti e query sono trattati nello stesso modo, cioè sono entrambi concetti nello spazio K. Assunzione: P(d j |q) viene considerato come il rank del documento d j rispetto alla query q. (Ribeiro and Munz, 1996: A belief network model for IR)

44 44 Belief Network Model Ranking di d j P(d j |q) = P(d j q) / P(q) = P(d j q) = u P(d j q | u) P(u) ~ u P(d j / u) P(q / u) P(u) ~ k P(d j / k) P(q / k) P(k) Questo fattore compare in tutti i P(dj/q) dunque può essere trascurato Assumendo q e dj condizionalmente indipendenti rispetto a u, come si evince dal grafo delle dipendenze nella rete Ogni vettore k definisce un concetto u

45 45 Belief Network Model Dunque: P(d j |q) ~ k P(d j | k) P(q | k) P(k) Occorre specificare le probabilità condizionate P(d j | k) e P(q | k). Differenti strategie per modellare P(d j | k) e P(q | k) portano a diversi modelli di ranking. Ad esempio, assumiamo un vocabolario di 3 parole: Information,retrieval, extraction (I,R,E) I concetti possibili sono: (I,R,E), (I,R,-), (I,-,E), (-,R,E), (-,-,E),(-,R,-),(I,-,-),(-,-,-) stimabile Per k concetti, o(k!) stime

46 46 A belief network model for IR Sussumendo un modello vettoriale (Ribeiro and Muntz) per i pesi e lindipendenza dei termini: Definisci il vettore k i come segue: k i = k | ((g i (k)=1) ( j i g j (k)=0)) Il vettore k i si riferisce ad uno stato del vettore k in cui solo il nodo ki è attivo (g(ki)=1) e tutti gli altri non lo sono. Questo riflette la strategia di ranking tf-idf, che somma individualmente il contributo di ogni keyword. Quindi, si considera il contributo di ogni termine k i singolarmente.

47 47 Belief Network Model P(d j |q) ~ k P(d j | k) P(q | k) P(k) Per il modello vettoriale: Definisci (w i,q / |q|) se (k = k i ) (g i (q)=1) P(q | k) = 0 se (k k i ) (g i (q)=0) P(¬q | k) = 1 - P(q | k) (w i,q / |q|) una versione normalizzata del peso del termine indice k i nella query q peso tf-idf di k i in q ki compare in q

48 48 Belief Network Model Per il modello vettoriale Definisci (w i,j / |d j |) se (k = k i ) (g i (d j )=1) P(d j | k) = 0 se (k k i ) (g i (d j )=0) P(¬ d j | k) = 1 - P(d j | k) (w i,j / |d j |) una versione normalizzata del peso del termine indice k i nel documento d,j

49 49 Belief Network Model Mettendo tutto assieme.. P(d j |q) ~ k P(d j | k) P(q | k) P(k)= Riformulazione probabilistica del modello vettoriale!!

50 50 Vantaggi del Belief Network model Per calcolare il rank di un documento, considera solo gli stati della rete in cui i nodi attivi sono quelli che compaiono nella query, quindi il costo è lineare nel numero dei documenti della collezione E una variante moderna dei metodi di ragionamento probabilistico, che consente una combinazione di distinte sorgenti di evidenza. I modelli più avanzati consentono di incorporare nel modello evidenze derivate da sessioni precedenti, e feedback dellutente.

51 51 Bayesian Network Retrieval Model Si può rimuovere lipotesi di indipendenza: Si rappresentano le principali (più probabili) relazioni di dipendenza statistica fra i termini della collezione. Term subnetwork Polytree Ci sono algoritmi efficenti per lanalisi di polytrees.

52 52 Bayesian Network Retrieval Model k1k1 k2k2 k3k3 k4k4 k5k5 k6k6 Sottorete dei termini D1D1 D2D2 D3D3 D4D4 Sottorete dei documenti query Termini radice (indipendenti)

53 53 Bayesian Network Retrieval Model Distribuzioni di probabilità: Distribuzioni marginali (dei nodi-termine radice): (|V|=t dimensione del vocabolario)

54 54 Bayesian Network Retrieval Model pa (k) tutti gli n nodi da cui k dipende condizionalmente (es p(rank/(information,retrieval,search,index)) Distribuzioni condizionali (basate sul coefficiente di Jaccard) per i termini dipendenti: E(p)=valore atteso di p

55 55 Bayesian Network Retrieval Model Un sistema più semplice (Two Layers ): -Si considera solo un sottoinsieme di termini condizionanti -Lanalisi della rete è più veloce

56 56 Two Layers Bayesian Networks (Xu et al. 2009) Si modella la dipendenza fra termini in funzione della word similarity Ogni concetto ki viene duplicato (ki ) La dipendenza è stimata in funzione della similarit à

57 57 Dipendenza=f(similarità)

58 58 Stima di P(dj/u)

59 59 Stima delle dipendenze BOLLEGALA, D.,MATSUO, Y., AND ISHIZUKA,M Measuring semantic similarity between wordsusing web search engines. In WWW07: Proceedings of the 16th International Conference onWorld Wide Web. ACM, New York, 757–766. Google Set: Word Similarity measures:

60 60

61 61

62 62 Per Riassumere Q=k1 k2 U =k1 k2 k1k2 kj k2 kj kj kt U=k1 k2 kj

63 63 Esempio Q=k1 k2 U =k1 k2 k1k2 kj k2 kj kj kt U=k1 k2 kj

64 64 Conclusioni I modelli probabilistici rappresentano il problema del retrieval mediante probabilità condizionate (es. P(R/q,d)). Alcuni modelli consento di rilassare lipotesi di indipendenza fra termini Occorre stimare le probabilità condizionate fra termini (in genere bigrammi o trigrammi P(ti/tj) o P(ti/tj,tk) Fra i metodi per determinare correlazioni fra termini cè il Latent Semantic Indexing, che è un metodo algebrico per stimare la similarità fra documenti, e fra documenti e query (next lesson!)


Scaricare ppt "1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle."

Presentazioni simili


Annunci Google