La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Modelli probabilistici. Ripasso: P(A)=P(A B)+P(A ¬B) P(A)= i P(A B i ), dove B i, i è un set di eventi esaustivo e mutuamente esclusivo P(A) + P(¬A) =

Presentazioni simili


Presentazione sul tema: "Modelli probabilistici. Ripasso: P(A)=P(A B)+P(A ¬B) P(A)= i P(A B i ), dove B i, i è un set di eventi esaustivo e mutuamente esclusivo P(A) + P(¬A) ="— Transcript della presentazione:

1 Modelli probabilistici

2 Ripasso: P(A)=P(A B)+P(A ¬B) P(A)= i P(A B i ), dove B i, i è un set di eventi esaustivo e mutuamente esclusivo P(A) + P(¬A) = 1 P(A|B) probabilità di A dato B (condizionata) Se P(A|B)=P(A), A e B sono indipendenti se P(A|B C)= P(A|C), A e B sono condizionalmente independenti, dato C P(A | B)=P(B|A)P(A)/P(B) teorema di Bayes P(A)= i P(A | B i )P(B i )

3 Modelli probabilistici Obiettivo: rappresentare in termini probabilistici il problema del recupero di informazioni Data una query, esiste un set di documenti che costituisce la risposta ideale Una query specifica le proprietà di questo insieme ideale Ma quali sono queste proprietà? Inizialmente, si fa un tentativo di indovinare quste proprietà, cioè fornire una definizione tentativa della risposta ideale Successivamente, un processo iterativo consente di migliorare i risultati del tentativo iniziale

4 Modello probabilistico elementare In qualche modo, viene recuperato un insieme iniziale di documenti Lutente osserva questi documenti - in genere i primi 10-20, e seleziona i più rilevanti Il sistema di IR usa questa informazione per raffinare il set di risposte Attraverso una iterazione del processo, ci si aspetta che il set di risposte approssimi sempre di più il set ideale La descrizione del set di risposte ideale viene modellata in termini probabilistici

5 Ranking probabilistico Data una query q e un documento dj, il modello probabilistico cerca di stimare la probabilità che lutente trovi il documento interessante, cioè rilevante. Il modello assume che la rilevanza dipenda solo dalla rappresentazione della richiesta dellutente e del documento. Il set ideale di risposte si indica con R e dovrebbe massimizzare la probabilità di rilevanza. Ma, –Come calcolare le probabilità? –Quale è lo spazio di campionamento?

6 Ranking probabilistico (2) Il ranking probabilistico è calcolato come segue : –sim(q,dj) = P(d j relevant-to q) / P(d j non-relevant-to q) Definizioni: –dj rappresentazione vettoriale di un documento (il grassetto indica un vettore) –wij {0,1} (i pesi dei termini indice sono binari) –P(R | dj) : probabilità che un documento sia rilevante, cioè R –P( R | dj ): probabilità che un documento NON sia rilevante

7 Ranking probabilistico (3) sim(dj,q) = P(R | dj) / P( R | dj )= [P(dj | R) * P(R)] (usando la legge Bayes) [P(dj | R) * P( R)] P(R) è la prob. di che un documento scelto a caso sia rilevante P(dj | R) è la probabilità di scegliere un documento dal set R Poiché P(R) e P( R) non dipendono da d j (sono le stesse per tutti i d j )

8 Ranking probabilistico (5) sim(dj,q)~ P(dj | R) dj=(w 1j k 1,w 2j k 2,…w tj k t ) P(dj | R) e, assumendo le keywords indipendenti: [ wij=1 P(k i | R)] * [ wij=0 P( k i | R)] P(k i | R) : probabilità che il termine indice ki sia presente in un documento scelto casualmente dal set R dei documenti rilevanti Ricordate w ij sono 0 o 1 !!! Prob. Che le k i aventi w=1 appartengano a R, e quelle con w=0 non vi appartengano

9 Esempio keywords: k1,k2,k3 d=(1,1,0) w1=w2=1 w3=0 P(d/R)=P(k1/R)P(k2/R)P( k3/R) P(d/R)= wi=1 P(ki/R)* wi=0 P( ki/ R)

10 Ranking iniziale Come stimare le probabilità P(ki | R) e P(ki | R) ? Si assume: –P(k i | R) = 0.5 (equiprobabilità rilevanza per tutti i termini) –P(k i | R) = n i /N (la distribuzione dei termini indice fra i documenti non rilevanti si può approssimare con la distribuzione dei termini indice fra i documenti della collezione) dove n i è il numero di documenti che contiene k i –Si usa questa stima iniziale per calcolare il ranking iniziale –Si cerca di migliorare sulla stima iniziale

11 Migliorare il ranking iniziale Sia –V : i documenti inizialmente recuperati con la stima approssimata, applicando una soglia r –Vi : il sottoinsieme che contiene ki Rivalutare le stime come segue: –P(ki | R) = Vi/V (approssimato con la distribuzione dei termini indice fra i documenti recuperati) P(ki | R) = (ni - Vi )/ (N - V ) (si assume in via approssimata che tutti i documenti non recuperati siano non rilevanti) Ripetere ricorsivamente

12 Aggiustamenti della stima Per piccoli valori di V e Vi (ex. Rispettivamente 0 e 1) si usano degli aggiustamenti: O meglio:

13 Vantaggi e svantaggi Vantaggi: –Si ottiene un ranking in ordine decrescente di probabilità di rilevanza Svantaggi: –È necessaria una stima iniziale di P(ki | R) –Non tiene conto di tf e idf, fattori che invece sono significativi (i pesi sono 0 o 1)

14 Modelli Bayesiani Bayes Rule : è il cuore delle tecniche Bayesiane P(h|e) = P(e|h)P(h)/ P(e) Dove, h : una ipotesi ed e è unevidenza P(h) : probabilità a priori P(h|e) : probabilità a posteriori data levidenza e P(e|h) : probabilità di osservare e se h è vera P(e) : è una costante di normalizzazione (indipendente da h), quindi: P(h|e) ~ P(e|h)P(h)

15 Reti Bayesiane Definizione: le Reti Bayesiane sono grafici aciclici diretti (DAGs) in cui i nodi rappresentano delle variabili aleatorie gli archi rappresentano relazioni causali fra le variabili, e la forza di queste relazioni causali è espressa mediante probabilità condizionate

16 Reti Bayesiane y i : nodi antenati (nellesempio, nodi radice) x : nodi figli : y i causa x Y insieme degli antenati di x Linfluenza di Y su x è quantificata da una funzione: F(x,Y) tale che x F(x,Y) = 1 0 < F(x,Y) < 1 Per esempio: F(x,Y)=P(x|Y)

17 Reti Bayesiane Date le dipendenze causali dichiarate in una RB, lespressione per la probabilità congiunta può essere calcolata come il prodotto di probabilità condizionate locali Es: P(x 1, x 2, x 3, x 4, x 5 )= P(x 1 ) P(x 2 | x 1 ) P(x 3 | x 1 ) P(x 4 | x 2, x 3 ) P(x 5 | x 3 ). P(x 1 ) : la probability mass del primo nodo, o prob. a priori

18 Reti Bayesiane In una RB ogni variabile è condizionalmente indipendente rispetto ai suoi non-discendenti, dati i suoi antecedenti Esempio: P(x 4, x 5 | x 2, x 3 )= P(x 4 | x 2, x 3 ) P( x 5 | x 3 )

19 Belief Network Model: un modello di ranking basato su RB Definizioni: K={k 1, k 2,...,k t } spazio di campionamento (o spazio dei concetti) u K un subset di K (un concetto) k i un termine indice (concetto elementare) k=(k 1, k 2,...,k n ) n t un vettore associato ad ogni concetto u tale che g i (k)=1 k i u (pesi unitari) k i una variabile aleatoria binaria (cioè ki 0,1 ) associata al termine indice k i, t.c. k i = 1 g i (k)=1 k i u

20 Belief Network Model Definizioni (2): un documento d j e una query q sono rappresentati come concetti in K, composti dai termini indice contenuti in d j e q. Sia dunque c un concetto generico in K (documento o query) P(c)= u P(c|u) P(u) è una distribuzione di probabilità P su K P(c) è il definito come il grado di copertura dello spazio K mediante c Questa copertura è stimata confrontando ogni concetto in K ( u) con c, e sommando i contributi, pesati con le probabilità dei singoli concetti u. Si assume inizialmente equiprobabilità delle sottostringhe u in K (se ho t termini, ciascuno dei quali può essere presente o assente in u, ci sono 2 t possibili modi di formare concetti u), cioè: P(u)=(1/2) t

21 Belief Network Model Topologia della rete lato query lato documento cqcq c d1 c dn

22 Belief Network Model grado di copertura che il concetto d j fornisce al concetto q. Il ranking di un documento d j rispetto ad una query q è interpretato come una relazione di corrispondenza fra concetti, e riflette il grado di copertura che il concetto d j fornisce al concetto q. Documenti e query sono trattati nello stesso modo, cioè sono entrambi concetti nello spazio K. Assunzione: P(d j |q) viene considerato come il rank del documento d j rispetto alla query q.

23 Belief Network Model Ranking di d j P(d j |q) = P(d j q) / P(q) ~ P(d j q) ~ u P(d j q | u) P(u) ~ u P(d j | u) P(q | u) P(u) ~ k P(d j | k) P(q | k) P(k) Questo fattore compare in tutti i P(dj/q) dunque può essere trascurato Assumendo q e dj condizionalmente indipendenti rispetto a u, come si evince dal modello Ogni vettore k definisce un concetto u

24 Belief Network Model Dunque: P(d j |q) ~ k P(d j | k) P(q | k) P(k) Occorre specificare le probabilità condizionate P(d j | k) e P(q | k). Differenti strategie per modellare P(d j | k) e P(q | k) portano a diversi modelli di ranking. Sussumendo un modello vettoriale per i pesi: –Definisci il vettore k i come segue: k i = k | ((g i (k)=1) ( j i g j (k)=0)) Il vettore k i si riferisce ad uno stato del vettore k in cui solo il nodo ki è attivo (g(ki)=1) e tutti gli altri non lo sono. Questo riflette la strategia di ranking tf-idf, che somma individualmente il contributo di ogni keyword. Quindi, si considera il contributo di ogni termine ki singolarmente.

25 Belief Network Model P(d j |q) ~ k P(d j | k) P(q | k) P(k) Per il modello vettoriale: Definisci (w i,q / |q|) se (k = k i ) (g i (q)=1) P(q | k) = 0 se (k k i ) (g i (q)=0) P(¬q | k) = 1 - P(q | k) (w i,q / |q|) una versione normalizzata del peso del termine indice k i nella query q peso tf-idf di k i in q ki compare in q

26 Belief Network Model Per il modello vettoriale Definisci (w i,j / |d j |) se (k = k i ) (g i (d j )=1) P(d j | k) = 0 se (k k i ) (g i (d j )=0) P(¬ d j | k) = 1 - P(d j | k) (w i,j / |d j |) una versione normalizzata del peso del termine indice k i nel documento d,j

27 Vantaggi del Belief Network model Per calcolare il rank di un documento, considera solo gli stati della rete in cui i nodi attivi sono quelli che compaiono nella query, quindi il costo è lineare nel numero dei documenti della collezione E una variante moderna dei metodi di ragionamento probabilistico, che consente una combinazione di distinte sorgenti di evidenza. I modelli più avanzati consentono di incorporare nel modello evidenze derivate da sessioni precedenti, e feedback dellutente.


Scaricare ppt "Modelli probabilistici. Ripasso: P(A)=P(A B)+P(A ¬B) P(A)= i P(A B i ), dove B i, i è un set di eventi esaustivo e mutuamente esclusivo P(A) + P(¬A) ="

Presentazioni simili


Annunci Google