Modelli probabilistici

Slides:

Advertisements

Presentazioni simili

Chiara Mocenni – Analisi delle Decisioni a.a Analisi delle Decisioni Probabilita condizionate e Teorema di Bayes Chiara Mocenni.

Advertisements

Intervalli di confidenza

1 2. Introduzione alla probabilità Definizioni preliminari: Prova: è un esperimento il cui esito è aleatorio Spazio degli eventi elementari : è linsieme.

2.VARIABILI CONTINUE A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

Variabili casuali a più dimensioni

Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Lezione 7 Chiara Mocenni Corso di laurea L1.

Analisi delle Decisioni Funzioni di utilita’ e lotterie

Classificatore bayesiano

Sistemi di supporto alle decisioni 2. Features space

Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.

Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a

Apprendimento Automatico: Apprendimento Bayesiano

Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano.

Apprendimento Non Supervisionato

Apprendimento Bayesiano

Valutazione delle ipotesi

Computational Learning Theory and PAC learning

Apprendimento Bayesiano

Metodi di ranking probabilistici

Analisi della varianza (a una via)

Processi Aleatori : Introduzione – Parte I

Abbiamo visto un esempio di applicazione del teorema, ma a noi interessa l’applicazione del Teorema di Bayes alla combinazione delle informazioni, ovvero.

Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.

Algoritmi e Strutture Dati (Mod. A)

Algoritmi e Strutture Dati (Mod. B)

1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.

Corso di biomatematica lezione 4: La funzione di Gauss

Corso di biomatematica lezione 6: la funzione c2

Stima dei parametri di una distribuzione

Relevance Feedback. Query Expansion. Argomenti 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion - Usando un thesaurus.

PATTERN RECOGNITION.

Analisi delle corrispondenze

Bayesian Learning Martedì, 16 Novembre 2004 Giuseppe Manco Readings: Sections , Mitchell Chapter 2, Bishop Chapter 4, Hand-Mannila-Smith Bayesian.

Lezione 4 Probabilità.

Intelligenza Artificiale Algoritmi Genetici

Intelligenza Artificiale

CALCOLO EVOLUZIONISTICO. In ogni popolazione si verificano delle mutazioni. Le mutazioni possono generare individui che meglio si adattano allambiente.

Metodi numerici per equazioni differenziali ordinarie Laboratorio di Metodi Numerici a.a. 2008/2009.

Il calcolo di radiosity

La probabilità Schema classico.

Radix-Sort(A,d) // A[i] = cd...c2c1

Le distribuzioni campionarie

La ricerca delle relazioni tra fenomeni

1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.

Valutazione delle prstazioni di un sistema di retrieval

Metodi di ranking probabilistici

Relevance Feedback & Query Expansion. Tema: come migliorare la recall di una query? 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion.

Modelli predittivi F. De Santis, L. Bolognini Convegno Misurare la giustizia? Roma, ottobre 2004.

Intelligenza Artificiale Conoscenza e ragionamento incerto Prof. M.T. PAZIENZA a.a

è … lo studio delle caratteristiche di regolarità dei fenomeni casuali

Laurea Ing EO/IN/BIO;TLC D.U. Ing EO 10 PROBABILITA’ E VARIABILI ALEATORIE.

Probabilità e Variabili Casuali

L’analisi del contenuto Doppia funzione dell’analisi del contenuto: -Può essere un tipo di ricerca specifico -Può essere una tecnica di ricerca Come TECNICA.

Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a

Probabilità. Un percorso didattico esperimenti e simulazioni L. Cappello 9 Maggio Didattica probabilità e statistica PAS 2014.

Intelligenza Artificiale Conoscenza e ragionamento incerto Prof. M.T. PAZIENZA a.a

Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:

2) PROBABILITA’ La quantificazione della ‘possibilità’ del verificarsi di un evento casuale E è detta probabilità P(E) Definizione classica: P(E) è il.

Elementi di statistica Le cifre significative

Università degli Studi di Parma Ragionamento con conoscenza incerta.

Flusso di Costo Minimo Applicazione di algoritmi: Cammini Minimi Successivi (SSP) Esercizio 1 Sia data la seguente rete di flusso, in cui i valori riportati.

PROBABILITÀ Corsi Abilitanti Speciali Classe 59A III semestre - 2.

Elaborazione statistica di dati

Elementi di teoria delle probabilità

Correlazione e regressione lineare

Pattern Recognition Lez.14: Miscugli di Gaussiane.

L’Analisi delle Corrispondenze. Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o.

10/5/061 Lez. 12 Previsioni di traffico Generalità Previsioni di scenario.

Transcript della presentazione:

Modelli probabilistici

Ripasso: P(A)=P(A  B)+P(A  ¬B) P(A)= i P(A  Bi) , dove Bi,i è un set di eventi esaustivo e mutuamente esclusivo P(A) + P(¬A) = 1 P(A|B) probabilità di A dato B (condizionata) Se P(A|B)=P(A), A e B sono indipendenti se P(A|B  C)= P(A|C), A e B sono condizionalmente independenti, dato C P(A | B)=P(B|A)P(A)/P(B) teorema di Bayes P(A)= i P(A | Bi)P(Bi)

Modelli probabilistici Obiettivo: rappresentare in termini probabilistici il problema del recupero di informazioni Data una query, esiste un set di documenti che costituisce la risposta ideale Una query specifica le proprietà di questo insieme ideale Ma quali sono queste proprietà? Inizialmente, si fa un tentativo di “indovinare” quste proprietà, cioè fornire una definizione tentativa della risposta ideale Successivamente, un processo iterativo consente di migliorare i risultati del tentativo iniziale

Modello probabilistico “elementare” In qualche modo, viene recuperato un insieme iniziale di documenti L’utente osserva questi documenti - in genere i primi 10-20, e seleziona i più rilevanti Il sistema di IR usa questa informazione per raffinare il set di risposte Attraverso una iterazione del processo, ci si aspetta che il set di risposte approssimi sempre di più il set ideale La descrizione del set di risposte ideale viene modellata in termini probabilistici

Ranking probabilistico Data una query q e un documento dj, il modello probabilistico cerca di stimare la probabilità che l’utente trovi il documento interessante, cioè rilevante. Il modello assume che la rilevanza dipenda solo dalla rappresentazione della richiesta dell’utente e del documento. Il set ideale di risposte si indica con R e dovrebbe massimizzare la probabilità di rilevanza. Ma, Come calcolare le probabilità? Quale è lo spazio di campionamento?

Ranking probabilistico (2) Il ranking probabilistico è calcolato come segue : sim(q,dj) = P(dj relevant-to q) / P(dj non-relevant-to q) Definizioni: dj rappresentazione vettoriale di un documento (il grassetto indica un vettore) wij  {0,1} (i pesi dei termini indice sono binari) P(R | dj) : probabilità che un documento sia rilevante, cioè R P(R | dj ): probabilità che un documento NON sia rilevante

Ranking probabilistico (3) sim(dj,q) = P(R | dj) / P(R | dj ) = [P(dj | R) * P(R)] (usando la legge Bayes) [P(dj | R) * P(R)] P(R) è la prob. di che un documento scelto a caso sia rilevante P(dj | R) è la probabilità di scegliere un documento dal set R Poiché P(R) e P(R) non dipendono da dj (sono le stesse per tutti i dj)

Ranking probabilistico (5) sim(dj,q) ~ P(dj | R) dj=(w1jk1,w2jk2,…wtjkt) P(dj | R) e, assumendo le keywords indipendenti: [ ∏ wij=1 P(ki | R)] * [∏ wij=0 P(ki | R)] [∏ wij=1 P(ki | R)] * [∏ wij=0 P(ki | R)] P(ki | R) : probabilità che il termine indice ki sia presente in un documento scelto casualmente dal set R dei documenti rilevanti Prob. Che le ki aventi w=1 appartengano a R, e quelle con w=0 non vi appartengano Ricordate wij sono 0 o 1 !!!

Esempio keywords: k1,k2,k3 d=(1,1,0) w1=w2=1 w3=0 P(d/R)=P(k1/R)P(k2/R)P(k3/R) P(d/ R)= P(k1/  R)P(k2/  R)P(k3/  R)  P(d/R)=wi=1 P(ki/R)* wi=0 P( ki/ R)  P(d/  R)=wi=1 P(ki/  R)* wi=0 P( ki/  R)

Ranking iniziale Come stimare le probabilità P(ki | R) e P(ki | R) ? Si assume: P(ki | R) = 0.5 (equiprobabilità rilevanza per tutti i termini) P(ki | R) = ni/N (la distribuzione dei termini indice fra i documenti non rilevanti si può approssimare con la distribuzione dei termini indice fra i documenti della collezione) dove ni è il numero di documenti che contiene ki Si usa questa stima iniziale per calcolare il ranking iniziale Si cerca di migliorare sulla stima iniziale

Migliorare il ranking iniziale Sia V : i documenti inizialmente recuperati con la stima approssimata, applicando una soglia r Vi : il sottoinsieme che contiene ki Rivalutare le stime come segue: P(ki | R) = Vi/V (approssimato con la distribuzione dei termini indice fra i documenti recuperati) P(ki | R) = (ni - Vi )/ (N - V ) (si assume in via approssimata che tutti i documenti non recuperati siano non rilevanti) Ripetere ricorsivamente

Aggiustamenti della stima Per piccoli valori di V e Vi (ex. Rispettivamente 0 e 1) si usano degli aggiustamenti: O meglio:

Vantaggi e svantaggi Vantaggi: Svantaggi: Si ottiene un ranking in ordine decrescente di probabilità di rilevanza Svantaggi: È necessaria una stima iniziale di P(ki | R) Non tiene conto di tf e idf, fattori che invece sono significativi (i pesi sono 0 o 1)

Modelli Bayesiani Bayes’ Rule : è il “cuore” delle tecniche Bayesiane P(h|e) = P(e|h)P(h)/ P(e) Dove, h : una ipotesi ed e è un’evidenza P(h) : probabilità a priori P(h|e) : probabilità a posteriori data l’evidenza e P(e|h) : probabilità di osservare e se h è vera P(e) : è una costante di normalizzazione (indipendente da h), quindi: P(h|e) ~ P(e|h)P(h)

Reti Bayesiane Definizione: le Reti Bayesiane sono grafici aciclici diretti (DAGs) in cui i nodi rappresentano delle variabili aleatorie gli archi rappresentano relazioni causali fra le variabili, e la “forza” di queste relazioni causali è espressa mediante probabilità condizionate

Reti Bayesiane yi : nodi antenati (nell’esempio, nodi radice) x : nodi figli : yi “causa” x Y insieme degli antenati di x L’influenza di Y su x è quantificata da una funzione: F(x,Y) tale che x F(x,Y) = 1 0 < F(x,Y) < 1 Per esempio: F(x,Y)=P(x|Y)

Reti Bayesiane Date le dipendenze causali dichiarate in una RB, l’espressione per la probabilità congiunta può essere calcolata come il prodotto di probabilità condizionate locali Es: P(x1, x2, x3, x4, x5)= P(x1 ) P(x2| x1 ) P(x3| x1 ) P(x4| x2, x3 ) P(x5| x3 ). P(x1 ) : la probability mass del primo nodo, o prob. a priori

Reti Bayesiane In una RB ogni variabile è condizionalmente indipendente rispetto ai suoi non-discendenti, dati i suoi antecedenti Esempio: P(x4, x5| x2 , x3)= P(x4| x2 , x3) P( x5| x3)

Belief Network Model: un modello di ranking basato su RB Definizioni: K={k1, k2, ...,kt} spazio di campionamento (o spazio dei concetti) u  K un subset di K (un concetto) ki un termine indice (concetto elementare) k=(k1, k2, ...,kn) nt un vettore associato ad ogni concetto u tale che gi(k)=1  ki  u (pesi unitari) ki una variabile aleatoria binaria (cioè ki0,1 ) associata al termine indice ki , t.c. ki = 1  gi(k)=1  ki  u

Belief Network Model Definizioni (2): un documento dj e una query q sono rappresentati come concetti in K, composti dai termini indice contenuti in dj e q. Sia dunque c un concetto generico in K (documento o query) P(c)=uP(c|u) P(u) è una distribuzione di probabilità P su K P(c) è il definito come il grado di copertura dello spazio K mediante c Questa copertura è stimata confrontando ogni concetto in K (“ u”) con c, e sommando i contributi, pesati con le probabilità dei singoli concetti u. Si assume inizialmente equiprobabilità delle sottostringhe u in K (se ho t termini, ciascuno dei quali può essere presente o assente in u, ci sono 2t possibili modi di formare concetti u), cioè: P(u)=(1/2)t

Belief Network Model Topologia della rete lato query lato documento cq cd1 cdn

Belief Network Model Il ranking di un documento dj rispetto ad una query q è interpretato come una relazione di corrispondenza fra concetti, e riflette il grado di copertura che il concetto dj fornisce al concetto q. Documenti e query sono trattati nello stesso modo, cioè sono entrambi concetti nello spazio K. Assunzione: P(dj|q) viene considerato come il rank del documento dj rispetto alla query q.

Belief Network Model Ranking di dj P(dj|q) = P(dj  q) / P(q) Questo fattore compare in tutti i P(dj/q) dunque può essere trascurato Ranking di dj P(dj|q) = P(dj  q) / P(q) ~ P(dj  q) ~ u P(dj  q | u) P(u) ~ u P(dj | u) P(q | u) P(u) ~ k P(dj | k) P(q | k) P(k) Assumendo q e dj condizionalmente indipendenti rispetto a u, come si evince dal modello Ogni vettore k definisce un concetto u

Belief Network Model Dunque: P(dj|q) ~ k P(dj | k) P(q | k) P(k) Occorre specificare le probabilità condizionate P(dj | k) e P(q | k) . Differenti strategie per modellare P(dj | k) e P(q | k) portano a diversi modelli di ranking. Sussumendo un modello vettoriale per i pesi: Definisci il vettore ki come segue: ki = k | ((gi(k)=1)  (ji gj(k)=0)) Il vettore ki si riferisce ad uno stato del vettore k in cui solo il nodo ki è attivo (g(ki)=1) e tutti gli altri non lo sono. Questo riflette la strategia di ranking tf-idf, che somma individualmente il contributo di ogni keyword. Quindi, si considera il contributo di ogni termine ki singolarmente.

Belief Network Model P(dj|q) ~ k P(dj | k) P(q | k) P(k) Per il modello vettoriale: Definisci (wi,q / |q|) se (k = ki ) (gi(q)=1) P(q | k) = 0 se (k  ki ) (gi(q)=0) P(¬q | k) = 1 - P(q | k)  (wi,q / |q|) una versione normalizzata del peso del termine indice ki nella query q peso tf-idf di ki in q ki compare in q

Belief Network Model Per il modello vettoriale Definisci (wi,j / |dj|) se (k = ki ) (gi(dj)=1) P(dj | k) = 0 se (k  ki ) (gi(dj)=0) P(¬ dj | k) = 1 - P(dj | k)  (wi,j / |dj|) una versione normalizzata del peso del termine indice ki nel documento d,j

Vantaggi del Belief Network model Per calcolare il rank di un documento, considera solo gli stati della rete in cui i nodi attivi sono quelli che compaiono nella query, quindi il costo è lineare nel numero dei documenti della collezione E’ una variante moderna dei metodi di ragionamento probabilistico, che consente una combinazione di distinte sorgenti di evidenza. I modelli più avanzati consentono di incorporare nel modello evidenze derivate da sessioni precedenti, e feedback dell’utente.