Apprendimento Automatico: Apprendimento Bayesiano

Slides:



Advertisements
Presentazioni simili
Le distribuzioni di probabilità continue
Advertisements

2. Introduzione alla probabilità
Sistema di riferimento sulla retta
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
La probabilità.
Informatica Generale Alessandra Di Pierro
COORDINATE POLARI Sia P ha coordinate cartesiane
6. Catene di Markov a tempo continuo (CMTC)
1 2. Introduzione alla probabilità Definizioni preliminari: Prova: è un esperimento il cui esito è aleatorio Spazio degli eventi elementari : è linsieme.
Introduzione Cosa sono le reti di Petri?
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
1 Il punto di vista Un sistema è una parte del mondo che una persona o un gruppo di persone, durante un certo intervallo di tempo, sceglie di considerare.
Algoritmi e Strutture Dati
Fault Tollerance and Bayesian Networks
Bruno Mario Cesana Stefano Calza
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Lez. 3 - Gli Indici di VARIABILITA’
Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Lezione 7 Chiara Mocenni Corso di laurea L1.
1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.
Cammini minimi con sorgente singola
6. Catene di Markov a tempo continuo (CMTC)
3. Processi Stocastici Un processo stocastico è una funzione del tempo i cui valori x(t) ad ogni istante di tempo t sono v.a. Notazione: X : insieme di.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Esercitazioni su circuiti combinatori
Inferenza statistica per un singolo campione
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Identificazione delle attività
Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano.
Apprendimento Bayesiano
Apprendimento Automatico: Apprendimento Pigro (Lazy Learning)
Valutazione delle ipotesi
Apprendimento Automatico: Valutazione delle Prestazioni
Computational Learning Theory and PAC learning
Apprendimento Bayesiano
Algoritmo di Ford-Fulkerson
Processi Aleatori : Introduzione – Parte I
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
Appunti di inferenza per farmacisti
Corso di Informatica (Basi di Dati)
Realizzazione e caratterizzazione di una semplice rete neurale per la separazione di due campioni di eventi Vincenzo Izzo.
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
LA PROBABILITA’.
Modelli probabilistici
Funzioni di densità (o di probabilità) congiunte.
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
OPERAZIONI CON TRINOMI DI II° GRADO
Strutture di controllo in C -- Flow Chart --
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Elementi di Informatica di base
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
La probabilità Schema classico.
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
SCOPRI LA TABELLINA click Trova la regola nascosta… click
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Intelligenza Artificiale Conoscenza e ragionamento incerto Prof. M.T. PAZIENZA a.a
è … lo studio delle caratteristiche di regolarità dei fenomeni casuali
Laurea Ing EO/IN/BIO;TLC D.U. Ing EO 10 PROBABILITA’ E VARIABILI ALEATORIE.
OPERAZIONI CON TRINOMI DI II° GRADO
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Università degli Studi di Parma Ragionamento con conoscenza incerta.
Elementi di teoria delle probabilità
In alcuni casi gli esiti di un esperimento possono essere considerati numeri naturali in modo naturale. Esempio: lancio di un dado In atri casi si definisce.
Ragionamento Bayesiano Esercizi. Classificatore Naïve Bayes: richiami (credits: P. Velardi-uniroma1) Si applica quando le ipotesi in H sono rappresentabili.
Transcript della presentazione:

Apprendimento Automatico: Apprendimento Bayesiano Roberto Navigli Cap. 6.1-6.2, 6.9-6.11 [Mitchell] Cap. 14 [Russel & Norvig] Cap. 5.3 [Tan, Steinbech, Kumar]

Caratteristiche dell’Apprendimento Bayesiano Ogni esempio di addestramento progressivamente decrementa o incrementa la probabilità stimata che un’ipotesi sia corretta La conoscenza pregressa può essere combinata con i dati osservati per determinare la probabilità finale di un’ipotesi I metodi Bayesiani possono fornire predizioni probabilistiche (es. questo paziente ha il 93% di possibilità di guarire) Nuove istanze possono essere classificate combinando le predizioni di ipotesi multiple, pesate con le loro probabilità Anche quando i metodi Bayesiani sono intrattabili computazionalmente, possono fornire uno standard di decisione ottimale rispetto al quale misurare metodi più pratici

Richiamo di concetti di calcolo delle probabilità Spazio di campionamento Ω è l’insieme degli esiti di una prova  è l’esito di una prova (es. il lancio del dado ha esito 2) A è un evento (sottoinsieme di Ω) Indichiamo con P(A) la probabilità (massa di probabilità) di un evento A (es: x=1, o x “pari”) Per ogni coppia di eventi A e B: A B

Probabilità congiunta Dati due eventi A e B, P(A) è la probabilità marginale dell’evento A e P(B) quella dell’evento B La probabilità congiunta che si verifichino entrambi gli eventi è P(A, B) Se i due eventi sono indipendenti, allora si ha: P(A, B) = P(A) P(B)

Probabilità condizionata La probabilità condizionata dell’evento B dato l’evento A (probabilità di un evento A supponendo che sia verificato un evento B) è data da: A B AB

Teorema di Bayes Sfruttando la definizione di probabilità condizionata si ottiene:

Classificatore Naïve Bayes Si applica al caso in cui le ipotesi in H sono rappresentabili mediante una congiunzione di valori di attributi e la classificazione è scelta da un insieme finito Y. Le istanze x in X sono descritte mediante m-uple di valori (x1,x2, ..., xm) associati agli m attributi di x Il classificatore “naif” si basa sull’assunzione semplificativa che i valori degli attributi siano condizionalmente indipendenti, assegnato un valore della funzione obiettivo, cioè, dato un nuovo esempio x da classificare, calcoliamo:

Stima delle probabilità Le probabilità P(xi|c) vengono stimate osservando le frequenze nei dati di addestramento D Se D include ni esempi classificati ci, e nij di questi ni esempi contengono il valore xj per l’attributo j, allora:

{ Naïve Bayes: Esempio Dall’insieme D stimo le prob. a priori Y = {allergia, raffreddore, in_salute} (possibili classi) x1 = starnuti (sì, no) ; x2 = tosse (sì, no) ; x3 = febbre (sì, no) (attributi booleani) x = (1, 1, 0) come lo classifico? Prob in salute raffred-dore allergia P(c) 0.9 0.05 P(x1 |c) 0.027 1.0 P(x2 |c) 0.5 P(x3 |c) { Dall’insieme D stimo le prob. a priori e condizionate es:

Esempio (continua) 40 esempi, 36 classificati “in salute”, 2 raffreddore, 2 allergia Per stimare, ad esempio, P(x1=1|in-salute), contare sui 36 esempi nei quali c(x)= “in-salute” quanti hanno x1=1 se 1 su 36, P(x1=1|in-salute)=1/36=0,027 Analogamente avrò, ad es.: P(x1=1|raffreddore)=2/2=1 P(x1=1|allergia)=2/2=1 ecc.

Esempio (continua) Devo calcolare il massimo al variare di c di: Quindi ad esempio per c=raffreddore Analogamente, troverò:

Problemi con Naive Bayes Se D è piccolo, le stime sono inaffidabili (nell’esempio precedente alcune stime sono = 1!) Un valore raro xk può non capitare mai in D e dunque: c: P(xk | c) = 0. Analogamente, se ho un solo esempio di una classe c,  xk: P(xk | c) = 1 o P(xk | c) = 0.

Smoothing Per tener conto di eventi rari, si operano degli aggiustamenti sulle probabilità detti smoothing Laplace smoothing con una M-stima assume che ogni evento xj abbia una probabilità a priori p, che si assume essere stata osservata in un campione virtuale di dimensione M > del campione reale Nell’esempio precedente, ad es. M è una costante che determina il peso dello smoothing In assenza di altre informazioni, si assume p = 1/k dove k è il numero di valori dell’attributo j in esame

Un esempio Classificazione automatica di documenti Un documento rappresentato come un elenco di termini tj (j=1,…,|V|), dove V è il vocabolario Rappresentiamo un documento x con il vettore x = (x1,x2…,x|V|) dove xj=1 se il termine tj è presente (0 altrimenti) D = { (xi, yi) } insieme di addestramento di documenti già classificati Y = { sport, politica, ..., scienze } Stimare, sulla base di D, le P(tj|c)

Una semplice notazione grafica per: Reti Bayesiane Una semplice notazione grafica per: l’asserzione di indipendenza condizionata la specifica compatta di distribuzioni congiunte Un grafo diretto G = (V, E) dove: I vertici sono le variabili aleatorie del problema Gli archi diretti (x, y) descrivono le dipendenze tra variabili aleatorie

Variabili aleatorie Una variabile aleatoria X è una funzione dell’esito di un esperimento: che associa un valore a ogni esito. Ad esempio, dato l’evento “lancio di dado”, la funzione può essere definita come:

Reti Bayesiane: esempio (da Tan, Steinbech, Kumar) La topologia della rete codifica le asserzioni di dipendenza/indipendenza Nell’esempio, l’esercizio è indipendente dalle altre variabili, la cardiopatia dipende dall’esercizio e dalla dieta. Esercizio Dieta Cardiopatia Bruciore di stomaco Dolore al petto Pressione sanguigna

Reti Bayesiane: esempio (da Russel & Norvig) Sono al lavoro e il vicino John mi chiama per dire che suona l’allarme, but la vicina Mary non chiama. A volte viene attivato da piccole scosse di terremoto. C’e’ un furto in corso? Variabili (booleane): Burglary (furto), Earthquake (terremoto), Alarm (allarme), JohnCalls, MaryCalls La topologia della rete riflette la conoscenza “causale” Un furto o un terremoto possono causare l’attivazione dell’allarme L’allarme può causare una chiamata di John o Mary

Reti Bayesiane: esempio (da Russel & Norvig)

Semantica delle Reti Bayesiane La distribuzione congiunta di tutte le variabili è data dal prodotto delle probabilità condizionate “locali”: Perché? “Chain rule”

Esempio Qual è la probabilità che date le chiamate di John e Mary per via dell’allarme non si sia verificato né un terremoto né un furto? P(J=true, M=true, A=true, B=false, E=false) = P(j, m, a, ¬b, ¬e) = P(j|a)P(m|a)P(a| ¬b, ¬e)P(¬b)P(¬e) = 0.9 * 0.7 * 0.001 * 0.999 * 0.998 = 0.000628

Naive Bayes visto come Rete Bayesiana X1 X2 X3 … Xm

Compattezza delle Reti Bayesiane Una tabella di probabilità condizionate per la variabile booleana Xi con k genitori booleani ha 2k righe (combinazioni dei valori dei genitori) Ogni riga richiede un valore di probabilità per Xi = true (il numero per Xi = false è 1-p) Se ogni variabile non ha più di k genitori, la rete completa richiede O(m2k) numeri dove m è il numero di variabili (nodi) della rete Ovvero lo spazio richiesto cresce linearmente con m Di quanti numeri avrei bisogno invece se codificassi l’intera distribuzione congiunta delle m variabili?

Costruzione di una Rete Bayesiana Scegli un ordinamento delle variabili aleatorie X1, … ,Xm For i = 1 to m aggiungi Xi alla rete seleziona i genitori da X1, … ,Xi-1 tali che P (Xi | Parents(Xi)) = P (Xi | X1, ... Xi-1)

Costruzione di una Rete Bayesiana: Esempio Supponiamo l’ordinamento: M, J, A, B, E P(J | M) = P(J)?

Costruzione di una Rete Bayesiana: Esempio Supponiamo l’ordinamento: M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)?

Costruzione di una Rete Bayesiana: Esempio Supponiamo l’ordinamento: M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? P(B | A, J, M) = P(B)?

Costruzione di una Rete Bayesiana: Esempio Supponiamo l’ordinamento: M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? Sì P(B | A, J, M) = P(B)? No P(E | B, A ,J, M) = P(E | A)? P(E | B, A, J, M) = P(E | A, B)?

Costruzione di una Rete Bayesiana: Esempio Supponiamo l’ordinamento: M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? Sì P(B | A, J, M) = P(B)? No P(E | B, A ,J, M) = P(E | A)? No P(E | B, A, J, M) = P(E | A, B)? Sì

Costruzione di una Rete Bayesiana: Esempio Decidere l’indipendenza condizionata è difficile se si procede in direzione “non causale” Decidere sulle causalità è molto più semplice per gli umani che non per le macchine!

Apprendimento automatico delle tabelle delle probabilità condizionate Dato un insieme di addestramento, si procede in modo simile a quanto fatto con Naive Bayes Si calcola la probabilità condizionata:

Esempio: il Buon Ricercatore Sperimentale Abilità Ricercatore Qualità Scrittura Qualità Risultati Articolo accettato

Apprendimento Bayesiano “in a nutshell” Le reti bayesiane forniscono una rappresentazione naturale per l’indipendenza condizionata indotta in modo causale Naïve Bayes è una caratterizzazione estrema del dominio, ma funziona generalmente bene Data la topologia e le tabelle di probabilità condizionate, si ottiene una distribuzione congiunta compatta Semplice per gli esperti di dominio costruire una rete