La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano Cap. 6.1-6.2, 6.9-6.11 [Mitchell]

Copie: 1
Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano.

Presentazioni simili


Presentazione sul tema: "Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano Cap. 6.1-6.2, 6.9-6.11 [Mitchell]"— Transcript della presentazione:

1 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano Cap , [Mitchell] Cap. 14 [Russel & Norvig] Cap. 5.3 [Tan, Steinbech, Kumar]

2 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 2 Caratteristiche dellApprendimento Bayesiano Ogni esempio di addestramento progressivamente decrementa o incrementa la probabilità stimata che unipotesi sia corretta La conoscenza pregressa può essere combinata con i dati osservati per determinare la probabilità finale di unipotesi I metodi Bayesiani possono fornire predizioni probabilistiche (es. questo paziente ha il 93% di possibilità di guarire) Nuove istanze possono essere classificate combinando le predizioni di ipotesi multiple, pesate con le loro probabilità Anche quando i metodi Bayesiani sono intrattabili computazionalmente, possono fornire uno standard di decisione ottimale rispetto al quale misurare metodi più pratici

3 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 3 Spazio di campionamento è linsieme degli esiti di una prova è lesito di una prova (es. il lancio del dado ha esito 2) A è un evento (sottoinsieme di ) Indichiamo con P(A) la probabilità (massa di probabilità) di un evento A (es: x=1, o x pari) Per ogni coppia di eventi A e B: A B Richiamo di concetti di calcolo delle probabilità

4 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 4 Probabilità congiunta Dati due eventi A e B, P(A) è la probabilità marginale dellevento A e P(B) quella dellevento B La probabilità congiunta che si verifichino entrambi gli eventi è P(A, B) Se i due eventi sono indipendenti, allora si ha: –P(A, B) = P(A) P(B)

5 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 5 Probabilità condizionata La probabilità condizionata dellevento B dato levento A (probabilità di un evento A supponendo che sia verificato un evento B) è data da: AB A B

6 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 6 Teorema di Bayes Sfruttando la definizione di probabilità condizionata si ottiene:

7 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 7 Classificatore Naïve Bayes Si applica al caso in cui le ipotesi in H sono rappresentabili mediante una congiunzione di valori di attributi e la classificazione è scelta da un insieme finito Y. Le istanze x in X sono descritte mediante m-uple di valori (x 1,x 2,..., x m ) associati agli m attributi di x Il classificatore naif si basa sullassunzione semplificativa che i valori degli attributi siano condizionalmente indipendenti, assegnato un valore della funzione obiettivo, cioè, dato un nuovo esempio x da classificare, calcoliamo:

8 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 8 Stima delle probabilità Le probabilità P(x i |c) vengono stimate osservando le frequenze nei dati di addestramento D Se D include n i esempi classificati c i, e n ij di questi n i esempi contengono il valore x j per lattributo j, allora:

9 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 9 Naïve Bayes: Esempio Y = {allergia, raffreddore, in_salute} (possibili classi) x 1 = starnuti (sì, no) ; x 2 = tosse (sì, no) ; x 3 = febbre (sì, no) (attributi booleani) x = (1, 1, 0) come lo classifico? Probin salute raffred- dore allergia P(c) P( x 1 |c) P( x 2 |c) P( x 3 |c) { Dallinsieme D stimo le prob. a priori e condizionate es:

10 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 10 Esempio (continua) 40 esempi, 36 classificati in salute, 2 raffreddore, 2 allergia Per stimare, ad esempio, P(x 1 =1|in-salute), contare sui 36 esempi nei quali c(x)= in-salute quanti hanno x 1 =1 se 1 su 36, P(x 1 =1|in-salute)=1/36=0,027 Analogamente avrò, ad es.: -P(x 1 =1|raffreddore)=2/2=1 -P(x 1 =1|allergia)=2/2=1 -ecc.

11 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 11 Devo calcolare il massimo al variare di c di: Quindi ad esempio per c=raffreddore Analogamente, troverò: Esempio (continua)

12 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 12 Problemi con Naive Bayes Se D è piccolo, le stime sono inaffidabili (nellesempio precedente alcune stime sono = 1!) Un valore raro x k può non capitare mai in D e dunque: – c: P(x k | c) = 0. Analogamente, se ho un solo esempio di una classe c, – x k : P(x k | c) = 1 o P(x k | c) = 0.

13 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 13 Smoothing Per tener conto di eventi rari, si operano degli aggiustamenti sulle probabilità detti smoothing Laplace smoothing con una M-stima assume che ogni evento x j abbia una probabilità a priori p, che si assume essere stata osservata in un campione virtuale di dimensione M > del campione reale Nellesempio precedente, ad es. M è una costante che determina il peso dello smoothing In assenza di altre informazioni, si assume p = 1/k dove k è il numero di valori dellattributo j in esame

14 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 14 Un esempio Classificazione automatica di documenti –Un documento rappresentato come un elenco di termini t j (j=1,…,|V|), dove V è il vocabolario –Rappresentiamo un documento x con il vettore x = (x 1,x 2 …,x |V| ) dove x j =1 se il termine t j è presente (0 altrimenti) –D = { (x i, y i ) } insieme di addestramento di documenti già classificati –Y = { sport, politica,..., scienze } –Stimare, sulla base di D, le P(t j |c)

15 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 15 Reti Bayesiane Una semplice notazione grafica per: –lasserzione di indipendenza condizionata –la specifica compatta di distribuzioni congiunte Un grafo diretto G = (V, E) dove: –I vertici sono le variabili aleatorie del problema –Gli archi diretti (x, y) descrivono le dipendenze tra variabili aleatorie

16 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 16 Variabili aleatorie Una variabile aleatoria X è una funzione dellesito di un esperimento: che associa un valore a ogni esito. Ad esempio, dato levento lancio di dado, la funzione può essere definita come:

17 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 17 Reti Bayesiane: esempio (da Tan, Steinbech, Kumar) La topologia della rete codifica le asserzioni di dipendenza/indipendenza Nellesempio, lesercizio è indipendente dalle altre variabili, la cardiopatia dipende dallesercizio e dalla dieta. Esercizio Dieta Cardiopatia Bruciore di stomaco Dolore al petto Pressione sanguigna

18 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 18 Reti Bayesiane: esempio (da Russel & Norvig) Sono al lavoro e il vicino John mi chiama per dire che suona lallarme, but la vicina Mary non chiama. A volte viene attivato da piccole scosse di terremoto. Ce un furto in corso? Variabili (booleane): Burglary (furto), Earthquake (terremoto), Alarm (allarme), JohnCalls, MaryCalls La topologia della rete riflette la conoscenza causale Un furto o un terremoto possono causare lattivazione dellallarme Lallarme può causare una chiamata di John o Mary

19 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 19 Reti Bayesiane: esempio (da Russel & Norvig)

20 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 20 Semantica delle Reti Bayesiane La distribuzione congiunta di tutte le variabili è data dal prodotto delle probabilità condizionate locali: Perché? Chain rule

21 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 21 Esempio Qual è la probabilità che date le chiamate di John e Mary per via dellallarme non si sia verificato né un terremoto né un furto? P(J=true, M=true, A=true, B=false, E=false) = P(j, m, a, ¬b, ¬e) = P(j|a)P(m|a)P(a| ¬b, ¬e)P(¬b)P(¬e) = 0.9 * 0.7 * * * =

22 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 22 Naive Bayes visto come Rete Bayesiana C X1X1 X2X2 X3X3 XmXm …

23 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 23 Compattezza delle Reti Bayesiane Una tabella di probabilità condizionate per la variabile booleana X i con k genitori booleani ha 2 k righe (combinazioni dei valori dei genitori) Ogni riga richiede un valore di probabilità per X i = true (il numero per X i = false è 1-p) Se ogni variabile non ha più di k genitori, la rete completa richiede O(m2 k ) numeri dove m è il numero di variabili (nodi) della rete Ovvero lo spazio richiesto cresce linearmente con m Di quanti numeri avrei bisogno invece se codificassi lintera distribuzione congiunta delle m variabili?

24 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 24 Costruzione di una Rete Bayesiana Scegli un ordinamento delle variabili aleatorie X 1, …,X m For i = 1 to m –aggiungi X i alla rete –seleziona i genitori da X 1, …,X i-1 tali che P (X i | Parents(X i )) = P (X i | X 1,... X i-1 )

25 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 25 Costruzione di una Rete Bayesiana: Esempio Supponiamo lordinamento: M, J, A, B, E P(J | M) = P(J)?

26 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 26 Costruzione di una Rete Bayesiana: Esempio Supponiamo lordinamento: M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)?

27 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 27 Costruzione di una Rete Bayesiana: Esempio Supponiamo lordinamento: M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? P(B | A, J, M) = P(B)?

28 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 28 Costruzione di una Rete Bayesiana: Esempio Supponiamo lordinamento: M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? Sì P(B | A, J, M) = P(B)? No P(E | B, A,J, M) = P(E | A)? P(E | B, A, J, M) = P(E | A, B)?

29 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 29 Costruzione di una Rete Bayesiana: Esempio Supponiamo lordinamento: M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? Sì P(B | A, J, M) = P(B)? No P(E | B, A,J, M) = P(E | A)? No P(E | B, A, J, M) = P(E | A, B)? Sì

30 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 30 Costruzione di una Rete Bayesiana: Esempio Decidere lindipendenza condizionata è difficile se si procede in direzione non causale Decidere sulle causalità è molto più semplice per gli umani che non per le macchine!

31 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 31 Apprendimento automatico delle tabelle delle probabilità condizionate Dato un insieme di addestramento, si procede in modo simile a quanto fatto con Naive Bayes Si calcola la probabilità condizionata:

32 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 32 Esempio: il Buon Ricercatore Sperimentale Abilità Ricercatore Qualità Scrittura Qualità Risultati Articolo accettato

33 Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 33 Apprendimento Bayesiano in a nutshell Le reti bayesiane forniscono una rappresentazione naturale per lindipendenza condizionata indotta in modo causale Naïve Bayes è una caratterizzazione estrema del dominio, ma funziona generalmente bene Data la topologia e le tabelle di probabilità condizionate, si ottiene una distribuzione congiunta compatta Semplice per gli esperti di dominio costruire una rete


Scaricare ppt "Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano Cap. 6.1-6.2, 6.9-6.11 [Mitchell]"

Presentazioni simili


Annunci Google