Bayesian Learning Martedì, 16 Novembre 2004 Giuseppe Manco Readings: Sections 6.1-6.5, Mitchell Chapter 2, Bishop Chapter 4, Hand-Mannila-Smith Bayesian.

Slides:



Advertisements
Presentazioni simili
La probabilità nei giochi
Advertisements

DISTRIBUZIONE BINOMIALE (cenni) DISTRIBUZIONE NORMALE
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Lezione 6 Chiara Mocenni Corso di laurea L1.
Chiara Mocenni – Analisi delle Decisioni a.a Analisi delle Decisioni Probabilita condizionate e Teorema di Bayes Chiara Mocenni.
Corso di Sistemi di telecomunicazione
La probabilità.
Matematica I: Calcolo differenziale, Algebra lineare, Probabilità e statistica Giovanni Naldi, Lorenzo Pareschi, Giacomo Aletti Copyright © The.
1 2. Introduzione alla probabilità Definizioni preliminari: Prova: è un esperimento il cui esito è aleatorio Spazio degli eventi elementari : è linsieme.

2.VARIABILI CONTINUE A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.
Fault Tollerance and Bayesian Networks
Bruno Mario Cesana Stefano Calza
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Definizioni Chiamiamo esperimento aleatorio ogni fenomeno del mondo reale alle cui manifestazioni può essere associata una situazione di incertezza. Esempi:
Chiara Mocenni - Sistemi di Supporto alle Decisioni I – aa Sistemi di Supporto alle Decisioni I Lezione 7 Chiara Mocenni Corso di laurea L1.
Chiara Mocenni – Analisi delle Decisioni – a.a Analisi delle Decisioni Probabilita condizionate Chiara Mocenni.
Classificatore bayesiano
Funzione di distribuzione (detta anche cumulativa o di ripartizione)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodi Probabilistici, Statistici e Processi Stocastici Università Carlo Cattaneo Emanuele Borgonovo Metodi Probailistici, Statistici e Processi Stocastici.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Apprendimento Automatico: Apprendimento Bayesiano
Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano.
Apprendimento Bayesiano
Valutazione delle ipotesi
Apprendimento Bayesiano
Abbiamo visto un esempio di applicazione del teorema, ma a noi interessa l’applicazione del Teorema di Bayes alla combinazione delle informazioni, ovvero.
Appunti di inferenza per farmacisti
Alberi di Ricorrenza Gli alberi di ricorrenza rappresentano un modo conveniente per visualizzare i passi di sostitu- zione necessari per risolvere una.
Corso di biomatematica Lezione 2: Probabilità e distribuzioni di probabilità Davide Grandi.
Corso di biomatematica lezione 7: Test di significatività
Apprendimento di movimenti della testa tramite Hidden Markov Model
STATISTICA a.a DISTRIBUZIONE BINOMIALE (cenni)
Modelli probabilistici
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Complementi al Corso di Ecologia - Approfondimenti di statistica
Chapter 14, Hastie , Tibshirani and Friedman
Analisi e gestione del rischio
Riassumendo le teorie sulla comunicazione
PROBABILITÀ La probabilità è un giudizio che si assegna ad un evento e che si esprime mediante un numero compreso tra 0 e 1 1 Evento con molta probabilità.
LIMITI DI UNA FUNZIONE PRIMI CONCETTI ESEMPI INTRODUTTIVI DEFINIZIONI.
Il test di ipotesi Cuore della statistica inferenziale!
Le distribuzioni campionarie
Teorie e Tecniche di Psicometria
PROBABILITA : se un EVENTO si verifica in h modi diversi su n possibili (POPOLAZIONE) p = h/n Questa definizione è talvolta applicabile a priori (es. lancio.
1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.
Probabilità probabilità Probabilità totale
Le variabili casuali e la loro distribuzione di probabilità Generalmente, lanciando un dado, si considera il valore numerico della faccia uscita.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
PROBABILITA’.
Metaclassificazione Giovedì, 18 novembre 2004 Francesco Folino ( Combinare Classificatori Lecture 8.
è … lo studio delle caratteristiche di regolarità dei fenomeni casuali
Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari.
Elementi di Statistica medica Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Copyright © 2007 – The McGraw-Hill Companies s.r.l. SIGNIFICATIVITÀ.
Lezione B.10 Regressione e inferenza: il modello lineare
La probabilità condizionata
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Analisi e gestione del rischio
Intelligenza Artificiale Conoscenza e ragionamento incerto Prof. M.T. PAZIENZA a.a
Spiegazione di alcuni concetti
Università degli Studi di Parma Ragionamento con conoscenza incerta.
Milena Maule - AA Università degli Studi di Torino Corso di Laurea in Medicina e Chirurgia Teorema di Bayes.
Pattern Recognition Lez.14: Miscugli di Gaussiane.
L’ecologia è oggi sempre più una disciplina che enfatizza lo studio olistico del sistema. Anche se il concetto che l’intero possa essere più della somma.
Probabilità Definizione di probabilità La definizione di probabilità si basa sul concetto di evento, ovvero sul fatto che un determinato esperimento può.
Semi-Supervised Text Classification Using EM. Visione della Probabilità 2 VISIONI VISIONE CLASSICA O FREQUENTISTA VISIONE SOGGETTIVA O BAYESIANA.
Ragionamento Bayesiano Esercizi. Classificatore Naïve Bayes: richiami (credits: P. Velardi-uniroma1) Si applica quando le ipotesi in H sono rappresentabili.
Transcript della presentazione:

Bayesian Learning Martedì, 16 Novembre 2004 Giuseppe Manco Readings: Sections , Mitchell Chapter 2, Bishop Chapter 4, Hand-Mannila-Smith Bayesian Learning Lezione 6

Bayesian Learning Concetti probabilistici, apprendimento probabilistico Concetti probabilistici –Il concetto da apprendere è una funzione c: X [0, 1] –c(x), il valore target, denota la probabilità che letichetta 1 (True) sia assegnata a x –Sostanzialmente, quello che abbiamo ottenuto finora Probabilistic (i.e., Bayesian) Learning –Utilizzo di un criterio probabilistico nella selezione di unipotesi h Esempio: lipotesi più probabile considerando D: MAP hypothesis Esempio: h per cui D è più probabile: max likelihood (ML) hypothesis –NB: h può essere una qualsiasi funzione

Bayesian Learning Alcune definizioni di base Spazio degli eventi ( ): Dominio di una variabile casuale X Misura di probabilità P( ) –P, è una misura su –P(X = x ) è una misura della fiducia in X = x Assiomi di Kolmogorov –1. x. 0 P(X = x) 1 –2. P( ) x P(X = x) = 1 –3. Probabilità congiunta: P(X 1 X 2 ) dellevento X 1 X 2 indipendenza: P(X 1 X 2 ) = P(X 1 ) P(X 2 )

Bayesian Learning Il teorema di Bayes P(h) Probabilità a priori dellipotesi h –Misura la credenza iniziale indipendentemente da qualsiasi informazione (e quindi a priori) P(D) Prior dellinsieme D –Misura la probabilità dellinsieme D (i.e., expresses D) P(h | D) Probabilità di h dato D –| denota condizionamento - P(h | D) is probabilità condizionale (a posteriori) P(D | h) Probabilità di D dato h –Probabilità di osservare D sapendo che vale h (modello generativo) P(h D) Probabilità congiunta di h e D Thomas Bayes Born:1702 in London, England Died:1761 in Tunbridge Wells, Kent, England Da Bayes Essay towards solving a problem in the doctrine of chances (1763)

Bayesian Learning La scelta delle ipotesi Teorema di Bayes Ipotesi MAP –Si vuole lipotesi più probabile sullo specifico training set – il valore di x nello spazio che esibisce il più alto f(x) –Maximum a posteriori hypothesis, h MAP Ipotesi ML –Assumiamo p(h i ) = p(h j ) (tutte le ipotesi sono equalmente probabili) –Si sceglie lipotesi che spiega meglio I dati, h ML

Bayesian Learning Esempio: Moneta bilanciata [1] Lancio della moneta –Spazio: = {Head, Tail} –Scenario: la moneta è bilanciata o sbilanciata al 60% in favore di Head h 1 bilanciata: P(Head) = 0.5 h 2 60% bias : P(Head) = 0.6 –Obiettivo: decidere tra lipotesi di default (null) e lalternativa Distrivuzione a Priori –P( h 1 ) = 0.75, P( h 2 ) = 0.25 –Riflette le credenze iniziali su H –Lapprendimento è revisione delle credenze Evidenze –d singolo lancio, viene Head –D: Cosa crediamo adesso? –R: Calcoliamo P(d) = P(d | h 1 ) P( h 1 ) + P(d | h 2 ) P(h 2 )

Bayesian Learning Esempio: Moneta bilanciata [2] Inferenza Bayesiana: Calcoliamo P(d) = P(d | h 1 ) P(h 1 ) + P(d | h 2 ) P(h 2 ) –P(Head) = = = –Questa è la probabilità dellosservazione d = Head Apprendimento bayesiano –In base al teorema di Bayes P(h 1 | d) = P(d | h 1 ) P(h 1 ) / P(d) = / = P(h 2 | d) = P(d | h 2 ) P(h 2 ) / P(d) = 0.15 / = Le credenze sono state spostate verso h 1 MAP: crediamo ancora che la moneta sia bilanciata –Approccio ML (assumiamo priors identici) Le credenze sono revisionate a partire da 0.5 Cè più sbilanciamento a favore di h 1 Ulteriore evidenza: Sequenza D di 100 lanci con 70 heads e 30 tails –P(D) = (0.5) 70 (0.5) (0.6) 70 (0.4) –Ora P(h 1 | D) << P(h 2 | D)

Bayesian Learning Stima di densità Obiettivo principale: stimare P(D | h) –Grazie al teorema di Bayes, possiamo ottenere la probabilità a posteriori Tre approcci –Metodi parametrici –Si assume una forma funzionale per le densità –Si stimano i parametri di tali forme funzionali –Metodi nonparametrici –La forma funzionale è determinata dai dati –Mixture models –Combinazioni di molte possibili forme funzionali –Neural Networks

Bayesian Learning Esempio: Maximum Likelihood Estimation Dati M parametri Si trovino i valori più probabili –Massimizzando la probabilità congiunta –Assumendo N istanze indipendenti –Minimizzando lerrore corrispondente

Bayesian Learning Il caso di dati gaussiani Assunzione tipica: gli attributi numerici hanno una distribuzione normale (Gaussiana) La densità di probabilità è definita da due parametri –densità f(x):

Bayesian Learning Dati gaussiani e MLE Stimiamo la verosimiglianza –Al logaritmo: –Derivando: –Otteniamo

Bayesian Learning La più probabile classificazione delle nuove istanza MAP and MLE: Limitazioni –Il problema: trovare lipotesi più probabile –Ci basta la migliore classificazione di x, dato D Metodi –Troviamo la migliore (MAP) h, la usiamo per classificare –Non è detto che la classificazione sia ottimale –Esempio:lalbero con lerrore minimo può sbagliare la classificazione su unistanza specifica Obiettivo (raffinato) –Vogliamo determinare la più probabile classificazione –Combiniamo la predizione di tutte le ipotesi –Le predizioni sono pesati dalle probabilità condizionali –Result: Bayes Optimal Classifier

Bayesian Learning Classificazione Bayesiana Struttura –Si trovi la più probabile classificazione –f: X V (dominio spazio delle istanze, codominio insieme finito di valori) –x X espresso come collezione di attributi x (x 1, x 2, …, x n ) –classificatore Bayesiano Dato x i Si determini: il più probabile valore v j V Problematiche –Stimare P( v j ) è semplice: per ogni valore v j, contiamo la sua frequenza in D = { } –Tuttavia, è problematica la stima di P(x 1, x 2, …, x n | v j ) senza assunzioni a priori

Bayesian Learning Classificazione Bayesiana (con ipotesi) Idea –h MAP (x) non fornisce necessariamente la classificazione più probabile –Esempio Tre ipotesi: P(h 1 | D) = 0.4, P(h 2 | D) = 0.3, P(h 3 | D) = 0.3 Su una nuova istanza x, h 1 (x) = +, h 2 (x) = –, h 3 (x) = – Qualè la migliore classificazione per x? Bayes Optimal Classification (BOC) –Esempio P(h 1 | D) = 0.4, P(– | h 1 ) = 0, P(+ | h 1 ) = 1 P(h 2 | D) = 0.3, P(– | h 2 ) = 1, P(+ | h 2 ) = 0 P(h 3 | D) = 0.3, P(– | h 3 ) = 1, P(+ | h 3 ) = 0 – –Risultato: = – h P(h)P(h)

Bayesian Learning Naïve Bayes Classifier Classificatore MAP Naive Bayes –Uno dei metodi più pratici di apprendimento –Assunzione di base: gli attributi di x sono indipendenti Quando si può usare –Il training set è grande –Gli attributi che descrivono x sono (sostanzialmente) independenti Applicazione più di successo –Classificazione di testi Assunzione Naïve Classificatore (Naïve) Bayes

Bayesian Learning Probabilità per PlayTennis OutlookTemperatureHumidityWindPlay YesNoYesNoYesNoYesNoYesNo Sunny23Hot22High34Light6295 Overcast40Mild42Normal61Strong33 Rainy32Cool31 Sunny2/93/5Hot2/92/5High3/94/5Light6/92/59/145/14 Overcast4/90/5Mild4/92/5Normal6/91/5Strong3/93/5 Rainy3/92/5Cool3/91/5 OutlookTempHumidityWindPlay SunnyHotHighLightNo SunnyHotHighStrongNo OvercastHotHighLightYes RainyMildHighLightYes RainyCoolNormalLightYes RainyCoolNormalStrongNo OvercastCoolNormalStrongYes SunnyMildHighLightNo SunnyCoolNormalLightYes RainyMildNormalLightYes SunnyMildNormalStrongYes OvercastMildHighStrongYes OvercastHotNormalLightYes RainyMildHighStrongNo

Bayesian Learning Probabilità per PlayTennis OutlookTemp.HumidityWindyPlay SunnyCoolHighStrong? Una nuova istanza: verosimiglianza delle due classi Per yes = 2/9 3/9 3/9 3/9 9/14 = Per no = 3/5 1/5 4/5 3/5 5/14 = Probabilità associata: P(yes) = / ( ) = P(no) = / ( ) = OutlookTemperatureHumidityWindyPlay YesNoYesNoYesNoYesNoYesNo Sunny23Hot22High34Light6295 Overcast40Mild42Normal61Strong33 Rainy32Cool31 Sunny2/93/5Hot2/92/5High3/94/5Light6/92/59/145/14 Overcast4/90/5Mild4/92/5Normal6/91/5Strong3/93/5 Rainy3/92/5Cool3/91/5

Bayesian Learning In pratica… OutlookTemp.HumidityWindPlay SunnyCoolHighStrong? Evidenza E Probabilità della classe yes

Bayesian Learning Il problema della frequenza-zero Che succede se il valore di un attributo non compare con un valore di classe? (esempio: Humidity = high per la classe yes) –La probabilità è zero! –La probabilità a posteriori diventa zero! Rimedio: sommiamo 1 al conteggio di ogni combinazione attributo- classe (Laplace estimator)

Bayesian Learning Stime di probabilità Aggiungere una costante differente da 1 può risultare più appropriato Esempio su OutLook I pesi non devono necessariamente essere uguali (ma la somma deve essere 1) SunnyOvercastRainy

Bayesian Learning Valori mancanti Nel training: listanza non viene conteggiata nella combinazione attributo-valore Nella classificazione: lattributo viene omesso dal calcolo esempio: OutlookTemp.HumidityWindPlay ?CoolHighStrong? verosimiglianza di yes = 3/9 3/9 3/9 9/14 = verosimiglianza di no = 1/5 4/5 3/5 5/14 = P(yes) = / ( ) = 41% P(no) = / ( ) = 59% witten&eibe

Bayesian Learning Attributi numerici Assunzione tipica: gli attributi hanno una distribuzione normale (Gaussiana) La densità di probabilità è definita da due parametri –Valor medio sul campione –Devianza sul campione –densità f(x):

Bayesian Learning Ancora Playtennis Valore di densità OutlookTemperatureHumidityWindPlay YesNoYesNoYesNoYesNoYesNo Sunny2364, 68,65, 71,65, 70,70, 85,Light6295 Overcast4069, 70,72, 80,70, 75,90, 91,Strong33 Rainy3272, …85, …80, …95, … Sunny2/93/5 =73 =75 =79 =86 Light6/92/59/145/14 Overcast4/90/5 =6.2 =7.9 =10.2 =9.7 Strong3/93/5 Rainy3/92/5 witten&eibe

Bayesian Learning Classificazione su valori numerici OutlookTemp.HumidityWindyPlay Sunny6690true? Verosimiglianza di yes = 2/ /9 9/14 = Verosimiglianza di no = 3/ /5 5/14 = P(yes) = / ( ) = 20.9% P(no) = / ( ) = 79.1%

Bayesian Learning Riassumendo… Il Naïve Bayes funziona sorprendentemente bene (anche selassunzione di indipendenza è chiaramente violata) –Non servono stime accurate di probabilità finché la probabilità massima è assegnata alla classe corretta Tuttavia: troppi attributi ridondanti può causare problemi Inoltre: molti attributi numerici non seguono la distribuzione normale Migliaramenti: –Selezioniamo i migliori attributi –Reti Bayesiane

Bayesian Learning Applicazioni: Spam? From: "" Subject: real estate is the only way... gem oalvgkay Anyone can buy real estate with no money down Stop paying rent TODAY ! There is no need to spend hundreds or even thousands for similar courses I am 22 years old and I have already purchased 6 properties using the methods outlined in this truly INCREDIBLE ebook. Change your life NOW ! ================================================= Click Below to order: =================================================

Bayesian Learning Bayesian Learning e Spam Msg1 –From –Eccezionale! Con lacquisto di soli 3 coupons, potrai progettare un viaggio alle maldive a costo 0! Msg2 –From –Un offerta deccezione! MS Office al prezzo di soli 49$... Msg3 –From –Affrettati! Lofferta vale eccezionalmente per un periodo limitato! E in corso una promozione per lacquisto di … Msg4 –From –Lanalisi delle eccezioni è una tecnica molto utilizzata nellanalisi delle frodi Msg5 –From –Le delucidazioni relative al progetto si forniscono esclusivamente il venerdì pomeriggio. Msg6 –From –Le offriamo il software di data mining più utile per i suoi progetti. Con lacquisto del software, avrà a disposizione un corso per apprenderne lutilizzo Msg7 –From –Ti andrebbe di fare il progetto per il corso di data mining insieme a me? Lofferta formativa è troppo bassa per un impegno singolo…

Bayesian Learning Incidenza messaggio-termine 1 se msg contiene word, 0 altrimenti

Bayesian Learning Forma normale –Rimozione di plurali, forme verbali, ecc. Rimozione di stopwords –Stopwords: parole troppo comuni Lemmatizzazione –Ricostruzione della radice della parola Ricostruzione della struttura tabellare –Binaria –Numerica –Frequenze delle parole Analisi delle tabelle di contingenza e definizione del classificatore bayesiano