Classificatore bayesiano

Slides:



Advertisements
Presentazioni simili
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Advertisements

2. Introduzione alla probabilità
Distribuzione Normale o Curva di Gauss
Intervalli di confidenza
Proprietà degli stimatori
Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento.
6. Catene di Markov a tempo continuo (CMTC)
1 2. Introduzione alla probabilità Definizioni preliminari: Prova: è un esperimento il cui esito è aleatorio Spazio degli eventi elementari : è linsieme.
2.VARIABILI CONTINUE A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.
Analisi dei dati per i disegni ad un fattore
Funzione di distribuzione (detta anche cumulativa o di ripartizione)
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
Apprendimento Bayesiano
Valutazione delle ipotesi
Computational Learning Theory and PAC learning
Apprendimento Bayesiano
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
DIFFERENZA TRA LE MEDIE
Abbiamo visto un esempio di applicazione del teorema, ma a noi interessa l’applicazione del Teorema di Bayes alla combinazione delle informazioni, ovvero.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 4: La funzione di Gauss
Teoria e Tecniche del Riconoscimento
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Valutazione della stima: gli intervalli di confidenza
Modelli probabilistici
Studente Claudia Puzzo
PATTERN RECOGNITION.
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Analisi dei gruppi – Cluster Analisys
Lezione 8 Numerosità del campione
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Statistica economica (6 CFU) Corso di Laurea in Economia e Commercio a.a Docente: Lucia Buzzigoli Lezione 5 1.
Le distribuzioni campionarie
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
Gli indici di dispersione
La verifica d’ipotesi Docente Dott. Nappo Daniela
Lezione B.10 Regressione e inferenza: il modello lineare
R. Soncini Sessa, MODSS, L 26 Stima degli effetti Calcolo degli obiettivi (Laplace) Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini.
Strumenti statistici in Excell
IL CAMPIONE.
“Teoria e metodi della ricerca sociale e organizzativa”
Analisi e Gestione del Rischio Lezione 7 Prodotti con pay-off non lineare.
Test basati su due campioni Test Chi - quadro
Analisi discriminante lineare - contesto
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
APPROSSIMAZIONE DI FUNZIONI
Intervalli di confidenza
Elaborazione statistica di dati
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
In alcuni casi gli esiti di un esperimento possono essere considerati numeri naturali in modo naturale. Esempio: lancio di un dado In atri casi si definisce.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
Transcript della presentazione:

Classificatore bayesiano Date k classi C1, C2, …, Ck e il vettore x delle osservazioni, la probabilità a posteriori vale: probabilità a priori densità di probabilità condizionata alla classe densità di probabilità non condizionata fattore di normalizzazione quando è parametrica è detta funzione di verosimiglianza (likelihood)

Decisione ottima N.B. Il confronto è relativo alle d. p. congiunte La probabilità a posteriori P(Ci/x) definisce la probabilità del pattern di appartenere alla classe Ci La probabilità di misclassificazione è minimizzata scegliendo la classe Ci che ha la maggiore probabilità a posteriori, cosicchè il pattern è assegnato alla classe Ci se: semplificando il fattore di normalizzazione comune, si ha: N.B. Il confronto è relativo alle d. p. congiunte

Regioni e superfici di decisione Il classificatore bayesiano definisce una regola per assegnare ogni punto dello spazio delle variabili a una delle k classi Possiamo concepire lo spazio delle variabili come diviso in k regioni di decisione R1, R2, ..., Rk tali per cui un punto appartenente a Rk è assegnato alla classe Ck R1 R2 R3 R4 R5 Le regioni devono essere disgiunte, ma non necessariamente contigue I confini tra le regioni sono detti confini o superficie di decisione

Errore di misclassificazione Con riferimento a due sole classi e una sola variable x, si ha:

Corretta classificazione La probabilità Pc di corretta classificazione, relativa a k classi e a un vettore d-dimensionale delle variabili, vale: Il massimo di Pc si ha scegliendo le Ri per cui le osservazioni sono assegnate alla classe che massimizza l’integrando. Ciò corrisponde alla decisione di assegnamento del pattern nella classe con massima probabilità a posteriori.

Funzioni discriminanti Il classificatore bayesiano è basato sulle distribuzioni di probabilità, ma la decisione di appartenenza alla classe dipende solo dalle dimensioni relative delle probabilità Ciò conduce alla riformulazione del processo di classificazione nei termini di un insieme di funzioni discriminanti: Cosicché il vettore delle osservazioni è assegnato alla classe Ci se: La regola di decisione che minimizza la probabilità di misclassificazione può essere facilmente espressa attraverso le funzioni discriminanti, ponendo:

Funzioni discriminanti trasformate Usando il teorema di Bayes e semplificando il fattore comune di normalizzazione, le funzioni discriminanti possono essere riformulate: Poichè per la classificazione interessa solo la relativa grandezza delle funzioni discriminanti, possiamo sostituirle con una qualsiasi trasformazione monotona, come per esempio il logaritmo: Le superfici di decisione non sono influenzate dalla trasformazione monotona e valgono:

Funzioni discriminanti per due classi Nel caso di due classi, le funzioni discriminanti sono di solito espresse in forma leggermente diversa: La regola di decisione quindi diventa: Segue naturalmente anche:

Minimizzazione del rischio In taluni casi la regola di minimizzazione della probabilità di misclassificazione può non essere un criterio appropriato. P.es., nelle lesioni cutanee, classificare un melanoma come neo è molto più grave che classificare un neo come melanoma Considerando tutti i pattern che appartengono alla classe Ci, occorre allora attribuire un costo alla decisione: Lij sono gli elementi di una matrice di perdita che specifica la penale associata con l’attribuzione alla classe Cj di un pattern che appartiene alla classe Ci.

Minimizzazione del rischio La perdita complessiva attesa per tutti i pattern di tutte le classi è: Il rischio è minimo se l’integrando è minimizzato per ogni pattern, cioè se le regioni Rj sono scelte in modo che: quando:

Costo della decisione di melanoma Consideriamo le classi: C1 = melanomi; C2 = nei Attribuiamo alla matrice di perdita i seguenti valori: melanomi come nei nei come melanomi melanomi come melanomi nei come nei La lesione sarà allora assegnata ai melanomi se: N.B. La matrice di perdita determina una penalità nulla nell’assegnare la lesione nella giusta classe e una penalità 10 volte superiore all’errato assegnamento dei melanomi come nei

Soglia di rifiuto In generale ci aspettiamo che molti degli errori di misclassificazione avvengano nelle regioni dove la più grande tra le probabilità a posteriori è relativamente bassa cosicché c’è ampia sovrapposizione tra classi In alcune applicazioni è bene stabilire una soglia di probabilità  (nell’intervallo [0,1]) sotto la quale il classificatore viene rifiutato, cioè: N.B. Nell’esempio dei melanomi, la soglia potrebbe servire per lasciare la diagnosi di lesioni particolarmente difficili al dermatologo esperto

Stima delle probabilità bayesiane Il classificatore bayesiano garantisce l’errore di classificazione minimo purché siano note le probabilità a priori e le d. p. condizionate alle classi In pratica le probabilità a priori e le d. p. vanno stimate attraverso i dati campionari del learning set. N.B. La d. p. non condizionata al denominatore (fattore di normalizzazione) può essere espressa come somma delle d. p. congiunte di tutte le classi a loro volta scomponibili nel prodotto di probabilità a priori e d. p. condizionate

Stima delle probabilità a priori In pratica, a fini di classificazione, le probabilità a priori possono anche essere incognite e stimate essere equiprobabili Impostando il costo della decisione indipendentemente dalla probabilità a priori, possono sempre essere ricomprese nella matrice di perdita L

Stima delle densità di probabilità Le d. p. condizionate vanno stimate dal campione di learning facendo alcune ipotesi circa la loro distribuzione parametrica o ricorrendo a tecniche non parametriche Metodi parametrici Distribuzione parametrica Vettore dei parametri stimato dalle osservazioni campionarie Metodi non parametrici Funzione kernel Numero osservazioni in Ci

Distribuzione gaussiana melanomi nei Blue content Area (mm2) x Bayesiano lineare Bayesiano quadratico È l’ipotesi parametrica più frequente  = matrice di covarianza (simmetrica)  = vettore delle medie d = dimensione delle feature superfici di separazione quadratiche superfici di separazione lineari

Iperellissoide di confidenza Termine esponenziale (quadrato della distanza di Mahalanobis) 2 costante definisce un iperellissoide a probabilità costante. Gli autovettori uj e gli autovalori j di  definiscono rispettivamente gli assi principali dell’iperellissoide e le varianze (semidiametri al quadrato) x1 x2 u1 u2 i La regione di confidenza della media vera, con probabilità (1-), è: n = numerosità campione d = dimensione dello spazio (F-1)d,n-d = inversa della distribuzione F valutata in (1-), per d e n-d gradi di libertà

Classificatore bayesiano naïve Matrice di covarianza diagonale  variabili indipendenti. Direzioni principali degli ellissoidi di uguale probabilità allineate con le coordinate degli assi Riduzione del numero di parametri a 2d , ulteriore semplificazione con d+1 parametri e ipersfere come superfici di ugual probabilità

Proprietà della distribuzione gaussiana Ha proprietà analitiche relativamente semplici Il teorema del limite centrale afferma che la media di N variabili casuali tende alla distribuzione normale per N∞, in pratica già per N>10; molti fenomeni naturali hanno parecchi costituenti casuali che rendono normale la loro distribuzione Qualsiasi trasformazione lineare del sistema di coordinate è ancora gaussiana (con medie e matrice di covarianza diverse) e mantiene 2 di forma quadratica e definita positiva

Proprietà della distribuzione gaussiana Le d. p. marginali, ottenute integrando su qualche variabile, sono ancora gaussiane Le d. p. condizionate, ottenute a valori costanti di alcune variabili, sono ancora gaussiane Esiste una trasformazione lineare che diagonalizza la matrice di covarianza, porta a coordinate basate sugli autovettori, rende le variabili indipendenti e la d. p. si ottiene come prodotto delle d. p. delle singole variabili Ha la massima entropia possibile

Funzioni discriminanti Passando al logaritmo e semplificando i termini classi-indipendenti : Si tratta quindi di funzioni quadratiche nello spazio a d dimensioni Se le matrici di covarianza sono uguali per tutte le classi, il termine con || si semplifica così come il termine quadratico xT-1x; poichè  è simmetrica lo sarà anche la sua inversa e xT-1= T-1x, cosicchè la funzione discriminante diventa lineare: Esercizio: valutare le d. p. con  diagonale e P(Ci) tutte uguali

Stima dei parametri Una volta scelto il tipo di d. p. parametrica, spesso gaussiana, occorre stimarne i parametri. Esistono vari metodi: Massima verosimiglianza. Stima i parametri che massimizzano una funzione di probabilità determinata dai dati di learning Inferenza bayesiana. I parametri vengono descritti da una distribuzione di probabilità che, tramite l’inferenza bayesiana, passa da una situazione a priori più incerta e con forma più allargata, alla probabilità a posteriori, affinata dai dati campionari, perciò di natura meno incerta con forma più stretta; la d. p. gaussiana relativa alle variabili di ingresso è ottenuta con un integrale fatto rispetto tutti i suoi parametri, pesato per la loro probabilità a posteriori Metodi sequenziali. Tecniche iterative basate sull’aggiornamento del valore dei parametri ad ogni nuovo dato acquisito

Stima di massima verosimiglianza Anche se nella classificazione bayesiana si tratta con la d. p. condizionata alle classi, ci riferiamo per semplicità alla d. p. non condizionata p(x) che dipende dal vettore dei parametri da stimare  = (1, 2, …, M)T. Il processo andrà poi ripetuto per ogni classe separatamente. p(x) dipende da  e dall’insieme di apprendimento, costituito dalla matrice dN degli N di vettori delle osservazioni: La verosimiglianza (likelihood) L( ), si ottiene dalla produttoria delle d. p. di ogni singola osservazione poiché esse si considerano indipendenti e, per un dato , è solo funzione di 

Per molte d. p. l’ottimo di  va cercato con tecniche Massima verosimiglianza Per molte d. p. l’ottimo di  va cercato con tecniche numeriche di minimizzazione iterative. Nel caso speciale della distribuzione gaussiana multivariata, la soluzione è analitica e vale: Sebbene l’approccio di massima verosimiglianza appaia intuitivamente ragionevole, ha qualche difetto. P.es., nel caso monovariato, la stima della varianza è distorta come segue perché è valutata rispetto alla stima campionaria della media

Apprendimento bayesiano Inferenza bayesiana La d. p. relativa alle variabili di ingresso non viene calcolata fissando i parametri ad uno specifico valore come accade per il metodo di massima verosimiglianza, ma rappresentandoli attraverso una funzione di probabilità Prima di osservare i dati , i parametri vengono descritti da una d. p. a priori tipicamente piuttosto larga  scarsa conoscenza dei valori che potrebbero assumere Dopo che i dati  sono stati osservati, la d. p. a posteriori si restringe attorno a valori di parametri più compatibili coi dati. priori p() posteriori p( /)  Apprendimento bayesiano

Inferenza bayesiana La d.p. desiderata per il vettore x, una volta noti i dati di learning, si può esprimere come l’integrale della d.p. congiunta: Il primo termine della d.p. congiunta è indipendente da   forma matematica parametrica della d.p. di x, pertanto: N.B. L’approccio bayesiano non trova un preciso valore di , ma effettua una media su tutti i valori  della d.p. p(x,), pesata per la d.p. a posteriori p(/  ) dei parametri

Inferenza bayesiana La d.p. a posteriori dei parametri può essere valutata attraverso il teorema di Bayes: La d.p. dei dati campionari condizionata ai parametri, p(/), è esprimibile come prodotto di probabilità poiché i dati sono assunti essere estratti dalla popolazione indipendentemente l’uno dall’altro (campionamento casuale): Cosicchè: e

Inferenza bayesiana In generale, gli integrali si risolvono difficilmente in modo analitico. È possibile solo se la d.p. a priori ha la stessa forma funzionale della d.p. a posteriori, detta perciò “coniugata” Usando una successione di N punti è possibile applicare il processo inferenziale bayesiano ripetitivamente  la d.p. a posteriori diventa la d.p. a priori del punto seguente e mantiene la stessa forma funzionale, restringendosi attorno al valore  ‘vero’; tali d.p. sono dette “riproducibili” N=0 N=1 N=6 N=12  p(/) Esempio Stima del valor medio , dati 12 punti estratti da una d.p. gaussiana monovariata con =0.8: uso di una d.p. a priori (N=0) di tipo gaussiano con  0=0 e 0=0.3

Inferenza bayesiana  massima verosimiglianza Esiste una semplice relazione tra le due tecniche quando il numero delle osservazioni N è sufficientemente alto Trascurando il denominatore, indipendente da , con l’inferenza bayesiana si ha: La verosimiglianza L() ha un massimo per = Per N sufficientemente elevato, la funzione L() è stretta attorno al picco e l’integrale che stima la d.p. con la tecnica bayesiana può essere pertanto approssimato da:

Metodi sequenziali Aggiornamento parametri ad ogni nuova osservazione Godono di importanti proprietà: Non richiedono la memorizzazione di tutti i punti osservati  ogni punto può essere scartato una volta usato  utile per grandi quantità di dati Possono essere usati per l’apprendimento “on- line” in sistemi “real-time” adattivi Se il sistema è stazionario, ma con variazioni lente, la stima sequenziale dei parametri può essere usata per inseguire il comportamento del sistema (“tracking on-line”)

g è una funzione della variabile aleatoria  Metodi sequenziali In generale, è possibile esprimere una formula sequenziale aggiornabile ad ogni nuovo punto N+1: g è una funzione della variabile aleatoria  I coefficienti aN sono una sequenza di numeri positivi che soddisfano alle seguenti proprietà: Assicura che le successive correzioni tendono a diminuire è il processo converge a un valore limitato Assicura che le correzioni sono sufficientemente ampie da trovare effittivamente la soluzione Assicura che il rumore accumulato si mantenga con varianza limitata, in modo da non compromettere la convergenza

Metodi sequenziali Risolvendo in modo sequenziale la stima ottenuta col metodo della massima verosimiglianza, usando la formula di Robbins-Monro, si può dimostrare che: Per esempio la stima sequenziale della media di una distribuzione gaussiana, si può esprimere come: N.B. È necessario tenere in memoria solo N è il valore della media stimata al passo N, cosicchè ogni punto viene usato una sola volta e poi scartato. Il contributo di ogni punto successivo decresce come conseguenza del coefficiente 1/(N+1)

Metodi non parametrici Stimano le d.p. la cui forma funzionale complessiva non viene definita preliminarmente. Ne esistono diversi tipi: Istogrammi. Si dividono gli assi di ogni variabile in classi, approssimando la d. p. tramite la frazione di dati che cadono in ogni ‘scatola’ (bin). Metodi a kernel. D. p. come somma di funzioni elementari (kernel) tutte uguali, di forma e volume prefissato, centrate su ogni dato. K-nearest-neighbours. Fissate K osservazioni sul totale N (K<N) la d. p. è stimata in rapporto al volume dell’ipersfera che contiene K dati ed è centrata su ogni valore del vettore delle osservazioni. Modelli misti (semi-parametrici). Si combinano un certo numero (<N) di d. p. elementari, i cui parametri (posizione e apertura) sono stimati con tecniche classiche (massima verosimiglianza), oppure più sofisticate (expected-maximization)

Istogrammi Il numero di classi M va scelto come giusto compromesso (c) tra due opposte rappresentazioni: troppo rumorosa  varianza elevata; poco accurata  bias elevato a) M=100 b) M=5 c) M=20

Istogrammi La probabilità che ogni vettore delle osservazioni x, estratto da una d.p. p(x) sia compreso in una regione R dello spazio x è definita come: Presi N valori estratti indipendentemente da p(x), la probabilità che K appartengano alla regione R è data dalla legge binomiale: La frazione media di punti in tale regione è P=E{K/N}, mentre la varianza attorno alla media è uguale a P(1-P)/N

V è il volume di R e x è un punto generico entro R Istogrammi All’aumentare di N (N) la varianza tende a 0 e quindi la frazione media P di punti in R è ≈ K/N Se d’altro canto assumiamo che p(x) sia continua e non vari molto in R, possiamo approssimare in: V è il volume di R e x è un punto generico entro R Si ottiene quindi il risultato intuitivo  N.B. Il risultato dipende due valide approssimazioni contrapposte: R deve essere abbastanza grande affinché si abbia un sufficiente numero di punti K, ma non troppo da poter considerate p(x) costante nel volume di interesse