La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Classificatore bayesiano Date k classi C 1, C 2, …, C k e il vettore x delle osservazioni, la probabilità a posteriori vale: probabilità a priori densità

Presentazioni simili


Presentazione sul tema: "Classificatore bayesiano Date k classi C 1, C 2, …, C k e il vettore x delle osservazioni, la probabilità a posteriori vale: probabilità a priori densità"— Transcript della presentazione:

1 Classificatore bayesiano Date k classi C 1, C 2, …, C k e il vettore x delle osservazioni, la probabilità a posteriori vale: probabilità a priori densità di probabilità condizionata alla classe densità di probabilità non condizionata quando è parametrica è detta funzione di verosimiglianza (likelihood) fattore di normalizzazione

2 Decisione ottima La probabilità a posteriori P(C i /x) definisce la probabilità del pattern di appartenere alla classe C i La probabilità di misclassificazione è minimizzata scegliendo la classe C i che ha la maggiore probabilità a posteriori, cosicchè il pattern è assegnato alla classe C i se: semplificando il fattore di normalizzazione comune, si ha: N.B. Il confronto è relativo alle d. p. congiunte

3 Regioni e superfici di decisione Possiamo concepire lo spazio delle variabili come diviso in k regioni di decisione R 1, R 2,..., R k tali per cui un punto appartenente a R k è assegnato alla classe C k Le regioni devono essere disgiunte, ma non necessariamente contigue I confini tra le regioni sono detti confini o superficie di decisione R1R1 R2R2 R3R3 R2R2 R3R3 R4R4 R1R1 R2R2 R5R5 R1R1 Il classificatore bayesiano definisce una regola per assegnare ogni punto dello spazio delle variabili a una delle k classi

4 Errore di misclassificazione Con riferimento a due sole classi e una sola variable x, si ha:

5 Corretta classificazione La probabilità P c di corretta classificazione, relativa a k classi e a un vettore d-dimensionale delle variabili, vale: Il massimo di P c si ha scegliendo le R i per cui le osservazioni sono assegnate alla classe che massimizza lintegrando. Ciò corrisponde alla decisione di assegnamento del pattern nella classe con massima probabilità a posteriori.

6 Funzioni discriminanti Il classificatore bayesiano è basato sulle distribuzioni di probabilità, ma la decisione di appartenenza alla classe dipende solo dalle dimensioni relative delle probabilità Ciò conduce alla riformulazione del processo di classificazione nei termini di un insieme di funzioni discriminanti: Cosicché il vettore delle osservazioni è assegnato alla classe C i se: La regola di decisione che minimizza la probabilità di misclassificazione può essere facilmente espressa attraverso le funzioni discriminanti, ponendo:

7 Funzioni discriminanti trasformate Usando il teorema di Bayes e semplificando il fattore comune di normalizzazione, le funzioni discriminanti possono essere riformulate: Poichè per la classificazione interessa solo la relativa grandezza delle funzioni discriminanti, possiamo sostituirle con una qualsiasi trasformazione monotona, come per esempio il logaritmo: Le superfici di decisione non sono influenzate dalla trasformazione monotona e valgono:

8 Funzioni discriminanti per due classi Nel caso di due classi, le funzioni discriminanti sono di solito espresse in forma leggermente diversa: La regola di decisione quindi diventa: Segue naturalmente anche:

9 Minimizzazione del rischio Considerando tutti i pattern che appartengono alla classe C i, occorre allora attribuire un costo alla decisione: L ij sono gli elementi di una matrice di perdita che specifica la penale associata con lattribuzione alla classe C j di un pattern che appartiene alla classe C i. In taluni casi la regola di minimizzazione della probabilità di misclassificazione può non essere un criterio appropriato. P.es., nelle lesioni cutanee, classificare un melanoma come neo è molto più grave che classificare un neo come melanoma

10 Minimizzazione del rischio La perdita complessiva attesa per tutti i pattern di tutte le classi è: Il rischio è minimo se lintegrando è minimizzato per ogni pattern, cioè se le regioni R j sono scelte in modo che: quando:

11 Costo della decisione di melanoma Consideriamo le classi: C 1 = melanomi; C 2 = nei Attribuiamo alla matrice di perdita i seguenti valori: La lesione sarà allora assegnata ai melanomi se: melanomi come nei nei come melanomi melanomi come melanomi nei come nei N.B. La matrice di perdita determina una penalità nulla nellassegnare la lesione nella giusta classe e una penalità 10 volte superiore allerrato assegnamento dei melanomi come nei

12 Soglia di rifiuto In generale ci aspettiamo che molti degli errori di misclassificazione avvengano nelle regioni dove la più grande tra le probabilità a posteriori è relativamente bassa cosicché cè ampia sovrapposizione tra classi In alcune applicazioni è bene stabilire una soglia di probabilità (nellintervallo [0,1]) sotto la quale il classificatore viene rifiutato, cioè: N.B. Nellesempio dei melanomi, la soglia potrebbe servire per lasciare la diagnosi di lesioni particolarmente difficili al dermatologo esperto

13 Stima delle probabilità bayesiane Il classificatore bayesiano garantisce lerrore di classificazione minimo purché siano note le probabilità a priori e le d. p. condizionate alle classi In pratica le probabilità a priori e le d. p. vanno stimate attraverso i dati campionari del learning set. N.B. La d. p. non condizionata al denominatore (fattore di normalizzazione) può essere espressa come somma delle d. p. congiunte di tutte le classi a loro volta scomponibili nel prodotto di probabilità a priori e d. p. condizionate

14 Stima delle probabilità a priori In pratica, a fini di classificazione, le probabilità a priori possono anche essere incognite e stimate essere equiprobabili Impostando il costo della decisione indipendentemente dalla probabilità a priori, possono sempre essere ricomprese nella matrice di perdita L

15 Stima delle densità di probabilità Le d. p. condizionate vanno stimate dal campione di learning facendo alcune ipotesi circa la loro distribuzione parametrica o ricorrendo a tecniche non parametriche Metodi parametrici Distribuzione parametrica Vettore dei parametri stimato dalle osservazioni campionarie Metodi non parametrici Funzione kernel Numero osservazioni in C i

16 Distribuzione gaussiana È lipotesi parametrica più frequente = matrice di covarianza (simmetrica) = vettore delle medie d = dimensione delle feature superfici di separazione quadratiche superfici di separazione lineari melanominei Blue content Area (mm 2 ) x Bayesiano lineare Bayesiano quadratico

17 Iperellissoide di confidenza Termine esponenziale (quadrato della distanza di Mahalanobis) 2 costante definisce un iperellissoide a probabilità costante. Gli autovettori u j e gli autovalori j di definiscono rispettivamente gli assi principali delliperellissoide e le varianze (semidiametri al quadrato) La regione di confidenza della media vera, con probabilità (1- ), è: n = numerosità campione d = dimensione dello spazio (F -1 ) d,n-d = inversa della distribuzione F valutata in (1- ), per d e n-d gradi di libertà x1x1 x2x2 u1u1 u2u2 i

18 Classificatore bayesiano naïve Matrice di covarianza diagonale variabili indipendenti. Direzioni principali degli ellissoidi di uguale probabilità allineate con le coordinate degli assi Riduzione del numero di parametri a 2d, ulteriore semplificazione con d+1 parametri e ipersfere come superfici di ugual probabilità

19 Proprietà della distribuzione gaussiana 1.Ha proprietà analitiche relativamente semplici 2.Il teorema del limite centrale afferma che la media di N variabili casuali tende alla distribuzione normale per N, in pratica già per N>10; molti fenomeni naturali hanno parecchi costituenti casuali che rendono normale la loro distribuzione 3.Qualsiasi trasformazione lineare del sistema di coordinate è ancora gaussiana (con medie e matrice di covarianza diverse) e mantiene 2 di forma quadratica e definita positiva

20 Proprietà della distribuzione gaussiana 4.Le d. p. marginali, ottenute integrando su qualche variabile, sono ancora gaussiane 5.Le d. p. condizionate, ottenute a valori costanti di alcune variabili, sono ancora gaussiane 6.Esiste una trasformazione lineare che diagonalizza la matrice di covarianza, porta a coordinate basate sugli autovettori, rende le variabili indipendenti e la d. p. si ottiene come prodotto delle d. p. delle singole variabili 7.Ha la massima entropia possibile

21 Funzioni discriminanti Passando al logaritmo e semplificando i termini classi-indipendenti : Si tratta quindi di funzioni quadratiche nello spazio a d dimensioni Se le matrici di covarianza sono uguali per tutte le classi, il termine con | | si semplifica così come il termine quadratico x T -1 x; poichè è simmetrica lo sarà anche la sua inversa e x T -1 = T -1 x, cosicchè la funzione discriminante diventa lineare: Esercizio: valutare le d. p. con diagonale e P(C i ) tutte uguali

22 Stima dei parametri Una volta scelto il tipo di d. p. parametrica, spesso gaussiana, occorre stimarne i parametri. Esistono vari metodi: 1.Massima verosimiglianza. Stima i parametri che massimizzano una funzione di probabilità determinata dai dati di learning 2.Inferenza bayesiana. I parametri vengono descritti da una distribuzione di probabilità che, tramite linferenza bayesiana, passa da una situazione a priori più incerta e con forma più allargata, alla probabilità a posteriori, affinata dai dati campionari, perciò di natura meno incerta con forma più stretta; la d. p. gaussiana relativa alle variabili di ingresso è ottenuta con un integrale fatto rispetto tutti i suoi parametri, pesato per la loro probabilità a posteriori 3.Metodi sequenziali. Tecniche iterative basate sullaggiornamento del valore dei parametri ad ogni nuovo dato acquisito

23 Stima di massima verosimiglianza Anche se nella classificazione bayesiana si tratta con la d. p. condizionata alle classi, ci riferiamo per semplicità alla d. p. non condizionata p(x) che dipende dal vettore dei parametri da stimare = ( 1, 2, …, M ) T. Il processo andrà poi ripetuto per ogni classe separatamente. p(x) dipende da e dallinsieme di apprendimento, costituito dalla matrice d N degli N di vettori delle osservazioni: La verosimiglianza (likelihood) L ( ), si ottiene dalla produttoria delle d. p. di ogni singola osservazione poiché esse si considerano indipendenti e, per un dato, è solo funzione di

24 Massima verosimiglianza Per molte d. p. lottimo di va cercato con tecniche numeriche di minimizzazione iterative. Nel caso speciale della distribuzione gaussiana multivariata, la soluzione è analitica e vale: Sebbene lapproccio di massima verosimiglianza appaia intuitivamente ragionevole, ha qualche difetto. P.es., nel caso monovariato, la stima della varianza è distorta come segue perché è valutata rispetto alla stima campionaria della media

25 Inferenza bayesiana La d. p. relativa alle variabili di ingresso non viene calcolata fissando i parametri ad uno specifico valore come accade per il metodo di massima verosimiglianza, ma rappresentandoli attraverso una funzione di probabilità Prima di osservare i dati, i parametri vengono descritti da una d. p. a priori tipicamente piuttosto larga scarsa conoscenza dei valori che potrebbero assumere Dopo che i dati sono stati osservati, la d. p. a posteriori si restringe attorno a valori di parametri più compatibili coi dati. priori p( ) posteriori p( / ) Apprendimento bayesiano

26 Inferenza bayesiana La d.p. desiderata per il vettore x, una volta noti i dati di learning, si può esprimere come lintegrale della d.p. congiunta: Il primo termine della d.p. congiunta è indipendente da forma matematica parametrica della d.p. di x, pertanto: N.B. Lapproccio bayesiano non trova un preciso valore di, ma effettua una media su tutti i valori della d.p. p(x, ), pesata per la d.p. a posteriori p( / ) dei parametri

27 La d.p. a posteriori dei parametri può essere valutata attraverso il teorema di Bayes: ( La d.p. dei dati campionari condizionata ai parametri, p( / ), è esprimibile come prodotto di probabilità poiché i dati sono assunti essere estratti dalla popolazione indipendentemente luno dallaltro (campionamento casuale): Cosicchè: e Inferenza bayesiana

28 In generale, gli integrali si risolvono difficilmente in modo analitico. È possibile solo se la d.p. a priori ha la stessa forma funzionale della d.p. a posteriori, detta perciò coniugata Usando una successione di N punti è possibile applicare il processo inferenziale bayesiano ripetitivamente la d.p. a posteriori diventa la d.p. a priori del punto seguente e mantiene la stessa forma funzionale, restringendosi attorno al valore vero; tali d.p. sono dette riproducibili Inferenza bayesiana N=0 N=1 N=6 N=12 p( / ) Esempio Stima del valor medio, dati 12 punti estratti da una d.p. gaussiana monovariata con =0.8: uso di una d.p. a priori (N=0) di tipo gaussiano con 0 =0 e 0 =0.3

29 Esiste una semplice relazione tra le due tecniche quando il numero delle osservazioni N è sufficientemente alto Trascurando il denominatore, indipendente da, con linferenza bayesiana si ha: Inferenza bayesiana massima verosimiglianza La verosimiglianza L ( ) ha un massimo per = Per N sufficientemente elevato, la funzione L ( ) è stretta attorno al picco e lintegrale che stima la d.p. con la tecnica bayesiana può essere pertanto approssimato da:

30 Metodi sequenziali Aggiornamento parametri ad ogni nuova osservazione Godono di importanti proprietà: 1.Non richiedono la memorizzazione di tutti i punti osservati ogni punto può essere scartato una volta usato utile per grandi quantità di dati 2.Possono essere usati per lapprendimento on- line in sistemi real-time adattivi 3.Se il sistema è stazionario, ma con variazioni lente, la stima sequenziale dei parametri può essere usata per inseguire il comportamento del sistema (tracking on-line)

31 In generale, è possibile esprimere una formula sequenziale aggiornabile ad ogni nuovo punto N+1: Metodi sequenziali g è una funzione della variabile aleatoria I coefficienti a N sono una sequenza di numeri positivi che soddisfano alle seguenti proprietà: Assicura che le successive correzioni tendono a diminuire è il processo converge a un valore limitato Assicura che le correzioni sono sufficientemente ampie da trovare effittivamente la soluzione Assicura che il rumore accumulato si mantenga con varianza limitata, in modo da non compromettere la convergenza

32 Metodi sequenziali N.B. È necessario tenere in memoria solo N è il valore della media stimata al passo N, cosicchè ogni punto viene usato una sola volta e poi scartato. Il contributo di ogni punto successivo decresce come conseguenza del coefficiente 1/(N+1) Per esempio la stima sequenziale della media di una distribuzione gaussiana, si può esprimere come: Risolvendo in modo sequenziale la stima ottenuta col metodo della massima verosimiglianza, usando la formula di Robbins-Monro, si può dimostrare che:

33 Metodi non parametrici Stimano le d.p. la cui forma funzionale complessiva non viene definita preliminarmente. Ne esistono diversi tipi: 1.Istogrammi. Si dividono gli assi di ogni variabile in classi, approssimando la d. p. tramite la frazione di dati che cadono in ogni scatola (bin). 2.Metodi a kernel. D. p. come somma di funzioni elementari (kernel) tutte uguali, di forma e volume prefissato, centrate su ogni dato. 3.K-nearest-neighbours. Fissate K osservazioni sul totale N (K

34 Istogrammi M=100 M=5 M=20 Il numero di classi M va scelto come giusto compromesso (c) tra due opposte rappresentazioni: a)troppo rumorosa varianza elevata; b)poco accurata bias elevato a) b) c)

35 Istogrammi La probabilità che ogni vettore delle osservazioni x, estratto da una d.p. p(x) sia compreso in una regione R dello spazio x è definita come: Presi N valori estratti indipendentemente da p(x), la probabilità che K appartengano alla regione R è data dalla legge binomiale: La frazione media di punti in tale regione è P=E{K/N}, mentre la varianza attorno alla media è uguale a P(1-P)/N

36 Istogrammi Allaumentare di N (N ) la varianza tende a 0 e quindi la frazione media P di punti in R è K/N Se daltro canto assumiamo che p(x) sia continua e non vari molto in R, possiamo approssimare in: V è il volume di R e x è un punto generico entro R Si ottiene quindi il risultato intuitivo N.B. Il risultato dipende due valide approssimazioni contrapposte: R deve essere abbastanza grande affinché si abbia un sufficiente numero di punti K, ma non troppo da poter considerate p(x) costante nel volume di interesse


Scaricare ppt "Classificatore bayesiano Date k classi C 1, C 2, …, C k e il vettore x delle osservazioni, la probabilità a posteriori vale: probabilità a priori densità"

Presentazioni simili


Annunci Google