Classificatore bayesiano Date k classi C1, C2, …, Ck e il vettore x delle osservazioni, la probabilità a posteriori vale: probabilità a priori densità di probabilità condizionata alla classe densità di probabilità non condizionata fattore di normalizzazione quando è parametrica è detta funzione di verosimiglianza (likelihood)
Decisione ottima N.B. Il confronto è relativo alle d. p. congiunte La probabilità a posteriori P(Ci/x) definisce la probabilità del pattern di appartenere alla classe Ci La probabilità di misclassificazione è minimizzata scegliendo la classe Ci che ha la maggiore probabilità a posteriori, cosicchè il pattern è assegnato alla classe Ci se: semplificando il fattore di normalizzazione comune, si ha: N.B. Il confronto è relativo alle d. p. congiunte
Regioni e superfici di decisione Il classificatore bayesiano definisce una regola per assegnare ogni punto dello spazio delle variabili a una delle k classi Possiamo concepire lo spazio delle variabili come diviso in k regioni di decisione R1, R2, ..., Rk tali per cui un punto appartenente a Rk è assegnato alla classe Ck R1 R2 R3 R4 R5 Le regioni devono essere disgiunte, ma non necessariamente contigue I confini tra le regioni sono detti confini o superficie di decisione
Errore di misclassificazione Con riferimento a due sole classi e una sola variable x, si ha:
Corretta classificazione La probabilità Pc di corretta classificazione, relativa a k classi e a un vettore d-dimensionale delle variabili, vale: Il massimo di Pc si ha scegliendo le Ri per cui le osservazioni sono assegnate alla classe che massimizza l’integrando. Ciò corrisponde alla decisione di assegnamento del pattern nella classe con massima probabilità a posteriori.
Funzioni discriminanti Il classificatore bayesiano è basato sulle distribuzioni di probabilità, ma la decisione di appartenenza alla classe dipende solo dalle dimensioni relative delle probabilità Ciò conduce alla riformulazione del processo di classificazione nei termini di un insieme di funzioni discriminanti: Cosicché il vettore delle osservazioni è assegnato alla classe Ci se: La regola di decisione che minimizza la probabilità di misclassificazione può essere facilmente espressa attraverso le funzioni discriminanti, ponendo:
Funzioni discriminanti trasformate Usando il teorema di Bayes e semplificando il fattore comune di normalizzazione, le funzioni discriminanti possono essere riformulate: Poichè per la classificazione interessa solo la relativa grandezza delle funzioni discriminanti, possiamo sostituirle con una qualsiasi trasformazione monotona, come per esempio il logaritmo: Le superfici di decisione non sono influenzate dalla trasformazione monotona e valgono:
Funzioni discriminanti per due classi Nel caso di due classi, le funzioni discriminanti sono di solito espresse in forma leggermente diversa: La regola di decisione quindi diventa: Segue naturalmente anche:
Minimizzazione del rischio In taluni casi la regola di minimizzazione della probabilità di misclassificazione può non essere un criterio appropriato. P.es., nelle lesioni cutanee, classificare un melanoma come neo è molto più grave che classificare un neo come melanoma Considerando tutti i pattern che appartengono alla classe Ci, occorre allora attribuire un costo alla decisione: Lij sono gli elementi di una matrice di perdita che specifica la penale associata con l’attribuzione alla classe Cj di un pattern che appartiene alla classe Ci.
Minimizzazione del rischio La perdita complessiva attesa per tutti i pattern di tutte le classi è: Il rischio è minimo se l’integrando è minimizzato per ogni pattern, cioè se le regioni Rj sono scelte in modo che: quando:
Costo della decisione di melanoma Consideriamo le classi: C1 = melanomi; C2 = nei Attribuiamo alla matrice di perdita i seguenti valori: melanomi come nei nei come melanomi melanomi come melanomi nei come nei La lesione sarà allora assegnata ai melanomi se: N.B. La matrice di perdita determina una penalità nulla nell’assegnare la lesione nella giusta classe e una penalità 10 volte superiore all’errato assegnamento dei melanomi come nei
Soglia di rifiuto In generale ci aspettiamo che molti degli errori di misclassificazione avvengano nelle regioni dove la più grande tra le probabilità a posteriori è relativamente bassa cosicché c’è ampia sovrapposizione tra classi In alcune applicazioni è bene stabilire una soglia di probabilità (nell’intervallo [0,1]) sotto la quale il classificatore viene rifiutato, cioè: N.B. Nell’esempio dei melanomi, la soglia potrebbe servire per lasciare la diagnosi di lesioni particolarmente difficili al dermatologo esperto
Stima delle probabilità bayesiane Il classificatore bayesiano garantisce l’errore di classificazione minimo purché siano note le probabilità a priori e le d. p. condizionate alle classi In pratica le probabilità a priori e le d. p. vanno stimate attraverso i dati campionari del learning set. N.B. La d. p. non condizionata al denominatore (fattore di normalizzazione) può essere espressa come somma delle d. p. congiunte di tutte le classi a loro volta scomponibili nel prodotto di probabilità a priori e d. p. condizionate
Stima delle probabilità a priori In pratica, a fini di classificazione, le probabilità a priori possono anche essere incognite e stimate essere equiprobabili Impostando il costo della decisione indipendentemente dalla probabilità a priori, possono sempre essere ricomprese nella matrice di perdita L
Stima delle densità di probabilità Le d. p. condizionate vanno stimate dal campione di learning facendo alcune ipotesi circa la loro distribuzione parametrica o ricorrendo a tecniche non parametriche Metodi parametrici Distribuzione parametrica Vettore dei parametri stimato dalle osservazioni campionarie Metodi non parametrici Funzione kernel Numero osservazioni in Ci
Distribuzione gaussiana melanomi nei Blue content Area (mm2) x Bayesiano lineare Bayesiano quadratico È l’ipotesi parametrica più frequente = matrice di covarianza (simmetrica) = vettore delle medie d = dimensione delle feature superfici di separazione quadratiche superfici di separazione lineari
Iperellissoide di confidenza Termine esponenziale (quadrato della distanza di Mahalanobis) 2 costante definisce un iperellissoide a probabilità costante. Gli autovettori uj e gli autovalori j di definiscono rispettivamente gli assi principali dell’iperellissoide e le varianze (semidiametri al quadrato) x1 x2 u1 u2 i La regione di confidenza della media vera, con probabilità (1-), è: n = numerosità campione d = dimensione dello spazio (F-1)d,n-d = inversa della distribuzione F valutata in (1-), per d e n-d gradi di libertà
Classificatore bayesiano naïve Matrice di covarianza diagonale variabili indipendenti. Direzioni principali degli ellissoidi di uguale probabilità allineate con le coordinate degli assi Riduzione del numero di parametri a 2d , ulteriore semplificazione con d+1 parametri e ipersfere come superfici di ugual probabilità
Proprietà della distribuzione gaussiana Ha proprietà analitiche relativamente semplici Il teorema del limite centrale afferma che la media di N variabili casuali tende alla distribuzione normale per N∞, in pratica già per N>10; molti fenomeni naturali hanno parecchi costituenti casuali che rendono normale la loro distribuzione Qualsiasi trasformazione lineare del sistema di coordinate è ancora gaussiana (con medie e matrice di covarianza diverse) e mantiene 2 di forma quadratica e definita positiva
Proprietà della distribuzione gaussiana Le d. p. marginali, ottenute integrando su qualche variabile, sono ancora gaussiane Le d. p. condizionate, ottenute a valori costanti di alcune variabili, sono ancora gaussiane Esiste una trasformazione lineare che diagonalizza la matrice di covarianza, porta a coordinate basate sugli autovettori, rende le variabili indipendenti e la d. p. si ottiene come prodotto delle d. p. delle singole variabili Ha la massima entropia possibile
Funzioni discriminanti Passando al logaritmo e semplificando i termini classi-indipendenti : Si tratta quindi di funzioni quadratiche nello spazio a d dimensioni Se le matrici di covarianza sono uguali per tutte le classi, il termine con || si semplifica così come il termine quadratico xT-1x; poichè è simmetrica lo sarà anche la sua inversa e xT-1= T-1x, cosicchè la funzione discriminante diventa lineare: Esercizio: valutare le d. p. con diagonale e P(Ci) tutte uguali
Stima dei parametri Una volta scelto il tipo di d. p. parametrica, spesso gaussiana, occorre stimarne i parametri. Esistono vari metodi: Massima verosimiglianza. Stima i parametri che massimizzano una funzione di probabilità determinata dai dati di learning Inferenza bayesiana. I parametri vengono descritti da una distribuzione di probabilità che, tramite l’inferenza bayesiana, passa da una situazione a priori più incerta e con forma più allargata, alla probabilità a posteriori, affinata dai dati campionari, perciò di natura meno incerta con forma più stretta; la d. p. gaussiana relativa alle variabili di ingresso è ottenuta con un integrale fatto rispetto tutti i suoi parametri, pesato per la loro probabilità a posteriori Metodi sequenziali. Tecniche iterative basate sull’aggiornamento del valore dei parametri ad ogni nuovo dato acquisito
Stima di massima verosimiglianza Anche se nella classificazione bayesiana si tratta con la d. p. condizionata alle classi, ci riferiamo per semplicità alla d. p. non condizionata p(x) che dipende dal vettore dei parametri da stimare = (1, 2, …, M)T. Il processo andrà poi ripetuto per ogni classe separatamente. p(x) dipende da e dall’insieme di apprendimento, costituito dalla matrice dN degli N di vettori delle osservazioni: La verosimiglianza (likelihood) L( ), si ottiene dalla produttoria delle d. p. di ogni singola osservazione poiché esse si considerano indipendenti e, per un dato , è solo funzione di
Per molte d. p. l’ottimo di va cercato con tecniche Massima verosimiglianza Per molte d. p. l’ottimo di va cercato con tecniche numeriche di minimizzazione iterative. Nel caso speciale della distribuzione gaussiana multivariata, la soluzione è analitica e vale: Sebbene l’approccio di massima verosimiglianza appaia intuitivamente ragionevole, ha qualche difetto. P.es., nel caso monovariato, la stima della varianza è distorta come segue perché è valutata rispetto alla stima campionaria della media
Apprendimento bayesiano Inferenza bayesiana La d. p. relativa alle variabili di ingresso non viene calcolata fissando i parametri ad uno specifico valore come accade per il metodo di massima verosimiglianza, ma rappresentandoli attraverso una funzione di probabilità Prima di osservare i dati , i parametri vengono descritti da una d. p. a priori tipicamente piuttosto larga scarsa conoscenza dei valori che potrebbero assumere Dopo che i dati sono stati osservati, la d. p. a posteriori si restringe attorno a valori di parametri più compatibili coi dati. priori p() posteriori p( /) Apprendimento bayesiano
Inferenza bayesiana La d.p. desiderata per il vettore x, una volta noti i dati di learning, si può esprimere come l’integrale della d.p. congiunta: Il primo termine della d.p. congiunta è indipendente da forma matematica parametrica della d.p. di x, pertanto: N.B. L’approccio bayesiano non trova un preciso valore di , ma effettua una media su tutti i valori della d.p. p(x,), pesata per la d.p. a posteriori p(/ ) dei parametri
Inferenza bayesiana La d.p. a posteriori dei parametri può essere valutata attraverso il teorema di Bayes: La d.p. dei dati campionari condizionata ai parametri, p(/), è esprimibile come prodotto di probabilità poiché i dati sono assunti essere estratti dalla popolazione indipendentemente l’uno dall’altro (campionamento casuale): Cosicchè: e
Inferenza bayesiana In generale, gli integrali si risolvono difficilmente in modo analitico. È possibile solo se la d.p. a priori ha la stessa forma funzionale della d.p. a posteriori, detta perciò “coniugata” Usando una successione di N punti è possibile applicare il processo inferenziale bayesiano ripetitivamente la d.p. a posteriori diventa la d.p. a priori del punto seguente e mantiene la stessa forma funzionale, restringendosi attorno al valore ‘vero’; tali d.p. sono dette “riproducibili” N=0 N=1 N=6 N=12 p(/) Esempio Stima del valor medio , dati 12 punti estratti da una d.p. gaussiana monovariata con =0.8: uso di una d.p. a priori (N=0) di tipo gaussiano con 0=0 e 0=0.3
Inferenza bayesiana massima verosimiglianza Esiste una semplice relazione tra le due tecniche quando il numero delle osservazioni N è sufficientemente alto Trascurando il denominatore, indipendente da , con l’inferenza bayesiana si ha: La verosimiglianza L() ha un massimo per = Per N sufficientemente elevato, la funzione L() è stretta attorno al picco e l’integrale che stima la d.p. con la tecnica bayesiana può essere pertanto approssimato da:
Metodi sequenziali Aggiornamento parametri ad ogni nuova osservazione Godono di importanti proprietà: Non richiedono la memorizzazione di tutti i punti osservati ogni punto può essere scartato una volta usato utile per grandi quantità di dati Possono essere usati per l’apprendimento “on- line” in sistemi “real-time” adattivi Se il sistema è stazionario, ma con variazioni lente, la stima sequenziale dei parametri può essere usata per inseguire il comportamento del sistema (“tracking on-line”)
g è una funzione della variabile aleatoria Metodi sequenziali In generale, è possibile esprimere una formula sequenziale aggiornabile ad ogni nuovo punto N+1: g è una funzione della variabile aleatoria I coefficienti aN sono una sequenza di numeri positivi che soddisfano alle seguenti proprietà: Assicura che le successive correzioni tendono a diminuire è il processo converge a un valore limitato Assicura che le correzioni sono sufficientemente ampie da trovare effittivamente la soluzione Assicura che il rumore accumulato si mantenga con varianza limitata, in modo da non compromettere la convergenza
Metodi sequenziali Risolvendo in modo sequenziale la stima ottenuta col metodo della massima verosimiglianza, usando la formula di Robbins-Monro, si può dimostrare che: Per esempio la stima sequenziale della media di una distribuzione gaussiana, si può esprimere come: N.B. È necessario tenere in memoria solo N è il valore della media stimata al passo N, cosicchè ogni punto viene usato una sola volta e poi scartato. Il contributo di ogni punto successivo decresce come conseguenza del coefficiente 1/(N+1)
Metodi non parametrici Stimano le d.p. la cui forma funzionale complessiva non viene definita preliminarmente. Ne esistono diversi tipi: Istogrammi. Si dividono gli assi di ogni variabile in classi, approssimando la d. p. tramite la frazione di dati che cadono in ogni ‘scatola’ (bin). Metodi a kernel. D. p. come somma di funzioni elementari (kernel) tutte uguali, di forma e volume prefissato, centrate su ogni dato. K-nearest-neighbours. Fissate K osservazioni sul totale N (K<N) la d. p. è stimata in rapporto al volume dell’ipersfera che contiene K dati ed è centrata su ogni valore del vettore delle osservazioni. Modelli misti (semi-parametrici). Si combinano un certo numero (<N) di d. p. elementari, i cui parametri (posizione e apertura) sono stimati con tecniche classiche (massima verosimiglianza), oppure più sofisticate (expected-maximization)
Istogrammi Il numero di classi M va scelto come giusto compromesso (c) tra due opposte rappresentazioni: troppo rumorosa varianza elevata; poco accurata bias elevato a) M=100 b) M=5 c) M=20
Istogrammi La probabilità che ogni vettore delle osservazioni x, estratto da una d.p. p(x) sia compreso in una regione R dello spazio x è definita come: Presi N valori estratti indipendentemente da p(x), la probabilità che K appartengano alla regione R è data dalla legge binomiale: La frazione media di punti in tale regione è P=E{K/N}, mentre la varianza attorno alla media è uguale a P(1-P)/N
V è il volume di R e x è un punto generico entro R Istogrammi All’aumentare di N (N) la varianza tende a 0 e quindi la frazione media P di punti in R è ≈ K/N Se d’altro canto assumiamo che p(x) sia continua e non vari molto in R, possiamo approssimare in: V è il volume di R e x è un punto generico entro R Si ottiene quindi il risultato intuitivo N.B. Il risultato dipende due valide approssimazioni contrapposte: R deve essere abbastanza grande affinché si abbia un sufficiente numero di punti K, ma non troppo da poter considerate p(x) costante nel volume di interesse