La Classificazione supervisionata CAPITOLO 15 CLASSIFICAZIONE La Classificazione supervisionata A. Dermanis, L.Biagi
mi = x Ci = (x – mi)(x – mi)T La Classificazione supervisionata I pixel noti in ciascuna classe ω1, ω2, ..., ωK, formano gli “insieme campione” S1, S2, ..., SK con n1, n2, ..., nK pixel ciascuno. Stime per ciascun insieme campione Si, (i = 1, 2, …, K ) : Vettori delle medie: Matrici di covarianza: mi = x xSi 1 ni xSi Ci = (x – mi)(x – mi)T 1 ni Metodi di classificazione supervisionata: Parallelepipedi Distanza euclidea Distanza di Mahalanobis Massima verosimiglianza Bayesiano A. Dermanis, L.Biagi
dE(x, x) = || x – x || = (x1 – x1)2 + (x2 – x2)2 + … + (xB – xB)2 La Classificazione con la distanza Euclidea dE(x, x) = || x – x || = (x1 – x1)2 + (x2 – x2)2 + … + (xB – xB)2 (a) Semplice || x – mi || = min || x – mk || x i k Assegna ciascun pixel alla classe con centro più vicino. Confini fra le classi: iperpiani perpendicolari nel punto medio al segmento congiungente i centri delle classi. A. Dermanis, L.Biagi
dE(x, x) = || x – x || = (x1 – x1)2 + (x2 – x2)2 + … + (xB – xB)2 La Classificazione con la distanza Euclidea dE(x, x) = || x – x || = (x1 – x1)2 + (x2 – x2)2 + … + (xB – xB)2 (b) Con livello di soglia T || x – mi || = min || x – mk || k x i || x – mi || T Assegna ciascun pixel alla classe con centro più vicino se distanza < livello di soglia || x – mi || > T, i x 0 Lascia non classificati i pixel (class ω0) la cui distanza da ogni centro è maggiore della soglia. A. Dermanis, L.Biagi
dE(x, x) = || x – x || = (x1 – x1)2 + (x2 – x2)2 + … + (xB – xB)2 La Classificazione con distanza Euclidea dE(x, x) = || x – x || = (x1 – x1)2 + (x2 – x2)2 + … + (xB – xB)2 Giusto Sbagliato Si introduce il ruolo della statistica nella classificazione! A. Dermanis, L.Biagi
ij = (Ci)jj j = 1, 2, …, B x = [x1 … xj … xB]T Pj j = 1, 2, …, B La classificazione con il metodo dei parallelepipedi ij = (Ci)jj j = 1, 2, …, B Deviazione standard per ogni banda x = [x1 … xj … xB]T Pj mij – k ij xj mij + k ij j = 1, 2, …, B Parallelepipedi Pi x Pj x i x Pi x 0 i Classificazione: A. Dermanis, L.Biagi
dM(x, x) = (x – x)T C–1 (x – x) La classificazione con la distanza di Mahalanobis Distanza di Mahalanobis: dM(x, x) = (x – x)T C–1 (x – x) C = (x – mi) (x – mi)T = ni Ci 1 N i xSi i (Matrice di covarianza) Classificazione (semplice): dM(x,mi) < dM(x,mk), ki xi Classificazione con soglia: dM(x,mi) < dM(x,mk), ki dM(x,mi) T, xi dM(x,mi) > T, i x0 A. Dermanis, L.Biagi
li(x) = exp [ – (x – mi)T Ci–1 (x – mi) ] (2)B/2 | Ci |1/2 La classificazione con il metodo di massima verosimiglianza Funzione di distribuzione di probabilità o funzione di verosimiglianza per la classe ωi: 1 2 li(x) = exp [ – (x – mi)T Ci–1 (x – mi) ] (2)B/2 | Ci |1/2 Classificazione: li(x) > lk(x) k i xi Equivalente all’uso della funzione di decisione: di(x) = 2 ln[li(x)] + B ln(2) = – ln | Ci | – (x – mi)T Ci–1 (x – mi) di(x) > dk(x) k i xi A. Dermanis, L.Biagi
La classificazione mediante approccio Bayesiano N : numero totale di pixel (i.e. per ogni banda) B : numbero di bande, ω1, ω2, …, ωK : le K classi presenti nell’immagine Ni : numero di pixel nella classe ωi (i = 1,2, …, K) nx : numero di pixel con valore x nxi : numero di pixel con valore x in classe ωi A. Dermanis, L.Biagi
La classificazione mediante approccio Bayesiano N : numero totale di pixel (i.e. per ogni banda) B : numbero di bande, ω1, ω2, …, ωK : le K classi presenti nell’immagine Ni : numero di pixel nella classe ωi (i = 1,2, …, K) nx : numero di pixel con valore x nxi : numero di pixel con valore x in classe ωi A. Dermanis, L.Biagi
La classificazione mediante approccio Bayesiano N : numero totale di pixel (i.e. per ogni banda) B : numbero di bande, ω1, ω2, …, ωK : le K classi presenti nell’immagine Ni : numero di pixel nella classe ωi (i = 1,2, …, K) nx : numero di pixel con valore x nxi : numero di pixel con valore x in classe ωi Identità di base: A. Dermanis, L.Biagi
La classificazione mediante approccio Bayesiano N : numero totale di pixel (i.e. per ogni banda) B : numbero di bande, ω1, ω2, …, ωK : le K classi presenti nell’immagine Ni : numero di pixel nella classe ωi (i = 1,2, …, K) nx : numero di pixel con valore x nxi : numero di pixel con valore x in classe ωi Identità di base: A. Dermanis, L.Biagi
La classificazione mediante approccio Bayesiano N : numero totale di pixel (i.e. per ogni banda) B : numbero di bande, ω1, ω2, …, ωK : le K classi presenti nell’immagine Ni : numero di pixel nella classe ωi (i = 1,2, …, K) nx : numero di pixel con valore x nxi : numero di pixel con valore x in classe ωi Identità di base: A. Dermanis, L.Biagi
Ni N p(i) = nx N p(x) = nxi Ni p(x | i) = nxi nx p(i | x) = nxi N probabilità che un pixel appartenga alla classe ωi p(x) = nx N probabilità che un pixel abbia il valore x p(x | i) = nxi Ni probabilità che un pixel della classe ωi abbia valore x (condizionata) p(i | x) = nxi nx probabilità che un pixel con valore x appartenga alla classe ωi (condizionata) p(x, i) = nxi N probabilità che un pixel abbia il valore x e appartenga alla classe ωi (congiunta) A. Dermanis, L.Biagi
Ni N p(i) = nx N p(x) = nxi Ni p(x | i) = nxi nx p(i | x) = nxi N probabilità che un pixel appartenga alla classe ωi p(x) = nx N probabilità che un pixel abbia il valore x p(x | i) = nxi Ni probabilità che un pixel della classe ωi abbia valore x (condizionata) p(i | x) = nxi nx probabilità che un pixel con valore x appartenga alla classe ωi (condizionata) p(x, i) = nxi N probabilità che un pixel abbia il valore x e appartenga alla classe ωi (congiunta) A. Dermanis, L.Biagi
Ni N p(i) = nx N p(x) = nxi Ni p(x | i) = nxi nx p(i | x) = nxi N probabilità che un pixel appartenga alla classe ωi p(x) = nx N probabilità che un pixel abbia il valore x p(x | i) = nxi Ni probabilità che un pixel della classe ωi abbia valore x (condizionata) p(i | x) = nxi nx probabilità che un pixel con valore x appartenga alla classe ωi (condizionata) p(x, i) = nxi N probabilità che un pixel abbia il valore x e appartenga alla classe ωi (congiunta) formula di Bayes A. Dermanis, L.Biagi
Pr(A | B) Pr(B) = Pr(AB) = Pr(B | A) Pr(A) Teorema di Bayes: Pr(A | B) = Pr(AB) Pr(B) Pr(A | B) Pr(B) = Pr(AB) = Pr(B | A) Pr(A) Pr(B | A) = Pr(A | B) Pr(B) Pr(A) evento A = occorrenza del valore x evento B = occorrenza della classe ωi p(x|i) p(i) p(i|x) = p(x) Classificazione: p(i |x) > p(k |x) k i xi p(x) = non necessaria (fattore comune) Classificazione: p(x |i) p(i) > p(x |k) p(k) k i xi A. Dermanis, L.Biagi
p(x|i) p(i) = max [p(x|k) p(k) xi Classificazione: p(x|i) p(i) = max [p(x|k) p(k) xi k p(x | i) = li(x) = exp{– – (x – mi)T Ci–1 (x – mi) } (2)B/2 | Ci |1/2 1 2 per distribuzione Gaussiana: Anzichè: p(x | i) p(i) = max Equivalente ln[p(x | i) p(i)] = ln[p(x | i) + ln[p(i) = max – – (x – mi)T Ci–1 (x – mi) – – ln[ | Ci | + ln[p(i)] = max 1 2 o, finalmente: (x – mi)T Ci–1 (x – mi) + ln[ | Ci | + ln[p(i)] = min A. Dermanis, L.Biagi
(x – mi)T Ci–1 (x – mi) + ln[ | Ci | + ln[p(i)] = min La Classificazione Bayesiana per una distribuzione Gaussiana: (x – mi)T Ci–1 (x – mi) + ln[ | Ci | + ln[p(i)] = min CASI SPECIALI: p(1) = p(2) = … = p(K) (x – mi)T Ci–1 (x – mi) + ln[ | Ci | = min Massima Verosimiglianza! p(1) = p(2) = … = p(K) C1 = C2 = … = CK = C (x – mi)T Ci–1 (x – mi) = min Distanza di Mahalanobis! p(1) = p(2) = … = p(K) C1 = C2 = … = CK = I (x – mi)T (x – mi) = min Distanza Euclidea! A. Dermanis, L.Biagi