PATTERN RECOGNITION
PR-1 L’obiettivo del Pattern Recognition è quello di progettare un sistema (CLASSIFICATORE) che assegni automaticmente il valore di una misura alla classe corrispondente Lo spazio degli ingressi è suddiviso in regioni mediante superfici di decisione Superficie di decisione Classificazione senza errori (insiemi linearmente separabili) x1 x2 Superficie di decisione x1 x2 Classificazione senza errori (insiemi non linearmente separabili) x1 x2 Superficie di decisione Classificazione con errori (insiemi non linearmente separabili)
PR-2 Il problema centrale è quello di definire la forma e la posizione della superficie di decisione in modo da minimare l’errore commesso dal classificatore CODIFICA: La risposta desiderata sarà un insieme di valori (generalmente interi) Elementi differenti della medesima classe avranno lo stesso valore dell’uscita desiderata Molto utilizzata la codifica binaria Codifica a k cifre sino a 2k classi Sistema Adattativo Possiamo usare ancora ADALINE e LMS per realizzare un classificatore lineare - Es: ADALINE -1 +1 + LMS y > 0 classe 1 < 0 classe 2 - d (-1,+1) x Buone prestazioni se il problema è linearmente separabile I concetti usati per la regressione possono essere in gran parte riutilizzati nel pattern-recognition
Formulazione Statistica PR-3 Un classificatore è ottimo se attribuisce il dato x alla classe Ci che massimizza la probabilità a posteriori P(Ci|x) cioè Problema: la probabilità a posteriori non può essere misurata direttamente REGOLA DI BAYES con: P(Ci ): probabilità a priori della classe Ci p(x|Ci ): verosimiglianza (likelihood) che il dato x sia prodotto dalla classe Ci P(x): fattore di normalizzazione NOTA: Questi valori possono essere calcolati partendo dai dati misurati, purché si assuma nota la loro funzione densità di probabilità pdf Spesso si assume una distribuzione Gaussiana e i soli dati occorrenti sono la media e la varianza
Assumiamo una distribuzione Gaussiana PR-4 Assumiamo una distribuzione Gaussiana con: Generalmente si assume una certa probabilità a priori P(Ci). Sarà: Es: s1 s2 P(x|C1) P(C1) P(x|C2) P(C2) soglia m1 m2 prob. a posteriori La soglia corrisponde a valori uguali di probabilità a posteriori La classificazione non è immune da errori Minore è la sovrapposizione migliore è l’accuratezza della classificazione
Limiti dell’approccio: assunzione della pdf dei dati di input La teoria statistica prova che è facile costruire un classificatore ottimo a partire dalla conoscenza dei dati, purché si assuma per essi una distribuzione Gaussiana Limiti dell’approccio: assunzione della pdf dei dati di input necessità di un numero sufficiente di dati per stimare con sufficiente precisione le funzioni discriminanti Dobbiamo cercare di costruire dei classificatori che non necessitino di alcuna assunzione sulle pdf dei cluster di dati RETE NEURALE ARTIFICIALE è uno dei tipi più interessanti di classificatori