REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A. 2013/2014 Università degli studi di Salerno Facoltà di Informatica
Contesto pattern da classificare provenienti da un database di neuroimaging: Informazioni :stimoli uditivi alla corteccia cerebrale con frequenza variabile; 6 soggetti presi in considerazione,una volta con stimoli molto percepiti(big) e una volta con stimoli poco percepiti(small) per un totale di 12 dataset; 49 osservazioni(pattern) per soggetto; 2 classi (labels): un passaggio in frequenza da 500 a 100Hz e uno in senso decrescente ; features estratte :circa 1000 voxel provenienti dalle aree della corteccia cerebrale uditiva destra e sinistra;
Descrizione del sistema Il problema della classificazione si presenta quindi formalmente nelle seguenti fasi: selezione delle caratteristiche(features) salienti; classificazione; presentazione dei risultati ed eventuali confronti tra tecniche differenti.
Selezione delle caratteristiche numero dimensioni ( features) di gran lunga maggiore del numero di osservazioni (1000>>49) difficile ricavare informazioni sufficientemente significative per addestrare il classificatore(curse of dimensionality). opportuno ridurre la dimensione delle features,cercando un set minimo con il più grande potere discriminativo.
Riduzione delle features 2 livelli di selezione delle caratteristiche: Filter: FDR (Fisher Discriminant Ratio) Wrapper :Sequential Forward Selection
Filter :Fisher Discriminant Ratio Valuta il potere discriminante di ciascuna feature presa singolarmente ; Si ottiene così una graduatoria (ranking) delle caratteristiche) che fornisce informazioni che tengono conto delle distanze tra le medie e delle varianze delle due classi; selezionate le caratteristiche che hanno un costo maggiore di una soglia, presa come valore medio dei costi; circa 300 caratteristiche per classe;
Wrapper(1) impiega le features selezionate allo step precedente, cercando di trovare combinazioni performanti. I risultati di questo metodo sono strettamente connessi al risultato del classificatore. partendo da un minimo di 2 sono state effettuate più iterazioni scegliendo la migliore combinazione di k (max 30) attraverso un algoritmo Sequential Forward Selection: le caratteristiche vengono aggiunte k alla volta e viene valutato il costo più alto basato su un funzionale; si è utilizzato la funzione Scatter Matrices.
Wrapper(2) successivamente i vettori ottenuti ( dimensioni k x 49) vengono utilizzati per addestrare il classificatore, e per ciascun k è stato ottenuto un valore di errore di test; questi valori sono conservati in un vettore di costi(29x1) e valutato l'errore minimo ; una seconda e ultima esecuzione del Sequential Forward Selection permette di selezionare,dato il k con errore minimo, la migliore combinazione di k features da inviare al classificatore.
Classificazione (1) Sono stati presi in considerazione due paradigmi per la classificazione: Reti neurali Multi strato (MLP) Alberi decisionali (CART) usati per la classificazione Entrambi gli algoritmi riescono a realizzare confini decisionali complessi nello spazio delle features. Tuttavia mentre i CART lavorano sequenzialmente, impiegando una funzione di decisione gerarchica, i MLP utilizzano una logica parallela attraverso decisioni soft..
Classificazione (2) Numero di campioni (pattern) piuttosto ridotto (49 elementi), un criterio di cross-validation, k-fold validation con k=7, per ciascuno dei 7 gruppi, 7 pattern sono utilizzati per il test e i restanti 42 per il training. Entrambi i classificatori sono stati utilizzati in due occasioni, una prima volta all'interno del metodo wrapper, per valutare le migliori combinazioni di features e successivamente sul set "vincente”. Sono stati valutati gli errori di classificazioni in entrambi i casi e le features più performanti
Implementazione Utilizzo del software Matlab Vantaggi: Si presta a lavorare con dati di tipo matrice Incorpora numerosi toolbox tra cui reti neurali
Classificatore MLP tipologia feed-forward con 1 livello intermedio di Hidden contenente 10 neuroni ; tecnica di apprendimento basata su gradiente discendente; funzione di attivazione neurone di tipo tangente sigmoide, e funzione di output soglia lineare; 200 iterazioni (epochs) per apprendimento; learning rate 0.1;
Classificatore CART Ciascuno dei 7 set di crossvalidation addestra un albero differente misura di impurità basata su GINI index
Risultati:MLP Nel caso del MLP le features più performanti sono: ANSCbig 24,193,276,313,355,479,613,771,783 (9 features) ANSCsmall 96,101,186,189,294,387,443,566,594,610,621,689,711,820,862,868(16 features) ELJObig 266,321,396,404,435,484,500,522,523,586,589,598,619,698,775,788,794,838,862,878 (20 features) ELJOsmall 2,64,89,202,247,255,308,315,350,474,557,712,821,867(14 features) MESPbig 29,66,93,117,177,188,345,416,514,552,565,698,720,727,763,790,895(17 features) MESPsmall 111,249,692(3 features) MISHbig 48,56,175,185,190,273,297,332,393,441,630,698,731,820,907,908,1001 (17 features) MISHsmall 50,184,237,448,474,588,780,885,986(9features) SOCObig 124,152,300,392,408,487,492,546,680,722,808,847,918,949(14 features) SOCOsmall 64,66,87,116,190,201,385,426,512,519,530,566,643,669,804,830,835,846, 864,884,887,893,935 (23 features) SOHE2big 126,167,318,323,439,629,643,645,747,778,881,906,310,936,1081(15 features) SOHE2small 41,439,714(3 features)
ANSCbig ANSCsmall ELJObig ELJOsmall MESP big MESPsmall
SOCOsmallSOHE2bigSOHE2small SOCObigMISHsmallMISHbig
MLP:features salienti
Risultati Nel caso del classificatore CART le features più performanti sono: ANSCbig 24,193,276,313,355,613,771,783 (8 features) ANSCsmall 387,621,868(3 features) ELJObig 266,321,523,589(4 features) ELJOsmall 37,165,251(3 features) MESPbig 29,720(2 features) MESPsmall 111,249(2 features) MISHbig 185,441(2 features) MISHsmall 50,588(2 features) SOCObig 392,492,918(3 features) SOCOsmall 64,426,530,835,846(5 features) SOHE2big 126,323,629,645,778,910,936,1081(8 features) SOHE2small 41,714(2 features)
ANSCbig ANSCsmallELJObig ELJOsmall MESP big MESPsmall
SOCObigMISHsmallMISHbig SOCOsmallSOHE2bigSOHE2small
CART-features salienti
Risultati di classificazione Nel caso MLP le classi sono state scelte con l'errore minimo(testing) che equivale ad un'errore dello 0%. Nel caso CART si ottengono i seguenti errori ANSCbig 18,37% ANSCsmall 26,53% ELJObig 34,69% ELJOsmall 28,57% MESPbig 12,24% MESPsmall 6,12% MISHbig 26,53% MISHsmall 30,61% SOCObig 36,73% SOCOsmall 20,41% SOHE2big 18,37% SOHE2small 6,12%
Risultati ANSCsmall 3DSOHE2small 3D SOHE2small 2DMESPbig 2D
Conclusioni Due differenti algoritmi di classificazione considerati A parità di numero di features di partenza i CART selezionano meno features dei MLP CART computazionalmente più semplici MLP computazionalmente più complessi, tuttavia forniscono errori più contenuti
Grazie per l’ attenzione