UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione e sviluppo di metodi di selezione di caratteristiche per analisi di dati ad alta dimensionalità. Relatori: Prof. Francesco Marcelloni Prof. Beatrice Lazzerini Candidato: Baldini Paolo ANNO ACCADEMICO 2005-2006
Contesto applicativo Data Clustering Rappresentazione relazionale dei dati Problemi: Maggiore occupazione di memoria Dimensional Curse Soluzione: Riduzione del numero di caratteristiche Da evitare: Perdita di informazioni necessarie alla corretta classificazione dei dati Algoritmo ARCA
Raggiungere l’obiettivo preposto Possibile? Sì perché… Implicita ridondanza della rappresentazione relazionale Come? Selezione delle caratteristiche salienti (feature selection) Implementazione di apposite tecniche MYPCA_Fs NP_Fs PCA_Fs CORR_Fs Sviluppate durante la tesi Riprese dalla letteratura
NP_Fs: Near Points Feature Selection Superfluo considerare più dimensioni relative alla non somiglianza rispetto a campioni tra loro molto simili. Individuazione dei campioni meno rappresentativi rimozione delle dimensioni ad essi corrispondenti N-vettore B = [bj]: A parità di bj, calcolato vettore S = [sj]: Caratteristica j-esima eliminata se: Stima di “inutilità” della caratteristica j-esima all’interno del data set relazionale (numero dei campioni tra loro molto simili in base alla caratteristica in esame) { Stima della non somiglianza globale dei dati rispetto alla caratteristica j-esima
MyPCA_Fs Principal Component Analysis Matrice di covarianza dei dati Matrice A (ogni riga un autovettore) Autovettori Autovalori Vettore B Autovettori pesati per i relativi autovalori Somma delle componenti relative a ciascuna caratteristica N-vettore B’ = B x A b’j = misura dell’importanza della corrispondente dimensione dello spazio iniziale in termini di varianza sul data set considerato. Selezione delle M caratteristiche con massimo valore di b’j corrispondente
PCA_Fs Principal Component Analysis Matrice di covarianza dei dati Matrice A (ogni colonna un autovettore) Autovettori Autovalori Vettore B Eliminazione delle N - q colonne di A con autovalori associati di valore minimo 1 ≤ q ≤ N Nuova matrice A’ Preferibilmente 1 ≤ q ≤ M Clustering delle righe di A’ con numero di prototipi i pari a M Individuazione della riga più vicina a ciascuno degli M prototipi Selezione delle M caratteristiche corrispondenti alle righe individuate
CORR_Fs Matrice R di correlazione dei dati Scelta delle M caratteristiche meno correlate fra loro come più rappresentative Individuata coppia di caratteristiche massimamente correlate tra loro Eliminata delle due quella per cui la somma dei coefficienti di correlazione rispetto a tutte le altre sia massima Valore di soglia minima di correlazione Procedimento interrotto se non vi sono elementi di R maggiori di tale soglia
Criterio di STOP adottato Eliminazione di un numero prefissato di caratteristiche Eventuale verifica a posteriori del miglior compromesso tra dimensione dei dati e quantità di informazione residua
Valutazione dei risultati sperimentali Validità della partizione Coefficiente di partizione Ripreso dalla letteratura 1/C ≤ P ≤ 1 Misura del livello di fuzzyness
Valutazione dei risultati sperimentali (II) Differenza dalla partizione di riferimento Indice Ivx Misura della distanza tra due generiche partizioni Pi e Pj Trasposizione dei campioni in un fittizio spazio N-dimensionale Nuova immagine dei dati dipendente dalla partizione Distanza normalizzata tra immagini ottenute da partizioni diverse Sviluppato durante la tesi Indipendente dall’ordine dei prototipi e dal numero di dimensioni dello spazio dei campioni
Quantizzazione di Ivx
Fase Sperimentale Fase 1: 5 dataset di dimensioni relativamente contenute Dimostrazione della validità delle tesi ipotizzate Impiego di tutti e 4 gli algoritmi di feature selection Test dell’effettiva efficacia degli algoritmi in esame Dati reali dal database UCI Numero di dimensioni variabile da 150 (Iris) a 1473 (CMC) conservazione dell’informazione necessaria per una corretta classificazione dei campioni anche a seguito dell’eliminazione di un elevato numero di caratteristiche CORR_Fs MYPCA_Fs NP_Fs PCA_Fs
Fase sperimentale (II) 2 dataset ad altissima dimensionalità (dell’ordine delle migliaia di dimensioni) Ulteriore riprova dei risultati ottenuti nella Fase 1 Verifica dell’eliminazione della maledizione dimensionale Impiego del solo NP_Fs Raggiungere le condizioni necessarie a far convergere ARCA anche laddove precedentemente essa lo impediva Phonemes dati reali dal database del progetto ELENA 5404 caratteristiche DS8 dati sintetici generati per l’occasione 15000 caratteristiche
Struttura dei test Partizione di riferimento eseguita sul dataset completo Eliminazione successiva di un numero crescente di caratteristiche Confronto ogni volta con la partizione di riferimento Grafico degli andamenti di Ivx rispetto al numero di dimensioni eliminate Più cicli considerando numeri diversi di cluster Controllo del coefficiente di partizione
Esempio di grafico dei test
Valore medio globale di Ivx: 0.0681 Risultati Fase 1 Nella quasi totalità dei casi è stato possibile identificare almeno una configurazione in cui, nonostante l’eliminazione di un sostanzioso numero di dimensioni, la classificazione restasse sostanzialmente simile all’originale Valore medio globale di Ivx: 0.0681
Risultati Fase 1 (II) In alcuni casi la feature selection ha permesso addirittura una classificazione dei campioni più aderente all’originale ripartizione dei dati Variazione di andamento della pendenza della curva di Ivx: da crescente a decrescente Variazione inversa del numero di campioni classificati diversamente rispetto al dataset overfitting
Risultati Fase 1 (III) Sostanziale equivalenza dei metodi di feature selection Impossibile individuarne uno universalmente migliore Dipendenza delle prestazioni dai diversi scenari Algoritmi tra loro più simili: MYPCA_Fs e PCA_Fs NP_Fs = via di mezzo tra essi e CORR_Fs
Risultati Fase 2 Conferma dei risultati ottenuti durante la Fase 1 anche quando il numero dimensioni dei dati supera il migliaio Conferma dell’efficacia della feature selection per eliminare la maledizione dimensionale Maggiore chiarezza dei dati Convergenza dell’algoritmo di clustering (ARCA) Valori più alti del coefficiente di partizione P Dataset Phonemes Dataset DS8
Conclusioni Gli obiettivi preposti sono stati raggiunti Riduzione del numero di caratteristiche dei dati preservando le informazioni essenziali alla classificazione Eliminazione della maledizione dimensionale Sono stati sviluppati due nuovi algoritmi di feature selection e se ne è verificata l’efficacia NP_Fs MYPCA_Fs