Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoRosella Savino Modificato 10 anni fa
1
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione e sviluppo di metodi di selezione di caratteristiche per analisi di dati ad alta dimensionalità. Relatori: Prof. Francesco Marcelloni Prof. Beatrice Lazzerini Candidato: Baldini Paolo ANNO ACCADEMICO
2
Contesto applicativo Data Clustering
Rappresentazione relazionale dei dati Problemi: Maggiore occupazione di memoria Dimensional Curse Soluzione: Riduzione del numero di caratteristiche Da evitare: Perdita di informazioni necessarie alla corretta classificazione dei dati Algoritmo ARCA
3
Raggiungere l’obiettivo preposto
Possibile? Sì perché… Implicita ridondanza della rappresentazione relazionale Come? Selezione delle caratteristiche salienti (feature selection) Implementazione di apposite tecniche MYPCA_Fs NP_Fs PCA_Fs CORR_Fs Sviluppate durante la tesi Riprese dalla letteratura
4
NP_Fs: Near Points Feature Selection
Superfluo considerare più dimensioni relative alla non somiglianza rispetto a campioni tra loro molto simili. Individuazione dei campioni meno rappresentativi rimozione delle dimensioni ad essi corrispondenti N-vettore B = [bj]: A parità di bj, calcolato vettore S = [sj]: Caratteristica j-esima eliminata se: Stima di “inutilità” della caratteristica j-esima all’interno del data set relazionale (numero dei campioni tra loro molto simili in base alla caratteristica in esame) { Stima della non somiglianza globale dei dati rispetto alla caratteristica j-esima
5
MyPCA_Fs Principal Component Analysis
Matrice di covarianza dei dati Matrice A (ogni riga un autovettore) Autovettori Autovalori Vettore B Autovettori pesati per i relativi autovalori Somma delle componenti relative a ciascuna caratteristica N-vettore B’ = B x A b’j = misura dell’importanza della corrispondente dimensione dello spazio iniziale in termini di varianza sul data set considerato. Selezione delle M caratteristiche con massimo valore di b’j corrispondente
6
PCA_Fs Principal Component Analysis
Matrice di covarianza dei dati Matrice A (ogni colonna un autovettore) Autovettori Autovalori Vettore B Eliminazione delle N - q colonne di A con autovalori associati di valore minimo 1 ≤ q ≤ N Nuova matrice A’ Preferibilmente 1 ≤ q ≤ M Clustering delle righe di A’ con numero di prototipi i pari a M Individuazione della riga più vicina a ciascuno degli M prototipi Selezione delle M caratteristiche corrispondenti alle righe individuate
7
CORR_Fs Matrice R di correlazione dei dati
Scelta delle M caratteristiche meno correlate fra loro come più rappresentative Individuata coppia di caratteristiche massimamente correlate tra loro Eliminata delle due quella per cui la somma dei coefficienti di correlazione rispetto a tutte le altre sia massima Valore di soglia minima di correlazione Procedimento interrotto se non vi sono elementi di R maggiori di tale soglia
8
Criterio di STOP adottato
Eliminazione di un numero prefissato di caratteristiche Eventuale verifica a posteriori del miglior compromesso tra dimensione dei dati e quantità di informazione residua
9
Valutazione dei risultati sperimentali
Validità della partizione Coefficiente di partizione Ripreso dalla letteratura 1/C ≤ P ≤ 1 Misura del livello di fuzzyness
10
Valutazione dei risultati sperimentali (II)
Differenza dalla partizione di riferimento Indice Ivx Misura della distanza tra due generiche partizioni Pi e Pj Trasposizione dei campioni in un fittizio spazio N-dimensionale Nuova immagine dei dati dipendente dalla partizione Distanza normalizzata tra immagini ottenute da partizioni diverse Sviluppato durante la tesi Indipendente dall’ordine dei prototipi e dal numero di dimensioni dello spazio dei campioni
11
Quantizzazione di Ivx
12
Fase Sperimentale Fase 1:
5 dataset di dimensioni relativamente contenute Dimostrazione della validità delle tesi ipotizzate Impiego di tutti e 4 gli algoritmi di feature selection Test dell’effettiva efficacia degli algoritmi in esame Dati reali dal database UCI Numero di dimensioni variabile da 150 (Iris) a 1473 (CMC) conservazione dell’informazione necessaria per una corretta classificazione dei campioni anche a seguito dell’eliminazione di un elevato numero di caratteristiche CORR_Fs MYPCA_Fs NP_Fs PCA_Fs
13
Fase sperimentale (II)
2 dataset ad altissima dimensionalità (dell’ordine delle migliaia di dimensioni) Ulteriore riprova dei risultati ottenuti nella Fase 1 Verifica dell’eliminazione della maledizione dimensionale Impiego del solo NP_Fs Raggiungere le condizioni necessarie a far convergere ARCA anche laddove precedentemente essa lo impediva Phonemes dati reali dal database del progetto ELENA 5404 caratteristiche DS8 dati sintetici generati per l’occasione 15000 caratteristiche
14
Struttura dei test Partizione di riferimento eseguita sul dataset completo Eliminazione successiva di un numero crescente di caratteristiche Confronto ogni volta con la partizione di riferimento Grafico degli andamenti di Ivx rispetto al numero di dimensioni eliminate Più cicli considerando numeri diversi di cluster Controllo del coefficiente di partizione
15
Esempio di grafico dei test
16
Valore medio globale di Ivx: 0.0681
Risultati Fase 1 Nella quasi totalità dei casi è stato possibile identificare almeno una configurazione in cui, nonostante l’eliminazione di un sostanzioso numero di dimensioni, la classificazione restasse sostanzialmente simile all’originale Valore medio globale di Ivx:
17
Risultati Fase 1 (II) In alcuni casi la feature selection ha permesso addirittura una classificazione dei campioni più aderente all’originale ripartizione dei dati Variazione di andamento della pendenza della curva di Ivx: da crescente a decrescente Variazione inversa del numero di campioni classificati diversamente rispetto al dataset overfitting
18
Risultati Fase 1 (III) Sostanziale equivalenza dei metodi di feature selection Impossibile individuarne uno universalmente migliore Dipendenza delle prestazioni dai diversi scenari Algoritmi tra loro più simili: MYPCA_Fs e PCA_Fs NP_Fs = via di mezzo tra essi e CORR_Fs
19
Risultati Fase 2 Conferma dei risultati ottenuti durante la Fase 1 anche quando il numero dimensioni dei dati supera il migliaio Conferma dell’efficacia della feature selection per eliminare la maledizione dimensionale Maggiore chiarezza dei dati Convergenza dell’algoritmo di clustering (ARCA) Valori più alti del coefficiente di partizione P Dataset Phonemes Dataset DS8
20
Conclusioni Gli obiettivi preposti sono stati raggiunti
Riduzione del numero di caratteristiche dei dati preservando le informazioni essenziali alla classificazione Eliminazione della maledizione dimensionale Sono stati sviluppati due nuovi algoritmi di feature selection e se ne è verificata l’efficacia NP_Fs MYPCA_Fs
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.