UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.

UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione e sviluppo di metodi di selezione di caratteristiche per analisi di dati ad alta dimensionalità. Relatori: Prof. Francesco Marcelloni Prof. Beatrice Lazzerini Candidato: Baldini Paolo ANNO ACCADEMICO

Contesto applicativo Data Clustering
Rappresentazione relazionale dei dati Problemi: Maggiore occupazione di memoria Dimensional Curse Soluzione: Riduzione del numero di caratteristiche Da evitare: Perdita di informazioni necessarie alla corretta classificazione dei dati Algoritmo ARCA

Raggiungere l’obiettivo preposto
Possibile? Sì perché… Implicita ridondanza della rappresentazione relazionale Come? Selezione delle caratteristiche salienti (feature selection) Implementazione di apposite tecniche MYPCA_Fs NP_Fs PCA_Fs CORR_Fs Sviluppate durante la tesi Riprese dalla letteratura

NP_Fs: Near Points Feature Selection
Superfluo considerare più dimensioni relative alla non somiglianza rispetto a campioni tra loro molto simili. Individuazione dei campioni meno rappresentativi rimozione delle dimensioni ad essi corrispondenti N-vettore B = [bj]: A parità di bj, calcolato vettore S = [sj]: Caratteristica j-esima eliminata se: Stima di “inutilità” della caratteristica j-esima all’interno del data set relazionale (numero dei campioni tra loro molto simili in base alla caratteristica in esame) { Stima della non somiglianza globale dei dati rispetto alla caratteristica j-esima

MyPCA_Fs Principal Component Analysis
Matrice di covarianza dei dati Matrice A (ogni riga un autovettore) Autovettori Autovalori Vettore B Autovettori pesati per i relativi autovalori Somma delle componenti relative a ciascuna caratteristica N-vettore B’ = B x A b’j = misura dell’importanza della corrispondente dimensione dello spazio iniziale in termini di varianza sul data set considerato. Selezione delle M caratteristiche con massimo valore di b’j corrispondente

PCA_Fs Principal Component Analysis
Matrice di covarianza dei dati Matrice A (ogni colonna un autovettore) Autovettori Autovalori Vettore B Eliminazione delle N - q colonne di A con autovalori associati di valore minimo 1 ≤ q ≤ N Nuova matrice A’ Preferibilmente 1 ≤ q ≤ M Clustering delle righe di A’ con numero di prototipi i pari a M Individuazione della riga più vicina a ciascuno degli M prototipi Selezione delle M caratteristiche corrispondenti alle righe individuate

CORR_Fs Matrice R di correlazione dei dati
Scelta delle M caratteristiche meno correlate fra loro come più rappresentative Individuata coppia di caratteristiche massimamente correlate tra loro Eliminata delle due quella per cui la somma dei coefficienti di correlazione rispetto a tutte le altre sia massima Valore di soglia minima di correlazione Procedimento interrotto se non vi sono elementi di R maggiori di tale soglia

Criterio di STOP adottato
Eliminazione di un numero prefissato di caratteristiche Eventuale verifica a posteriori del miglior compromesso tra dimensione dei dati e quantità di informazione residua

Valutazione dei risultati sperimentali
Validità della partizione Coefficiente di partizione Ripreso dalla letteratura 1/C ≤ P ≤ 1 Misura del livello di fuzzyness

Valutazione dei risultati sperimentali (II)
Differenza dalla partizione di riferimento Indice Ivx Misura della distanza tra due generiche partizioni Pi e Pj Trasposizione dei campioni in un fittizio spazio N-dimensionale Nuova immagine dei dati dipendente dalla partizione Distanza normalizzata tra immagini ottenute da partizioni diverse Sviluppato durante la tesi Indipendente dall’ordine dei prototipi e dal numero di dimensioni dello spazio dei campioni

Quantizzazione di Ivx

Fase Sperimentale Fase 1:
5 dataset di dimensioni relativamente contenute Dimostrazione della validità delle tesi ipotizzate Impiego di tutti e 4 gli algoritmi di feature selection Test dell’effettiva efficacia degli algoritmi in esame Dati reali dal database UCI Numero di dimensioni variabile da 150 (Iris) a 1473 (CMC) conservazione dell’informazione necessaria per una corretta classificazione dei campioni anche a seguito dell’eliminazione di un elevato numero di caratteristiche CORR_Fs MYPCA_Fs NP_Fs PCA_Fs

Fase sperimentale (II)
2 dataset ad altissima dimensionalità (dell’ordine delle migliaia di dimensioni) Ulteriore riprova dei risultati ottenuti nella Fase 1 Verifica dell’eliminazione della maledizione dimensionale Impiego del solo NP_Fs Raggiungere le condizioni necessarie a far convergere ARCA anche laddove precedentemente essa lo impediva Phonemes dati reali dal database del progetto ELENA 5404 caratteristiche DS8 dati sintetici generati per l’occasione 15000 caratteristiche

Struttura dei test Partizione di riferimento eseguita sul dataset completo Eliminazione successiva di un numero crescente di caratteristiche Confronto ogni volta con la partizione di riferimento Grafico degli andamenti di Ivx rispetto al numero di dimensioni eliminate Più cicli considerando numeri diversi di cluster Controllo del coefficiente di partizione

Esempio di grafico dei test

Valore medio globale di Ivx: 0.0681
Risultati Fase 1 Nella quasi totalità dei casi è stato possibile identificare almeno una configurazione in cui, nonostante l’eliminazione di un sostanzioso numero di dimensioni, la classificazione restasse sostanzialmente simile all’originale Valore medio globale di Ivx:

Risultati Fase 1 (II) In alcuni casi la feature selection ha permesso addirittura una classificazione dei campioni più aderente all’originale ripartizione dei dati Variazione di andamento della pendenza della curva di Ivx: da crescente a decrescente Variazione inversa del numero di campioni classificati diversamente rispetto al dataset overfitting

Risultati Fase 1 (III) Sostanziale equivalenza dei metodi di feature selection Impossibile individuarne uno universalmente migliore Dipendenza delle prestazioni dai diversi scenari Algoritmi tra loro più simili: MYPCA_Fs e PCA_Fs NP_Fs = via di mezzo tra essi e CORR_Fs

Risultati Fase 2 Conferma dei risultati ottenuti durante la Fase 1 anche quando il numero dimensioni dei dati supera il migliaio Conferma dell’efficacia della feature selection per eliminare la maledizione dimensionale Maggiore chiarezza dei dati Convergenza dell’algoritmo di clustering (ARCA) Valori più alti del coefficiente di partizione P Dataset Phonemes Dataset DS8

Conclusioni Gli obiettivi preposti sono stati raggiunti
Riduzione del numero di caratteristiche dei dati preservando le informazioni essenziali alla classificazione Eliminazione della maledizione dimensionale Sono stati sviluppati due nuovi algoritmi di feature selection e se ne è verificata l’efficacia NP_Fs MYPCA_Fs

UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.

Presentazioni simili

Presentazione sul tema: "UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.

Presentazioni simili

Presentazione sul tema: "UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back