La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE DAZIENDA Tesi di laurea: Progettazione.

Presentazioni simili


Presentazione sul tema: "UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE DAZIENDA Tesi di laurea: Progettazione."— Transcript della presentazione:

1 UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE DAZIENDA Tesi di laurea: Progettazione e sviluppo di metodi di selezione di caratteristiche per analisi di dati ad alta dimensionalità. Relatori: Prof. Francesco Marcelloni Prof. Beatrice Lazzerini Candidato: Baldini Paolo ANNO ACCADEMICO

2 Contesto applicativo Data Clustering Data Clustering Rappresentazione relazionale dei dati Rappresentazione relazionale dei dati Problemi: Problemi: Maggiore occupazione di memoria Maggiore occupazione di memoria Dimensional Curse Dimensional Curse Soluzione: Soluzione: Riduzione del numero di caratteristiche Riduzione del numero di caratteristiche Da evitare: Da evitare: Perdita di informazioni necessarie alla corretta classificazione dei dati Perdita di informazioni necessarie alla corretta classificazione dei dati Algoritmo ARCA

3 Raggiungere lobiettivo preposto Possibile? Possibile? Sì perché… Sì perché… Implicita ridondanza della rappresentazione relazionale Implicita ridondanza della rappresentazione relazionale Come? Come? Selezione delle caratteristiche salienti (feature selection) Selezione delle caratteristiche salienti (feature selection) Implementazione di apposite tecniche Implementazione di apposite tecniche MYPCA_Fs MYPCA_Fs NP_Fs NP_Fs PCA_Fs PCA_Fs CORR_Fs CORR_Fs Sviluppate durante la tesi Riprese dalla letteratura

4 NP_Fs: Near Points Feature Selection Superfluo considerare più dimensioni relative alla non somiglianza rispetto a campioni tra loro molto simili. Superfluo considerare più dimensioni relative alla non somiglianza rispetto a campioni tra loro molto simili. Individuazione dei campioni meno rappresentativi rimozione delle dimensioni ad essi corrispondenti Individuazione dei campioni meno rappresentativi rimozione delle dimensioni ad essi corrispondenti N-vettore B = [b j ]: N-vettore B = [b j ]: A parità di b j, calcolato vettore S = [s j ]: A parità di b j, calcolato vettore S = [s j ]: Caratteristica j-esima eliminata se: Caratteristica j-esima eliminata se: Stima di inutilità della caratteristica j-esima allinterno del data set relazionale (numero dei campioni tra loro molto simili in base alla caratteristica in esame) { Stima della non somiglianza globale dei dati rispetto alla caratteristica j-esima

5 MyPCA_Fs Principal Component Analysis Principal Component Analysis Matrice di covarianza dei dati Matrice di covarianza dei dati Autovettori Vettore B Matrice A (ogni riga un autovettore) Autovalori 1.Autovettori pesati per i relativi autovalori 2.Somma delle componenti relative a ciascuna caratteristica N-vettore B = B x A N-vettore B = B x A b j = misura dellimportanza della corrispondente dimensione dello spazio iniziale in termini di varianza sul data set considerato. b j = misura dellimportanza della corrispondente dimensione dello spazio iniziale in termini di varianza sul data set considerato. 3.Selezione delle M caratteristiche con massimo valore di b j corrispondente

6 PCA_Fs 1.Eliminazione delle N - q colonne di A con autovalori associati di valore minimo 1 q N 1 q N Nuova matrice A Nuova matrice A Principal Component Analysis Principal Component Analysis Matrice di covarianza dei dati Matrice di covarianza dei dati Autovettori Vettore B Matrice A (ogni colonna un autovettore) Autovalori Preferibilmente 1 q M 2.Clustering delle righe di A con numero di prototipi i pari a M 3.Individuazione della riga più vicina a ciascuno degli M prototipi 4.Selezione delle M caratteristiche corrispondenti alle righe individuate

7 CORR_Fs Matrice R di correlazione dei dati Matrice R di correlazione dei dati Scelta delle M caratteristiche meno correlate fra loro come più rappresentative Scelta delle M caratteristiche meno correlate fra loro come più rappresentative 1.Individuata coppia di caratteristiche massimamente correlate tra loro 2.Eliminata delle due quella per cui la somma dei coefficienti di correlazione rispetto a tutte le altre sia massima Valore di soglia minima di correlazione Valore di soglia minima di correlazione Procedimento interrotto se non vi sono elementi di R maggiori di tale soglia Procedimento interrotto se non vi sono elementi di R maggiori di tale soglia

8 Criterio di STOP adottato Eliminazione di un numero prefissato di caratteristiche Eliminazione di un numero prefissato di caratteristiche Eventuale verifica a posteriori del miglior compromesso tra dimensione dei dati e quantità di informazione residua

9 Valutazione dei risultati sperimentali Validità della partizione Validità della partizione Coefficiente di partizione Coefficiente di partizione 1/C P 1 1/C P 1 Misura del livello di fuzzyness Misura del livello di fuzzyness Ripreso dalla letteratura

10 Valutazione dei risultati sperimentali (II) Differenza dalla partizione di riferimento Differenza dalla partizione di riferimento Indice Ivx Indice Ivx Misura della distanza tra due generiche partizioni P i e P j Misura della distanza tra due generiche partizioni P i e P j Trasposizione dei campioni in un fittizio spazio N- dimensionale Trasposizione dei campioni in un fittizio spazio N- dimensionale Nuova immagine dei dati dipendente dalla partizione Nuova immagine dei dati dipendente dalla partizione Distanza normalizzata tra immagini ottenute da partizioni diverse Distanza normalizzata tra immagini ottenute da partizioni diverse Indipendente dallordine dei prototipi e dal numero di dimensioni dello spazio dei campioni Sviluppato durante la tesi

11 Quantizzazione di Ivx

12 Fase Sperimentale Fase 1: Fase 1: 5 dataset di dimensioni relativamente contenute 5 dataset di dimensioni relativamente contenute Dimostrazione della validità delle tesi ipotizzate Dimostrazione della validità delle tesi ipotizzate Impiego di tutti e 4 gli algoritmi di feature selection Impiego di tutti e 4 gli algoritmi di feature selection Test delleffettiva efficacia degli algoritmi in esame Test delleffettiva efficacia degli algoritmi in esame conservazione dellinformazione necessaria per una corretta classificazione dei campioni anche a seguito delleliminazione di un elevato numero di caratteristiche Dati reali dal database UCI Dati reali dal database UCI Numero di dimensioni variabile da 150 (Iris) a 1473 (CMC) Numero di dimensioni variabile da 150 (Iris) a 1473 (CMC) CORR_Fs CORR_Fs MYPCA_F s MYPCA_F s NP_Fs NP_Fs PCA_Fs PCA_Fs

13 Fase sperimentale (II) Fase 2: Fase 2: 2 dataset ad altissima dimensionalità (dellordine delle migliaia di dimensioni) 2 dataset ad altissima dimensionalità (dellordine delle migliaia di dimensioni) Ulteriore riprova dei risultati ottenuti nella Fase 1 Ulteriore riprova dei risultati ottenuti nella Fase 1 Verifica delleliminazione della maledizione dimensionale Verifica delleliminazione della maledizione dimensionale Impiego del solo NP_Fs Impiego del solo NP_Fs Raggiungere le condizioni necessarie a far convergere ARCA anche laddove precedentemente essa lo impediva Phonemes Phonemes dati reali dal database del progetto ELENA dati reali dal database del progetto ELENA 5404 caratteristiche 5404 caratteristiche DS8 DS8 dati sintetici generati per loccasione dati sintetici generati per loccasione caratteristiche caratteristiche

14 Struttura dei test 1.Partizione di riferimento eseguita sul dataset completo 2.Eliminazione successiva di un numero crescente di caratteristiche Confronto ogni volta con la partizione di riferimento Confronto ogni volta con la partizione di riferimento Grafico degli andamenti di Ivx rispetto al numero di dimensioni eliminate Grafico degli andamenti di Ivx rispetto al numero di dimensioni eliminate 3.Più cicli considerando numeri diversi di cluster Controllo del coefficiente di partizione Controllo del coefficiente di partizione

15 Esempio di grafico dei test

16 Risultati Fase 1 Nella quasi totalità dei casi è stato possibile identificare almeno una configurazione in cui, nonostante leliminazione di un sostanzioso numero di dimensioni, la classificazione restasse sostanzialmente simile alloriginale Nella quasi totalità dei casi è stato possibile identificare almeno una configurazione in cui, nonostante leliminazione di un sostanzioso numero di dimensioni, la classificazione restasse sostanzialmente simile alloriginale Valore medio globale di Ivx:

17 Risultati Fase 1 (II) In alcuni casi la feature selection ha permesso addirittura una classificazione dei campioni più aderente alloriginale ripartizione dei dati In alcuni casi la feature selection ha permesso addirittura una classificazione dei campioni più aderente alloriginale ripartizione dei dati Variazione di andamento della pendenza della curva di Ivx: da crescente a decrescente Variazione di andamento della pendenza della curva di Ivx: da crescente a decrescente Variazione inversa del numero di campioni classificati diversamente rispetto al dataset Variazione inversa del numero di campioni classificati diversamente rispetto al dataset overfitting overfitting

18 Risultati Fase 1 (III) Sostanziale equivalenza dei metodi di feature selection Sostanziale equivalenza dei metodi di feature selection Impossibile individuarne uno universalmente migliore Impossibile individuarne uno universalmente migliore Dipendenza delle prestazioni dai diversi scenari Dipendenza delle prestazioni dai diversi scenari Algoritmi tra loro più simili: Algoritmi tra loro più simili: MYPCA_Fs e PCA_Fs NP_Fs = via di mezzo tra essi e CORR_Fs NP_Fs = via di mezzo tra essi e CORR_Fs

19 Risultati Fase 2 Conferma dei risultati ottenuti durante la Fase 1 anche quando il numero dimensioni dei dati supera il migliaio Conferma dei risultati ottenuti durante la Fase 1 anche quando il numero dimensioni dei dati supera il migliaio Conferma dellefficacia della feature selection per eliminare la maledizione dimensionale Conferma dellefficacia della feature selection per eliminare la maledizione dimensionale Maggiore chiarezza dei dati Maggiore chiarezza dei dati Convergenza dellalgoritmo di clustering (ARCA) Convergenza dellalgoritmo di clustering (ARCA) Valori più alti del coefficiente di partizione P Valori più alti del coefficiente di partizione P Dataset DS8 Dataset Phonemes

20 Conclusioni Gli obiettivi preposti sono stati raggiunti Gli obiettivi preposti sono stati raggiunti Riduzione del numero di caratteristiche dei dati preservando le informazioni essenziali alla classificazione Riduzione del numero di caratteristiche dei dati preservando le informazioni essenziali alla classificazione Eliminazione della maledizione dimensionale Eliminazione della maledizione dimensionale Sono stati sviluppati due nuovi algoritmi di feature selection e se ne è verificata lefficacia Sono stati sviluppati due nuovi algoritmi di feature selection e se ne è verificata lefficacia NP_Fs NP_Fs MYPCA_Fs MYPCA_Fs


Scaricare ppt "UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE DAZIENDA Tesi di laurea: Progettazione."

Presentazioni simili


Annunci Google