UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.

Slides:



Advertisements
Presentazioni simili
Selezione delle caratteristiche - Principal Component Analysis
Advertisements

Come organizzare i dati per un'analisi statistica al computer?
Dipartimento di Economia
Capitolo 8 Sistemi lineari.
Re-engineering del wrapper XML Schema per il sistema MOMIS
Progetto e realizzazione del software "Solar Data Manager"
SVILUPPO DI UN METODO DI CALIBRAZIONE DI UN SISTEMA STEREOSCOPICO PER LA MISURA DELLA LARGHEZZA DI PRODOTTI PIANI LAMINATI A CALDO Laureando: MASSIMO DAL.
Fondamenti di Informatica I CDL in Ingegneria Elettronica - A.A CDL in Ingegneria Elettronica - A.A Il Problema dellordinamento.
Fondamenti di Informatica I CDL in Ingegneria Elettronica - A.A CDL in Ingegneria Elettronica - A.A Il Problema dellordinamento.
6. Catene di Markov a tempo continuo (CMTC)
8. Problemi ricorrenti: ordinamento e ricerca Ing. Simona Colucci
Lez. 31 Universita' di Ferrara Facolta' di Scienze Matematiche, Fisiche e Naturali Laurea Specialistica in Informatica Algoritmi Avanzati Programmazione.
Pierangelo Degano, Emanuel Castellarin, Laura Passaponti
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
ANALISI DELLA COVARIANZA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
redditività var. continua classi di redditività ( < 0 ; >= 0)
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Teoria e Tecniche del Riconoscimento
Apprendimento Non Supervisionato
Identificabilità a priori: esperimento “ideale”
ANALISI DEI GRUPPI seconda parte
Processi Aleatori : Introduzione – Parte I
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Problemi e algoritmi Anno Accademico 2009/2010.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Analisi di rischio di sistemi spazialmente distribuiti
Sistemi di equazioni lineari
Teoria e Tecniche del Riconoscimento
Teoria e Tecniche del Riconoscimento
Stima ed algoritmi di consensus distribuito: considerazioni su IKF
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
BIOINGEGNERIA S. Salinari Lezione 8. RETI AD APPRENDIMENTO NON SUPERVISIONATO Le reti ad apprendimento non supervisionato debbono essere in grado di determinare.
Scene Modelling, Recognition and Tracking
Università degli studi La Sapienza CLS Ingegneria Informatica a.a. 2007/2008 Visione e Percezione Face Recognition Studenti: Andrea Pennisi Daniele Perrone.
Apprendimento di movimenti della testa tramite Hidden Markov Model
Teoria e Tecniche del Riconoscimento
Introduzione all’algebra lineare
Analisi dei gruppi – Cluster Analisys
Normalizzazione Le forme normali certificano che la base di dati soddisfa criteri di qualità che mirano ad evitare le ridondanze e i conseguenti effetti.
APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA
Università di Pisa Facoltà di Ingegneria Corso di laurea in Ingegneria delle Telecomunicazioni Misure su un prototipo di array di antenne in microstriscia.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Tesi di Laurea in Ingegneria Meccanica
Laureando: Enrico Masini
Un motion planner per guide multimediali interattive
Università degli Studi di Cagliari
Università degli Studi di Bologna
Rete di Hopfield applicata al problema del TSP Federica Bazzano
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati Introduzione all’analisi fattoriale.
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
Tecniche di analisi matematica. Gli studi di autenticazione e di tracciabilità sugli alimenti sono generalmente effettuati individuando variabili chimico-fisiche.
Università degli Studi di Bologna FACOLTÀ DI INGEGNERIA Corso di Laurea in Ingegneria Gestionale Ricerca Operativa MODELLI PER L’OTTIMIZZAZIONE DELL’OFFERTA.
Learning Non Supervisionato
I modelli di valutazione delle opzioni su tassi
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori PRESENTAZIONE Sistemi Informativi.
Altri concetti sulla regressione. Multicollinearità Varianza comune fra le VI: se è molto elevata produce stime instabili. Ci sono degli indici per indicare.
Reti Logiche A Lezione 2.1 Sintesi di reti combinatorie a due livelli
Metodi di minimizzazione Ricerca del minimo di dove è l’insieme delle variabili (coordinate)
REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.
L’Analisi delle Corrispondenze. Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o.
Transcript della presentazione:

UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione e sviluppo di metodi di selezione di caratteristiche per analisi di dati ad alta dimensionalità. Relatori: Prof. Francesco Marcelloni Prof. Beatrice Lazzerini Candidato: Baldini Paolo ANNO ACCADEMICO 2005-2006

Contesto applicativo Data Clustering Rappresentazione relazionale dei dati Problemi: Maggiore occupazione di memoria Dimensional Curse Soluzione: Riduzione del numero di caratteristiche Da evitare: Perdita di informazioni necessarie alla corretta classificazione dei dati Algoritmo ARCA

Raggiungere l’obiettivo preposto Possibile? Sì perché… Implicita ridondanza della rappresentazione relazionale Come? Selezione delle caratteristiche salienti (feature selection) Implementazione di apposite tecniche MYPCA_Fs NP_Fs PCA_Fs CORR_Fs Sviluppate durante la tesi Riprese dalla letteratura

NP_Fs: Near Points Feature Selection Superfluo considerare più dimensioni relative alla non somiglianza rispetto a campioni tra loro molto simili. Individuazione dei campioni meno rappresentativi rimozione delle dimensioni ad essi corrispondenti N-vettore B = [bj]: A parità di bj, calcolato vettore S = [sj]: Caratteristica j-esima eliminata se: Stima di “inutilità” della caratteristica j-esima all’interno del data set relazionale (numero dei campioni tra loro molto simili in base alla caratteristica in esame) { Stima della non somiglianza globale dei dati rispetto alla caratteristica j-esima

MyPCA_Fs Principal Component Analysis Matrice di covarianza dei dati Matrice A (ogni riga un autovettore) Autovettori Autovalori Vettore B Autovettori pesati per i relativi autovalori Somma delle componenti relative a ciascuna caratteristica N-vettore B’ = B x A b’j = misura dell’importanza della corrispondente dimensione dello spazio iniziale in termini di varianza sul data set considerato. Selezione delle M caratteristiche con massimo valore di b’j corrispondente

PCA_Fs Principal Component Analysis Matrice di covarianza dei dati Matrice A (ogni colonna un autovettore) Autovettori Autovalori Vettore B Eliminazione delle N - q colonne di A con autovalori associati di valore minimo 1 ≤ q ≤ N Nuova matrice A’ Preferibilmente 1 ≤ q ≤ M Clustering delle righe di A’ con numero di prototipi i pari a M Individuazione della riga più vicina a ciascuno degli M prototipi Selezione delle M caratteristiche corrispondenti alle righe individuate

CORR_Fs Matrice R di correlazione dei dati Scelta delle M caratteristiche meno correlate fra loro come più rappresentative Individuata coppia di caratteristiche massimamente correlate tra loro Eliminata delle due quella per cui la somma dei coefficienti di correlazione rispetto a tutte le altre sia massima Valore di soglia minima di correlazione Procedimento interrotto se non vi sono elementi di R maggiori di tale soglia

Criterio di STOP adottato Eliminazione di un numero prefissato di caratteristiche Eventuale verifica a posteriori del miglior compromesso tra dimensione dei dati e quantità di informazione residua

Valutazione dei risultati sperimentali Validità della partizione Coefficiente di partizione Ripreso dalla letteratura 1/C ≤ P ≤ 1 Misura del livello di fuzzyness

Valutazione dei risultati sperimentali (II) Differenza dalla partizione di riferimento Indice Ivx Misura della distanza tra due generiche partizioni Pi e Pj Trasposizione dei campioni in un fittizio spazio N-dimensionale Nuova immagine dei dati dipendente dalla partizione Distanza normalizzata tra immagini ottenute da partizioni diverse Sviluppato durante la tesi Indipendente dall’ordine dei prototipi e dal numero di dimensioni dello spazio dei campioni

Quantizzazione di Ivx

Fase Sperimentale Fase 1: 5 dataset di dimensioni relativamente contenute Dimostrazione della validità delle tesi ipotizzate Impiego di tutti e 4 gli algoritmi di feature selection Test dell’effettiva efficacia degli algoritmi in esame Dati reali dal database UCI Numero di dimensioni variabile da 150 (Iris) a 1473 (CMC) conservazione dell’informazione necessaria per una corretta classificazione dei campioni anche a seguito dell’eliminazione di un elevato numero di caratteristiche CORR_Fs MYPCA_Fs NP_Fs PCA_Fs

Fase sperimentale (II) 2 dataset ad altissima dimensionalità (dell’ordine delle migliaia di dimensioni) Ulteriore riprova dei risultati ottenuti nella Fase 1 Verifica dell’eliminazione della maledizione dimensionale Impiego del solo NP_Fs Raggiungere le condizioni necessarie a far convergere ARCA anche laddove precedentemente essa lo impediva Phonemes dati reali dal database del progetto ELENA 5404 caratteristiche DS8 dati sintetici generati per l’occasione 15000 caratteristiche

Struttura dei test Partizione di riferimento eseguita sul dataset completo Eliminazione successiva di un numero crescente di caratteristiche Confronto ogni volta con la partizione di riferimento Grafico degli andamenti di Ivx rispetto al numero di dimensioni eliminate Più cicli considerando numeri diversi di cluster Controllo del coefficiente di partizione

Esempio di grafico dei test

Valore medio globale di Ivx: 0.0681 Risultati Fase 1 Nella quasi totalità dei casi è stato possibile identificare almeno una configurazione in cui, nonostante l’eliminazione di un sostanzioso numero di dimensioni, la classificazione restasse sostanzialmente simile all’originale Valore medio globale di Ivx: 0.0681

Risultati Fase 1 (II) In alcuni casi la feature selection ha permesso addirittura una classificazione dei campioni più aderente all’originale ripartizione dei dati Variazione di andamento della pendenza della curva di Ivx: da crescente a decrescente Variazione inversa del numero di campioni classificati diversamente rispetto al dataset overfitting

Risultati Fase 1 (III) Sostanziale equivalenza dei metodi di feature selection Impossibile individuarne uno universalmente migliore Dipendenza delle prestazioni dai diversi scenari Algoritmi tra loro più simili: MYPCA_Fs e PCA_Fs NP_Fs = via di mezzo tra essi e CORR_Fs

Risultati Fase 2 Conferma dei risultati ottenuti durante la Fase 1 anche quando il numero dimensioni dei dati supera il migliaio Conferma dell’efficacia della feature selection per eliminare la maledizione dimensionale Maggiore chiarezza dei dati Convergenza dell’algoritmo di clustering (ARCA) Valori più alti del coefficiente di partizione P Dataset Phonemes Dataset DS8

Conclusioni Gli obiettivi preposti sono stati raggiunti Riduzione del numero di caratteristiche dei dati preservando le informazioni essenziali alla classificazione Eliminazione della maledizione dimensionale Sono stati sviluppati due nuovi algoritmi di feature selection e se ne è verificata l’efficacia NP_Fs MYPCA_Fs