La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori PRESENTAZIONE Sistemi Informativi.

Presentazioni simili


Presentazione sul tema: "CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori PRESENTAZIONE Sistemi Informativi."— Transcript della presentazione:

1 CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori PRESENTAZIONE Sistemi Informativi per le Decisioni LS Prof. Marco Patella

2 Classi degli Algoritmi di Clustering:  Partizionanti (K-means, Clarans, Expectation maximization)  Gerarchici (Birch, Cure, Rock, Chamaleon) agglomerativi divisivi  Basati sul collegamento (Linkage)  Basati sulla densità (Dbscan, Denclue)  Statistici (Cobweb, Autoclass) TRADIZIONALI Principali debolezze dei Tradizionali: sferiche Favoriscono le forme sferiche dimensioni uniformi Favoriscono forme con dimensioni uniformi Chaining effect Affetti dal problema del Chaining effect Outliers Difficile gestione degli Outliers Scalabilità : Scalabilità : complessità almeno O(n 2 ) nel numero di oggetti 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 INTRODUZIONE GLI ALGORITMI TRADIZIONALI

3 INTRODUZIONE LA “CURA” CURE (Clustering Using REpresentatives) outliers  In grado di gestire opportunamente gli outliers di forma non sferica  In grado di identificare clusters di forma non sferica e variabili nella dimensione VANTAGGI punti rappresentativi  Si basa sulla determinazione di punti rappresentativi fattore di “gravità”  Utilizza un fattore di “gravità” denominato alpha PARTICOLARITA’ ALGORITMO random sampling  I datasets di grandi dimensioni vengono “sintetizzati” tramite il random sampling partizionato  Il dataset “sintetizzato” viene successivamente partizionato TRATTAMENTI PRELIMINARI 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12

4 ALGORITMO un cluster per ogni punto OVERVIEW 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12

5 u u.rep Per ogni cluster si calcolano i punti rappresentativi, poi inseriti nell’albero T 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 ALGORITMO U.REP - T

6 u p  u.rep, q  v.rep u.closest = min dist(p,q) Una volta misurata la distanza di tutti i cluster rispetto ai propri.closest, viene creata una heap in cui i cluster vengono inseriti in base a distanze crescenti: Q = (u,v,…,z,y) v 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 d2d2 d1d1 ALGORITMO U.CLOSEST - Q = u.closest z y= z.closest

7 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 ALGORITMO STRUTTURA

8 ALGORITMO u v w MERGE

9 ALGORITMO  Shrink factor   =1   =1 Cure è simile al Birch  =0   =0 Cure è simile al MST  0.2, 0.7   Range consigliato  0.2, 0.7  13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 FATTORE  Analisi di sensitività

10 ALGORITMO c Numero di punti rappresentativi c numero piccolo  Se c è un numero piccolo la geometria del cluster non è rappresentata al meglio ( perdita qualità ) numero grande  Se c è un numero grande la geometria del cluster è ben rappresentata C piccolo C grande 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 N° RAPPRESENTATIVI Analisi di sensitività

11 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 ALGORITMO STRUTTURA

12 ALGORITMO w CLUSTER x1x1 x2x2 x3x3 x4x4 w.closest v u x x

13 ALGORITMO COMPLESSITA’ 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 O( n 2 log n)  Nel caso peggiore la complessità temporale dell’algoritmo è O( n 2 log n) O(n 2 )  Si riduce a O(n 2 ) se la dimensionalità dei dati è bassa (es. 2 dimensioni) O(n)  Con l’ausilio degli insiemi T, Q la complessità spaziale è pari a O(n) n piccolo  Il trattamento preliminare dei dati ci permette di mantenere n piccolo Prestazioni di CURE

14  Sampling LARGE DATASET 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12  Partitioning TRATTAMENTI PRELIMINARI

15 LARGE DATASET  Step 1 Random Sampling Random Sampling : eliminazione casuale di alcuni outlier ed isolamento dei restanti  Step 2 Prima semplificazione Prima semplificazione : l’algoritmo si ferma quando il numero di cluster si è ridotto ad 1/m rispetto al numero iniziale (risultati sperimentali fissano m=3); a questo punto vengono eliminati i cluster la cui dimensione è sotto una certa soglia.  Step 3 Seconda semplificazione Seconda semplificazione : quando all’algoritmo mancano poche iterazioni al termine vengono eliminati i cluster di dimensione molto piccola OUTLIER Eliminazione degli Outlier 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12

16 RISULTATI Conclusioni elissoidali  Cure è un algoritmo efficace nell’identificare cluster di forma elissoidali e sferiche prestazioni migliori  Offre prestazioni migliori rispetto a Birch Senza  Senza opportune tecniche la complessità temporale pari ad O(n 2 ) renderebbe ingestibili datasets di grandi dimensioni

17 CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori SLIDE DI SINTESI gerarchico-agglomerativo  Cure è un algoritmo di clustering gerarchico-agglomerativo numero c di punti rappresentativi  Ogni cluster è identificato da un numero c di punti rappresentativi; questi punti sono in grado di rappresentare anche clusters di forma non sferica shrink factor  L’algoritmo utilizza un fattore alpha, detto shrink factor, per modificare la posizione dei punti rappresentativi al fine di limitare l’effetto di eventuali outliers complessità temporale pari ad O(n 2 )  L’algoritmo ha una complessità temporale pari ad O(n 2 ) sampling partitioning  Tale complessità renderebbe Cure inapplicabile a datasets di grandi dimensioni; da qui la necessità di “trattare” preliminarmente il dataset attraverso le tecniche di sampling e partitioning tecniche di gestione degli outliers  Cure ingloba tecniche di gestione degli outliers particolarmente efficaci


Scaricare ppt "CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori PRESENTAZIONE Sistemi Informativi."

Presentazioni simili


Annunci Google