Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoAnnibale Guerra Modificato 9 anni fa
1
CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori PRESENTAZIONE Sistemi Informativi per le Decisioni LS Prof. Marco Patella
2
Classi degli Algoritmi di Clustering: Partizionanti (K-means, Clarans, Expectation maximization) Gerarchici (Birch, Cure, Rock, Chamaleon) agglomerativi divisivi Basati sul collegamento (Linkage) Basati sulla densità (Dbscan, Denclue) Statistici (Cobweb, Autoclass) TRADIZIONALI Principali debolezze dei Tradizionali: sferiche Favoriscono le forme sferiche dimensioni uniformi Favoriscono forme con dimensioni uniformi Chaining effect Affetti dal problema del Chaining effect Outliers Difficile gestione degli Outliers Scalabilità : Scalabilità : complessità almeno O(n 2 ) nel numero di oggetti 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 INTRODUZIONE GLI ALGORITMI TRADIZIONALI
3
INTRODUZIONE LA “CURA” CURE (Clustering Using REpresentatives) outliers In grado di gestire opportunamente gli outliers di forma non sferica In grado di identificare clusters di forma non sferica e variabili nella dimensione VANTAGGI punti rappresentativi Si basa sulla determinazione di punti rappresentativi fattore di “gravità” Utilizza un fattore di “gravità” denominato alpha PARTICOLARITA’ ALGORITMO random sampling I datasets di grandi dimensioni vengono “sintetizzati” tramite il random sampling partizionato Il dataset “sintetizzato” viene successivamente partizionato TRATTAMENTI PRELIMINARI 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12
4
ALGORITMO un cluster per ogni punto OVERVIEW 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12
5
u u.rep Per ogni cluster si calcolano i punti rappresentativi, poi inseriti nell’albero T 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 ALGORITMO U.REP - T
6
u p u.rep, q v.rep u.closest = min dist(p,q) Una volta misurata la distanza di tutti i cluster rispetto ai propri.closest, viene creata una heap in cui i cluster vengono inseriti in base a distanze crescenti: Q = (u,v,…,z,y) v 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 d2d2 d1d1 ALGORITMO U.CLOSEST - Q = u.closest z y= z.closest
7
13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 ALGORITMO STRUTTURA
8
ALGORITMO u v w MERGE
9
ALGORITMO Shrink factor =1 =1 Cure è simile al Birch =0 =0 Cure è simile al MST 0.2, 0.7 Range consigliato 0.2, 0.7 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 FATTORE Analisi di sensitività
10
ALGORITMO c Numero di punti rappresentativi c numero piccolo Se c è un numero piccolo la geometria del cluster non è rappresentata al meglio ( perdita qualità ) numero grande Se c è un numero grande la geometria del cluster è ben rappresentata C piccolo C grande 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 N° RAPPRESENTATIVI Analisi di sensitività
11
13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 ALGORITMO STRUTTURA
12
ALGORITMO w CLUSTER x1x1 x2x2 x3x3 x4x4 w.closest v u x x
13
ALGORITMO COMPLESSITA’ 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 O( n 2 log n) Nel caso peggiore la complessità temporale dell’algoritmo è O( n 2 log n) O(n 2 ) Si riduce a O(n 2 ) se la dimensionalità dei dati è bassa (es. 2 dimensioni) O(n) Con l’ausilio degli insiemi T, Q la complessità spaziale è pari a O(n) n piccolo Il trattamento preliminare dei dati ci permette di mantenere n piccolo Prestazioni di CURE
14
Sampling LARGE DATASET 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 Partitioning TRATTAMENTI PRELIMINARI
15
LARGE DATASET Step 1 Random Sampling Random Sampling : eliminazione casuale di alcuni outlier ed isolamento dei restanti Step 2 Prima semplificazione Prima semplificazione : l’algoritmo si ferma quando il numero di cluster si è ridotto ad 1/m rispetto al numero iniziale (risultati sperimentali fissano m=3); a questo punto vengono eliminati i cluster la cui dimensione è sotto una certa soglia. Step 3 Seconda semplificazione Seconda semplificazione : quando all’algoritmo mancano poche iterazioni al termine vengono eliminati i cluster di dimensione molto piccola OUTLIER Eliminazione degli Outlier 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12
16
RISULTATI Conclusioni elissoidali Cure è un algoritmo efficace nell’identificare cluster di forma elissoidali e sferiche prestazioni migliori Offre prestazioni migliori rispetto a Birch Senza Senza opportune tecniche la complessità temporale pari ad O(n 2 ) renderebbe ingestibili datasets di grandi dimensioni
17
CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori SLIDE DI SINTESI gerarchico-agglomerativo Cure è un algoritmo di clustering gerarchico-agglomerativo numero c di punti rappresentativi Ogni cluster è identificato da un numero c di punti rappresentativi; questi punti sono in grado di rappresentare anche clusters di forma non sferica shrink factor L’algoritmo utilizza un fattore alpha, detto shrink factor, per modificare la posizione dei punti rappresentativi al fine di limitare l’effetto di eventuali outliers complessità temporale pari ad O(n 2 ) L’algoritmo ha una complessità temporale pari ad O(n 2 ) sampling partitioning Tale complessità renderebbe Cure inapplicabile a datasets di grandi dimensioni; da qui la necessità di “trattare” preliminarmente il dataset attraverso le tecniche di sampling e partitioning tecniche di gestione degli outliers Cure ingloba tecniche di gestione degli outliers particolarmente efficaci
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.