CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori PRESENTAZIONE Sistemi Informativi.

Slides:



Advertisements
Presentazioni simili
SCOPO: Determinare condizioni locali di equilibrio al fine di ottenere quello globale del sistema Problema: Flussi uscenti dalla cella centrale verso le.
Advertisements

Problema dellordinamento Input: Sequenza di n numeri Output: Permutazione π = tale che: a 1 a 2 …… a n Subroutine in molti problemi E possibile effettuare.
                      Insertion-Sort
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Metaeuritische Applicate ad un Problema di Zaino
Bin Packing Problem Best Bins Last Gruppo 7 Claudio Graffone
Sistemi di supporto alle decisioni 4. Clustering
Alberi binari di ricerca
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Heap Sort. L’algoritmo heap sort è il più lento di quelli di ordinamento O(n * log n) ma, a differenza degli altri (fusione e quick sort) non richiede.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Intelligenza Artificiale 1 Gestione della conoscenza lezione 5 Prof. M.T. PAZIENZA a.a
Apprendimento Non Supervisionato
Algoritmi Paralleli e Distribuiti a.a. 2008/09
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 12/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 05/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 19/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
Il problema del minimo albero ricoprente in un grafo con archi privati
Algoritmi e Strutture Dati (Mod. A)
Scene Modelling, Recognition and Tracking
Algoritmi di ordinamento
IL CAMPIONAMENTO NELLA REVISIONE CONTABILE
07/04/2003Algoritmi Ricerca in una sequenza di elementi Data una sequenza di elementi, occorre verificare se un elemento fa parte della sequenza oppure.
Corrections to absorbed dose calculations for tissue inhomogeneities (Marc R. Sontag and J. R. Cunningham) Università Cattolica di Roma Facoltà di Medicina.
Heap allocation e garbage collector di Oberon Algoritmo Quick Fit e garbage collector mark and sweep.
QuickSort Quick-Sort(A,s,d) IF s < d THEN q = Partiziona(A,s,d) Quick-Sort(A,s,q-1) Quick-Sort(A,q + 1,d)
Screening delle sostanze d'abuso: teoria, vantaggi e limiti
Clustering Mercoledì, 24 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Density-Based Clustering.
Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture.
Fondamenti di Informatica1 Ripetizioni di segmenti di codice Spesso è necessario ripetere più volte uno stesso segmento dell'algoritmo (e.g. I/O, elaborazioni.
Intelligenza Artificiale
Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002.
Algoritmi Genetici Alessandro Bollini
Elementi di Informatica di base
La Classificazione non supervisionata
Prof. Cerulli – Dott.ssa Gentili
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
Un esempio: Calcolo della potenza n-esima di un numero reale
CLUSTERING WITH WEKA Branca Stefano Dosi Clio Gnudi Edward William.
STATISTICA PER LE DECISIONI DI MARKETING
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 17/04/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.
Classificazione (aka Cluster Analysis)
Calcolo di Modelli Stabili Attraverso la Semplificazione di Programmi Logici Fabrizio Magni Relatore: Prof.ssa Stefania Costantini Corelatore: Dott. Alessandro.
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Sistemi Informativi per le Decisioni a.a. 2005/2006.
Studio degli indici per query di similarità basati su matrici di distanze Esame di Sistemi Informativi per le Decisioni L-S Presentato da: Ing. Marco Patella.
Metaclassificazione Giovedì, 18 novembre 2004 Francesco Folino ( Combinare Classificatori Lecture 8.
ANALISI DEI DATI STATISTICI
Le equazioni a coefficienti frazionari
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 07/04/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
1 Ordinamento (Sorting) INPUT: Sequenza di n numeri OUTPUT: Permutazione π = tale che a 1 ’  a 2 ’  … …  a n ’ Continuiamo a discutere il problema dell’ordinamento:
Algoritmi e strutture Dati - Lezione 7 1 Algoritmi di ordinamento ottimali L’algoritmo Merge-Sort ha complessità O(n log(n))  Algoritmo di ordinamento.
Voronoi-Based K Nearest Neighbor Search for Spatial Network Databases1 GRUPPO 13: Relatore: Mengoli Dario Mengoli Dario Rovatti Fabrizio Tassoni Davide.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Dipartimento di Ingegneria dell’Informazione Università degli Studi di Parma Intelligenza Artificiale Risoluzione dei Problemi (parte 2) Agostino Poggi.
Servizio di newsgroup con replicazione dei server Studente: Letizia Cheng Cheng Sun Matricola: Reti di Calcolatori LS – Prof. A. Corradi A.A. 2003/2004.
Intelligenza Artificiale Risoluzione di Problemi
1 Ordinamento (Sorting) Input: Sequenza di n numeri Output: Permutazione π = tale che: a i 1  a i 2  ……  a i n Continuiamo a discutere il problema dell’ordinamento:
Efficient construction of regression trees with Range and Region Splitting Yasuhiko Morimoto, Hiromu Ishii, Shinichi Morishita (1997) Gruppo 11: Paola.
I giochi con avversario Maria Simi a.a. 2008/2009.
Complessità Computazionale
GLI ALGORITMI DI ORDINAMENTO
1 “Efficient Algorithms for Mining Outliers from Large Data Sets” Articolo di S. Ramaswamy, R. Rastogi, K. Shim Presentazione a cura di Marcolini Serena,
Selezione del volume dei polmoni M. Antonelli, B. Lazzerini, F. Marcelloni Dipartimento Ingegneria dell’Informazione Pisa.
Modellizzazione di cabine di trasformazione MT/bt in ambiente esterno Roma - ISPRA 9 Novembre 2011 Corso di formazione ambientale “Introduzione all’utilizzo.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN INFORMATICA Corso di APPRENDIMENTO AUTOMATICO Prof. Giancarlo Mauri Lezione Clustering.
Algoritmi Avanzati a.a.2013/2014 Prof.ssa Rossella Petreschi Albero ricoprente di costo minimo Lezione n°12.
Prof.ssa Rossella Petreschi Lezione del 17 /10/2014 del Corso di Algoritmica Lezione n°5.
Il DEFF Il DEFF (Design EFFect) è l’Effetto del Piano di
Transcript della presentazione:

CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori PRESENTAZIONE Sistemi Informativi per le Decisioni LS Prof. Marco Patella

Classi degli Algoritmi di Clustering:  Partizionanti (K-means, Clarans, Expectation maximization)  Gerarchici (Birch, Cure, Rock, Chamaleon) agglomerativi divisivi  Basati sul collegamento (Linkage)  Basati sulla densità (Dbscan, Denclue)  Statistici (Cobweb, Autoclass) TRADIZIONALI Principali debolezze dei Tradizionali: sferiche Favoriscono le forme sferiche dimensioni uniformi Favoriscono forme con dimensioni uniformi Chaining effect Affetti dal problema del Chaining effect Outliers Difficile gestione degli Outliers Scalabilità : Scalabilità : complessità almeno O(n 2 ) nel numero di oggetti 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 INTRODUZIONE GLI ALGORITMI TRADIZIONALI

INTRODUZIONE LA “CURA” CURE (Clustering Using REpresentatives) outliers  In grado di gestire opportunamente gli outliers di forma non sferica  In grado di identificare clusters di forma non sferica e variabili nella dimensione VANTAGGI punti rappresentativi  Si basa sulla determinazione di punti rappresentativi fattore di “gravità”  Utilizza un fattore di “gravità” denominato alpha PARTICOLARITA’ ALGORITMO random sampling  I datasets di grandi dimensioni vengono “sintetizzati” tramite il random sampling partizionato  Il dataset “sintetizzato” viene successivamente partizionato TRATTAMENTI PRELIMINARI 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12

ALGORITMO un cluster per ogni punto OVERVIEW 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12

u u.rep Per ogni cluster si calcolano i punti rappresentativi, poi inseriti nell’albero T 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 ALGORITMO U.REP - T

u p  u.rep, q  v.rep u.closest = min dist(p,q) Una volta misurata la distanza di tutti i cluster rispetto ai propri.closest, viene creata una heap in cui i cluster vengono inseriti in base a distanze crescenti: Q = (u,v,…,z,y) v 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 d2d2 d1d1 ALGORITMO U.CLOSEST - Q = u.closest z y= z.closest

13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 ALGORITMO STRUTTURA

ALGORITMO u v w MERGE

ALGORITMO  Shrink factor   =1   =1 Cure è simile al Birch  =0   =0 Cure è simile al MST  0.2, 0.7   Range consigliato  0.2, 0.7  13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 FATTORE  Analisi di sensitività

ALGORITMO c Numero di punti rappresentativi c numero piccolo  Se c è un numero piccolo la geometria del cluster non è rappresentata al meglio ( perdita qualità ) numero grande  Se c è un numero grande la geometria del cluster è ben rappresentata C piccolo C grande 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 N° RAPPRESENTATIVI Analisi di sensitività

13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 ALGORITMO STRUTTURA

ALGORITMO w CLUSTER x1x1 x2x2 x3x3 x4x4 w.closest v u x x

ALGORITMO COMPLESSITA’ 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12 O( n 2 log n)  Nel caso peggiore la complessità temporale dell’algoritmo è O( n 2 log n) O(n 2 )  Si riduce a O(n 2 ) se la dimensionalità dei dati è bassa (es. 2 dimensioni) O(n)  Con l’ausilio degli insiemi T, Q la complessità spaziale è pari a O(n) n piccolo  Il trattamento preliminare dei dati ci permette di mantenere n piccolo Prestazioni di CURE

 Sampling LARGE DATASET 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12  Partitioning TRATTAMENTI PRELIMINARI

LARGE DATASET  Step 1 Random Sampling Random Sampling : eliminazione casuale di alcuni outlier ed isolamento dei restanti  Step 2 Prima semplificazione Prima semplificazione : l’algoritmo si ferma quando il numero di cluster si è ridotto ad 1/m rispetto al numero iniziale (risultati sperimentali fissano m=3); a questo punto vengono eliminati i cluster la cui dimensione è sotto una certa soglia.  Step 3 Seconda semplificazione Seconda semplificazione : quando all’algoritmo mancano poche iterazioni al termine vengono eliminati i cluster di dimensione molto piccola OUTLIER Eliminazione degli Outlier 13 Marzo 2006 Presentazione Sistemi Informativi per le Decisioni LS GRUPPO 12

RISULTATI Conclusioni elissoidali  Cure è un algoritmo efficace nell’identificare cluster di forma elissoidali e sferiche prestazioni migliori  Offre prestazioni migliori rispetto a Birch Senza  Senza opportune tecniche la complessità temporale pari ad O(n 2 ) renderebbe ingestibili datasets di grandi dimensioni

CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori SLIDE DI SINTESI gerarchico-agglomerativo  Cure è un algoritmo di clustering gerarchico-agglomerativo numero c di punti rappresentativi  Ogni cluster è identificato da un numero c di punti rappresentativi; questi punti sono in grado di rappresentare anche clusters di forma non sferica shrink factor  L’algoritmo utilizza un fattore alpha, detto shrink factor, per modificare la posizione dei punti rappresentativi al fine di limitare l’effetto di eventuali outliers complessità temporale pari ad O(n 2 )  L’algoritmo ha una complessità temporale pari ad O(n 2 ) sampling partitioning  Tale complessità renderebbe Cure inapplicabile a datasets di grandi dimensioni; da qui la necessità di “trattare” preliminarmente il dataset attraverso le tecniche di sampling e partitioning tecniche di gestione degli outliers  Cure ingloba tecniche di gestione degli outliers particolarmente efficaci