Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture.

Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture 12

Clustering Clustering gerarchico Il settaggio di parametri in alcune situazioni è complicato Soluzione: approcci gerarchici al clustering Cluster gerarchici Cluster di densità differente

Clustering Clustering Gerarchico Decomposizione gerarchica del dataset in un insieme di clusters annidati –Il risultato è rappresentato sotto forma di dendogramma I nodi rappresentano possibili clusters Può essere costruito in maniera top-down o bottom-up –Basato sull analisi della matrice di dissimilarit à Step 0 Step 1Step 2Step 3Step 4 b d c e a a b d e c d e a b c d e Step 4 Step 3Step 2Step 1Step 0 agglomerativo divisivo

Clustering Esempio Interpretazione del dendogramma –La radice rappresenta lintero dataset –Una foglia rappresenta un oggetto nel dataset –Un nodo interno rappresenta lunione di tutti gli oggett nel sottoalbero –Laltezza di un nodo interno rappresenta la distanza tra i nodi figli

Clustering Clustering Gerarchico Agglomerativo Input –Dataset D Output –Partizione S = {C 1, …, C k } N.B.: K non prefissato 1. S 0 := D 2. Calcola la matrice di dissimilarità M S 3. DO 4. Identifica la coppia (x,y) che esibisce il minimo valore dist(x,y) in M s 5. Crea il cluster M = x y 6. S n+1 := S n -{x,y} M 7. Ricalcola Ms eliminando le righe relative a x,y e aggiungendo la riga relativa a M (calcolando le distanze di M da tutti gli altri oggetti) 8. UNTIL |S n+1 | = 1 9. Scegli S j che ottimizza il criterio di qualità

Clustering Aggiornamento della matrice Quando rimuoviamo x,y e aggiungiamo M –M s va aggiornata Tre varianti: –Single linkage –Complete linkage –Average linkage

Clustering Distanze inter-cluster Single-Linkage –Chaining effect Se due clusters hanno outliers vicini, vengono comunque fusi –La compattezza può essere violata Clusters con diametri ampi Complete-linkage –Situazione duale –La vicinanza può essere violata Clusters con diametri piccoli Average-linkage –Relativamente compatti –Relativamente vicini

Clustering Clustering gerarchico: commenti Maggiore debolezza –Non scalabili: O(n 2 ), dove n è la dimensione del dataset –Ogni assegnamento è fissato una volta per tutte Approcci differenti al clustering gerarchico –BIRCH, CURE,CHAMELEON –Clustering gerarchico basato su densit à : OPTICS

Clustering Esercizio: PlayTennis Clusterizzare utilizzando DBScan Clusterizzare utilizzando unistanza del gerarchico agglomerativo –Con le tre varianti IDOutlookTemp.HumidityWindy ASunnyHotHighFalse BSunnyHotHighTrue COvercastHotHighFalse DRainyMildHighFalse ERainyCoolNormalFalse FRainyCoolNormalTrue GOvercastCoolNormalTrue HSunnyMildHighFalse ISunnyCoolNormalFalse JRainyMildNormalFalse KSunnyMildNormalTrue LOvercastMildHighTrue MOvercastHotNormalFalse NRainyMildHighTrue

Clustering Clustering concettuale Approccio euristico (COBWEB/CLASSIT) Forma incrementalmente una gerarchia di clusters Inizializzazione –Lalbero consiste del nodo radice (vuoto) Iterazione –Consideriamo le istanze incrementalmente –Aggiorniamo lalbero ad ogni passo –Per laggiornamento, troviamo la foglia più appropriata per listanza in considerazione –Può richiedere la ristrutturazione dellalbero (Ri)strutturazioni guidate dal concetto di category utility

Clustering Clustering PlayTennis IDOutlookTemp.HumidityWindy ASunnyHotHighFalse BSunnyHotHighTrue COvercastHotHighFalse DRainyMildHighFalse ERainyCoolNormalFalse FRainyCoolNormalTrue GOvercastCoolNormalTrue HSunnyMildHighFalse ISunnyCoolNormalFalse JRainyMildNormalFalse KSunnyMildNormalTrue LOvercastMildHighTrue MOvercastHotNormalFalse NRainyMildHighTrue 1 2 3

Clustering Clustering PlayTennis [2] IDOutlookTemp.HumidityWindy ASunnyHotHighFalse BSunnyHotHighTrue COvercastHotHighFalse DRainyMildHighFalse ERainyCoolNormalFalse FRainyCoolNormalTrue GOvercastCoolNormalTrue HSunnyMildHighFalse ISunnyCoolNormalFalse JRainyMildNormalFalse KSunnyMildNormalTrue LOvercastMildHighTrue MOvercastHotNormalFalse NRainyMildHighTrue 4 3 Il merge migliora la CU 5 Se il merging non aiuta, proviamo a fare splitting

Clustering Clustering PlayTennis [3] IDOutlookTemp.HumidityWindy ASunnyHotHighFalse BSunnyHotHighTrue COvercastHotHighFalse DRainyMildHighFalse a e b sono molto simili

Clustering Esempio: Iris Data

Clustering Iris Riorganizzato

Clustering Category utility Category utility: Funzione quadratica definita sulle probabilità condizionali:

Clustering Overfitting Se ogni istanza costituisce ununica categoria, il numeratore si massimizza e diventa: NB n è il numero di possibili valori per gli attributi. Il k al denominatore mitiga questo effetto overfitting

Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture.

Presentazioni simili

Presentazione sul tema: "Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture.

Presentazioni simili

Presentazione sul tema: "Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back