La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture.

Presentazioni simili


Presentazione sul tema: "Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture."— Transcript della presentazione:

1 Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture 12

2 Clustering Clustering gerarchico Il settaggio di parametri in alcune situazioni è complicato Soluzione: approcci gerarchici al clustering Cluster gerarchici Cluster di densità differente

3 Clustering Clustering Gerarchico Decomposizione gerarchica del dataset in un insieme di clusters annidati –Il risultato è rappresentato sotto forma di dendogramma I nodi rappresentano possibili clusters Può essere costruito in maniera top-down o bottom-up –Basato sull analisi della matrice di dissimilarit à Step 0 Step 1Step 2Step 3Step 4 b d c e a a b d e c d e a b c d e Step 4 Step 3Step 2Step 1Step 0 agglomerativo divisivo

4 Clustering Esempio Interpretazione del dendogramma –La radice rappresenta lintero dataset –Una foglia rappresenta un oggetto nel dataset –Un nodo interno rappresenta lunione di tutti gli oggett nel sottoalbero –Laltezza di un nodo interno rappresenta la distanza tra i nodi figli

5 Clustering Clustering Gerarchico Agglomerativo Input –Dataset D Output –Partizione S = {C 1, …, C k } N.B.: K non prefissato 1. S 0 := D 2. Calcola la matrice di dissimilarità M S 3. DO 4. Identifica la coppia (x,y) che esibisce il minimo valore dist(x,y) in M s 5. Crea il cluster M = x y 6. S n+1 := S n -{x,y} M 7. Ricalcola Ms eliminando le righe relative a x,y e aggiungendo la riga relativa a M (calcolando le distanze di M da tutti gli altri oggetti) 8. UNTIL |S n+1 | = 1 9. Scegli S j che ottimizza il criterio di qualità

6 Clustering Aggiornamento della matrice Quando rimuoviamo x,y e aggiungiamo M –M s va aggiornata Tre varianti: –Single linkage –Complete linkage –Average linkage

7 Clustering Distanze inter-cluster Single-Linkage –Chaining effect Se due clusters hanno outliers vicini, vengono comunque fusi –La compattezza può essere violata Clusters con diametri ampi Complete-linkage –Situazione duale –La vicinanza può essere violata Clusters con diametri piccoli Average-linkage –Relativamente compatti –Relativamente vicini

8 Clustering Clustering gerarchico: commenti Maggiore debolezza –Non scalabili: O(n 2 ), dove n è la dimensione del dataset –Ogni assegnamento è fissato una volta per tutte Approcci differenti al clustering gerarchico –BIRCH, CURE,CHAMELEON –Clustering gerarchico basato su densit à : OPTICS

9 Clustering Esercizio: PlayTennis Clusterizzare utilizzando DBScan Clusterizzare utilizzando unistanza del gerarchico agglomerativo –Con le tre varianti IDOutlookTemp.HumidityWindy ASunnyHotHighFalse BSunnyHotHighTrue COvercastHotHighFalse DRainyMildHighFalse ERainyCoolNormalFalse FRainyCoolNormalTrue GOvercastCoolNormalTrue HSunnyMildHighFalse ISunnyCoolNormalFalse JRainyMildNormalFalse KSunnyMildNormalTrue LOvercastMildHighTrue MOvercastHotNormalFalse NRainyMildHighTrue

10 Clustering Clustering concettuale Approccio euristico (COBWEB/CLASSIT) Forma incrementalmente una gerarchia di clusters Inizializzazione –Lalbero consiste del nodo radice (vuoto) Iterazione –Consideriamo le istanze incrementalmente –Aggiorniamo lalbero ad ogni passo –Per laggiornamento, troviamo la foglia più appropriata per listanza in considerazione –Può richiedere la ristrutturazione dellalbero (Ri)strutturazioni guidate dal concetto di category utility

11 Clustering Clustering PlayTennis IDOutlookTemp.HumidityWindy ASunnyHotHighFalse BSunnyHotHighTrue COvercastHotHighFalse DRainyMildHighFalse ERainyCoolNormalFalse FRainyCoolNormalTrue GOvercastCoolNormalTrue HSunnyMildHighFalse ISunnyCoolNormalFalse JRainyMildNormalFalse KSunnyMildNormalTrue LOvercastMildHighTrue MOvercastHotNormalFalse NRainyMildHighTrue 1 2 3

12 Clustering Clustering PlayTennis [2] IDOutlookTemp.HumidityWindy ASunnyHotHighFalse BSunnyHotHighTrue COvercastHotHighFalse DRainyMildHighFalse ERainyCoolNormalFalse FRainyCoolNormalTrue GOvercastCoolNormalTrue HSunnyMildHighFalse ISunnyCoolNormalFalse JRainyMildNormalFalse KSunnyMildNormalTrue LOvercastMildHighTrue MOvercastHotNormalFalse NRainyMildHighTrue 4 3 Il merge migliora la CU 5 Se il merging non aiuta, proviamo a fare splitting

13 Clustering Clustering PlayTennis [3] IDOutlookTemp.HumidityWindy ASunnyHotHighFalse BSunnyHotHighTrue COvercastHotHighFalse DRainyMildHighFalse a e b sono molto simili

14 Clustering Esempio: Iris Data

15 Clustering Iris Riorganizzato

16 Clustering Category utility Category utility: Funzione quadratica definita sulle probabilità condizionali:

17 Clustering Overfitting Se ogni istanza costituisce ununica categoria, il numeratore si massimizza e diventa: NB n è il numero di possibili valori per gli attributi. Il k al denominatore mitiga questo effetto overfitting


Scaricare ppt "Clustering Martedì, 30 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Clustering Lecture."

Presentazioni simili


Annunci Google