Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
Cluster Analysis: concetti di base e algoritmi
2
Cos’è Cluster Analysis?
Trovare gruppi di unità statistiche tali che le unità di un gruppo siano simili (o correlate) tra loro e diverse da (o estranee a) le unità in altri gruppi Distanze TRA cluster sono massime Distanze NEI cluster sono minime
3
Applicazioni della Cluster Analysis
Inferenza Cluster di documenti da ricerche web Gruppi di geni e proteine che hanno funzioni simili, Gruppi di azioni con fluttuazioni di prezzo simili Sintesi Ridurre la dimensione di dataset eccessivamente grandi Clustering delle precipitazioni in Australia
4
Non è Cluster Analysis Classificazione supervisionata delle unità
Quando si ha già l’etichetta di appartenenza ad un gruppo Segmentazione semplice Dividere gli studenti in gruppi in base al cognome Risultato di un’interrogazione del database Raggruppare in base ad alcune caratteristiche predefinite Partizione grafica Rilevanza parziale, ma non la stessa cosa
5
Quanti cluster? Quanti cluster? Sei Cluster Due Cluster
Quattro Cluster
6
Clustering Si definisce clustering un insieme di cluster
Clustering partizionale Una divisione in cluster che non si sovrappongono Clustering gerarchico Un insieme di cluster innestati organizzati come un albero gerarchico
7
Clustering Partizionale
Punti originari
8
Clustering Gerarchico
Clustering gerachico Dendrogramma
9
Algoritmi di Clustering
K-means e le sue varianti Clustering gerarchico Clustering basato sulla densità
10
K-means Clustering Approccio partizionale al clustering Ogni cluster è associato ad un centroide (baricentro) Ogni punto è assegnato al cluster con il baricentro più vicino Il numero di cluster, K, è specificato dall’analista L’algoritmo di base è molto semplice: Seleziona K centroidi iniziali Assegna le unità al gruppo del centroide più prossimo Ricalcola I centroidi Ripeti fino a convergenza
11
K-means Clustering – Dettagli
I centroidi iniziali sono spesso scelti in maniera casuale. Il centroide è (tipicamente) la media dei punti nel gruppo. La ‘vicinanza’ è misurata usando la distanza Euclidea, similarità angolare, correlazione, etc. L’algoritmo K-means converge per le più comuni misure di prossimità. La convergenza avviene di solito dopo poche operazioni. Spesso la condizione di arresto viene modificata in 'Fino a quando relativamente pochi punti cambiano cluster‘ La complessità è O( n * K * I * d ) n = numero di unità, K = numero di cluster, I = numero di iterazioni, d = numero di attributi
12
Due differenti soluzioni K-means
Gruppi reali Clustering ottimale Clustering Sub-ottimale
13
Importanza della scelta dei centroidi iniziali
14
Importanza della scelta dei centroidi iniziali
15
Valutazione dei cluster K-means
La misura più comune è la Somma degli errori quadratici (SSE) x è un punto del cluster Ci e mi è centroide di Ci Dati due clustering, possiamo scegliere quello con SSE minore Di solito SSE si riduce incrementando K, Un buon raggruppamento con un certo K può avere un SSE inferiore a un clustering scorretto con K più elevato
16
Importanza della scelta dei centroidi iniziali
17
Importanza della scelta dei centroidi iniziali
18
Ancora sul problema dei centroidi iniziali
Se ci sono K cluster 'reali' la probabilità di selezionare un centroide per ogni cluster è piccola. Se i cluster sono della stessa dimensione, n, allora Se K = 10, la probabilità è 10!/1010 = A volte i centroidi iniziali stessi si riallocano correttamente e altre volte no Si consideri il caso di cinque coppie di cluster
19
Esempio: 10 Cluster Due centroidi iniziali in un cluster di ogni coppia di cluster
20
Esempio: 10 Cluster Due centroidi iniziali in un cluster di ogni coppia di cluster
21
Esempio: 10 Cluster Alcune coppie di cluster con tre centroidi iniziali, e altre con uno
22
Esempio: 10 Cluster Alcune coppie di cluster con tre centroidi iniziali, e altre con uno
23
Alcune Soluzioni Seleziona più insiemi iniziali
Si usi il clustering gerarchico per determinare i centroidi iniziali Selezionare più di K centroidi iniziali e quindi selezionare tra questi centroidi iniziali Selezionare quelli più separati Postprocessing Bisecting K-means Non così sensibile alla scelta iniziale
24
Bisecting K-means Variante di K-means che può produrre un clustering partizionale o gerarchico Algoritmo: Si inizi con un cluster che contiene tutte le unità Bisezionare il cluster usando k-means Dei due cluster formati, bisezionare quello con SSE più elevato Procedere fino ad ottenere K cluster
25
Esempio: Bisecting K-means
26
Limitazioni di K-means
K-Means ha problemi quando i cluster sono di differenti: dimensioni densità forme non globulari K-means ha problemi quando i dati contengono outlier.
27
Limitazioni di K-means: diverse dimensioni
Gruppi reali K-means (3 Cluster)
28
Limitazioni di K-means : densità differenti
Gruppi reali K-means (3 Cluster)
29
Limitazioni di K-means : forme Non-globulari
Gruppi reali K-means (2 Cluster)
30
Superare le limitazioni di K-means
Gruppi reali K-means Clusters Una soluzione è quella di utilizzare molti cluster. E’ necessario però ricostruire i cluster successivamente.
31
Superare le limitazioni di K-means
Gruppi reali K-means Clusters
32
Superare le limitazioni di K-means
Gruppi reali K-means Clusters
33
Clustering gerarchico
Produce un insieme di cluster innestati organizzati come un albero gerarchico Può essere visualizzato con un dendrogramma
34
Vantaggi del Clustering gerarchico
Non è necessario assumere un numero fissato di cluster: Qualsiasi numero desiderato di cluster può essere ottenuto con un 'taglio' del dendogramma al livello appropriato Possono corrispondere a tassonomie Specie animali, classificazioni di imprese
35
Clustering gerarchico
Due tipi principali di clustering gerarchico Agglomerativo: Inizia con i punti come singoli cluster Ad ogni passo, unisce la coppia più vicina di cluster fino a quando rimane un solo cluster (o k cluster) Divisivo: Inizia con un cluster, (contiene tutti i punti) Ad ogni passo, divide un gruppo fino a quando ogni cluster contiene un solo punto (o ci sono k cluster) Gli algoritmi gerarchici tradizionali utilizzano una matrice di similarità o di dissimilarità (distanza) Si unisce o si divide un gruppo alla volta
36
Algoritmo Agglomerativo
La tecnica di clustering gerarchico più diffusa Algoritmo di base Calcola una matrice di prossimità (similarità o dissimilarità) Ogni punto è un cluster Ripeti Unisci i due cluster più vicini Aggiornal la matrice di prossimità Fino a quando rimane un solo cluster. Punto chiave: la matrice di prossimità. Approcci differenti nella definizione di prossimità portano a soluzioni differenti
37
Come definire la similarità tra gruppi
. . . . Similarità? MIN MAX Media del gruppo Distanza tra i centroidi Altri metodi basati su una funzione obiettivo Ward’s Method → SSE Matrice di prossimità
38
Come definire la similarità tra gruppi
. . . . MIN MAX Media del gruppo Distanza tra i centroidi Altri metodi basati su una funzione obiettivo Ward’s Method → SSE Matrice di prossimità
39
Come definire la similarità tra gruppi
. . . . MIN MAX Media del gruppo Distanza tra i centroidi Altri metodi basati su una funzione obiettivo Ward’s Method → SSE Matrice di prossimità
40
Come definire la similarità tra gruppi
. . . . MIN MAX Media del gruppo Distanza tra i centroidi Altri metodi basati su una funzione obiettivo Ward’s Method → SSE Proximity Matrix
41
Come definire la similarità tra gruppi
. . . . MIN MAX Media del gruppo Distanza tra i centroidi Altri metodi basati su una funzione obiettivo Ward’s Method → SSE Matrice di prossimità
42
MIN o Legame singolo La similarità (distanza) di due cluster è definita dai due punti (uno per gruppo) più simili (o meno distanti) nei diversi cluster Determinata da un solo paio di punti , cioè un legame singolo Matrice di similarità 1 2 3 4 5
43
Clustering gerarchico: MIN
Distanze 5 1 2 3 4 5 6 4 3 2 1 Cluster innestati Dendrogramma
44
Vantaggi di MIN Due Cluster Gruppi reali Gestisce forme non-ellittiche
45
Limitazioni di MIN Due Cluster Gruppi reali
Sensibile a rumore e outlier
46
Determinata da tutte le coppie di punti nei due cluster
MAX o legame completo La similarità (distanza) di due gruppi si basa sui due punti meno simili (più distanti) nei due cluster Determinata da tutte le coppie di punti nei due cluster 1 2 3 4 5
47
Clustering gerarchico: MAX
5 4 1 2 3 4 5 6 2 3 1 Cluster innestati Dendrogramma
48
Vantaggi di MAX Due Cluster Punti originari
Meno sensibile a rumore statistico e outlier
49
Limitazioni di MAX Due Cluster Punti originari
Tende a spezzare grandi cluster Sbilanciato verso cluster globulari
50
Media del gruppo La similarità di due cluster è la media delle similarità a coppie tra i punti nei due gruppi.
51
Clustering gerarchico: Media
5 4 1 2 3 4 5 6 2 3 1 Cluster innestati Dendrogramma
52
Clustering gerarchico : Media
Compromesso tra legame singolo e legame completo Punto di forza Meno sensibile a rumore e outliers Limitazioni Sbilanciato verso cluster globulari
53
Metodo di Ward La similarità di due gruppi si basa sull’incremento di SSE quando i due gruppi vengono uniti: tanto minore l’incremento tanto più elevata la similarità Simile al criterio della media se la distanza tra punti è la distanza Euclidea al quadrato. Meno sensibile a rumore e outliers e sbilanciato verso cluster globulari Analogo gerarchico di K-means Può essere usato per scegliere I centroidi in K-means
54
Clustering gerarchico: Comparazioni
5 5 1 2 3 4 5 6 4 4 1 2 3 4 5 6 3 2 2 1 MIN MAX 3 1 5 5 1 2 3 4 5 6 1 2 3 4 5 6 4 4 2 2 Ward’s 3 3 1 Media 1
55
Clustering gerarchico: Problemi e limitazioni
Una volta presa la decisione di combinare due cluster , non può essere annullata Nessuna funzione obiettivo è minimizzata Schemi differenti hanno problemi di vario tipo: Sensibili a rumore statistico e outlier Difficoltà nel gestire cluster di dimensioni differenti e forme convesse Spezzano grandi cluster
56
DBSCAN : density-based algorithm.
Densità = numero di punti entro un raggio specificato (Eps) Un punto è definito core point se ha più di un numero specificato di punti (MinPts) entro Eps Punti all’interno del cluster Un border point ha meno punti di MinPts entro Eps, ma è nel vicinato di un core point Un noise point è ogni altro punto che non è né core point o border point.
57
DBSCAN: Core, Border, e Noise Points
58
Algoritmo DBSCAN Elimina i noise points
Aggrega in cluster i punti rimanenti Gruppi formati da core point e border point collegati tra loro
59
DBSCAN: Core, Border e Noise Points
Punti originari Tipi: core, border e noise Eps = 10, MinPts = 4
60
Quando DBSCAN funziona bene
Cluster Punti originari Resistente al rumore statistico Può gestire gruppi di forma e dimensione differenti
61
Quando DBSCAN NON funziona
(MinPts=4, Eps=9.75). Punti originari Densità variabili Dati ultra-dimensionali (MinPts=4, Eps=9.92)
62
DBSCAN: Determinare EPS e MinPts
Idea: per i punti in un cluster, il loro kth nearest neighbor è approssimativamente alla stessa distanza I Noise points hanno il kth nearest neighbor a distanza maggiore Disegna su un grafico la distanza di ogni punto dal suo kth nearest neighbor
63
Validazione dei cluster
Evitare di trovare pattern in dati casuali Compare algoritmi di clustering Comparare i cluster
64
Cluster in Dati Casuali
DBSCAN Punti casuali K-means Legame completo
65
Misure di validità dei Cluster
Le misure numeriche usate per valutare la bontà di un clustering, sono classificate in tre tipi: Indici esterni: Usato per misurare fino a che punto le etichette del cluster corrispondono a quelle fornite da una fonte esterna. Entropia Indici interni: Usati per misurare la bontà di un clustering senza riferimento a informazione esterna. Sum of Squared Error (SSE) Indici relativi: Usati per comparare due clustering or cluster. Spesso un indice interno o esterno è usato in questi casi: SSE o entropia A volte si parla di criteri piuttosto che di indici
66
1. Misurare la validità con la correlazione
Due matrici Matrice di prossimità Matrice di incidenza Un riga e una colonna per ogni punto (n x n) La cella della matrice è 1 se I punti associati sono nello stesso cluster. E’ nulla altrimenti Calcola la correlazione tra le celle corrispondenti delle due matrici Poichè le matrici sono simmetriche, solo n(n-1) / 2 celle sono considerate. Alta correlazione indica che i punti che appartengono allo stesso cluster sono vicini tra loro. Non è una misura che funziona bene nel caso di cluster a densità differente o definito dalla contiguità.
67
1. Misurare la validità con la correlazione
Correlazioni per K-means clusterings in due data set. Corr = Corr =
68
2. Misurare la validità con la similarità
Ordinare la matrice di similarità in base alle etichette di gruppo e ispezionare visivamente.
69
2. Misurare la validità con la similarità
Cluster nei dati casuali non sono così ben definiti DBSCAN
70
2. Misurare la validità con la similarità
Cluster nei dati casuali non sono così ben definiti K-means
71
2. Misurare la validità con la similarità
Cluster nei dati casuali non sono così ben definiti Complete Link
72
2. Misurare la validità con la similarità
DBSCAN
73
Misure interne: SSE Indice interno: usato per misurare la bontà di un clustering senza riferimento a informazioni esterne SSE Utilizzato per comparare clustering differenti Può anche essere utilizzato per stimare il numero di cluster
74
Misure interne: SSE Curva SSE per un dataset più complicato
SSE dei cluster usando K-means
75
Misure interne: Coesione e Separazione
Coesione dei Cluster: misura quanto sono coese le unità all’interno di un cluster Separazione dei cluster: indice di separazione tra cluster Esempio: Errore quadratico (Squared Error) La coesione è misurata dalla somma dei quadrati NEI cluster (SSE) La separazione è misurata dalla somma dei quadrati FRA cluster
76
“The validation of clustering structures is the most difficult and frustrating part of cluster analysis. Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage.” Algorithms for Clustering Data, Jain and Dubes
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.