La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Cluster Analysis: concetti di base e algoritmi

Presentazioni simili


Presentazione sul tema: "Cluster Analysis: concetti di base e algoritmi"— Transcript della presentazione:

1 Cluster Analysis: concetti di base e algoritmi

2 Cos’è Cluster Analysis?
Trovare gruppi di unità statistiche tali che le unità di un gruppo siano simili (o correlate) tra loro e diverse da (o estranee a) le unità in altri gruppi Distanze TRA cluster sono massime Distanze NEI cluster sono minime

3 Applicazioni della Cluster Analysis
Inferenza Cluster di documenti da ricerche web Gruppi di geni e proteine che hanno funzioni simili, Gruppi di azioni con fluttuazioni di prezzo simili Sintesi Ridurre la dimensione di dataset eccessivamente grandi Clustering delle precipitazioni in Australia

4 Non è Cluster Analysis Classificazione supervisionata delle unità
Quando si ha già l’etichetta di appartenenza ad un gruppo Segmentazione semplice Dividere gli studenti in gruppi in base al cognome Risultato di un’interrogazione del database Raggruppare in base ad alcune caratteristiche predefinite Partizione grafica Rilevanza parziale, ma non la stessa cosa

5 Quanti cluster? Quanti cluster? Sei Cluster Due Cluster
Quattro Cluster

6 Clustering Si definisce clustering un insieme di cluster
Clustering partizionale Una divisione in cluster che non si sovrappongono Clustering gerarchico Un insieme di cluster innestati organizzati come un albero gerarchico

7 Clustering Partizionale
Punti originari

8 Clustering Gerarchico
Clustering gerachico Dendrogramma

9 Algoritmi di Clustering
K-means e le sue varianti Clustering gerarchico Clustering basato sulla densità

10 K-means Clustering Approccio partizionale al clustering Ogni cluster è associato ad un centroide (baricentro) Ogni punto è assegnato al cluster con il baricentro più vicino Il numero di cluster, K, è specificato dall’analista L’algoritmo di base è molto semplice: Seleziona K centroidi iniziali Assegna le unità al gruppo del centroide più prossimo Ricalcola I centroidi Ripeti fino a convergenza

11 K-means Clustering – Dettagli
I centroidi iniziali sono spesso scelti in maniera casuale. Il centroide è (tipicamente) la media dei punti nel gruppo. La ‘vicinanza’ è misurata usando la distanza Euclidea, similarità angolare, correlazione, etc. L’algoritmo K-means converge per le più comuni misure di prossimità. La convergenza avviene di solito dopo poche operazioni. Spesso la condizione di arresto viene modificata in 'Fino a quando relativamente pochi punti cambiano cluster‘ La complessità è O( n * K * I * d ) n = numero di unità, K = numero di cluster, I = numero di iterazioni, d = numero di attributi

12 Due differenti soluzioni K-means
Gruppi reali Clustering ottimale Clustering Sub-ottimale

13 Importanza della scelta dei centroidi iniziali

14 Importanza della scelta dei centroidi iniziali

15 Valutazione dei cluster K-means
La misura più comune è la Somma degli errori quadratici (SSE) x è un punto del cluster Ci e mi è centroide di Ci Dati due clustering, possiamo scegliere quello con SSE minore Di solito SSE si riduce incrementando K, Un buon raggruppamento con un certo K può avere un SSE inferiore a un clustering scorretto con K più elevato

16 Importanza della scelta dei centroidi iniziali

17 Importanza della scelta dei centroidi iniziali

18 Ancora sul problema dei centroidi iniziali
Se ci sono K cluster 'reali' la probabilità di selezionare un centroide per ogni cluster è piccola. Se i cluster sono della stessa dimensione, n, allora Se K = 10, la probabilità è 10!/1010 = A volte i centroidi iniziali stessi si riallocano correttamente e altre volte no Si consideri il caso di cinque coppie di cluster

19 Esempio: 10 Cluster Due centroidi iniziali in un cluster di ogni coppia di cluster

20 Esempio: 10 Cluster Due centroidi iniziali in un cluster di ogni coppia di cluster

21 Esempio: 10 Cluster Alcune coppie di cluster con tre centroidi iniziali, e altre con uno

22 Esempio: 10 Cluster Alcune coppie di cluster con tre centroidi iniziali, e altre con uno

23 Alcune Soluzioni Seleziona più insiemi iniziali
Si usi il clustering gerarchico per determinare i centroidi iniziali Selezionare più di K centroidi iniziali e quindi selezionare tra questi centroidi iniziali Selezionare quelli più separati Postprocessing Bisecting K-means Non così sensibile alla scelta iniziale

24 Bisecting K-means Variante di K-means che può produrre un clustering partizionale o gerarchico Algoritmo: Si inizi con un cluster che contiene tutte le unità Bisezionare il cluster usando k-means Dei due cluster formati, bisezionare quello con SSE più elevato Procedere fino ad ottenere K cluster

25 Esempio: Bisecting K-means

26 Limitazioni di K-means
K-Means ha problemi quando i cluster sono di differenti: dimensioni densità forme non globulari K-means ha problemi quando i dati contengono outlier.

27 Limitazioni di K-means: diverse dimensioni
Gruppi reali K-means (3 Cluster)

28 Limitazioni di K-means : densità differenti
Gruppi reali K-means (3 Cluster)

29 Limitazioni di K-means : forme Non-globulari
Gruppi reali K-means (2 Cluster)

30 Superare le limitazioni di K-means
Gruppi reali K-means Clusters Una soluzione è quella di utilizzare molti cluster. E’ necessario però ricostruire i cluster successivamente.

31 Superare le limitazioni di K-means
Gruppi reali K-means Clusters

32 Superare le limitazioni di K-means
Gruppi reali K-means Clusters

33 Clustering gerarchico
Produce un insieme di cluster innestati organizzati come un albero gerarchico Può essere visualizzato con un dendrogramma

34 Vantaggi del Clustering gerarchico
Non è necessario assumere un numero fissato di cluster: Qualsiasi numero desiderato di cluster può essere ottenuto con un 'taglio' del dendogramma al livello appropriato Possono corrispondere a tassonomie Specie animali, classificazioni di imprese

35 Clustering gerarchico
Due tipi principali di clustering gerarchico Agglomerativo: Inizia con i punti come singoli cluster   Ad ogni passo, unisce la coppia più vicina di cluster fino a quando rimane un solo cluster (o k cluster) Divisivo: Inizia con un cluster, (contiene tutti i punti)   Ad ogni passo, divide un gruppo fino a quando ogni cluster contiene un solo punto (o ci sono k cluster) Gli algoritmi gerarchici tradizionali utilizzano una matrice di similarità o di dissimilarità (distanza) Si unisce o si divide un gruppo alla volta

36 Algoritmo Agglomerativo
La tecnica di clustering gerarchico più diffusa Algoritmo di base Calcola una matrice di prossimità (similarità o dissimilarità) Ogni punto è un cluster Ripeti Unisci i due cluster più vicini Aggiornal la matrice di prossimità Fino a quando rimane un solo cluster. Punto chiave: la matrice di prossimità. Approcci differenti nella definizione di prossimità portano a soluzioni differenti

37 Come definire la similarità tra gruppi
. . . . Similarità? MIN MAX Media del gruppo Distanza tra i centroidi Altri metodi basati su una funzione obiettivo Ward’s Method → SSE Matrice di prossimità

38 Come definire la similarità tra gruppi
. . . . MIN MAX Media del gruppo Distanza tra i centroidi Altri metodi basati su una funzione obiettivo Ward’s Method → SSE Matrice di prossimità

39 Come definire la similarità tra gruppi
. . . . MIN MAX Media del gruppo Distanza tra i centroidi Altri metodi basati su una funzione obiettivo Ward’s Method → SSE Matrice di prossimità

40 Come definire la similarità tra gruppi
. . . . MIN MAX Media del gruppo Distanza tra i centroidi Altri metodi basati su una funzione obiettivo Ward’s Method → SSE Proximity Matrix

41 Come definire la similarità tra gruppi
. . . . MIN MAX Media del gruppo Distanza tra i centroidi Altri metodi basati su una funzione obiettivo Ward’s Method → SSE Matrice di prossimità

42 MIN o Legame singolo La similarità (distanza) di due cluster è definita dai due punti (uno per gruppo) più simili (o meno distanti) nei diversi cluster Determinata da un solo paio di punti , cioè un legame singolo Matrice di similarità 1 2 3 4 5

43 Clustering gerarchico: MIN
Distanze 5 1 2 3 4 5 6 4 3 2 1 Cluster innestati Dendrogramma

44 Vantaggi di MIN Due Cluster Gruppi reali Gestisce forme non-ellittiche

45 Limitazioni di MIN Due Cluster Gruppi reali
Sensibile a rumore e outlier

46 Determinata da tutte le coppie di punti nei due cluster
MAX o legame completo La similarità (distanza) di due gruppi si basa sui due punti meno simili (più distanti) nei due cluster Determinata da tutte le coppie di punti nei due cluster 1 2 3 4 5

47 Clustering gerarchico: MAX
5 4 1 2 3 4 5 6 2 3 1 Cluster innestati Dendrogramma

48 Vantaggi di MAX Due Cluster Punti originari
Meno sensibile a rumore statistico e outlier

49 Limitazioni di MAX Due Cluster Punti originari
Tende a spezzare grandi cluster Sbilanciato verso cluster globulari

50 Media del gruppo La similarità di due cluster è la media delle similarità a coppie tra i punti nei due gruppi.

51 Clustering gerarchico: Media
5 4 1 2 3 4 5 6 2 3 1 Cluster innestati Dendrogramma

52 Clustering gerarchico : Media
Compromesso tra legame singolo e legame completo Punto di forza Meno sensibile a rumore e outliers Limitazioni Sbilanciato verso cluster globulari

53 Metodo di Ward La similarità di due gruppi si basa sull’incremento di SSE quando i due gruppi vengono uniti: tanto minore l’incremento tanto più elevata la similarità Simile al criterio della media se la distanza tra punti è la distanza Euclidea al quadrato. Meno sensibile a rumore e outliers e sbilanciato verso cluster globulari Analogo gerarchico di K-means Può essere usato per scegliere I centroidi in K-means

54 Clustering gerarchico: Comparazioni
5 5 1 2 3 4 5 6 4 4 1 2 3 4 5 6 3 2 2 1 MIN MAX 3 1 5 5 1 2 3 4 5 6 1 2 3 4 5 6 4 4 2 2 Ward’s 3 3 1 Media 1

55 Clustering gerarchico: Problemi e limitazioni
Una volta presa la decisione di combinare due cluster , non può essere annullata Nessuna funzione obiettivo è minimizzata Schemi differenti hanno problemi di vario tipo: Sensibili a rumore statistico e outlier Difficoltà nel gestire cluster di dimensioni differenti e forme convesse Spezzano grandi cluster

56 DBSCAN : density-based algorithm.
Densità = numero di punti entro un raggio specificato (Eps) Un punto è definito core point se ha più di un numero specificato di punti (MinPts) entro Eps Punti all’interno del cluster Un border point ha meno punti di MinPts entro Eps, ma è nel vicinato di un core point Un noise point è ogni altro punto che non è né core point o border point.

57 DBSCAN: Core, Border, e Noise Points

58 Algoritmo DBSCAN Elimina i noise points
Aggrega in cluster i punti rimanenti Gruppi formati da core point e border point collegati tra loro

59 DBSCAN: Core, Border e Noise Points
Punti originari Tipi: core, border e noise Eps = 10, MinPts = 4

60 Quando DBSCAN funziona bene
Cluster Punti originari Resistente al rumore statistico Può gestire gruppi di forma e dimensione differenti

61 Quando DBSCAN NON funziona
(MinPts=4, Eps=9.75). Punti originari Densità variabili Dati ultra-dimensionali (MinPts=4, Eps=9.92)

62 DBSCAN: Determinare EPS e MinPts
Idea: per i punti in un cluster, il loro kth nearest neighbor è approssimativamente alla stessa distanza I Noise points hanno il kth nearest neighbor a distanza maggiore Disegna su un grafico la distanza di ogni punto dal suo kth nearest neighbor

63 Validazione dei cluster
Evitare di trovare pattern in dati casuali Compare algoritmi di clustering Comparare i cluster

64 Cluster in Dati Casuali
DBSCAN Punti casuali K-means Legame completo

65 Misure di validità dei Cluster
Le misure numeriche usate per valutare la bontà di un clustering, sono classificate in tre tipi: Indici esterni: Usato per misurare fino a che punto le etichette del cluster corrispondono a quelle fornite da una fonte esterna. Entropia Indici interni: Usati per misurare la bontà di un clustering senza riferimento a informazione esterna. Sum of Squared Error (SSE) Indici relativi: Usati per comparare due clustering or cluster. Spesso un indice interno o esterno è usato in questi casi: SSE o entropia A volte si parla di criteri piuttosto che di indici

66 1. Misurare la validità con la correlazione
Due matrici Matrice di prossimità Matrice di incidenza Un riga e una colonna per ogni punto (n x n) La cella della matrice è 1 se I punti associati sono nello stesso cluster. E’ nulla altrimenti Calcola la correlazione tra le celle corrispondenti delle due matrici Poichè le matrici sono simmetriche, solo n(n-1) / 2 celle sono considerate. Alta correlazione indica che i punti che appartengono allo stesso cluster sono vicini tra loro. Non è una misura che funziona bene nel caso di cluster a densità differente o definito dalla contiguità.

67 1. Misurare la validità con la correlazione
Correlazioni per K-means clusterings in due data set. Corr = Corr =

68 2. Misurare la validità con la similarità
Ordinare la matrice di similarità in base alle etichette di gruppo e ispezionare visivamente.

69 2. Misurare la validità con la similarità
Cluster nei dati casuali non sono così ben definiti DBSCAN

70 2. Misurare la validità con la similarità
Cluster nei dati casuali non sono così ben definiti K-means

71 2. Misurare la validità con la similarità
Cluster nei dati casuali non sono così ben definiti Complete Link

72 2. Misurare la validità con la similarità
DBSCAN

73 Misure interne: SSE Indice interno: usato per misurare la bontà di un clustering senza riferimento a informazioni esterne SSE Utilizzato per comparare clustering differenti Può anche essere utilizzato per stimare il numero di cluster

74 Misure interne: SSE Curva SSE per un dataset più complicato
SSE dei cluster usando K-means

75 Misure interne: Coesione e Separazione
Coesione dei Cluster: misura quanto sono coese le unità all’interno di un cluster Separazione dei cluster: indice di separazione tra cluster Esempio: Errore quadratico (Squared Error) La coesione è misurata dalla somma dei quadrati NEI cluster (SSE) La separazione è misurata dalla somma dei quadrati FRA cluster

76 “The validation of clustering structures is the most difficult and frustrating part of cluster analysis. Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage.” Algorithms for Clustering Data, Jain and Dubes


Scaricare ppt "Cluster Analysis: concetti di base e algoritmi"

Presentazioni simili


Annunci Google