La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

CLUSTER ANALYSIS Insieme di tecniche con lobiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono risultare.

Presentazioni simili


Presentazione sul tema: "CLUSTER ANALYSIS Insieme di tecniche con lobiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono risultare."— Transcript della presentazione:

1 CLUSTER ANALYSIS Insieme di tecniche con lobiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono risultare quanto più possibile OMOGENEI al loro interno e diversificati tra di loro. Lideale sarebbe:

2 Si necessita di una MATRICE DEI DATI, osservazioni per variabili, la quale deve possedere alcune caratteristiche: OMOGENEITA DIMENSIONE AMORFITA DEI DATI e cioè che abbia un senso il calcolo e la comparazione delle distanze che intercorrono tra gli individui o delle relazioni tra i caratteri della tabella Elevato numero di righe e di colonne Non deve esistere una struttura definibile a priori tra gli individui o tra le variabili

3 Le variabili da inserire nella tabella dei dati sono strettamente legate al fenomeno analizzato e sono la base per stabilire lomogeneità delle unità allinterno delle classi risultanti. Le tecniche di classificazione utilizzano ALGORITMI Serie di operazioni definite in modo ricorrente e ripetitivo da cui risulteranno i raggruppamenti

4 Il ricercatore deve scegliere: misura di prossimita per rilevare la somiglianza o dissomiglianza tra gli elementi della tabella tecnica di classificazione più adeguata identificazione del numero di classi più adeguato per il raggiungimento degli obiettivi dellanalisi Interpretazione dei risultati della classificazione

5 LE TECNICHE DI CLUSTER POSSONO DISTINGUERSI, IN BASE AI RISULTATI FORNITI IN GERARCHICHE e NON GERARCHICHE TECNICHE in cui un'unità può appartenere esclusivamente ad una sola classe (partizione) o a più classi (clump)

6 Le CLASSI formate ad ogni livello devono essere disgiunte (intersezione vuota) e la loro unione deve essere uguale all'insieme degli elementi da classificare. TECNICHE DI ANALISI GERARCHICA AGGLOMERATIVE O ASCENDENTI DIVISIVE applicate solo a matrici di dati poco numerose

7 Nei metodi gerarchici la costruzione della gerarchia è di tipo BINARIO Considera 2 elementi alla volta Gli elementi possono essere: 2 individui 1 individuo ed 1 classe 2 classi

8 E necessario definire una REGOLA SEQUENZIALE per il passaggio da una generica partizione alla successiva, che consenta di: misurare la Prossimità tra due classi, selezionare tra le classi di una partizione quelle che saranno unite (algoritmo ascendente) o quella che sarà divisa (algoritmo discendente), per ottenere una famiglia di partizioni Una PARTIZIONE dellinsieme delle unità statistiche U è un insieme di parti (A 1…. A G ) che siano disgiunte a due a due e la cui riunione sia uguale ad U

9 Ad ogni classe della gerarchia sono associati due numeri: il nodo che etichetta l'ordine di formazione delle classi (2 n -1) il livello di prossimità (dissimilarità, distanza) in base al quale è ottenuta la classe stessa.

10 nodo 8 La tecniche gerarchiche si possono rappresentare su un sistema di assi cartesiani mediante un diagramma ad albero detto DENDROGRAMMA. Unità da classificare Prossimita o distanza nodo 6 nodo 7 nodo

11 CRITERI DI AGGREGAZIONE LEGAME MINIMO LEGAME MASSIMO INERZIA VARIANZA

12 LEGAME MINIMO la dissimilarità tra due classi qi e qj di una partizione è misurata attraverso la più piccola dissimilarità tra le unità delle due classi d(qi, qj) = min (dkz) qi qj K Z

13 LEGAME MASSIMO la dissimilarità tra due classi di una partizione qi e qj è misurata attraverso la più grande dissimilarità che separa le unità tra le due classi d(qi, qj) = max (dkz) qi qj K Z

14 INERZIA inerzia (i) = pi d 2 (g, i ) LINERZIA TOTALE di N(I) è la somma delle inerzie dei diversi punti i di N(I) calcolate in relazione al centro di gravità g. g i N(I) Inerzia N (I) = pi d 2 (g, i )

15 Se l'insieme I è tagliato in o sole 2 classi: q i e q j o con centri di gravità g i e g j o pesi f q i e f q j, q iq j gigi gjgj N(I) g

16 N(I) =fq i d 2 (g, g i ) + fq j d 2 (g, g j ) inerzia interclasse + + (f i d 2 (g i,i)i q i ) + (f j d 2 (g j, j )j q j ) inerzia intraclasse l'inerzia totale della nube N(I)

17 LA SOMMA (inerzia interclasse + inerzia intraclasse di una partizione Q) È COSTANTE qualunque sia la partizione Q considerata, poiché è sempre uguale all'inerzia totale della nube N(I). È solo LA RIPARTIZIONE dell'inerzia totale in: inerzia interclasse e intraclasse che varia con il variare della partizione Q di I.

18 Tra due partizioni con lo stesso numero di classi, si preferirà quella con le classi più compatte, cioè quella che avrà un'inerzia intraclasse minore. AUMENTO dell'INERZIA Considerando l'inerzia più una classe è compatta e più l'inerzia di questa classe rispetto al suo centro di gravità è piccola poiché le distanze dei punti della classe sono prossime al centro della classe

19 L'inerzia intraclasse di q o (che coincide con l'inerzia totale della partizione Q) è uguale alla somma dell'inerzia interclasse della partizione (q i e q j ) e dell'inerzia intraclasse delle due classi. Data una partizione Q, si può esaminare LA VARIAZIONE DELL'INERZIA INTRACLASSE nel raggruppare due classi qi e qj in una sola classe qo.

20 Tra le due partizioni comparate l'unica differenza è che in una sono presenti le classi qi e qj nell'altra la classe qo che sostituisce le classi qi e qj. Per le classi qi, qj, qo: gi, gj e go sono i centri di gravità fqi, fqj e fqo sono i pesi I (qo ) = fq i d 2 (go, gi ) + fqj d 2 (go,gj) + I (qi ) + I (qj)

21 Si rileva con immediatezza che I (qo ) supera I(qi) + I (qj) della quantità: fqi d (go, gi ) + fqj d (go,gj) Il raggruppamento delle classi qi e qj in una sola classe qo fa aumentare l'inerzia intraclasse della quantità indicata con crit (qi, qj): o crit(qi, qj )= fqi d(go, gi )+fqj d(go,gj) misura il livello di dissimilarità della partizione

22 CRITERIO DELLA VARIANZA C A B

23

24 QUALE IL NUMERO OTTIMALE DELLE CLASSI DA PRENDERE IN CONSIDERAZIONE? DOVE EFFETTUARE IL COSIDDETTO TAGLIO DELLALBERO DEL DENDROGAMMA? Si possono utilizzare ALCUNI CRITERI, che permettono di facilitare la scelta riguardo la partizione ottimale: PROBLEMA

25 nodo 8 Unità da classificare nodo 6 nodo 7 nodo Prossimita o distanza

26 La partizione ottimale è quella in cui i valori f(k) sono pressoché costanti e tra di loro non presentano grosse differenze. TASSO DI INERZIA t(k) = inerzia intraclasse/inerzia totale t(k) varia tra 0e 1, è uguale a 0 quando tutte le unità costituiscono una classe a sé stante, sarà pari a 1 quando tutte le unità sono comprese in una sola classe. CALINSKY HARABASZ f(k) = inerzia interclasse / inerzia intraclasse

27 Questi due metodi sono COMPLEMENTARI, poiché l'inerzia totale, il cui valore è costante per ogni livello di aggregazione, si divide in: I = inerzia interclasse + inerzia intraclasse Inoltre quando si aggregano due unità e poi due classi, per ottenere una nuova partizione, necessariamente si ha un aumento dell'inerzia intraclasse e una riduzione dell'inerzia interclasse.

28 dove la partizione ottimale è quella relativa al numero di classi k che fornisce un valore di C pressoché costante METODI BASATI SULLA VARIANZA Dalla relazione tra la varianza totale e la sua scomposizione in varianza interna ai gruppi e varianza tra i gruppi T = W+ B CALINSKY HARABASZ

29 Dove il numeratore ha p(k 2 – k 1 ) e il denominatore p (n-k 2 ) gradi di libertà e p è il numeor di variabili rilevate su ciascuna unità CRITERIO DI BEALE sottopone a test se il numero di classi k1 sia da preferire ad un numero di classi k2 con k1 < k2. Il test utilizzato è quello di FISHER

30 Forniscono classi tra di loro non strutturate, per cui non prevedono la storia dellaggregazione. Necessitano che sia fornito in input il numero delle classi da formare e per ogni classe bisogna identificare un ELEMENTO LEADER della classe intorno a cui aggregare sulla base di un criterio gli altri elementi da classificare. I risultati di tale tecnica variano sia in funzione del numero di classi che dellelemento leader TECNICHE DI ANALISI NON GERARCHICHE

31 Gli algoritmi k-medie sono caratterizzati da una procedura iterativa che cerca di ottenere un progressivo miglioramento delle partizioni ottenute. Tali metodi assumono che il numero di cluster desiderato sia fissato a priori, ma ripetendo lanalisi più volte e cambiando il numero dei cluster si possono confrontare le diverse soluzioni ottenute.

32 - il numero dei centri - un metodo per la scelta dei centri dei cluster iniziali - un metodo per allocare gli elementi nei cluster iniziali - un criterio per luscita dalla procedura iterativa Quali sono gli aspetti da considerare per lapplicazione della tecnica?

33 La scelta dei k centri iniziali (provvisori) può essere casuale o avvenire attraverso un criterio prestabilito: -alcune procedure scelgono le prime k osservazioni del database, - altre casualmente k osservazioni del file - altre scelgono in modo ottimale i centri iniziali utilizzando le k osservazioni più DIVERSE TRA di loro

34 La regola di assegnazione è tale per cui un elemento i appartiene al gruppo Ij se il punto i è più vicino al centro di Ij che a tutti gli altri centri Lalgoritmo si ferma quando: - due successive iterazioni conducono alla stessa partizione - la funzione obiettivo scelta non decresce più in maniera significativa - è stato raggiunto il numero di iterazioni precedentemente stabilito

35 Per la determinazione del numero dei cluster più opportuno gli elementi utili per la scelta e linterpretazione della soluzione sono essenzialmente: tabella di analisi della varianza Le dimensioni di ciascun cluster dovrebbero essere preferibilmente omogenee o almeno non inferiore ad un limite che definisce la significatività operativa del cluster Per valutare la qualità statistica della clusterizzazione e cioè ad esempio attraverso un test F verificare se le medie tra i diversi cluster siano statisticamente diverse la numerosità delle osservazioni di ciascun cluster

36 Rispetto alle variabili considerate caratteristiche dei centri finali


Scaricare ppt "CLUSTER ANALYSIS Insieme di tecniche con lobiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono risultare."

Presentazioni simili


Annunci Google