CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono risultare quanto più possibile OMOGENEI al loro interno e diversificati tra di loro. L’ideale sarebbe:
Si necessita di una MATRICE DEI DATI, osservazioni per variabili, la quale deve possedere alcune caratteristiche: e cioè che abbia un senso il calcolo e la comparazione delle distanze che intercorrono tra gli individui o delle relazioni tra i caratteri della tabella OMOGENEITA’ Elevato numero di righe e di colonne DIMENSIONE Non deve esistere una struttura definibile a priori tra gli individui o tra le variabili AMORFITA’ DEI DATI
Le tecniche di classificazione utilizzano ALGORITMI Le variabili da inserire nella tabella dei dati sono strettamente legate al fenomeno analizzato e sono la base per stabilire l’omogeneità delle unità all’interno delle classi risultanti. Le tecniche di classificazione utilizzano ALGORITMI Serie di operazioni definite in modo ricorrente e ripetitivo da cui risulteranno i raggruppamenti
risultati della classificazione Il ricercatore deve scegliere: per rilevare la somiglianza o dissomiglianza tra gli elementi della tabella misura di prossimita’ tecnica di classificazione più adeguata più adeguato per il raggiungimento degli obiettivi dell’analisi identificazione del numero di classi Interpretazione dei risultati della classificazione
LE TECNICHE DI CLUSTER POSSONO DISTINGUERSI, IN BASE AI RISULTATI FORNITI IN GERARCHICHE e NON GERARCHICHE TECNICHE in cui un'unità può appartenere esclusivamente ad una sola classe (partizione) o a più classi (clump)
TECNICHE DI ANALISI GERARCHICA DIVISIVE AGGLOMERATIVE O ASCENDENTI applicate solo a matrici di dati poco numerose Le CLASSI formate ad ogni livello devono essere disgiunte (intersezione vuota) e la loro unione deve essere uguale all'insieme degli elementi da classificare.
Nei metodi gerarchici la costruzione della gerarchia è di tipo BINARIO Considera 2 elementi alla volta Gli elementi possono essere: 2 individui 1 individuo ed 1 classe 2 classi
selezionare tra le classi di una partizione quelle che saranno E’ necessario definire una REGOLA SEQUENZIALE per il passaggio da una generica partizione alla successiva, che consenta di: selezionare tra le classi di una partizione quelle che saranno unite (algoritmo ascendente) o quella che sarà divisa (algoritmo discendente), per ottenere una famiglia di partizioni misurare la Prossimità tra due classi, Una PARTIZIONE dell’insieme delle unità statistiche U è un insieme di parti (A1…. AG ) che siano disgiunte a due a due e la cui riunione sia uguale ad U
Ad ogni classe della gerarchia sono associati due numeri: che etichetta l'ordine di formazione delle classi (2 n -1) il nodo (dissimilarità, distanza) in base al quale è ottenuta la classe stessa. il livello di prossimità
La tecniche gerarchiche si possono rappresentare su un sistema di assi cartesiani mediante un diagramma ad albero detto DENDROGRAMMA. Prossimita’ o distanza 25 nodo 9 20 15 nodo 8 nodo 7 10 5 nodo 6 1 4 3 2 5 Unità da classificare
CRITERI DI AGGREGAZIONE LEGAME MINIMO LEGAME MASSIMO INERZIA VARIANZA
qi qj la dissimilarità tra due classi qi e qj di una partizione è misurata attraverso la più piccola dissimilarità tra le unità delle due classi d(qi, qj) = min (dkz) LEGAME MINIMO qi qj Z K
qi qj la dissimilarità tra due classi di una partizione qi e qj è misurata attraverso la più grande dissimilarità che separa le unità tra le due classi d(qi, qj) = max (dkz) LEGAME MASSIMO qi qj K Z
Inerzia N (I) = Spi d2 (g, i ) inerzia (i) = pi d2 (g, i ) g i N(I) L’INERZIA TOTALE di N(I) è la somma delle inerzie dei diversi punti i di N(I) calcolate in relazione al centro di gravità g. Inerzia N (I) = Spi d2 (g, i )
Se l'insieme I è tagliato in sole 2 classi: q i e q j con centri di gravità gi e g j pesi f qi e f qj, N(I) q i q j gj gi g
+(fid2(gi,i)iqi) + (fj d2 (gj, j )j qj) l'inerzia totale della nube N(I) N(I) =fqi d2 (g, gi ) + fqj d2 (g, gj) inerzia interclasse + +(fid2(gi,i)iqi) + (fj d2 (gj, j )j qj) inerzia intraclasse
LA SOMMA (inerzia interclasse + inerzia intraclasse di una partizione Q) È COSTANTE qualunque sia la partizione Q considerata, poiché è sempre uguale all'inerzia totale della nube N(I). È solo LA RIPARTIZIONE dell'inerzia totale in: inerzia interclasse e intraclasse che varia con il variare della partizione Q di I.
AUMENTO dell'INERZIA Considerando l'inerzia più una classe è compatta e più l'inerzia di questa classe rispetto al suo centro di gravità è piccola poiché le distanze dei punti della classe sono prossime al centro della classe Tra due partizioni con lo stesso numero di classi, si preferirà quella con le classi più compatte, cioè quella che avrà un'inerzia intraclasse minore.
L'inerzia intraclasse di qo Data una partizione Q, si può esaminare LA VARIAZIONE DELL'INERZIA INTRACLASSE nel raggruppare due classi qi e qj in una sola classe qo. L'inerzia intraclasse di qo (che coincide con l'inerzia totale della partizione Q) è uguale alla somma dell'inerzia interclasse della partizione (qi e qj) e dell'inerzia intraclasse delle due classi.
Per le classi qi, qj, qo: gi , gj e go sono i centri di gravità fqi, fqj e fqo sono i pesi I (qo ) = fqi d2 (go, gi ) + fqj d2 (go ,gj) + I (qi ) + I (qj) Tra le due partizioni comparate l'unica differenza è che in una sono presenti le classi qi e qj nell'altra la classe qo che sostituisce le classi qi e qj.
fqi d (go, gi ) + fqj d (go ,gj) Si rileva con immediatezza che I (qo ) supera I(qi) + I (qj) della quantità: fqi d (go, gi ) + fqj d (go ,gj) Il raggruppamento delle classi qi e qj in una sola classe qo fa aumentare l'inerzia intraclasse della quantità indicata con crit (qi, qj): crit(qi, qj )= fqi d(go, gi )+fqj d(go,gj) misura il livello di dissimilarità della partizione
CRITERIO DELLA VARIANZA C B A
QUAL’E’ IL NUMERO OTTIMALE DELLE CLASSI DA PRENDERE IN CONSIDERAZIONE? PROBLEMA QUAL’E’ IL NUMERO OTTIMALE DELLE CLASSI DA PRENDERE IN CONSIDERAZIONE? DOVE EFFETTUARE IL COSIDDETTO TAGLIO DELL’ALBERO DEL DENDROGAMMA? Si possono utilizzare ALCUNI CRITERI, che permettono di facilitare la scelta riguardo la partizione ottimale:
Prossimita’ o distanza 25 nodo 9 20 15 nodo 8 nodo 7 10 nodo 6 5 1 4 3 2 5 Unità da classificare
f(k) = inerzia interclasse / TASSO DI INERZIA t(k) = inerzia intraclasse/inerzia totale t(k) varia tra 0e 1, è uguale a 0 quando tutte le unità costituiscono una classe a sé stante, sarà pari a 1 quando tutte le unità sono comprese in una sola classe. CALINSKY HARABASZ f(k) = inerzia interclasse / inerzia intraclasse La partizione ottimale è quella in cui i valori f(k) sono pressoché costanti e tra di loro non presentano grosse differenze.
Questi due metodi sono COMPLEMENTARI, poiché l'inerzia totale, il cui valore è costante per ogni livello di aggregazione, si divide in: I = inerzia interclasse + inerzia intraclasse Inoltre quando si aggregano due unità e poi due classi, per ottenere una nuova partizione, necessariamente si ha un aumento dell'inerzia intraclasse e una riduzione dell'inerzia interclasse.
METODI BASATI SULLA VARIANZA Dalla relazione tra la varianza totale e la sua scomposizione in varianza interna ai gruppi e varianza tra i gruppi T = W+ B CALINSKY HARABASZ dove la partizione ottimale è quella relativa al numero di classi k che fornisce un valore di C pressoché costante
sottopone a test se il numero di classi k1 sia da preferire ad un numero di classi k2 con k1 < k2. CRITERIO DI BEALE Il test utilizzato è quello di FISHER Dove il numeratore ha p(k2 – k1) e il denominatore p (n-k2) gradi di libertà e p è il numeor di variabili rilevate su ciascuna unità
TECNICHE DI ANALISI NON GERARCHICHE Forniscono classi tra di loro non strutturate, per cui non prevedono la storia dell’aggregazione. Necessitano che sia fornito in input il numero delle classi da formare e per ogni classe bisogna identificare un ELEMENTO LEADER della classe intorno a cui aggregare sulla base di un criterio gli altri elementi da classificare. I risultati di tale tecnica variano sia in funzione del numero di classi che dell’elemento leader
Gli algoritmi k-medie sono caratterizzati da una procedura iterativa che cerca di ottenere un progressivo miglioramento delle partizioni ottenute. Tali metodi assumono che il numero di cluster desiderato sia fissato a priori, ma ripetendo l’analisi più volte e cambiando il numero dei cluster si possono confrontare le diverse soluzioni ottenute.
Quali sono gli aspetti da considerare per l’applicazione della tecnica? - il numero dei centri - un metodo per la scelta dei centri dei cluster iniziali - un metodo per allocare gli elementi nei cluster iniziali - un criterio per l’uscita dalla procedura iterativa
La scelta dei k centri iniziali (provvisori) può essere casuale o avvenire attraverso un criterio prestabilito: alcune procedure scelgono le prime k osservazioni del database, altre casualmente k osservazioni del file altre scelgono in modo ottimale i centri iniziali utilizzando le k osservazioni più DIVERSE TRA di loro
L’algoritmo si ferma quando: La regola di assegnazione è tale per cui un elemento i appartiene al gruppo Ij se il punto i è più vicino al centro di Ij che a tutti gli altri centri L’algoritmo si ferma quando: due successive iterazioni conducono alla stessa partizione la funzione obiettivo scelta non decresce più in maniera significativa è stato raggiunto il numero di iterazioni precedentemente stabilito
Per la determinazione del numero dei cluster più opportuno gli elementi utili per la scelta e l’interpretazione della soluzione sono essenzialmente: Le dimensioni di ciascun cluster dovrebbero essere preferibilmente omogenee o almeno non inferiore ad un limite che definisce la significatività operativa del cluster la numerosità delle osservazioni di ciascun cluster Per valutare la qualità statistica della clusterizzazione e cioè ad esempio attraverso un test F verificare se le medie tra i diversi cluster siano statisticamente diverse tabella di analisi della varianza
Rispetto alle variabili considerate caratteristiche dei centri finali Rispetto alle variabili considerate