La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.

Presentazioni simili


Presentazione sul tema: "ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie."— Transcript della presentazione:

1 ANALISI DEI GRUPPI I

2 La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie specifiche.

3 Impieghi della Cluster Analysis  segmentazione del mercato  analisi della concorrenza

4 La Cluster Analysisè una tecnica di tipo esplorativo e pertanto, a differenza di quanto si verifica con altre tecniche statistiche multivariate, non è necessaria alcuna assunzione a priori sulle tipologie fondamentali esistenti nell'insieme delle unità esaminate

5 Punto di partenza di ogni applicazione di Cluster Analysis è la disponibilità di un collettivo statistico (anche campionario) di n elementi, ciascuno rappresentato da p variabili

6 La matrice dei dati X = x 11 x 12 … x 1p x 21 x 22 … x 2p...... …... x n1 x n2 … x np

7 Ad ogni unità statistica è associato un vettore di p osservazioni, i cui valori sono configurabili come coordinate dell'unità considerata in uno spazio a p dimensioni.

8 Fasi del processo di segmentazione

9  selezione degli elementi del collettivo  scelta delle variabili ed eventuale trasformazione  scelta del criterio di valutazione della dissomiglianza  scelta dell'algoritmo di raggruppamento  determinazione del numero di gruppi

10 Scale di misurazione delle variabili:  nominale  ordinale  ad intervallo  a rapporti

11 Contributo informativo delle variabili

12  variabili quantitative: coefficiente di correlazione di Bravais- Pearson  variabili qualitative: correlazione tra ranghi di Spearman o coefficiente di cograduazione di Gini  variabili miste: coefficiente di cograduazione di Gini, previa sostituzione dei valori delle variabili quantitative con i rispettivi ranghi

13 Trattamento preliminare delle variabili

14 Ricondurre tutti i caratteri alla stessa scala, ovvero a quella contraddistinta dai minori requisiti La scelta delle variabili di input condiziona anche la necessità di una loro eventuale standardizzazione: è infatti opportuno che le variabili siano rese indipendenti dal loro ordine di grandezza

15 Standardizzazione (variabili quantitative)

16 xixi xixi zizi zizi xx xx       dove z i è il valore della variabile standardizzata per l'unità i-ma, x i è il valore originario della variabile per l'unità i-ma,  è la media aritmetica del carattere  x è lo scarto quadratico medio

17 misurano la somiglianza tra unità quando i caratteri sono espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa Coefficienti di associazione

18 Tabella tetracorica individuo j individuo i 1 1 1 1 a a 0 0 c c 0 0 b b d d

19 Misure di associazione: A A coefficiente di Jaccard B B coefficiente di Dice c c b b a a a a J s ij           c c b b 2a D s ij  

20 Quando i caratteri sono sia qualitativi che quantitativi si ricorre al coefficiente di Gower: Œ Œ   p p k=1 ij G G w k s kij s s Œ Œ p p k=1 wkwk wkwk

21 dove s kij è un indicatore di somiglianza tra le unità i e j rispetto alla variabile k che vale uno se l variabile è di tipo nominale o ordinale e vi è concomitanza di presenza o assenza per i e j zero se la variabile è di tipo nominale o ordinale e non vi è concomitanza di presenza o assenza per i e j

22 con R k che è il campo di variazione della variabile k w k è un peso arbitrario RkRk RkRk x ik     1 1 x jk

23 Esempio di calcolo dei coefficienti di associazione Variabili Unità i Unità j 1 1 1 1 1 1 2 2 0 0 1 1 3 3 0 0 0 0 4 4 1 1 1 1 5 5 1 1 0 0

24 Tabella tetracorica individuo j individuo i 1 1 1 1 2 2 0 0 1 1 0 0 1 1 1 1

25 Coefficiente di Jaccard = 1/2 Coefficiente di Dice = 2/3 Coefficiente di associazione semplice = 3/5

26 Per i dati di tipo quantitativo si ricorre alle distanze

27 Una distanza possiede le seguenti proprietà: identità d ii = 0 simmetria d ij = dji non negatività d ij ≥ = 0 disuguaglianza triangolare d il + d lj ≤ = d ij

28 Distanza di Minkowski Per r = 2 si ha la distanza euclidea     p p k=1 r d ij x ik - x jk r r 1/r   2 d ij   p p k=1 x ik - x jk 2 2 1/r

29 Distanza di Mahalanobis in cui s hk indica il generico elemento della matrice inversa delle varianze- covarianze tra le p variabili     p p k=1 d ij (x ik - x jk ) (x ih - x jh ) 1/2   p p h=1 s hk


Scaricare ppt "ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie."

Presentazioni simili


Annunci Google