Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
ANALISI DEI GRUPPI I
2
La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie specifiche.
3
Impieghi della Cluster Analysis
segmentazione del mercato analisi della concorrenza analisi della concorrenza
4
La Cluster Analysisè una tecnica di tipo esplorativo e pertanto, a differenza di quanto si verifica con altre tecniche statistiche multivariate, non è necessaria alcuna assunzione a priori sulle tipologie fondamentali esistenti nell'insieme delle unità esaminate
5
Punto di partenza di ogni applicazione di Cluster Analysis è la disponibilità di un collettivo statistico (anche campionario) di n elementi, ciascuno rappresentato da p variabili
6
La matrice dei dati x11 x12 … x1p x21 x22 … x2p X = … xn1 xn2 … xnp
7
Ad ogni unità statistica è associato un vettore di p osservazioni, i cui valori sono configurabili come coordinate dell'unità considerata in uno spazio a p dimensioni.
8
Fasi del processo di segmentazione
9
selezione degli elementi del collettivo
scelta delle variabili ed eventuale trasformazione scelta del criterio di valutazione della dissomiglianza scelta dell'algoritmo di raggruppamento determinazione del numero di gruppi
10
Scale di misurazione delle variabili:
nominale ordinale ad intervallo a rapporti
11
Contributo informativo delle variabili
12
variabili quantitative: coefficiente di correlazione di Bravais- Pearson
variabili qualitative: correlazione tra ranghi di Spearman o coefficiente di cograduazione di Gini variabili miste: coefficiente di cograduazione di Gini, previa sostituzione dei valori delle variabili quantitative con i rispettivi ranghi
13
Trattamento preliminare delle variabili
14
Ricondurre tutti i caratteri alla stessa scala, ovvero a quella contraddistinta dai minori requisiti
La scelta delle variabili di input condiziona anche la necessità di una loro eventuale standardizzazione: è infatti opportuno che le variabili siano rese indipendenti dal loro ordine di grandezza
15
Standardizzazione (variabili quantitative)
16
m è la media aritmetica del carattere
xi zi sx m - = dove zi è il valore della variabile standardizzata per l'unità i-ma, xi è il valore originario della variabile per l'unità i-ma, m è la media aritmetica del carattere sx è lo scarto quadratico medio
17
Coefficienti di associazione
misurano la somiglianza tra unità quando i caratteri sono espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa
18
Tabella tetracorica individuo j individuo i 1 a c b d
19
Misure di associazione:
coefficiente di Jaccard c b a Jsij + = B coefficiente di Dice + c b 2a Dsij =
20
Quando i caratteri sono sia qualitativi che quantitativi si ricorre al coefficiente di Gower:
Œ = p k=1 ij G wkskij s wk
21
dove skij è un indicatore di somiglianza tra le unità i e j rispetto alla variabile k che vale uno se l variabile è di tipo nominale o ordinale e vi è concomitanza di presenza o assenza per i e j zero se la variabile è di tipo nominale o ordinale e non vi è concomitanza di presenza o assenza per i e j
22
con Rk che è il campo di variazione della variabile k
xik - 1 xjk con Rk che è il campo di variazione della variabile k wk è un peso arbitrario
23
Esempio di calcolo dei coefficienti di associazione
Variabili Unità i Unità j 1 2 3 4 5
24
Tabella tetracorica individuo j individuo i 1 2
25
Coefficiente di Jaccard = 1/2
Coefficiente di Dice = 2/3 Coefficiente di associazione semplice = 3/5
26
Per i dati di tipo quantitativo si ricorre alle distanze
27
Una distanza possiede le seguenti proprietà:
identità dii = 0 simmetria dij = dji non negatività dij ≥ = 0 disuguaglianza triangolare dil + dlj ≤ = dij
28
Per r = 2 si ha la distanza euclidea
Distanza di Minkowski = p k=1 rdij xik - xjk r 1/r Per r = 2 si ha la distanza euclidea = 2dij p k=1 xik - xjk 2 1/r
29
Distanza di Mahalanobis
= p k=1 dij (xik - xjk) (xih - xjh) 1/2 h=1 shk in cui shk indica il generico elemento della matrice inversa delle varianze-covarianze tra le p variabili
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.