misure di eterogeneità statistica misure di eterogeneità alessandro polli facoltà di scienze politiche, sociologia, comunicazione 20 aprile 2015
Generalità Definizione di eterogeneità Nel caso di variabili qualitative, sappiamo che è possibile sintetizzarne le principali caratteristiche attraverso la moda (variabili qualitative sconnesse) o altre medie di posizione (mediana, quantili) nel caso di variabili ordinabili Nel caso di variabili quantitative, aumenta il numero di proprietà che possono essere indagate attraverso misure analitiche: dispersione, asimmetria, curtosi, concentrazione. È per tale motivo che sarebbe consigliabile, ove possibile, «tradurre» il fenomeno qualitativo che stiamo studiando su uno spazio di misura, proprio al fine di aumentare la «profondità» dell’indagine Il passaggio ad uno spazio metrico deve avvenire senza alterazioni per la natura del fenomeno indagato, ad esempio nel caso di variabili qualitative sconnesse quando il carattere è dicotomico, nel caso di variabili qualitative ordinate quando alle modalità del carattere possono essere associati valori presuntivi (è il caso della scolarità, che può essere convenzionalmente tradotta in anni di scolarità)
Generalità Definizione di eterogeneità Un’interessante proprietà che possiamo studiare nel caso di variabili (mutabili) qualitative è la mutabilità, cioè l’attitudine del carattere a manifestarsi con modalità distinte tra le unità statistiche componenti il collettivo Per rendere intuitivo il concetto di mutabilità, facciamo riferimento a un collettivo di ampiezza 𝑛 su cui stiamo rilevando il carattere «genere» Se all’interno del collettivo tutte le unità statistiche assumono un’unica modalità del carattere (ad esempio, il collettivo è formato solo da maschi), allora con riferimento al carattere «genere» vi è omogeneità (o eterogeneità nulla) all’interno del collettivo Ipotizziamo che in un altro collettivo di ampiezza 𝑛 vi siano 𝑛−1 maschi ed una femmina: l’eterogeneità aumenta e continuerà ad aumentare quante più unità statistiche sono caratterizzate dall’altra modalità del carattere. Si raggiunge l’eterogeneità massima quando metà del collettivo è composto da maschi e metà da femmine
Generalità Legame con altre proprietà statistiche Il concetto statistico di omogeneità è per certi versi analogo a quello di equidistribuzione o assenza di concentrazione: difatti, un collettivo è omogeneo rispetto ad un dato carattere se tutte le sue unità presentano la stessa modalità del carattere. Va comunque notato che il concetto di eterogeneità non coincide con quello di concentrazione Domandiamoci adesso quali devono essere le caratteristiche di una misura di eterogeneità. Da un punto di vista logico, una misura di eterogeneità dovrebbe assumere valore 0 in caso di eterogeneità nulla (omogeneità) e valori crescenti all’aumentare dell’eterogeneità Naturalmente, una misura così concepita è una misura assoluta di eterogeneità; possiamo costruire una misura relativa di eterogeneità adottando la consueta strategia: calcoliamo la misura assoluta e la rapportiamo al valore teorico che essa può assumere nell’ipotesi di eterogeneità massima
Le misure di eterogeneità L’indice di eterogeneità di Gini Per misurare l’eterogeneità di una mutabile statistica in un collettivo osservato possiamo calcolare l’indice di eterogeneità di Gini Dato un carattere 𝑿 rilevato in un collettivo di ampiezza 𝑛 e assumente 𝑘 modalità distinte, con 𝑘≤𝑛, sia 𝑁= 𝑁 1 , …, 𝑁 𝑘 la distribuzione delle frequenze assolute associate alle 𝑘 modalità di 𝑿 e sia 𝑓= 𝑓 1 , …, 𝑓 𝑘 la distribuzione delle frequenze relative definita a partire da 𝑁. L’indice di eterogeneità di Gini è definito dalla seguente relazione: 𝑚 𝐺 =1− 𝑖=1 𝑘 𝑓 𝑖 2
Le misure di eterogeneità L’indice di eterogeneità di Gini Verifichiamo quali valori limite può assumere 𝑚 𝐺 : Valore minimo. Nel caso di omogeneità, tutte le unità statistiche componenti il collettivo assumono l’𝑖─esima modalità del carattere, quindi 𝑁 𝑖 =𝑛 e 𝑓 𝑖 = 𝑁 𝑖 𝑛 =1, mentre ∀𝑗≠𝑖 avremo che 𝑁 𝑗 =0 e 𝑓 𝑗 = 𝑁 𝑗 𝑛 =0. Ne consegue che 𝑚 𝐺 =1− 𝑖=1 𝑘 𝑓 𝑖 2 =1− 𝑓 𝑖 2 = 1 2 − 𝑗=1 𝑘−1 𝑓 𝑗 2 = 0 2 + …+ 0 2 =1−1−0=0 Quindi in caso di omogeneità la misura di eterogeneità 𝑚 𝐺 =0
Le misure di eterogeneità L’indice di eterogeneità di Gini Valore massimo. In caso di eterogeneità massima, alle 𝑘 modalità del carattere è associato lo stesso valore di frequenza assoluta e relativa, quindi 𝑁 1 = … = 𝑁 𝑘 e 𝑓 𝑖 = 1 𝑘 . Ne consegue che 𝑚 𝐺 =1− 𝑖=1 𝑘 𝑓 𝑖 2 =1− 𝑖=1 𝑘 1 𝑘 2 =1− 𝑖=1 𝑘 1 𝑘 2 =1− 𝑘 𝑘 2 =1− 1 𝑘 = 𝑘−1 𝑘 Quindi in caso di massima eterogeneità la misura di eterogeneità assumerà valore pari a 𝑚 𝐺 = 𝑘−1 𝑘
Le misure di eterogeneità L’indice di eterogeneità di Gini Va osservato che 𝑚 𝐺 è una misura assoluta definita su ℝ + , quindi per finalità di confronto è preferibile disporre di una misura relativa di eterogeneità, ottenibile rapportando la misura assoluta di eterogeneità al suo valore teorico massimo 𝑘−1 𝑘 . La misura di eterogeneità relativa sarà data dalla seguente relazione: 𝑖 𝐺 = 𝑚 𝐺 max 𝑚 𝐺 = 𝑚 𝐺 𝑘−1 𝑘 = 𝑘 𝑘−1 1− 𝑖=1 𝑘 𝑓 𝑖 2 Notare che se 𝑚 𝐺 =0, allora 𝑖 𝐺 =0, mentre se 𝑚 𝐺 = max 𝑚 𝐺 , allora 𝑖 𝐺 =1; ne consegue che 0≤ 𝑖 𝐺 ≤1 Più in particolare, l’indice di eterogeneità di Gini assume valore pari a 0 in caso di omogeneità e valore pari all’unità nel caso di eterogeneità massima
Le misure di eterogeneità L’indice di eterogeneità di Gini Esempio 4. Torniamo alla scolarità rilevata tra i dipendenti della ACME che è già stata utilizzata in un precedente esempio e calcoliamone le misure di eterogeneità assoluta e relativa:
Le misure di eterogeneità L’indice di eterogeneità di Gini Ricordando che 𝑚 𝐺 =1− 𝑖=1 𝑘 𝑓 𝑖 2 , approntiamo la seguente tabella: 𝑖=1 𝑛 𝑓 𝑖 2
Le misure di eterogeneità L’indice di eterogeneità di Gini Poiché la somma dei quadrati delle frequenze relative risulta pari a 𝑖=1 𝑘 𝑓 𝑖 2 =0,2277, è agevole determinare la misura assoluta di eterogeneità, che sarà data da 𝑚 𝐺 =1− 𝑖=1 𝑘 𝑓 𝑖 2 =1−0,2277=0,7723 Osservando poi che il carattere «scolarità» si articola in 𝑘=7 modalità distinte, la misura di eterogeneità relativa sarà pari a 𝑖 𝐺 = 𝑘 𝑘−1 𝑚 𝐺 = 7 6 ∙0,7723≅0,901 Poiché il valore dell’indice di eterogeneità tende ad assumere un valore prossimo all’unità, nel collettivo osservato il carattere «scolarità» presenta una marcata eterogeneità