Indice di concentrazione di Gini Data una variabile y misurata su N individui Si ordinano i dati in ordine crescente Si considera la quota di Y detenuta dai primi i individui (i=1,2,…N) E la quota di individui con y yi Definiamo le seguenti quantità: pi = frazione di A “fino” alla classe i qi = frazione di unità “fino” alla classe i Compreso tra 0 e 1
Spiegazione grafica: Curva di Lorentz Se rappresentiamo le coppie pi ; qi in un grafico cartesiano e le congiungiamo otteniamo una spezzata che prende il nome di curva di concentrazione (o curva di Lorenz-Gini). Esempio: I redditi di 7 individui sono: 80, 90, 21, 23, 16, 32, 62. Dopo aver ordinato i redditi si ottengono le coppie di punti: pi ; qi In questo modo E questo grafico:
Curva di concentrazione Osservazioni: (p0,q0)=(0,0) e (pN,qN)=(1,1) qi ≤ pi Dimostrazione
Il generico punto (pi ,qi) della curva si può interpretare nel seguente modo: Il (pi ·100)% più povero possiede il (qi · 100)% del reddito totale. La curva parte sempre da (0,0) e termina sempre in (1,1). Inoltre, essendo qi ≤ pi, la curva giace sempre al di sotto della retta passante per questi due punti (bisettrice). La curva è sempre comprese tra le due seguenti (potendo eventualmente coincidere): La curva che giace sulla bisettrice. Essa è tale per cui pi=qi per ogni i da cui segue che ogni unità possiede una quantità di carattere pari alla media del carattere. Rappresenta quindi la situazione di equiripartizione. La curva passante per i punti (Fi,0) i=1,…,N-1 ed (1,1). Essa corrisponde alla situazione in cui tutto il carattere è concentrato in una sola unità statistica (l’N-esima) e rappresenta quindi la situazione di massima concentrazione.
Intuitivamente, quanto più la bisettrice si discosta dalla curva di concentrazione tanto più aumenta la concentrazione del carattere. E’ naturale quindi costruire indici di concentrazione basati sullo “scostamento” della curva dalla bisettrice. Ad esempio si potrebbero usare: Le distanze verticali tra la curva di concentrazione e la bisettrice; L’area compresa tra la curva di concentrazione e la bisettrice. In ambedue i casi arriviamo all’indice di concentrazione di Gini.
Le distanze verticali tra la curva di concentrazione e la bisettrice sono date da pi – qi Si noti come pi-qi ≥ 0 per ogni i Sommando le differenze e dividendo per il valore Massimo che tali differenze possono assumere ( tuuti i qi sono nulli tranne l’ultimo) otteniamo una formulazione dell’indice di concentrazione di Gini R vale 0 nel caso di equi-ripartizione (pi - qi =0 per ogni i) R vale 1 nel caso di massima concentrazione pi - qi = pi i (pi - qn )= (pi )
In alternativa misuriamo l’area tra la curva di concentrazione e la retta di equidistribuzione prende il nome di area di concentrazione. Si noti come l’area di concentrazione sia sempre maggiore o uguale a zero. In particolare: nel caso di equiripartizione è pari a zero; al crescere della concentrazione cresce senza mai superare il valore 1/2.
Una misura esatta dell’area A di concentrazione può essere ottenuta sottraendo all’area del triangolo la somma delle aree degli n trapezi delimitati dai punti (Fi,Qi) per i =0,1,…,n. Area del trapezio: ½ x Somma delle basi x altezza A altezza Somma basi
Un indice di concentrazione si può ottenere dividendo l’area di concentrazione per il valore assunto da tale area nel caso di concentrazione massima: Dove si ottiene considerando x1 =…= xN-1 =0 e xN=Nμ e risulta pari a (N-1)/2N. Si può dimostrare che il rapporto così costruito è uguale all’indice definito in precedenza ovvero l’indice di concentrazione di Gini si può ricavare anche dividendo l’area di concentrazione per il suo valore massimo.
Il Fattore (N-1)/N Tende molto rapidamente ad 1 al crescere di N, quindi per N “grande” l’area di concentrazione sarà data dalla differenza tra l’area del triangolo sotteso alla bisettrice pari a 1/2 e la somma delle aree dei singoli “trapezi” senza normalizzazione otteniamo l’indice di concentrazione di Gini in altra formulazione: Per N=25 la differenza tra gli indici è del 4% e per N=50 è del 2% Vedi esempio Excell
Vi sono molti modi per calcolare l’indice di Gini: Ad esempio riprendiamo la definizione di una misura di variabilità (poco usata) DIFFERENZA MEDIA ASSOLUTA (CON RIPETIZIONE): Questa misura può essere interpretata come la differenza attesa tra i redditi di due individui selezionati in modo casuale dalla popolazione. E’ immediato dimostrare che in caso di equidistribuzione = 0 E in casi di massima concentrazione = 2
Rapportando al suo massimo ottengo un indice di concentrazione che è proprio l’indice G di Gini Questa formulazione calcolatoriamente più complicata, si presta però ad una SCOMPOSIZIONE IMPORTANTE DELL’INDICE Tra una componente “entro” e una “tra” in modo simile alla scomposizione della Varianza. Come vedremo
Prima (usuale) scomposizione Sia data una popolazione di N unità distinte in K gruppi su cui è misurata una variabile “trasferibile” Y (es. reddito) con media . L’indice G sarà: Definiamo due “nuovi indici”: L’indice di Gini “ENTRO” il gruppo j-esimo di numerosità nj e media µj Derivato dalle differenze tra gli appartenenti al gruppo j-esimo L’indice di Gini “TRA” il gruppo j-esimo e h-esimo : Derivato dalle differenze di tutti gli appartenenti al gruppo J e tutti gli apparteneti al gruppo h
Scomposizione (proposta Dagum) Ovviamente l’indice G (generale) sarà una media ponderata degli indici “IN” e “TRA” Definiamo i seguenti pesi: = quota della popolazione del gruppo j = quota di reddito della popolazione del gruppo j Allora l’indice G può essere scomposto in:
Questa scomposizione ha, tuttavia, un problema molto rilevante: Normalmente i gruppi in cui viene suddivisa la popolazione, dal punto di vista dello ammontare del reddito hanno aree di sovrapposizione: Ad esempio vi saranno alcuni pensionati che percepiscono un reddito superiore a quello di alcuni lavoratori dipendenti, PUR ESSENDO IL REDDITO MEDIO DEI LAVORATORI DIPENDENTI SUPERIORE A QUELLO DEI PENSIONATI Come è noto, questo fenomeno va sotto il nome di TRANSVARIAZIONE Il problema nasce dl fatto che essendo la differenza media calcolata in base ai valori assoluti, essa è “adirezionale” cioè da lo stesso peso alla differenza di reddito dipendente maggiore di un reddito di pensione e viceversa. Un pensionato che guadagna 2000 euro contro un dipendente che ne percepisce 1000 Contribuisce alla misura della differenza TRA come un dipendente che guadagna 2000 e un pensionato che percepisce 1000 E’ evidente che il primo caso dovrebbe “abbassare” l’indice, mentre il secondo dovrebbe incrementarlo
Dagum propone una una ulteriore e diversa scomposizione dell’indice per tener conto della transvariazione. Seguiamo la sua proposta riprendendo il problema dall’inizio:
Sia data una popolazione Q di n percettori con reddito yi con media partizionata in K gruppi essendo il gruppo j caratterizzato da numerosità nj e media j (j=1…..K). Si supponga che i gruppi siano ordinati in ordine crescente di valor medio Siano Le quote di popolazione e di reddito di ciascun gruppo Definiamo: Differenza media tra i gruppi j e h, generalizzazione della differenza media di Gini Indice di Gini della differenza TRA i gruppi j e k Naturalmente sarà:
Definiamo la relazione “più ricca di” (more affluent than) Un gruppo j sarà “più ricco di” un gruppo k se j > k Definiamo una misura di “gross affluence” tra due gruppi j e k Media delle differenze tra i redditi dei soggetti j che hanno un reddito superiore ai soggetti k E una misura della “transvariazione” tra i gruppi j e k (attenzione agli indici!) Media delle differenze tra i redditi dei soggetti k che hanno un reddito superiore ai soggetti j
Dato che le due misure “scompongono” le differenze in valore assoluto, è agevole dimostrare che dato j > k sia ha: Inoltre se non vi è sovrapposizione tra i redditi dei gruppi (transvariazione=0) e se j = k
Possiamo adesso definire la “net affluence” cioè la misura della maggiore ricchezza del gruppo j rispetto a lgruppo h AL NETTO DELLA TRANSVARIAZIONE come differenza tra le due componenti: E sarà: Infine, definiamo la “Relative Net Affluence (REA)” come il rapporto tra la “net affluence” e il suo massimo:
Questa misura: È adimensionale (sia i p che i i d sono differenze di reddito e quindi il loro rapporto è un “puro numero” Può essere definita come una misura di “distanza economica direzionale” In sostanza REA misura la proporzione di Gjh (indice di Gini “tra” j e h) con cui le sottopopolazioni j e h contribuiscono alla disuguaglianza tra i gruppi, opportunamente ponderata per le numerosità e l’ammontare dei redditi (1-REA) misura la proporzione di Gjh dovuta alla transvariazione tra i gruppi, che ovviamente nella valutazione della “concentrazione TRA” i gruppi, costituisce un “fattore di disturbo”, o meglio una componente da isolare. Opportunamente ponderati, i prodotti (Gjh Djh) e [Gjh (1-Djh)] consentono di scomporre l’indice generale di Gini in 3 componenti: Conc. TOT = Conc. IN + Conc. TRA (NETTA) + Conc. Da TRANSVARIAZIONE
Dove:
La scomposizione chiarisce il meccanismo che determina la diseguaglianza: Consideriamo come sempio i gruppi Lavoratori Dipendenti e Lavoratori autonomi e supponiamo che il reddito medio dei dipendenti sia maggiore di quello degli autonomi Gw = Concentrazione ENTRO i gruppi, quota di concentrazione dovuta alla disuguaglianza interna a ciascun gruppo, cioè la parte di diseguaglianza legata DISTINTAMENTE alla differenza tra i redditi dei lavoratori dipendenti e i redditi dei lavoratori autonomi. Gnb = Concentrazione TRA NETTA (al netto della trans-variazione). E’ la parte dovuta alla differenza tra i redditi dei dipendenti e i redditi degli autonomi per i quali il redditi dei dipendenti è MAGGIORE. Gt = TRANSVARIAZIONE E’ la parte dovuta alla differenza tra i redditi dei dipendenti e i redditi degli autonomi per i quali il redditi dei dipendenti è MINORE.
Semplificando (troppo) con uno slogan potremmo dire: In generale i dipendenti sono più “ricchi” degli “autonomi” Gw = Misura la differenza ricchi-poveri dentro ciascuna categoria, indipendentemente dalla tendenza generale, cioè all’interno dei dipendenti e all’interno degli autonomi Gnb = misura la differenza ricchi-poveri tra coloro che rispettano la tendenza generale (le medie) cioè tra i dipendenti “ricchi” e gli autonomi “poveri” Gt = misura la differenza ricchi-poveri tra coloro che “invertono” la tendenza generale (quella delle medie) cioè tra autonomi “ricchi” e dipendenti “poveri”
Nel caso di diversi gruppi il calcolo è complesso ma Per calcolare le diverse componenti della scomposizione proposta da Dagum è disponibile una “macro” di Excell messa a punto da S. Mussard, F. Seyte e M. Terraza nel 2003. Il programma può essere scaricato gratuitamente al seguente indirizzo: http://www.lameta.univ-montp1.fr/online/gini.html. C’è anche a disposizione un codice SAS e R.