Appunti sulla concentrazione a.a. 2012-2013 v.3
Sommario Introduzione La curva di concentrazione Indici di concentrazione Confronti Riferimenti
Introduzione La concentrazione può essere studiata per caratteri trasferibili, ovvero caratteri quantitativi che, almeno in linea di principio, possono essere trasferiti tra le unità considerate. Es: il reddito è un carattere trasferibile (tra gli individui), come lo sono il patrimonio, il numero di azioni di una certa azienda (tra gli azionisti) e i finanziamenti ricevuti dalle regioni italiane (tra le regioni stesse). Es: l’età non è un carattere trasferibile (tra gli individui) e non lo è neppure l’intensità delle precipitazioni (tra le località considerate).
Introduzione Intuitivamente un carattere statistico (si pensi ad esempio al reddito) è tanto più concentrato quanto più risulta suddiviso tra poche unità della popolazione. Ogni situazione reale sarà intermedia tra due situazioni estreme che chiameremo di concentrazione massima e di equiripartizione. Si ha massima concentrazione quando una sola unità statistica possiede la totalità del carattere. Si parla invece di equiripartizione quando tutte le unità della popolazione possiedono la stessa quantità di carattere.
Curva di concentrazione Consideriamo un carattere quantitativo trasferibile; ordiniamo le quantità del carattere (intensità) possedute dalle unità statistiche in senso non decrescente: , e definiamo:
Curva di concentrazione Valgono le seguenti: (FN,QN)=(1,1) Qi ≤ Fi per ogni i La 2) segue dal fatto che: La curva di Lorenz (o curva di concentrazione) si ottiene rappresentando le coppie (Fi ,Qi) nello spazio cartesiano e congiungendole. Il generico punto (Fi ,Qi) della curva si può interpretare nel seguente modo: l’ (Fi ·100)% più povero di carattere possiede il (Qi · 100)% del carattere totale.
Curva di concentrazione La curva di concentrazione è sempre compresa, potendo eventualmente coincidere, tra le due seguenti: La bisettrice di equazione Q=F. Lungo la bisettrice Fi=Qi per ogni i da cui segue che ogni unità possiede una quantità di carattere pari alla media dello stesso nella popolazione. La bisettrice rappresenta quindi la situazione di equiripartizione. 2. La curva passante per i punti (Fi,0), i=1,…,N-1 e (1,1) In tal caso tutto il carattere è concentrato in una sola unità statistica (l’N-esima) e rappresenta quindi la situazione di massima concentrazione.
Un esempio Dati i redditi di 7 individui: per ricavare la curva di concentrazione organizziamo le osservazioni in tabella, (avendo cura di ordinarle in base ai valori di x; ad esempio X1=16 perché l’individuo più povero possiede 16), calcoliamo le coordinate dei punti (Fi,Qi) e le congiungiamo. Nel caso in esame la curva è più vicina alla bisettrice. i x_i F_i Q_i 1 16 0.1429 0.0494 2 21 0.2857 0.1142 3 23 0.4286 0.1852 4 32 0.5714 0.2840 5 62 0.7143 0.4753 6 80 0.8571 0.7222 7 90
Indici di concentrazione La curva di Lorenz-Gini è uno strumento grafico per rappresentare la concentrazione di un carattere. Può tuttavia essere comodo valutare la concentrazione attraverso un indice numerico. Intuitivamente, quanto più la bisettrice si discosta dalla curva di concentrazione tanto maggiore è la concentrazione del carattere. E’ naturale quindi costruire un indice di concentrazione basato sullo “scostamento” della curva dalla bisettrice. Una misura dello scostamento può essere basata: sulle distanze verticali tra la curva di concentrazione e la bisettrice sull’area compresa tra la curva di concentrazione e la bisettrice.
Indice di concentrazione (1) Le distanze verticali tra la curva di concentrazione e la bisettrice sono date da (Fi – Qi) e sono non negative. Un indice relativo di concentrazione si può ottenere dividendo la somma delle (Fi – Qi) per il valore massimo che tali differenze possono assumere: L’indice sopra è l’indice di concentrazione di Gini. Si ha 0 ≤ R ≤ 1 e in particolare: R = 0 nel caso di equiripartizione; infatti in tal caso Fi - Qi =0, i=1,2,…,N-1 R = 1 nel caso di massima concentrazione; infatti in tal caso Fi - Qi = Fi , i=1,2,…,N-1
Indice di concentrazione (2) L’area A in figura, compresa tra la curva di concentrazione e la retta di equidistribuzione prende il nome di area di concentrazione. Si noti che A è pari all’area del triangolo di coordinate (0,0) (1,0) (1,1) meno l’area B formata dai trapezi di altezza Fi-Fi-1 e basi Qi e Qi-1 : Area del trapezio: ½ x Somma delle basi x altezza A B
Indice di concentrazione (2) Un indice relativo di concentrazione si può ottenere dividendo l’area di concentrazione per il valore massimo che l’area può assumere: dove Amax si ottiene considerando l’area nel caso x1 =…= xN-1 =0, xN=Nμ e risulta pari a 1/2 – (1/N)(1)(1/2)=(N-1)/2N. Per costruzione è 0 ≤ R ≤ 1, in particolare: R=0 nel caso di equiripartizione R=1 nel caso di massima concentrazione Si può dimostrare che il rapporto così costruito è uguale ad R.
Indice di concentrazione (3) Un altro indice di concentrazione, sempre basato sull’area, si può ottenere osservando che quest’ultima non può superare il valore 1/2. Possiamo quindi rapportare l’area di concentrazione al suo valore massimo teorico: Si ha (perché?) con i due indici che tendono a coincidere per N grande.
Un esempio i x_i F_i Q_i (Fi-Qi) 1 16 0.1429 0.0494 0.0935 2 21 0.2857 Dati i redditi di 7 individui: per ricavare la curva di concentrazione organizziamo le osservazioni in tabella, avendo cura di ordinarle in base ai valori di x, (ad esempio X1=16 perché l’individuo più povero possiede 16) e calcoliamo le differenze (Fi-Qi): i x_i F_i Q_i (Fi-Qi) 1 16 0.1429 0.0494 0.0935 2 21 0.2857 0.1142 0.1715 3 23 0.4286 0.1852 0.2434 4 32 0.5714 0.2840 0.2875 5 62 0.7143 0.4753 0.2390 6 80 0.8571 0.7222 0.1349 7 90 Totale 324 1.1698
Un esempio i x_i F_i Q_i (Fi-Fi-1)(Qi+Qi-1) 1 16 0.1429 0.0494 0.0070 Data i redditi di 7 individui: Per calcolare R con la formula (2) usiamo una tabella simile alla precedente per ricavare il numeratore. L’area massima che compare a denominatore è pari all’area massima teorica meno l’area del triangolo di base F7-F6 e altezza 1. Il calcolo di Ř è del tutto analogo: è sufficiente porre l’area massima pari a ½. i x_i F_i Q_i (Fi-Fi-1)(Qi+Qi-1) 1 16 0.1429 0.0494 0.0070 2 21 0.2857 0.1142 0.0233 3 23 0.4286 0.1852 0.0427 4 32 0.5714 0.2840 0.0670 5 62 0.7143 0.4753 0.1085 6 80 0.8571 0.7222 0.1710 7 90 0.2461 Totale 0.6658
Variabili statistiche discrete Finora abbiamo considerato N osservazioni non raggruppate. Per ricavare l’indice o la curva di concentrazione a partire da una distribuzione di frequenze assolute possiamo usare le seguenti versioni “ponderate” di Fi e Qi: dove x1,…,xk sono k valori distinti ordinati in modo non decrescente con numerosità n1 ,…,nk.
Variabili statistiche discrete Con le coppie (Fi* ,Qi*) si può ottenere un indice analogo ad R: In generale R≠R* sugli stessi dati. Infatti con l’indice sopra la situazione di massima concentrazione si ha quando tutto il carattere appartiene alla k-esima classe (e non all’ N-esimo individuo come nel caso di R). Unendo le coppie (Fi* ,Qi*) si ottiene la stessa curva di concentrazione che si otterrebbe utilizzando con i dati unitari. Infatti si può dimostrare che la pendenza della curva non cambia passando tra individui che hanno lo stesso ammontare di carattere. L’unica differenza è che ora per ottenere la spezzata si devono congiungere k<N punti.
Variabili statistiche continue per intervallo Se si desidera ricavare l’indice o la curva di concentrazione per una variabile continua per intervallo, il modo più semplice di procedere consiste nel “discretizzare” la variabile considerando le frequenze “concentrate” nei punti medi degli intervalli. Si può poi procedere come nel caso precedente. Nel caso in cui si disponga dell’informazione sull’ammontare totale di carattere in un intervallo è consigliabile discretizzare gli intervalli in modo “coerente” con tale informazione. Esempio: se nell’intervallo [5,15) di numerosità Ni=10 il carattere totale è pari a 60 è preferibile discretizzare l’intervallo assumendo come punto “medio” il valore 6 e non il valore 10 (al quale corrisponderebbe un reddito totale di 100 e non di 60). Si noti che devono essere note le numerosità degli intervalli per poter procedere in questo modo.
Variabili statistiche continue Se X è una variabile statistica continua non negativa con densità f(x) e media finita μ le espressioni delle frequenze e delle intensità cumulate diventano: Nota: Talvolta si esprimono F e Q in funzione della frequenza cumulata r. In tal caso si ha x = F-1( r ) da cui le nuove variabili:
Variabili statistiche continue Il valore di R per un carattere con distribuzione continua si può ottenere, come nel caso discreto, rapportando l’area di concentrazione al suo valore massimo, pari ad 1/2: L’indice di Gini è quindi pari a due volte l’area di concentrazione. Nota: essendo Amax =1/2 si ha R=Ř.
Confronti Può essere interessante confrontare la concentrazione di due caratteri (o equivalentemente dello stesso carattere in due istanti diversi, o in due ambiti territoriali diversi) Esempio 1: il reddito risulta più concentrato in Italia o in Francia? Esempio 2: la concentrazione del reddito in Italia era maggiore negli anni ‘80 o negli anni ‘90? Un modo semplice per stabilire quale carattere è maggiormente concentrato è quello di confrontare graficamente le curve di concentrazione nei due ambiti territoriali (o temporali) e stabilire quale si trova al di sopra.
Confronti Non è detto che una delle due curve sia al di sopra dell’altra: le curve si possono intersecare. Si può tuttavia mostrare che se il carattere varia linearmente tra gli ambiti considerati allora le curve non si intersecano. In generale, si può effettuare il confronto usando l’indice di Gini. Poiché G=2A=1-2*Area_sotto_la_curva_Lorenz il confronto attraverso l’indici di Gini equivale al confronto tra le aree al di sotto delle curve di Lorenz dei due caratteri.
Fonte: CIA, The world Factbook 2009 Confronti Esempio: la concentrazione del reddito nel mondo usando l’indice R. Fonte: CIA, The world Factbook 2009
Esempio di Confronto Tra Distribuzioni Si riportano di seguito le distribuzioni dei finanziamenti concessi da un istituto bancario per l’acquisto della prima casa a giovani coppie residenti in Campania ed in Sardegna: In quale regione risulta più elevata la concentrazione dei finanziamenti concessi? Confrontare graficamente i diversi livelli di concentrazione dei finanziamenti nelle due regioni
Concentrazione dei finanziamenti in Sardegna
Concentrazione dei finanziamenti in Campania
La curva di Lorenz conferma questo risultato La concentrazione è più elevata in Sardegna La curva di Lorenz conferma questo risultato
Riferimenti C. Gini (1912) Variabilità e mutabilità. Contributo allo studio delle distribuzioni e relazioni statistiche, Studi economici-giuridici dela Regia Università di Cagliari, anno III. Lorenz, M. O. (1905). "Methods of measuring the concentration of wealth". Publications of the American Statistical Association (Publications of the American Statistical Association, Vol. 9, No. 70) 9 (70): 209–219. Per ulteriori riferimenti si possono consultare utilmente le pagine di Wikipedia relative all’indice di Gini e alla curva di Lorenz.