Indice di concentrazione di Gini

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

8) GLI INTERVALLI DI CONFIDENZA
Appunti di analisi matematica: Integrale Definito
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Circonferenza e cerchio
I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT
____________________
LA VARIABILITA’ IV lezione di Statistica Medica.
LA DISTRIBUZIONE NORMALE
Esercizio 1 Un filo indefinito è costituito da due semirette AB e BC formanti un angolo retto, come in figura Il filo è percorso da una corrente I = 10.
Disuguaglianze, povertà, vulnerabilità
esponente del radicando
Progetto Pilota 2 Lettura e interpretazione dei risultati
Gli Integrali.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Capitolo 9 I numeri indici
La distribuzione del reddito
Concentrazione di imprese
Analisi della varianza (a una via)
COSA VUOL DIRE FARE STATISTICA
Processi Aleatori : Introduzione – Parte I
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
STATISTICA a.a PARAMETRO t DI STUDENT
Modello di regressione lineare semplice
Analisi dei gruppi – Cluster Analisys
Misurazione Le osservazioni si esprimono in forma di misurazioni
Parte I (introduzione) Taratura degli strumenti (cfr: UNI 4546) Si parla di taratura in regime statico se lo strumento verrà utilizzato soltanto per misurare.
MASSIMI E MINIMI DI UNA FUNZIONE
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
I principali tipi di grafici
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Pier Giorgio Ardeni Dipartimento di Scienze Economiche
COVARIANZA e CORRELAZIONE.
Simone Mosca & Daniele Zucchini 4Bi.
La Variabilità e La Concentrazione
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
Prof. Francesco Gaspare Caputo
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Che cos’è e come si misura la disuguaglianza economica
PROPAGAZIONE DEGLI ERRORI:
Appunti sulla concentrazione
I mercati dei beni e i mercati finanziari: il modello IS-LM
1 Introduzione Sistema di calcolo Valutazione dell’impatto delle varie modifiche sulle prestazioni globali del sistema Modifiche all’architettura.
Appunti sulla concentrazione
Lezione B.10 Regressione e inferenza: il modello lineare
Problema retta tangente:
Indicatori di ineguaglianza e povertà
Pier Giorgio Ardeni Dipartimento di Scienze Economiche
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
STATISTICHE DESCRITTIVE
analisi bidimensionale #2
1 Lezione XV-b Avviare la presentazione col tasto “Invio”
La covarianza.
Analisi matematica Introduzione ai limiti
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Gli Indici di VARIABILITA’
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Esercitazioni su testi d’esame A cura di Gabriella della Pietra.
Transcript della presentazione:

Indice di concentrazione di Gini Data una variabile y misurata su N individui Si ordinano i dati in ordine crescente Si considera la quota di Y detenuta dai primi i individui (i=1,2,…N) E la quota di individui con y  yi Definiamo le seguenti quantità: pi = frazione di A “fino” alla classe i qi = frazione di unità “fino” alla classe i Compreso tra 0 e 1

Spiegazione grafica: Curva di Lorentz Se rappresentiamo le coppie pi ; qi in un grafico cartesiano e le congiungiamo otteniamo una spezzata che prende il nome di curva di concentrazione (o curva di Lorenz-Gini). Esempio: I redditi di 7 individui sono: 80, 90, 21, 23, 16, 32, 62. Dopo aver ordinato i redditi si ottengono le coppie di punti: pi ; qi In questo modo E questo grafico:

Curva di concentrazione Osservazioni: (p0,q0)=(0,0) e (pN,qN)=(1,1) qi ≤ pi Dimostrazione

Il generico punto (pi ,qi) della curva si può interpretare nel seguente modo: Il (pi ·100)% più povero possiede il (qi · 100)% del reddito totale. La curva parte sempre da (0,0) e termina sempre in (1,1). Inoltre, essendo qi ≤ pi, la curva giace sempre al di sotto della retta passante per questi due punti (bisettrice). La curva è sempre comprese tra le due seguenti (potendo eventualmente coincidere): La curva che giace sulla bisettrice. Essa è tale per cui pi=qi per ogni i da cui segue che ogni unità possiede una quantità di carattere pari alla media del carattere. Rappresenta quindi la situazione di equiripartizione. La curva passante per i punti (Fi,0) i=1,…,N-1 ed (1,1). Essa corrisponde alla situazione in cui tutto il carattere è concentrato in una sola unità statistica (l’N-esima) e rappresenta quindi la situazione di massima concentrazione.

Intuitivamente, quanto più la bisettrice si discosta dalla curva di concentrazione tanto più aumenta la concentrazione del carattere. E’ naturale quindi costruire indici di concentrazione basati sullo “scostamento” della curva dalla bisettrice. Ad esempio si potrebbero usare: Le distanze verticali tra la curva di concentrazione e la bisettrice; L’area compresa tra la curva di concentrazione e la bisettrice. In ambedue i casi arriviamo all’indice di concentrazione di Gini.

Le distanze verticali tra la curva di concentrazione e la bisettrice sono date da pi – qi Si noti come pi-qi ≥ 0 per ogni i Sommando le differenze e dividendo per il valore Massimo che tali differenze possono assumere ( tuuti i qi sono nulli tranne l’ultimo) otteniamo una formulazione dell’indice di concentrazione di Gini R vale 0 nel caso di equi-ripartizione (pi - qi =0 per ogni i) R vale 1 nel caso di massima concentrazione pi - qi = pi i  (pi - qn )= (pi )

In alternativa misuriamo l’area tra la curva di concentrazione e la retta di equidistribuzione prende il nome di area di concentrazione. Si noti come l’area di concentrazione sia sempre maggiore o uguale a zero. In particolare: nel caso di equiripartizione è pari a zero; al crescere della concentrazione cresce senza mai superare il valore 1/2.

Una misura esatta dell’area A di concentrazione può essere ottenuta sottraendo all’area del triangolo la somma delle aree degli n trapezi delimitati dai punti (Fi,Qi) per i =0,1,…,n. Area del trapezio: ½ x Somma delle basi x altezza A altezza Somma basi

Un indice di concentrazione si può ottenere dividendo l’area di concentrazione per il valore assunto da tale area nel caso di concentrazione massima: Dove si ottiene considerando x1 =…= xN-1 =0 e xN=Nμ e risulta pari a (N-1)/2N. Si può dimostrare che il rapporto così costruito è uguale all’indice definito in precedenza ovvero l’indice di concentrazione di Gini si può ricavare anche dividendo l’area di concentrazione per il suo valore massimo.

Il Fattore (N-1)/N Tende molto rapidamente ad 1 al crescere di N, quindi per N “grande” l’area di concentrazione sarà data dalla differenza tra l’area del triangolo sotteso alla bisettrice pari a 1/2 e la somma delle aree dei singoli “trapezi” senza normalizzazione otteniamo l’indice di concentrazione di Gini in altra formulazione: Per N=25 la differenza tra gli indici è del 4% e per N=50 è del 2% Vedi esempio Excell

Vi sono molti modi per calcolare l’indice di Gini: Ad esempio riprendiamo la definizione di una misura di variabilità (poco usata) DIFFERENZA MEDIA ASSOLUTA (CON RIPETIZIONE): Questa misura può essere interpretata come la differenza attesa tra i redditi di due individui selezionati in modo casuale dalla popolazione. E’ immediato dimostrare che in caso di equidistribuzione  = 0 E in casi di massima concentrazione  = 2

Rapportando  al suo massimo ottengo un indice di concentrazione che è proprio l’indice G di Gini Questa formulazione calcolatoriamente più complicata, si presta però ad una SCOMPOSIZIONE IMPORTANTE DELL’INDICE Tra una componente “entro” e una “tra” in modo simile alla scomposizione della Varianza. Come vedremo

Prima (usuale) scomposizione Sia data una popolazione di N unità distinte in K gruppi su cui è misurata una variabile “trasferibile” Y (es. reddito) con media . L’indice G sarà: Definiamo due “nuovi indici”: L’indice di Gini “ENTRO” il gruppo j-esimo di numerosità nj e media µj Derivato dalle differenze tra gli appartenenti al gruppo j-esimo L’indice di Gini “TRA” il gruppo j-esimo e h-esimo : Derivato dalle differenze di tutti gli appartenenti al gruppo J e tutti gli apparteneti al gruppo h

Scomposizione (proposta Dagum) Ovviamente l’indice G (generale) sarà una media ponderata degli indici “IN” e “TRA” Definiamo i seguenti pesi: = quota della popolazione del gruppo j = quota di reddito della popolazione del gruppo j Allora l’indice G può essere scomposto in:

Questa scomposizione ha, tuttavia, un problema molto rilevante: Normalmente i gruppi in cui viene suddivisa la popolazione, dal punto di vista dello ammontare del reddito hanno aree di sovrapposizione: Ad esempio vi saranno alcuni pensionati che percepiscono un reddito superiore a quello di alcuni lavoratori dipendenti, PUR ESSENDO IL REDDITO MEDIO DEI LAVORATORI DIPENDENTI SUPERIORE A QUELLO DEI PENSIONATI Come è noto, questo fenomeno va sotto il nome di TRANSVARIAZIONE Il problema nasce dl fatto che essendo la differenza media calcolata in base ai valori assoluti, essa è “adirezionale” cioè da lo stesso peso alla differenza di reddito dipendente maggiore di un reddito di pensione e viceversa. Un pensionato che guadagna 2000 euro contro un dipendente che ne percepisce 1000 Contribuisce alla misura della differenza TRA come un dipendente che guadagna 2000 e un pensionato che percepisce 1000 E’ evidente che il primo caso dovrebbe “abbassare” l’indice, mentre il secondo dovrebbe incrementarlo

Dagum propone una una ulteriore e diversa scomposizione dell’indice per tener conto della transvariazione. Seguiamo la sua proposta riprendendo il problema dall’inizio:

Sia data una popolazione Q di n percettori con reddito yi con media  partizionata in K gruppi essendo il gruppo j caratterizzato da numerosità nj e media j (j=1…..K). Si supponga che i gruppi siano ordinati in ordine crescente di valor medio Siano Le quote di popolazione e di reddito di ciascun gruppo Definiamo: Differenza media tra i gruppi j e h, generalizzazione della differenza media di Gini Indice di Gini della differenza TRA i gruppi j e k Naturalmente sarà:

Definiamo la relazione “più ricca di” (more affluent than) Un gruppo j sarà “più ricco di” un gruppo k se j > k Definiamo una misura di “gross affluence” tra due gruppi j e k Media delle differenze tra i redditi dei soggetti  j che hanno un reddito superiore ai soggetti  k E una misura della “transvariazione” tra i gruppi j e k (attenzione agli indici!) Media delle differenze tra i redditi dei soggetti  k che hanno un reddito superiore ai soggetti  j

Dato che le due misure “scompongono” le differenze in valore assoluto, è agevole dimostrare che dato j > k sia ha: Inoltre se non vi è sovrapposizione tra i redditi dei gruppi (transvariazione=0) e se j = k

Possiamo adesso definire la “net affluence” cioè la misura della maggiore ricchezza del gruppo j rispetto a lgruppo h AL NETTO DELLA TRANSVARIAZIONE come differenza tra le due componenti: E sarà: Infine, definiamo la “Relative Net Affluence (REA)” come il rapporto tra la “net affluence” e il suo massimo:

Questa misura: È adimensionale (sia i p che i i d sono differenze di reddito e quindi il loro rapporto è un “puro numero” Può essere definita come una misura di “distanza economica direzionale” In sostanza REA misura la proporzione di Gjh (indice di Gini “tra” j e h) con cui le sottopopolazioni j e h contribuiscono alla disuguaglianza tra i gruppi, opportunamente ponderata per le numerosità e l’ammontare dei redditi (1-REA) misura la proporzione di Gjh dovuta alla transvariazione tra i gruppi, che ovviamente nella valutazione della “concentrazione TRA” i gruppi, costituisce un “fattore di disturbo”, o meglio una componente da isolare. Opportunamente ponderati, i prodotti (Gjh Djh) e [Gjh (1-Djh)] consentono di scomporre l’indice generale di Gini in 3 componenti: Conc. TOT = Conc. IN + Conc. TRA (NETTA) + Conc. Da TRANSVARIAZIONE

Dove:

La scomposizione chiarisce il meccanismo che determina la diseguaglianza: Consideriamo come sempio i gruppi Lavoratori Dipendenti e Lavoratori autonomi e supponiamo che il reddito medio dei dipendenti sia maggiore di quello degli autonomi Gw = Concentrazione ENTRO i gruppi, quota di concentrazione dovuta alla disuguaglianza interna a ciascun gruppo, cioè la parte di diseguaglianza legata DISTINTAMENTE alla differenza tra i redditi dei lavoratori dipendenti e i redditi dei lavoratori autonomi. Gnb = Concentrazione TRA NETTA (al netto della trans-variazione). E’ la parte dovuta alla differenza tra i redditi dei dipendenti e i redditi degli autonomi per i quali il redditi dei dipendenti è MAGGIORE. Gt = TRANSVARIAZIONE E’ la parte dovuta alla differenza tra i redditi dei dipendenti e i redditi degli autonomi per i quali il redditi dei dipendenti è MINORE.

Semplificando (troppo) con uno slogan potremmo dire: In generale i dipendenti sono più “ricchi” degli “autonomi” Gw = Misura la differenza ricchi-poveri dentro ciascuna categoria, indipendentemente dalla tendenza generale, cioè all’interno dei dipendenti e all’interno degli autonomi Gnb = misura la differenza ricchi-poveri tra coloro che rispettano la tendenza generale (le medie) cioè tra i dipendenti “ricchi” e gli autonomi “poveri” Gt = misura la differenza ricchi-poveri tra coloro che “invertono” la tendenza generale (quella delle medie) cioè tra autonomi “ricchi” e dipendenti “poveri”

Nel caso di diversi gruppi il calcolo è complesso ma Per calcolare le diverse componenti della scomposizione proposta da Dagum è disponibile una “macro” di Excell messa a punto da S. Mussard, F. Seyte e M. Terraza nel 2003. Il programma può essere scaricato gratuitamente al seguente indirizzo: http://www.lameta.univ-montp1.fr/online/gini.html. C’è anche a disposizione un codice SAS e R.