Appunti sulla concentrazione

Slides:



Advertisements
Presentazioni simili
8) GLI INTERVALLI DI CONFIDENZA
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.
Funzioni di due variabili
____________________
LA VARIABILITA’ IV lezione di Statistica Medica.
Intervalli di confidenza
Proprietà degli stimatori
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
Variabili casuali a più dimensioni
Definizioni Chiamiamo esperimento aleatorio ogni fenomeno del mondo reale alle cui manifestazioni può essere associata una situazione di incertezza. Esempi:
Progetto Pilota 2 Lettura e interpretazione dei risultati
Gli Integrali.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
Elementi di Matematica
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
Processi Aleatori : Introduzione – Parte I
RAPPRESENTAZIONE GRAFICA DI UNA FUNZIONE
Studente Claudia Puzzo
Misurazione Le osservazioni si esprimono in forma di misurazioni
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
I principali tipi di grafici
Le distribuzioni campionarie
Indice di concentrazione di Gini
Le rappresentazioni grafiche
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Pier Giorgio Ardeni Dipartimento di Scienze Economiche
Simone Mosca & Daniele Zucchini 4Bi.
La Variabilità e La Concentrazione
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
PROPAGAZIONE DEGLI ERRORI:
Appunti sulla concentrazione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
Lezione B.10 Regressione e inferenza: il modello lineare
Corso di Analisi Statistica per le Imprese
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
IL CAMPIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
La variabile casuale (v.c.) è un modello matematico in grado di interpretare gli esperimenti casuali. Infatti gli eventi elementari  che compongono lo.
Intervalli di confidenza
LA RETTA Assi cartesiani e rette ad essi parallele
La distribuzione campionaria della media
A.A STATISTICA E CALCOLO DELLE PROBABILITA’ Docenti: Stefania Mignani Maurizio Brizzi.
Elaborazione statistica di dati
Teoria del consumo: la scelta del consumatore
ANALISI E INTERPRETAZIONE DATI
Statistica – L33 (prof. Pellegrini)
Esercitazione n. 2 La scelta del consumatore
LA RETTA NEL PIANO CARTESIANO
APPUNTI DI GEOMETRIA ANALITICA DELLA RETTA
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Le funzioni matematiche e il piano cartesiano
Analisi matematica Introduzione ai limiti
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
La circonferenza e l’ellisse La sezione conica è l’intersezione di un piano con un cono. La sezione cambia a seconda dell’inclinazione del piano. Se il.
IL PIANO CARTESIANO E LA RETTA
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
1 VARIABILI CASUALI. 2 definizione Una variabile casuale è una variabile che assume determinati valori in modo casuale (non deterministico). Esempi l’esito.
Luoghi di punti In geometria il termine
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
La Circonferenza. LA CIRCONFERENZA Assegnato nel piano un punto C detto Centro, si chiama circonferenza la curva piana con i punti equidistanti da C.
Gli Indici di VARIABILITA’
Esercitazioni su testi d’esame A cura di Gabriella della Pietra.
Transcript della presentazione:

Appunti sulla concentrazione a.a. 2013-2014 massimo.cannas@unica.it

Indice Che cos’è la concentrazione? La curva di concentrazione di Lorenz L’indice di concentrazione di Gini Confrontare la concentrazione di due caratteri Riferimenti

Che cos’è la concentrazione “There may be wide difference of opinion as to the significance of a very unequal distribution of wealth, but there can be no doubt as to the importance of knowing whether the present distribution is becoming more or less unequal.” C. Lorenz

Che cos’è la concentrazione Intuitivamente un carattere statistico (si pensi ad esempio al reddito) è tanto più concentrato quanto più risulta suddiviso tra poche unità della popolazione. Ogni situazione reale sarà intermedia tra due situazioni estreme che chiameremo di concentrazione massima e di equiripartizione. Si ha massima concentrazione quando una sola unità statistica possiede la totalità del carattere. Si parla invece di equiripartizione quando tutte le unità della popolazione possiedono la stessa quantità di carattere. Per lo studio della concentrazione sono utili: La curva di concentrazione di Lorenz L’indice di concentrazione di Gini

Che cos’è la concentrazione La concentrazione può essere studiata per caratteri trasferibili, ovvero caratteri quantitativi che, almeno in linea di principio, possono essere trasferiti tra le unità considerate. Es: l’età non è un carattere trasferibile (tra gli individui) e non lo è neppure l’intensità delle precipitazioni (tra le località considerate). Es: il reddito e il patrimonio sono carattere trasferibili (tra gli individui). Il numero di azioni di una certa azienda è trasferibile (ad esempio tra gli azionisti). I finanziamenti ricevuti dalle regioni italiane sono trasferibili (ad esempio tra le regioni o altri enti dello stato).

Curva di concentrazione Consideriamo una popolazione di N individui e ordiniamo le quantità del carattere (intensità) possedute dalle unità statistiche in senso non decrescente: 0 ≤ x1 … ≤ xN. Definiamo, per i=1…N :

Curva di concentrazione Poniamo (F0,Q0)=(0,0). Definiamo curva di Lorenz la spezzata che si ottiene congiungendo le coppie (Fi,Qi) sul piano cartesiano. Il generico punto (Fi,Qi) si può interpretare in questo modo: l’ Fi per cento più povero della popolazione possiede il Qi per cento del carattere totale. Vale sempre (FN,QN) = (1,1) quindi la curva congiunge l’origine degli assi con il punto (1,1). La curva è convessa essendo Qi ≤ Fi per ogni i. Quest’ultima diseguaglianza segue dal fatto che:

Curva di concentrazione La curva di concentrazione è sempre compresa, potendo eventualmente coincidere, tra le due curve seguenti: La bisettrice di equazione Q=F. Lungo la bisettrice Fi=Qi per ogni i, da cui segue che ogni unità possiede una quantità di carattere pari alla media dello stesso nella popolazione. La bisettrice rappresenta quindi la situazione di equiripartizione. La curva passante per i punti (Fi,0), i=1,…,N-1. In tal caso tutto il carattere è concentrato in una sola unità statistica (l’N-esima) e la curva rappresenta quindi la situazione di massima concentrazione.

Esempio: curva di Lorenz Dati i redditi di 7 individui: per ricavare la curva di concentrazione organizziamo le osservazioni in tabella, (avendo cura di ordinarle in base ai valori di x; ad esempio X1=16 perché l’individuo più povero possiede 16), calcoliamo le coordinate dei punti (Fi,Qi) e le congiungiamo. Nel caso in esame la curva è più vicina alla bisettrice. i x_i F_i Q_i 1 16 0.1429 0.0494 2 21 0.2857 0.1142 3 23 0.4286 0.1852 4 32 0.5714 0.2840 5 62 0.7143 0.4753 6 80 0.8571 0.7222 7 90

Indice di concentrazione di Gini Intuitivamente, quanto più la bisettrice si discosta dalla curva di concentrazione tanto maggiore è la concentrazione del carattere. E’ naturale quindi costruire un indice di concentrazione basato sullo “scostamento” della curva dalla bisettrice. Come misura dello scostamento si può utilizzare: la distanza verticale tra la curva di concentrazione e la bisettrice l’area compresa tra la curva di concentrazione e la bisettrice Come vedremo le due misure danno luogo allo stesso indice…

Calcolo dell’indice di Gini - 1 Definiamo indice di concentrazione di Gini il rapporto tra la somma delle distanze verticali tra la curva di concentrazione e la bisettrice e il valore massimo di tale somma: R = 0 nel caso di equiripartizione (ovvero quando Fi - Qi = ?) R = 1 nel caso di massima concentrazione (ovvero quando un solo individuo possiede tutto il carattere: Fi - Qi = Fi , i=1,2,…,N-1)

Area di concentrazione Si definisce area di concentrazione l’area compresa tra la curva di concentrazione e la retta di equidistribuzione. Area del trapezio: ½ x Somma delle basi x altezza A Nella figura è indicata con A. E’ pari all’area del triangolo di coordinate (0,0) (1,0) (1,1) meno l’area dai trapezi di altezza Fi-Fi-1 e base Qi e Qi-1

Calcolo dell’indice di Gini - 2 L’indice di Gini si può calcolare anche dividendo l’area di concentrazione per il suo valore massimo: R=0 nel caso di equiripartizione (A =?) R=1 nel caso di massima concentrazione (A=Amax). L’area di concentrazione è massima quando un solo individuo, l’N-esimo, possiede tutto il carattere: x1 =…= xN-1 =0, xN=Nμ e quindi Amax =(N-1)/2N.

Calcolo dell’indice di Gini - 3 L’are di concentrazione non può superare il valore 0.5. Si può quindi ottenre un’approssimazione (che indichiamo con Ř) dell’indice di Gini dividendo l’area di concentrazione per 0.5: L’indice Ř è pari a due volte l’area di concentrazione. Si ha Ř < R (perché?) con i due indici che tendono a coincidere per N grande.

Esempio: indice di Gini Dati i redditi di 7 individui: per ricavare l’indice di concentrazione organizziamo le osservazioni in tabella, avendo cura di ordinarle in base ai valori di x, (ad esempio X1=16 perché l’individuo più povero possiede 16 e così via…) i x_i F_i Q_i (Fi-Qi) 1 16 0.1429 0.0494 0.0935 2 21 0.2857 0.1142 0.1715 3 23 0.4286 0.1852 0.2434 4 32 0.5714 0.2840 0.2875 5 62 0.7143 0.4753 0.2390 6 80 0.8571 0.7222 0.1349 7 90 Totale 324 1.1698 Utilizzando la formula (1) abbiamo:

Esempio: indice di Gini (continua) Data i redditi di 7 individui: Per calcolare R con la formula (2) usiamo una tabella simile alla precedente per ricavare il numeratore. L’area massima che compare a denominatore è pari all’area massima teorica meno l’area del triangolo di base F7-F6 e a altezza 1. Il calcolo di Ř è del tutto analogo: è sufficiente porre il denominatore pari ½. i x_i F_i Q_i (Fi-Fi-1)(Qi+Qi-1) 1 16 0.1429 0.0494 0.0070 2 21 0.2857 0.1142 0.0233 3 23 0.4286 0.1852 0.0427 4 32 0.5714 0.2840 0.0670 5 62 0.7143 0.4753 0.1085 6 80 0.8571 0.7222 0.1710 7 90 0.2461 Totale 0.6658

Come calcolare l’indice per variabili statistiche discrete Finora abbiamo considerato N osservazioni non raggruppate. Per ricavare l’indice o la curva di concentrazione a partire da una distribuzione di frequenza possiamo usare le seguenti versioni “ponderate” di Fi e Qi: dove x1,…,xk sono k valori distinti ordinati in modo non decrescente con numerosità n1 ,…,nk.

Come calcolare l’indice per variabili statistiche discrete Unendo le coppie (Fi* ,Qi*) si ottiene la stessa curva di concentrazione che si otterrebbe utilizzando i dati non raggruppati (infatti si può dimostrare che la pendenza della curva non cambia passando tra individui che hanno lo stesso ammontare di carattere. L’unica differenza è che ora per ottenere la spezzata si devono congiungere k<N punti) Possiamo usare le coppie (Fi* ,Qi*)per calcolare l’indice di Gini: In generale R ≠ R* sugli stessi dati. Infatti con R* la situazione di massima concentrazione si ha quando tutto il carattere appartiene alla k-esima classe (e non all’ N-esimo individuo come nel caso di R).

Come calcolare l’indice per variabili continue per intervallo Se si desidera ricavare la curva di concentrazione e l’indice di Gini per una variabile continua per intervallo, il modo più semplice di procedere consiste nel “discretizzare” la variabile considerando le frequenze “concentrate” nei punti medi degli intervalli. Si può poi procedere come nel caso di v.s discreta. Nota: Nel caso in cui si disponga dell’informazione sull’ammontare totale di carattere in un intervallo si possono discretizzare gli intervalli in modo “coerente” con tale informazione. Esempio: se nell’intervallo [5,15) di numerosità Ni=10 il carattere totale è pari a 60 è preferibile discretizzare l’intervallo assumendo come punto “medio” il valore 6 e non il valore 10 (al quale corrisponderebbe un reddito totale di 100 e non di 60). Si noti che devono essere note le numerosità degli intervalli per poter procedere in questo modo.

Come calcolare l’indice per variabili statistiche continue Se X è una variabile statistica continua non negativa con densità f(x) e media finita μ le espressioni delle frequenze e delle intensità cumulate sono:

Come calcolare l’indice per variabili statistiche continue Solitamente nel caso continuo si esprime Q direttamente in funzione della frequenza cumulata r. Ponendo F(x) = r si ottengono le due nuove variabili: dove Q(r) è interpretabile per ogni r in [0,1] come la proporzione di carattere posseduta dal 100r % più povero della popolazione.

Come calcolare l’indice per variabili statistiche continue Nel caso continuo l’area di concentrazione massima è pari ad ½ e quindi il l’indice di Gini è: R = A/Amax = 2A =1-2B. Per ricavare R si può adattare la formula (3) già vista nel caso discreto:

La share density E’ possibile associare ad ogni curva di Lorenz un numero aleatorio (Farris, 2010). Per farlo riscriviamo la (5) usando i quantili: Dalla prima uguaglianza è detta share density perché esprime la quota di carattere posseduta dalle unità che cadono tra i quantili rj-1 ed rj. Dalla seconda uguaglianza si ricava s(r) =d/dr[Q(r)]. Essendo s(r) > 0 e ∫ s(r)dr=Q(1)=1 la share density è una funzione di densità di probabilità. Quale esperimento genera un numero casuale con densità s(r)? Ad esempio il seguente: si estrae un euro a caso del reddito totale e gli si associa il percentile R di reddito dell’unità a cui appartiene. Allora R ha densità di probabilità s(r).

Confronti Può essere interessante confrontare la concentrazione di due caratteri oppure dello stesso carattere ma in due istanti diversi o in due ambiti territoriali diversi. Esempio 1: il reddito è più concentrato in Italia o in Francia? Esempio 2: la concentrazione del reddito in Italia è maggiore adesso oppure era più alta 10 anni fa? Un modo intuitivo per stabilire quale carattere è maggiormente concentrato è quello di confrontare graficamente le curve di concentrazione nei due ambiti territoriali (o temporali) e stabilire quale si trova al di sopra.

Confronti Non è detto che una delle due curve sia al di sopra dell’altra: le curve si possono intersecare. Si può tuttavia mostrare che se il carattere varia linearmente tra gli ambiti considerati allora le curve non si intersecano. Si può sempre effettuare il confronto usando l’indice di Gini. Poiché G=2A=1-2*Area_sotto_la_curva_Lorenz il confronto attraverso l’indice di Gini equivale al confronto tra le aree al di sotto delle curve di Lorenz dei due caratteri. Occorre quindi una certa cautela prima di confrontare, ad esempio, la concentrazione del reddito in due paesi con l’indice di Gini: infatti le aree al di sotto della curva possono essere le stesse anche in presenza di distribuzioni del carattere completamente diverse ! (Atkinson)

Confronti La concentrazione del reddito nel mondo usando l’indice di Gini. Fonte: CIA, The world Factbook 2009 (dati 1989-2009)

Esempio di Confronto Tra Distribuzioni Si riportano di seguito le distribuzioni dei finanziamenti concessi da un istituto bancario per l’acquisto della prima casa a giovani coppie residenti in Campania ed in Sardegna: In quale regione risulta più elevata la concentrazione dei finanziamenti concessi? Confrontare graficamente i diversi livelli di concentrazione dei finanziamenti nelle due regioni

Concentrazione dei finanziamenti in Sardegna

Concentrazione dei finanziamenti in Campania

La curva di Lorenz conferma questo risultato La concentrazione è più elevata in Sardegna La curva di Lorenz conferma questo risultato

Inferenza Finora abbiamo assunto di avere a disposizione i dati relativi all’intera popolazione di N unità. Supponiamo di voler fare inferenza sulla curva e sull’indice di concentrazione della popolazione utilizzando un campione di n unità. Una stima della curva di concentrazione si ottiene rappresentando graficamente le coppie (Fi,Qi) campionarie come nel caso discreto. Dalla curva si può ricavare facilmente una stima dell’indice di Gini usando le formule (1) o (2). Il valore così ricavato è però una sottostima di R perché l’area di concentrazione della curva stimata è minore o uguale a quella effettiva.

Inferenza Uno stimatore non distorto dell’indice di Gini si può ricavare sfruttando la relazione: R=Δ/2μ dove: Δ = differenza media semplice tra le osservazioni μ = media delle osservazioni che possono essere stimate rispettivamente con: Δ^ = 1/[n(n-1)] ΣiΣj|xi-xj| x^ = 1/n Σixi

Esercizi I redditi dei top 10 giocatori NBA (il campionato di basket professionistico americano) nell’anno 2014 sono stati i seguenti (in milioni di $ ): Disegnate la curva di concentrazione e interpretate il punto (F3,Q3). Calcolate l’indice di Gini usando la formula (1) e commentate il risultato ottenuto. 2) Un piccolo aereo da turismo ha effettuato otto voli trasportando questo numero di passeggeri: 12, 26, 13, 31, 34, 34, 17, 17 . La concentrazione dei passeggeri è bassa o alta? Redistribuire i passeggeri tra i voli (lasciando invariato il totale) in modo che l’indice di Gini sia pari ad uno. 3) La curva di concentrazione del reddito del paese A ha equazione Q(r) = r2 . Quale proporzione di abitanti possiede il 30% del reddito totale? Ricavare il valore dell’indice di Gini e la share function s( r). Come si può interpretare s (0.5) ? 5) Nell’esercizio 1 i risultati cambierebbero se gli stipendi fossero espressi in euro? Spiegare intuitivamente e mostrare che l’indice di Gini è invariante a cambi dell’unità di misura. Bryant Nowitzky Stoudemir John son Antony Howard Gasol Bosh James Wade 30,459 22,721 22,629 21,466 21,388 20,513 19,285 19,067 18,677

Per approfondire C. Gini (1912) Variabilità e mutabilità. Contributo allo studio delle distribuzioni e relazioni statistiche, Studi economici-giuridici dela Regia Università di Cagliari, anno III. Lorenz, M. O. (1905). Methods of measuring the concentration of wealth. Publications of the American Statistical Association, Vol. 9, No. 70) 9 (70): 209–219. Atkinson A.B. (1970). On the Measurement of Inequality, Journal of Economic Theory, 2, 244-263. Farris F.A. (2010) The Gini Index and Measures of Inequality, The American Mathematical Monthly, 117.