Appunti sulla concentrazione

Slides:



Advertisements
Presentazioni simili
LA RETTA Forma generale dell’equazione della retta: ax+by+c=0 Dove :
Advertisements

Appunti di analisi matematica: Integrale Definito
L’ IPERBOLE.
Sistema di riferimento sulla retta
LA VARIABILITA’ IV lezione di Statistica Medica.
Le rappresentazioni grafiche
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
STATISTICA DESCRITTIVA
Autovalori e autovettori
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Definizioni Chiamiamo esperimento aleatorio ogni fenomeno del mondo reale alle cui manifestazioni può essere associata una situazione di incertezza. Esempi:
Definizione e caratteristiche
DOMANDA ED ELASTICITA’
Progetto Pilota 2 Lettura e interpretazione dei risultati
Gli Integrali.
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
VARIABILI ALEATORIE Sono presentate di seguito le nozioni di:
Elementi di Matematica
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Processi Aleatori : Introduzione – Parte I
MECCANICA (descrizione del moto dei corpi)
STATISTICA a.a DISTRIBUZIONE BINOMIALE (cenni)
Statistica sociale Modulo B A.A Prof.ssa Barbara Baldazzi Dottore Mario Mastrangelo Corso di Laurea PROGEST Facoltà di Lettere e Filosofia Università
Misurazione Le osservazioni si esprimono in forma di misurazioni
“Il Piano cartesiano e la retta” realizzato dagli studenti della 2ª B Aielli Luca Pasquini Daniele Rosato Anna.
Esiste uno strumento che permetta, dall’ equazione della retta, di stabilirne la posizione rispetto al semiasse positivo delle ascisse?
METODI E CONTROLLI STATISTICI DI PROCESSO
“Il piano cartesiano e la retta”
Particolari terne numeriche e teorema di PITAGORA
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
I principali tipi di grafici
SOLUZIONE GRAFICA DI DISEQUAZIONI DI SECONDO GRADO
LA PARABOLA.
Indice di concentrazione di Gini
Le rappresentazioni grafiche
LA CIRCONFERENZA.
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simone Mosca & Daniele Zucchini 4Bi.
La Variabilità e La Concentrazione
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Corso di Matematica (6 CFU) (4 CFU Lezioni +2 CFU Esercitazioni)
Fisica: lezioni e problemi
Integrale Definito - Calcolo delle Aree
OPERAZIONI CON TRINOMI DI II° GRADO
Gli indici di dispersione
Le rappresentazioni grafiche
La statistica.
Appunti sulla concentrazione
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
ECONOMIA POLITICA E-I ESERCITAZIONI. 2 Richiami di matematica – Funzioni Funzioni FUNZIONE: ogni regola matematica che permette di calcolare il valore.
LA RETTA Assi cartesiani e rette ad essi parallele
6. LIMITI Definizione - Funzioni continue - Calcolo dei limiti
ANALISI E INTERPRETAZIONE DATI
LA RETTA NEL PIANO CARTESIANO
APPUNTI DI GEOMETRIA ANALITICA DELLA RETTA
La covarianza.
Le funzioni matematiche e il piano cartesiano
Analisi matematica Introduzione ai limiti
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Le Funzioni goniometriche
IL PIANO CARTESIANO E LA RETTA
1. Le coordinate di un punto su un piano Le coordinate di un punto su un piano 2. La lunghezza e il punto medio di un segmento La lunghezza e il punto.
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Luoghi di punti In geometria il termine
La Circonferenza. LA CIRCONFERENZA Assegnato nel piano un punto C detto Centro, si chiama circonferenza la curva piana con i punti equidistanti da C.
Gli Indici di VARIABILITA’
Le frazioni A partire da N vogliamo costruire un nuovo insieme numerico nel quale sia sempre possibile eseguire la divisione. Per fare ciò dobbiamo introdurre.
Transcript della presentazione:

Appunti sulla concentrazione a.a. 2012-2013 v.3

Sommario Introduzione La curva di concentrazione Indici di concentrazione Confronti Riferimenti

Introduzione La concentrazione può essere studiata per caratteri trasferibili, ovvero caratteri quantitativi che, almeno in linea di principio, possono essere trasferiti tra le unità considerate. Es: il reddito è un carattere trasferibile (tra gli individui), come lo sono il patrimonio, il numero di azioni di una certa azienda (tra gli azionisti) e i finanziamenti ricevuti dalle regioni italiane (tra le regioni stesse). Es: l’età non è un carattere trasferibile (tra gli individui) e non lo è neppure l’intensità delle precipitazioni (tra le località considerate).

Introduzione Intuitivamente un carattere statistico (si pensi ad esempio al reddito) è tanto più concentrato quanto più risulta suddiviso tra poche unità della popolazione. Ogni situazione reale sarà intermedia tra due situazioni estreme che chiameremo di concentrazione massima e di equiripartizione. Si ha massima concentrazione quando una sola unità statistica possiede la totalità del carattere. Si parla invece di equiripartizione quando tutte le unità della popolazione possiedono la stessa quantità di carattere.

Curva di concentrazione Consideriamo un carattere quantitativo trasferibile; ordiniamo le quantità del carattere (intensità) possedute dalle unità statistiche in senso non decrescente: , e definiamo:

Curva di concentrazione Valgono le seguenti: (FN,QN)=(1,1) Qi ≤ Fi per ogni i La 2) segue dal fatto che: La curva di Lorenz (o curva di concentrazione) si ottiene rappresentando le coppie (Fi ,Qi) nello spazio cartesiano e congiungendole. Il generico punto (Fi ,Qi) della curva si può interpretare nel seguente modo: l’ (Fi ·100)% più povero di carattere possiede il (Qi · 100)% del carattere totale.

Curva di concentrazione La curva di concentrazione è sempre compresa, potendo eventualmente coincidere, tra le due seguenti: La bisettrice di equazione Q=F. Lungo la bisettrice Fi=Qi per ogni i da cui segue che ogni unità possiede una quantità di carattere pari alla media dello stesso nella popolazione. La bisettrice rappresenta quindi la situazione di equiripartizione. 2. La curva passante per i punti (Fi,0), i=1,…,N-1 e (1,1) In tal caso tutto il carattere è concentrato in una sola unità statistica (l’N-esima) e rappresenta quindi la situazione di massima concentrazione.

Un esempio Dati i redditi di 7 individui: per ricavare la curva di concentrazione organizziamo le osservazioni in tabella, (avendo cura di ordinarle in base ai valori di x; ad esempio X1=16 perché l’individuo più povero possiede 16), calcoliamo le coordinate dei punti (Fi,Qi) e le congiungiamo. Nel caso in esame la curva è più vicina alla bisettrice. i x_i F_i Q_i 1 16 0.1429 0.0494 2 21 0.2857 0.1142 3 23 0.4286 0.1852 4 32 0.5714 0.2840 5 62 0.7143 0.4753 6 80 0.8571 0.7222 7 90

Indici di concentrazione La curva di Lorenz-Gini è uno strumento grafico per rappresentare la concentrazione di un carattere. Può tuttavia essere comodo valutare la concentrazione attraverso un indice numerico. Intuitivamente, quanto più la bisettrice si discosta dalla curva di concentrazione tanto maggiore è la concentrazione del carattere. E’ naturale quindi costruire un indice di concentrazione basato sullo “scostamento” della curva dalla bisettrice. Una misura dello scostamento può essere basata: sulle distanze verticali tra la curva di concentrazione e la bisettrice sull’area compresa tra la curva di concentrazione e la bisettrice.

Indice di concentrazione (1) Le distanze verticali tra la curva di concentrazione e la bisettrice sono date da (Fi – Qi) e sono non negative. Un indice relativo di concentrazione si può ottenere dividendo la somma delle (Fi – Qi) per il valore massimo che tali differenze possono assumere: L’indice sopra è l’indice di concentrazione di Gini. Si ha 0 ≤ R ≤ 1 e in particolare: R = 0 nel caso di equiripartizione; infatti in tal caso Fi - Qi =0, i=1,2,…,N-1 R = 1 nel caso di massima concentrazione; infatti in tal caso Fi - Qi = Fi , i=1,2,…,N-1

Indice di concentrazione (2) L’area A in figura, compresa tra la curva di concentrazione e la retta di equidistribuzione prende il nome di area di concentrazione. Si noti che A è pari all’area del triangolo di coordinate (0,0) (1,0) (1,1) meno l’area B formata dai trapezi di altezza Fi-Fi-1 e basi Qi e Qi-1 : Area del trapezio: ½ x Somma delle basi x altezza A B

Indice di concentrazione (2) Un indice relativo di concentrazione si può ottenere dividendo l’area di concentrazione per il valore massimo che l’area può assumere: dove Amax si ottiene considerando l’area nel caso x1 =…= xN-1 =0, xN=Nμ e risulta pari a 1/2 – (1/N)(1)(1/2)=(N-1)/2N. Per costruzione è 0 ≤ R ≤ 1, in particolare: R=0 nel caso di equiripartizione R=1 nel caso di massima concentrazione Si può dimostrare che il rapporto così costruito è uguale ad R.

Indice di concentrazione (3) Un altro indice di concentrazione, sempre basato sull’area, si può ottenere osservando che quest’ultima non può superare il valore 1/2. Possiamo quindi rapportare l’area di concentrazione al suo valore massimo teorico: Si ha (perché?) con i due indici che tendono a coincidere per N grande.

Un esempio i x_i F_i Q_i (Fi-Qi) 1 16 0.1429 0.0494 0.0935 2 21 0.2857 Dati i redditi di 7 individui: per ricavare la curva di concentrazione organizziamo le osservazioni in tabella, avendo cura di ordinarle in base ai valori di x, (ad esempio X1=16 perché l’individuo più povero possiede 16) e calcoliamo le differenze (Fi-Qi): i x_i F_i Q_i (Fi-Qi) 1 16 0.1429 0.0494 0.0935 2 21 0.2857 0.1142 0.1715 3 23 0.4286 0.1852 0.2434 4 32 0.5714 0.2840 0.2875 5 62 0.7143 0.4753 0.2390 6 80 0.8571 0.7222 0.1349 7 90 Totale 324 1.1698

Un esempio i x_i F_i Q_i (Fi-Fi-1)(Qi+Qi-1) 1 16 0.1429 0.0494 0.0070 Data i redditi di 7 individui: Per calcolare R con la formula (2) usiamo una tabella simile alla precedente per ricavare il numeratore. L’area massima che compare a denominatore è pari all’area massima teorica meno l’area del triangolo di base F7-F6 e altezza 1. Il calcolo di Ř è del tutto analogo: è sufficiente porre l’area massima pari a ½. i x_i F_i Q_i (Fi-Fi-1)(Qi+Qi-1) 1 16 0.1429 0.0494 0.0070 2 21 0.2857 0.1142 0.0233 3 23 0.4286 0.1852 0.0427 4 32 0.5714 0.2840 0.0670 5 62 0.7143 0.4753 0.1085 6 80 0.8571 0.7222 0.1710 7 90 0.2461 Totale 0.6658

Variabili statistiche discrete Finora abbiamo considerato N osservazioni non raggruppate. Per ricavare l’indice o la curva di concentrazione a partire da una distribuzione di frequenze assolute possiamo usare le seguenti versioni “ponderate” di Fi e Qi: dove x1,…,xk sono k valori distinti ordinati in modo non decrescente con numerosità n1 ,…,nk.

Variabili statistiche discrete Con le coppie (Fi* ,Qi*) si può ottenere un indice analogo ad R: In generale R≠R* sugli stessi dati. Infatti con l’indice sopra la situazione di massima concentrazione si ha quando tutto il carattere appartiene alla k-esima classe (e non all’ N-esimo individuo come nel caso di R). Unendo le coppie (Fi* ,Qi*) si ottiene la stessa curva di concentrazione che si otterrebbe utilizzando con i dati unitari. Infatti si può dimostrare che la pendenza della curva non cambia passando tra individui che hanno lo stesso ammontare di carattere. L’unica differenza è che ora per ottenere la spezzata si devono congiungere k<N punti.

Variabili statistiche continue per intervallo Se si desidera ricavare l’indice o la curva di concentrazione per una variabile continua per intervallo, il modo più semplice di procedere consiste nel “discretizzare” la variabile considerando le frequenze “concentrate” nei punti medi degli intervalli. Si può poi procedere come nel caso precedente. Nel caso in cui si disponga dell’informazione sull’ammontare totale di carattere in un intervallo è consigliabile discretizzare gli intervalli in modo “coerente” con tale informazione. Esempio: se nell’intervallo [5,15) di numerosità Ni=10 il carattere totale è pari a 60 è preferibile discretizzare l’intervallo assumendo come punto “medio” il valore 6 e non il valore 10 (al quale corrisponderebbe un reddito totale di 100 e non di 60). Si noti che devono essere note le numerosità degli intervalli per poter procedere in questo modo.

Variabili statistiche continue Se X è una variabile statistica continua non negativa con densità f(x) e media finita μ le espressioni delle frequenze e delle intensità cumulate diventano: Nota: Talvolta si esprimono F e Q in funzione della frequenza cumulata r. In tal caso si ha x = F-1( r ) da cui le nuove variabili:

Variabili statistiche continue Il valore di R per un carattere con distribuzione continua si può ottenere, come nel caso discreto, rapportando l’area di concentrazione al suo valore massimo, pari ad 1/2: L’indice di Gini è quindi pari a due volte l’area di concentrazione. Nota: essendo Amax =1/2 si ha R=Ř.

Confronti Può essere interessante confrontare la concentrazione di due caratteri (o equivalentemente dello stesso carattere in due istanti diversi, o in due ambiti territoriali diversi) Esempio 1: il reddito risulta più concentrato in Italia o in Francia? Esempio 2: la concentrazione del reddito in Italia era maggiore negli anni ‘80 o negli anni ‘90? Un modo semplice per stabilire quale carattere è maggiormente concentrato è quello di confrontare graficamente le curve di concentrazione nei due ambiti territoriali (o temporali) e stabilire quale si trova al di sopra.

Confronti Non è detto che una delle due curve sia al di sopra dell’altra: le curve si possono intersecare. Si può tuttavia mostrare che se il carattere varia linearmente tra gli ambiti considerati allora le curve non si intersecano. In generale, si può effettuare il confronto usando l’indice di Gini. Poiché G=2A=1-2*Area_sotto_la_curva_Lorenz il confronto attraverso l’indici di Gini equivale al confronto tra le aree al di sotto delle curve di Lorenz dei due caratteri.

Fonte: CIA, The world Factbook 2009 Confronti Esempio: la concentrazione del reddito nel mondo usando l’indice R. Fonte: CIA, The world Factbook 2009

Esempio di Confronto Tra Distribuzioni Si riportano di seguito le distribuzioni dei finanziamenti concessi da un istituto bancario per l’acquisto della prima casa a giovani coppie residenti in Campania ed in Sardegna: In quale regione risulta più elevata la concentrazione dei finanziamenti concessi? Confrontare graficamente i diversi livelli di concentrazione dei finanziamenti nelle due regioni

Concentrazione dei finanziamenti in Sardegna

Concentrazione dei finanziamenti in Campania

La curva di Lorenz conferma questo risultato La concentrazione è più elevata in Sardegna La curva di Lorenz conferma questo risultato

Riferimenti C. Gini (1912) Variabilità e mutabilità. Contributo allo studio delle distribuzioni e relazioni statistiche, Studi economici-giuridici dela Regia Università di Cagliari, anno III. Lorenz, M. O. (1905). "Methods of measuring the concentration of wealth". Publications of the American Statistical Association (Publications of the American Statistical Association, Vol. 9, No. 70) 9 (70): 209–219. Per ulteriori riferimenti si possono consultare utilmente le pagine di Wikipedia relative all’indice di Gini e alla curva di Lorenz.