Indici di tendenza centrale o di posizione

Slides:



Advertisements
Presentazioni simili
LA MEDIA STATISTICA di Zappa Giacomo.
Advertisements

- le Medie la Moda la Mediana
SCALA INTERVALLO / A RAPPORTO
____________________
LA VARIABILITA’ IV lezione di Statistica Medica.
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
STATISTICA DESCRITTIVA
“Teoria e metodi della ricerca sociale e organizzativa”
Variabilità Variabilità: inevitabile fluttuazione dei fenomeni naturali, fisici, sociali ecc le indicazioni fornite dalle misure di tendenza centrale (media.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
LA STATISTICA By prof. Pietro Rossi.
Lez. 3 - Gli Indici di VARIABILITA’
esponente del radicando
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
STATISTICA DESCRITTIVA
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
COSA VUOL DIRE FARE STATISTICA
Misure di posizione Gli indici di posizione servono per individuare la tendenza centrale del fenomeno studiato. I più utilizzati sono: Moda Mediana Quartili,
STATISTICA a.a DISTRIBUZIONI DI FREQUENZE
Statistica sociale Modulo A
Misurazione Le osservazioni si esprimono in forma di misurazioni
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Luciano giromini – la misura in psicologia, 2009 database e distribuzioni - misure di sintesi - misure di variabilità descrizione dei dati:
Elementi di STATISTICA DESCRITTIVA
METODI E CONTROLLI STATISTICI DI PROCESSO
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Di Capuano,Colucci e Panunzi Valori medi I valori medi.
LA SINTESI STATISTICA Una serie di dati numerici è
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
MEDIE STATISTICHE.
I principali tipi di grafici
Indice di concentrazione di Gini
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simone Mosca & Daniele Zucchini 4Bi.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
La Variabilità e La Concentrazione
Lez. 3 - Gli Indici di VARIABILITA’
Statistica La statistica è
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Gli indici di dispersione
Appunti sulla concentrazione
La statistica.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
COSA VUOL DIRE FARE STATISTICA
Accenni di analisi monovariata e bivariata
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
Martina Serafini Martina Prandi
Marta Pinto Stefania Serra Valentina Paravidino
STATISTICHE DESCRITTIVE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
A.A STATISTICA E CALCOLO DELLE PROBABILITA’ Docenti: Stefania Mignani Maurizio Brizzi.
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
STATISTICA ASSISTITA Esercitazione dott.ssa Clelia Cascella.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
DEFINIZIONE. La statistica è la disciplina che si occupa della raccolta di dati quantitativi relativi a diversi fenomeni, della loro elaborazione e del.
Gli Indici di VARIABILITA’
Transcript della presentazione:

Indici di tendenza centrale o di posizione Si può operare in due modi: Fornire dei valori intorno ai quali si ritiene sia concentrata la variabile dando quindi un’idea sintetica del fenomeno Valori Medi; Scegliere alcuni valori caratteristici, “strategici” della distribuzione Indici di Posizione o Medie lasche.

La media DEFINIZIONE (dovuta a Cauchy nel 1821): Una media M è quel valore tale che dove x(1) e x(N) sono il valore minimo e massimo di X. DEFINIZIONE (dovuta a Chisini nel 1929): Una media M di un carattere X è quel valore che sostituito alle singole modalità del carattere, soddisfa la seguente uguaglianza: dove f è una opportuna funzione matematica.

La media aritmetica E’ l’indice più noto e usato. E’ definita come quel valore, nell’ottica di Chisini, che lascia inalterata l’intensità totale del carattere delle N unità della popolazione, cioè: Intensità totale

La media aritmetica Quindi sostituendo si ha:

La media aritmetica Se abbiamo a disposizione una distribuzione di frequenze assolute o relative, la media si scrive: dove si ricorda che: e xi per i=1,2,...,k sono le modalità del carattere.

La media aritmetica Media di distribuzioni per classi di valori Se il carattere osservato è quantitativo continuo e la distribuzione è in classi di valore non è possibile applicare direttamente la formula precedente, ma sarà necessario sintetizzare ciascuna classe mediante il suo valore centrale: e poi si calcola la media aritmetica come nei casi precedenti, utilizzando il valore centrale:

La media aritmetica Come si costruiscono le classi: Classi aperte; Classi chiuse inferiormente; Classi chiuse superiormente. Non è necessario che le classi abbiano tutte la stessa ampiezza.

Le proprietà della media aritmetica La media aritmetica rappresenta il baricentro della distribuzione, cioè quel valore per cui la sua intensità totale risulta equamente ripartita fra la totalità delle unità statistiche; La somma degli scarti dalla media aritmetica è sempre nulla: Infatti:

Le proprietà della media aritmetica Sia data una variabile statistica X di media aritmetica μ, allora: M(aX+b)= aμ+b dove M è la media aritmetica. Infatti:

Le proprietà della media aritmetica Consideriamo le tre formulazioni della media aritmetica: non sono tre formule differenti ma tre modi di calcolare la media aritmetica a seconda dei dati a disposizione.

Numero di figli in 23 famiglie Un esempio Data la seguente distribuzione del numero di figli in 23 famiglie di un condominio di Pescara: Numero di figli in 23 famiglie ni 1 10 2 8 3 4 5 Totale 23

Numero di figli in 23 famiglie Un esempio Per il calcolo della media aritmetica ci aiutiamo con la seguente tabella: Numero di figli in 23 famiglie ni xini  1 10 2 8 16 3 9 4 5 Totale 23 44 Pertanto la media aritmetica è pari a:

La media aritmetica ponderata Nella media aritmetica le modalità (quindi le unità statistiche) concorrono alla pari nelle determinazione della media; infatti ogni modalità vale 1/N. Tuttavia esistono numerose situazione reali dove le unità statistiche possiedono importanza differenti tra loro. Quindi, è necessario definire la media aritmetica ponderata.

La media aritmetica ponderata Sia carattere X allora possiamo definire la media aritmetica ponderata come: una distribuzione unitaria di un dove pi è il peso dell’unità i-esima

La media aritmetica ponderata ESEMPIO : Sia data la seguente tabella di esami e relativi crediti dello studente Paolo dell’Università di Chieti - Pescara Voti e Crediti Voto CFU Statistica 28 5 Diritto Privato 22 6 Diritto Pubblico 24 Macroeconomia 25 8 Informatica 30

La media aritmetica ponderata E’ ovvio che in questa situazione è necessario calcolare la media aritmetica ponderata perché non tutti gli esami valgono nella stessa maniera in termini di CFU. Voto CFU Voto*CFU Statistica 28 5 140 Diritto Privato 22 6 132 Diritto Pubblico 24 144 Macroeconomia 25 8 200 Informatica 30 150

La media aritmetica ponderata

Le medie lasche Si chiamano medie lasche quei particolari indici che, per sinterizzare l’intera distribuzione in una misura di posizione, si basano solo su alcuni valori della distribuzione. In particolare considereremo: il valore centrale; la mediana; i quartili ed i percentili; la moda

Il valore centrale Il valore centrale è dato dalla semisomma dei valori estremi della distribuzione: dove ovviamente sono rispettivamente il più piccolo ed il più grande valore osservato. Ovviamente C dipende esclusivamente dai due valori estremi.

La mediana La mediana è un indice che dipende dall’ordine delle osservazioni e non dal loro valore (quindi può essere calcolata per qualsiasi carattere almeno ordinato). Sia popolazione secondo un carattere ordinato X. una distribuzione unitaria di una Si definisce mediana Me(X) la modalità che bipartisce la distribuzione ordinata in senso non decrescente

Il calcolo della mediana Se si dispone di una distribuzione unitaria ordinata secondo un ordinamento non decrescente allora la mediana di X corrisponde Se N è dispari, alla modalità che si trova nella posizione (N+1)/2, cioè: Se N è pari, alle modalità che si trovano nella posizione (N/2) e (N/2)+1, cioè:

Il calcolo della mediana Si noti che se non coincidono, la mediana può non essere unica. Nel caso di variabili quantitative con N pari, si può avere anche un intervallo di valori che soddisfano alla definizione di mediana. In questo caso, si può prendere il punto medio come “mediana convenzionale”.

Un esempio Consideriamo la seguente distribuzione dei voti ottenuti da 7 studenti nell’esame di statistica: 30 27 25 23 22 20 19 Queste osservazioni risultano già ordinate, nel caso contrario dovremmo prima ordinarle. Vi sono N=7 osservazioni, quindi N dispari, allora la mediana coincide con l’osservazione di posto (N+1)/2=(7+1)/2=4. Cioè:

Un esempio Ora consideriamo, invece, la distribuzione dei voti ottenuti da 8 studenti nell’esame di statistica: 30 29 27 25 23 22 20 19 Anche in questo caso i valori sono già ordinati. Vi sono 8 osservazioni, quindi N è pari. Quindi le due modalità mediane sono e

Il calcolo della mediana Se non si dispone della distribuzione unitaria, ma soltanto della distribuzione di frequenza assoluta corrispondente, si può operare nel seguente modo. Sia X un carattere e sia, ad esempio, la distribuzioni di frequenza assoluta Allora la mediana corrisponde

Il calcolo della mediana se N è dispari, alla modalità xi che presenta la frequenza assoluta cumulata Ni più piccola tale che: Ni ≥ (N +1)/2; se N è pari, alla modalità xi che presenta la frequenza assoluta cumulata Ni più piccola tale che: Ni ≥ N /2 e alla modalità xi che presenta la frequenza assoluta cumulata Ni più piccola tale che: Ni ≥ (N /2)+1 ; Nel caso con N pari si possono avere due valori mediani distinti.

Il calcolo della mediana Se, invece, si dispone della distribuzione di frequenza relativa si può operare nel seguente modo. Sia X un carattere e sia, ad esempio, la distribuzioni di frequenza relativa Allora la mediana corrisponde: alla modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,5

Il calcolo della mediana Nel caso la variabile sia definita mediante una distribuzione per classi di valori è possibile definire la classe mediana, la classe cioè che contiene la mediana. Se vogliamo trovare la mediana dobbiamo procedere nel seguente modo.

Famiglie residenti per n°di componenti nella regione Abruzzo Alcuni esempi Sia data la seguente distribuzione di famiglie residenti per numero di componenti nella regione Abruzzo al 25/10/1981: Famiglie residenti per n°di componenti nella regione Abruzzo ni fi Fi 1 64119 0,16 2 92800 0,24 0,40 3 78315 0,20 0,60 4 90468 0,23 0,83 5 42093 0,11 0,94 6 e più 23455 0,06 1,00   391250

Alcuni esempi In base alla definizione la mediana coincide la modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,5 Quindi la mediana è rappresentata dalla modalità x=3, cioè Me=3

Popolazione residente di un comune Alcuni esempi Sia data la seguente popolazione di un comune suddivisa per classi di età: Popolazione residente di un comune per classi di età (xi-1 - xi) ni fi Fi fino a 5 anni 65 0,065 5 – 14 98 0,098 0,163 15 – 19 125 0,125 0,288 20 – 39 268 0,268 0,556 40 – 59 350 0,350 0,906 60 – 74 75 0,075 0,981 75 e oltre 19 0,019 1,000 Totale 1000 1

Alcuni esempi In base alla definizione la mediana coincide la modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,5 Quindi la mediana è rappresentata dalla classe 20-39.

I quantili I quantili sono quei valori che ripartiscono i dati, disposti in ordine crescente, in parti uguali e possono essere considerati delle generalizzazioni della mediana. Possiamo considerare, in particolare: I quartili che suddividono in 4 parti uguali la distribuzione. Il primo quartile è preceduto da 1/4 dei dati e così via;

I quantili I decili che suddividono in 10 parti uguali la distribuzione; I centili che suddividono in 100 parti uguali la distribuzione.

Famiglie residenti per n°di componenti nella regione Abruzzo Alcuni esempi Consideriamo lo stesso esempio precedente. Sia data la seguente distribuzione di famiglie residenti per numero di componenti nella regione Abruzzo al 25/10/1981: Famiglie residenti per n°di componenti nella regione Abruzzo ni fi Fi 1 64119 0,16 2 92800 0,24 0,40 3 78315 0,20 0,60 4 90468 0,23 0,83 5 42093 0,11 0,94 6 e più 23455 0,06 1,00   391250

Alcuni esempi Ad esempio, il primo quartile è la modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,25 In questo caso il primo quartile è rappresentato dalla modalità x=2, cioè Q1 =2 Ad esempio, il terzo quartile è la modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,75 In questo caso il terzo quartile è rappresentato dalla modalità x=4, cioè Q3 =4

Alcuni esempi Ad esempio, il primo decile è la modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,10 In questo caso il primo decile è rappresentato dalla modalità x=1, cioè D1 =1 Ad esempio, il terzo decile è la modalità xi che presenta la frequenza relativa cumulata Fi più piccola tale che: Fi ≥ 0,30 In questo caso il terzo decile è rappresentato dalla modalità x=2, cioè D3 =2

Alcuni esempi Si fa notare che il secondo quartile Q2 coincide con la mediana.

La moda La moda Mo di una popolazione, distribuita secondo un carattere X, è la modalità prevalente del carattere cioè la modalità alla quale è associata la massima frequenza.

La moda Se vi è una sola moda la distribuzione è detta unimodale, nel caso contrario plurimodale (bimodale, trimodale, ecc). Esempio: Consideriamo gli obiettivi di 137 fondi pensionistici classificati in 5 modalità xi ni GI 26 IL 42 MC 20 SC TK 12 La distribuzione è bimodale

La moda Se la distribuzione è unitaria o di frequenze, allora è facile individuare la moda; se la variabile è definita per classi di valori allora è possibile definire la classe modale, cioè la classe che presenta la massima densità di frequenza.

Popolazione residente di un comune per classi di età Un esempio Sia data la seguente popolazione di un comune suddivisa per classi di età e si calcoli la classe modale: Popolazione residente di un comune per classi di età xi-1 - xi ni fino a 5 anni 65 6 - 14 98 15 - 19 125 20 - 39 268 40 - 59 350 60 - 74 75 75 e oltre 19 Totale 1000

Popolazione residente di un comune per classi di età Un esempio La classe modale è la classe alla quale corrisponde la massima densità di frequenza Popolazione residente di un comune per classi di età xi-1 - xi ni hi fino a 5 anni 65 13,00 6 - 14 98 12,25 15 - 19 125 31,25 20 - 39 268 14,11 40 - 59 350 18,42 60 - 74 75 5,36 75 e oltre 19 1,27 Totale 1000

Un esempio In questo caso la classe modale la classe 15-19. Si fa notare che l’ampiezza dell’ultima classe è stata posta pari a 15.

Alcune riflessioni sulle medie OSSERVAZIONE La moda è una misura più “stabile” della media e della mediana (non si modifica quando si aggiungono dati anomali). In termini statistici si dice che la moda è robusta.

Alcune riflessioni sulle medie ESEMPIO: Se consideriamo la seguente distribuzione: 3, 4, 7, 2, 3, 1, 8, 12, 1, 3 ,5, 6, 9 Si ha che la moda è pari a 3. Non si modifica se aggiungiamo una osservazione uguale a 1000 (o 10000!!).

Alcune riflessioni sulle medie Con gli stessi dati, dopo aver ordinato le osservazioni, otteniamo che la mediana è 4. 1, 1, 2, 3, 3, 3, 4, 5, 6, 7, 8, 9, 12 Se aggiungiamo il valore 1000, le osservazioni sono così modificate: 1, 1, 2, 3, 3, 3, 4, 5, 6, 7, 8, 9, 12, 1000 Le mediane sono due, pari a 4 e 5.

Alcune riflessioni sulle medie Con gli stessi dati, otteniamo che la media è 4.92 Se aggiungiamo il valore 1000, la media diviene 76.

La variabilità Consideriamo le tre seguenti distribuzioni di voti presi da otto studenti all’esame di statistica:

La variabilità La media aritmetica di tutte e tre le distribuzioni è sempre uguale ma le tre distribuzioni sono molto diverse tra loro. DEFINIZIONE: Si chiama variabilità (nel caso quantitativo) e mutabilità (nel caso qualitativo) l’attitudine dei caratteri ad assumere modalità differenti.

La variabilità Una misura della variabilità dovrebbe avere queste tre caratteristiche: 1. Indicata con IV tale misura, si dovrebbe avere: 2. IV è nulla se e solo se tutti i termini della distribuzione sono uguali tra loro, pari a c, quindi cioè se il carattere risulta concentrato in una unica modalità;

La variabilità 3. IV cresce all’aumentare della disuguaglianza fra i termini.

La variabilità Categorie di indici di variabilità Indici che misurano la variabilità del carattere tramite una sintesi di misure di diversità tra ogni termine della distribuzione ed una media (SCOSTAMENTI MEDI); Indici che misurano la variabilità misurando la diversità fra due particolari termini della distribuzione (INTERVALLI DI VARIAZIONE). Un indice di variabilità che è espresso nella stessa unità di misura del carattere è detto assoluto.

Gli scostamenti medi Sia la distribuzione del carattere X e sia  la media aritmetica del carattere. Definiamo con i valori assoluti degli scarti dalla media aritmetica. Pertanto, è possibile definire lo scostamento quadratico medio dalla media aritmetica (standard deviation, definito da Pearson nel 1893) per distribuzione unitarie come:

Gli scostamenti medi Nel caso di distribuzioni di frequenze assolute si ha: Mentre nel caso di distribuzioni di frequenze relative si ha:

La varianza Il quadrato dello scostamento quadratico medio dalla media aritmetica rappresenta un famosissimo indice di variabilità denominato varianza: cioè la Var(X) è la media aritmetica dei quadrati degli scarti dalla media aritmetica. Nel caso di distribuzioni di frequenze assolute e relative si ha rispettivamente:

La varianza OSSERVAZIONI: La varianza è un indice assoluto ed è espresso nella stessa unità di misura (al quadrato) del fenomeno studiato; infatti gli scarti possono essere “infinitamente” lontani dalla media aritmetica.

Un esempio Si considerino le altezze in cm del seguente collettivo costituito da 5 persone (distribuzione unitaria) Persone Altezza in cm 1 175 2 176 3 172 4 177 5 180

Un esempio i 1 175 -1 2 176 3 172 -4 16 4 177 5 180 TOT 880 34

Un esempio Si considerino i voti riportati all’esame di statistica da 40 studenti (distribuzione di frequenza). xi ni 18 2 19 20 21 3 22 23 5 24 4 25 6 26 27 28 29 30 Totale 40

Per calcolare la varianza ci aiutiamo con la seguente tabella xi ni xini (xi-m) (xi-m)2 (xi-m)2ni 18 2 36 - 6 72 19 38 - 5 25 50 20 40 - 4 16 32 21 3 63 - 3 9 27 22 66 - 2 4 12 23 5 115 - 1 1 24 96 - 6 150 26 104 108 28 84 48 29 30 60 Totale 960 376

La media aritmetica è pari a: Pertanto la varianza è uguale a:

Un’altra formula per il calcolo della varianza Nella pratica il calcolo della varianza si effettua molto spesso con la seguente formula:

Un esempio xi ni 18 2 19 20 21 3 22 23 5 24 4 25 6 26 27 28 29 30 Totale 40 Riprendiamo i dati dell’ESEMPIO precedente, cioè i voti riportati all’esame di statistica da 40 studenti:

Voti dell'esame di statistica Un esempio Voti dell'esame di statistica xi ni xi2 xi2ni 18 2 324 648 19 361 722 20 400 800 21 3 441 1323 22 484 1452 23 5 529 2645 24 4 576 2304 25 6 625 3750 26 676 2704 27 729 2916 28 784 2352 29 841 30 900 1800 Totale 40 23416 Per il calcolo della varianza aiutiamoci con la seguente tabella

Un esempio La media aritmetica è sempre pari a: La varianza calcolata con questa formula alternativa è pari a:

La variabilità relativa Se devo eseguire confronti fra fenomeni espressi con diverse unità di misura o sull’evoluzione di uno stesso fenomeno rilevato in due unità temporali o spaziali diverse non posso utilizzare la varianza per confrontare la variabilità delle due distribuzioni.

La variabilità relativa Esempio: peso di un gruppo di neonati ed uno di adulti Neonati Adulti Quale collettivo è più variabile?

Il coefficiente di variazione Un indice molto noto è il coefficiente di variazione, introdotto da K. Pearson nel 1905. E’ il rapporto tra la deviazione standard e la media

Il coefficiente di variazione Esempio: peso di un gruppo di neonati ed uno di adulti Adulti Neonati adulti bambini CV è “scale-free” o “numero puro” (non dipende dall’unità di misura adottata). Come tale è adatto ai confronti.

Il coefficiente di variazione Se non è definito il CV, in quanto non è interpretabile una variabilità negativa, né dividere un numero per zero.

Intervalli di variazione Possiamo definire i seguenti indici che misurano la variabilità del carattere tra due particolari termini della distribuzione o fra due quantili: Campo di variazione o range Campo di variazione interquartile (terzo quartile – primo quartile)

La concentrazione La concentrazione può essere misurata se un carattere X è di tipo quantitativo trasferibile, cioè se è possibile trasferire, anche solamente in via teorica, l’ammontare del fenomeno da una unità statistica ad una altra, tendendo o meno alla situazione di equidistribuzione. E’ un aspetto rilevante della variabilità di un carattere quantitativo.

La concentrazione Esempio: La ricchezza di un paese è tanto più concentrata quanto minore è la frazione di ricchezza posseduta dalla parte più povera della popolazione. Si può parlare di concentrazione finanziaria, urbana, ecc. DEFINIZIONE: Un carattere trasferibile è equidistribuito fra le N unità del collettivo se l’ammontare complessivo A del carattere X è distribuito in parti uguali fra le N unità, cioè se ogni unità possiede la quantità A/N.

La concentrazione Se un carattere non è equidistribuito allora possiamo affermare che è concentrato. La situazione di concentrazione massima si ha quando una sola unità possiede tutto l’ammontare del carattere e tutte le altre unità statistiche non possiedono niente.

Indici di concentrazione Un indice di concentrazione deve essere pari a 0 nel caso di equidistribuzione (minima concentrazione) ed aumentare fino ad un massimo assunto nel caso di massima concentrazione. Consideriamo ora una popolazione di N elementi. Ordiniamo le N unità secondo la loro modalità, in ordine non decrescente, del carattere X.

Indici di concentrazione Se è l’ammontare del carattere posseduto dalla i-esima unità ordinata, con allora si ha: dove per ragioni di semplicità espositiva si è tralasciata la notazione x(1) per indicare la prima modalità ordinata. ,

Indici di concentrazione Si definisca ora con: l’ammontare complessivo del carattere posseduto dalle i unità più povere con i=1,2,…,N . Si considerino ora le seguenti distribuzioni: la distribuzione delle prime i unità, dove: della frazione cumulata rappresenta la la frazione delle i unità più povere alle quali spetta l’ammontare Ai del carattere

Indici di concentrazione la distribuzione cumulata dell’ammontare del carattere, dove: della frazione . rappresenta la frazione dell’ammontare complessivo (intensità) del carattere detenuto dalle prime i unità (le i unità più povere).

Indici di concentrazione Si fa notare che con i, inoltre risulta sempre per ogni i=1,2,…,N: sono funzioni non decrescenti Infatti, avendo ordinato i dati in senso non decrescente, il primo 10%, ad esempio, delle unità più povere detengono al più il 10% dell’ammontare totale del carattere; se così non fosse non sarebbero le i unità più povere.

Indici di concentrazione CASO DI MINIMA CONCENTRAZIONE (Equidistribuzione) Si ha quando: In questo caso risulta: per ogni i=1,2,…,N CASO DI MASSIMA CONCENTRAZIONE Si ha quando: In questo caso risulta:

Il rapporto di concentrazione CASI INTERMEDI Nei casi intermedi il carattere è tanto più concentrato quanto maggiore è la differenza Consideriamo quindi: (1) la sommatoria precedente è estesa da 1 a N-1, in quanto: L’indice (1) è un indice assoluto di concentrazione.

Il rapporto di concentrazione Il minimo dell’indice si ha nel caso di equidistribuzione, cioè quando: Il massimo dell’indice si ha quando vi è massima concentrazione cioè:

Il rapporto di concentrazione e allora: Pertanto, è possibile definire l’indice relativo come: Tale indice è noto come rapporto di concentrazione del Gini.

Il rapporto di concentrazione OSSERVAZIONE: Il calcolo di R è relativo ai singoli valori non raggruppati in una distribuzione di frequenze e pertanto per una popolazione ampia può risultare gravoso calcolarne il valore.

Un esempio Tre comuni del Lazio avevano al 21/12/1980 la seguente popolazione in migliaia di unità Velletri 43 Frascati 20 Marino 31 Si richiede di calcolare il rapporto di concentrazione del Gini.

Un esempio Prima ordiniamo i valori e poi calcoliamo Fi e qi : Comune Popolazione Fi qi Frascati 20 0,33 0,21 Marino 31 0,67 0,54 Velletri 43 1 Totale 94  

Un esempio Quindi possiamo calcolare il rapporto di concentrazione R del Gini: Comune Popolazione Fi qi Fi-qi Frascati 20 0,33 0,21 0,12 Marino 31 0,67 0,54 0,13 Velletri 43 1   Totale 94 0,25

Un esempio Il risultato finale è pertanto pari a:

La curva di concentrazione Consideriamo ora la rappresentazione grafica dei punti (Fi,qi) per i=1,2,…,N. In un piano cartesiano, riportiamo in ascisse i valori Fi e in ordinate i valori qi Nel caso di equidistribuzione si ha Fi=qi e quindi i punti si dispongono sulla bisettrice del I quadrante. Il segmento che unisce i punti di coordinate (0,0) e (1,1) viene chiamato segmento di equidistribuzione.

La curva di concentrazione Se non vi è equidistribuzione i punti di coordinate (pi,qi) si trovano nel triangolo di vertici (0,0), (1,0) e (1,1). Unendo tali punti si ottiene una linea chiamata spezzata di concentrazione o curva di Lorenz.

La curva di concentrazione (1,0) (0,0) Fi Fi+1 qN qi+1 qi (1,1) FN

La curva di concentrazione In generale, quanto è maggiore la concentrazione del carattere, tanto più la spezzata di concentrazione risulta vicina all’asse dell’ascisse e quindi tanto è più grande l’area della superficie compresa fra il segmento di equidistribuzione e la spezzata di concentrazione.