LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.7 Ancora sulle modalità centrali
In questa lezione.. In questa lezione faremo conoscenza con un’ultima famiglia di misure centrali di una distribuzione: La mediana I quartili, i percentili e in generale i ‘quantili’ Si tratta di misure che si applicano a variabili (almeno) ordinabili, e che si basano sulle frequenze cumulate o retrocumulate. Di queste misure vedremo la logica e le procedure di calcolo. Mentre la mediana è una misura di posizione centrale, quartili e percentili ci introducono alla descrizione della variabilità.
La mediana La mediana Me(X) è la modalità che occupa il posto centrale nella sequenza ordinata dei dati. Si dimostra che se la funzione di perdita è allora: Ricordiamo che la media aritmetica rende minima una misura quadratica del “danno” prodotto dagli errori che si compiono sostituendo la media stessa alle effettive osservazioni. Pensavamo che questa piacevole proprietà dipendesse dal fatto che M(X) è una media ‘analitica’, cioè coinvolge nel conto tulle le modalità e numerosità della v.s. Ora troviamo che anche la Mediana possiede una proprietà simile. Eppure essa è solo una media ‘lasca’. Basta vedere come si calcola..
Calcolo della mediana per serie ordinate La mediana è la modalità osservata nell’unità di analisi che si colloca al centro nella serie statistica in ordine crescente. Essa lascia metà popolazione a sinistra e metà a destra nella se-quenza ordinata. Il calcolo di Me(X) discende immediatamente dalla definizione, nel caso di seriazione disaggregata, distinguendo due casi: N=pari=2r N=dispari=2r+1 Quindi per calcolare la mediana non si richiedono modalità quantitative (bastano ordinali!) e soprattutto non si coinvolgono nel calcolo tutte le modalità, ma solo quella che sta al centro della sequenza ordinata.
Calcolo della mediana per variabili discrete Se le informazioni sono ricodificate in forma di variabile statistica il crite-rio di calcolo non cambia. Solo, non dovremo cercare la mediana nella sequenza ordinata delle N osservazioni, ma in quella delle k (<N) modalità, contraddistinte dalle rispettive frequenze fk e cumulate Fk. Il calcolo non passerà quindi più dall’enumerazione di tutte le modalità osservate, ma dall’applicazione di una semplice procedura sulle fre-quenze cumulate. «Il valore mediano corrisponde alla modalità xk la cui cu-mulata Fk è la prima a raggiungere o superare FMe = ½ » xk = Me(X) SSE Fk 0.5 e Fk–1 < 0.5
Un esempio e la sua percezione grafica F(1)=0,25 è meno di 0,50: proseguiamo… xi ni Fi 20 0,10 1 30 0,25 2 70 0,60 3 50 0,85 4 0,95 5 10 200 N.esami dati F=0,5 F(2)=0,60 è più di 0,50: allora Me(X) è 2, la modalità corrispondente! Me(X) Si può determinare Me(X) anche dal grafico a scalini della funzione cumulata: Sull’asse verticale si individua il valore 0,5: da lì si fa partire una linea orizzontale, che incrocia generalmente la curva in un tratto verticale. Da quel punto di scende in verticale, e si trova il valore cercato.
Quando l’unità mediana non esiste Può capitare che a una modalità si trovi esattamente Fk=0.5 (possibile per N pari): il 50% dei casi si raggiunge esattamente in corrispondenza di un salto di modalità. In questo caso si prende come mediana il valore centrale tra la modalità k e la successiva, anche se esso può essere un valore fittizio. Me(X) = (xk+1+xk)/2 SSE Fk = 0.5 e Fk–1 < 0.5 F(2) ora è proprio 0,50. X2 è os-servato nel 50% dei casi. L’osser-vazione successi-va è 3. Me(X)= (2+3)/2=2,5 xi ni Fi 20 0,10 1 30 0,25 2 50 0,50 3 70 0,85 4 0,95 5 10 200 Me(X)
Calcolo della mediana per variabili per classi Consideriamo ora una v.s. segmentata in m classi Ik=(IXk,SXk), dove l'estremo superiore SXk della classe coincidere con l'estremo inferiore IXk+1 della classe successiva. Ci sarà un punto C all’interno di una classe tale che, se alziamo da C una verticale, essa spaccherà l’area sottesa all’istogramma esattamente in due: il 50% a sinistra, il 50% a destra. In questo caso applicheremo il criterio già dato per individuare non il valore mediano, ma la "classe mediana": Ik = Classe Me(X) SSE Fk 0.5 e Fk–1 < 0.5 xi-xi+1 ni fi Fi 0-400 34 0,34 400-1000 40 0,40 0.74 1000-2000 26 0,26 1 100 Province per num. abitanti/kmq La classe mediana è (400-1000). Ma quale è con precisio-ne il punto C? C
Calcolo della mediana per interpolazione ‘Zummiamo’ sul segmento 400-1000 della funzione cumulata. Per trovare il valore mediano a cui corrisponde F(Me)=0,5 esami-niamo i due triangoli OAB e OCD, che insistono sullo stesso angolo. La geometria di Talete spiega che i rapporti tra i cateti corrispon-denti dei due triangoli sono uguali “OB sta a OD come BA sta a DA” Ma ognuno di questi cateti è mi-surabile in termini di modalità e frequenze cumulate, tutte osser-vate (FMe=0,5) tranne la nostra incognita: Me. Fi C fk= Fk-Fk-1 A FMe-Fk-1 O B D Me-Ixk i =SXk-IXk
Una lettura di basso profilo dell’interpolante Abbiamo ottenuto la formula per cal-colare la mediana per interpolazione in modo ‘alto’, partendo da Talete. Ma possiamo anche trascurare Talete, leggere la formula e interpretarla in modo letterale: Se la classe mediana va da 400 a 1000, il valore mediano sarà pari all’estremo inferiore della classe (400) più una quota dell’intervallo della classe stessa (1000-400=600). Tale quota % è posta uguale alla quota di frequenza della classe mediana che serve per arrivare al 50% della cumulata. Nota: Me(X)=640 ma M(X)=738 ½ 640
Un secondo esempio Stimiamo l’età mediana degli immigrati in Lombardia La classe mediana è 25-35), la prima la cui cumulata supera il 50%. Me(X)=25+10(0,500-0,157)/0,497]=25+10 (0,343/0,497)=25+ 100,69=25+6,9=31,9 Nota: M(X)=33 > Me(X)=31,9 > Md(X)=30 xi |-xi+1 fi Fi 15 |-25 0,157 25 |-35 0,497 0,654 35 |-45 0,273 0,927 45 |-65 0,073 1,000 Immigrati per età Me=31,9
Un terzo esempio La classe mediana è 20-40) Me(X) = 20+20(0,500-0,115)/0,399]= 20+200,385/0,399]= 20+200,965= 20+19,3= 39,3 M=43,6>Me=39,3>Md=30 Fi hi xi |- xi+1 0 |- 20 20 |- 40 40 |- 60 60 |- 80 80 |- 100 100|-160 160|-300 Fi 11,5 51,4 82,9 94,1 97,5 99,5 1,00 Famiglie lombarde per reddito annuo xi
Le invenzioni dei fratelli Huysgens Torniamo alla tavola della distribuzione delle età di morte stimata da Graunt nel 1662. Quello che non sappiamo è che essa segna anche la data di nascita di due pietre miliari della statistica: media e mediana. La tavola viene infatti vista da due fratelli olandesi, astronomi e assicuratori. In otto-bre 1669 scrive Luis a Christian Huysgens: “Ho trovato una misura interessante di vita media: l’intensità totale di anni vissuti equi-ripartiti. Sarà m(X)=1822/100=18,22. Nasce l’età media: 18 anni e un tanto. xi-xi+1 xi Da 0 a 6 3 Da 6 a 16 11 Da 16 a 26 21 Da 26 a 36 31 Da 36 a 46 41 Da 46 a 56 51 Da 56 a 66 61 Da 66 a 76 71 Da 76 a 86 81 ni xi ni 36 108 24 264 15 315 9 279 6 246 4 204 3 183 2 142 1 81 100 1822 Bello, vero? Ma una settimana dopo (potenza delle poste) il fratello Christian risponde acidamente (come succede tra fratelli): “Non mi consegue che 18 anni e 2 mesi sia l'età di ogni persona concepita...
Qualità nascoste della mediana: robustezza “..Supponiamo che gli uomini siano ancora più deboli e su 100 ne muoiano 90 nei primi 6 anni; ma che quelli che superano tale età siano dei Nestori e dei Matusa-lemmi e vivano fino a 152 anni e 2 mesi. Tu otterresti lo stesso numero e tuttavia chi scommettesse che un nato pervenga all'età di 6 anni ne avrebbe un gran danno poiché di 10 solo 1 arriva a quel traguardo…” xi-xi+1 Da 0 a 6 Da 6 a 16 Da 16 a 26 Da 26 a 36 Da 36 a 46 Da 46 a 56 Da 56 a 66 Da 66 a 76 Da 76 a 86 Ni 36 60 75 84 90 94 97 99 100 La media resta 18,22 (ma Christian aveva sbagliato i calcoli..) xi-xi+1 xi Da 0 a 6 3 155,2 Da 16 a 26 21 ni xi ni 90 270 10 1552 100 1822 Conclude Christian: “Son cose differenti la speranza dell'età futura di una persona e l'età a cui v'è uguale probabilità che egli arrivi o non arrivi. Il primo valore serve per calcolare i vitalizi e il secondo per le scommesse”. E’ la nascita della mediana!! Mediana = Me(X) = 6+10*(50-36)/24= =6+10*(14/24)= =11,83<18,22=M(x)
Robustezza e sensitività Dall'esempio dei fratelli Huysgens si capisce come la media aritmetica risenta molto più della mediana delle fluttuazioni dei valori estremi osservati. In altre parole, "forme" particolari della distribuzione sono percepite con forte sensitività dalla media aritmetica. La sensitività è una grande qualità della media, ma talvolta può produrre effetti imprevedibili.. Robustezza è la qualità di una misura di rilevare il "vero" ordine di grandezza delle osservazioni, senza lasciarsi influenzare da varia-zioni "marginali" nella distribuzione. La robustezza è quindi una proprietà desiderabile per un indice di posizione, che può far propendere per una misura invece che per un'altra quando (come nel caso degli Huysgens e delle assicurazioni sulla vita) tale proprietà sia ritenuta imprescindibile. La mediana è una misura robusta dell'ordine di grandezza del fenomeno osservato. L’opposto della robustezza è la sensitività.
Una simulazione X sia il fatturato di 10 imprese. Conosciamo il valore di 9 imprese, ma dell’ultima sappiamo solo che è compreso tra 0 e 100. {39,44,53,60,62,66,71,74,81,k} Come varia M(X) al variare di x10, e come varia Me(X)? La media (tratto continuo) è ‘sensi-bile’ al variare di x10, la mediana in-vece non risente proprio di varia-zioni che avvengano ‘sulle code’. Robustness e Sensitivity sono due qualità opposte. Il tipo di dati a disposizione suggerirà quale media è più adatta.
Mediana in variabili per classi La tabella mostra i dati relativi ad un campione di 560 persone cui è sta-to chiesto l’ammontare del loro reddito annuale in migliaia di euro. Entrate numerosità [0; 5) 20 [5; 10) 200 [10; 20) 250 [20; 30) 50 [30; 50) 30 [50; 70) 10 560 Calcolate il valore medio e la mediana Valori centrali cumulate intensità 2,5 20 50 7,5 220 1500 15 470 3750 25 520 1250 40 550 1200 60 560 600 8350 Aggiungiamo le colonne di calcolo di de-stra. Media = Intensità totale / Numerosità Totale = 8350/560 = 14,911 Classe mediana = la prima la cui cumulata supera N/2=280: [10; 20) Mediana = 10+10 * (280-220)/(470-220) = 10+10 * (60/250) = 12,4
Cumulate e retrocumulate Consideriamo gli stipendi mensili degli impiegati in una società. Qual è la quota di persone che non guadagnano meno di x euro? F1 = f1 = 0.1 (quota di persone con meno di 500 euro di stipendio) F2 = F1 + f2 = 0.40 (quota di persone con meno di 1000 euro) F3 = F2 + f3 = 0.80 (quota di persone con meno di 1500 euro) F4 = F3 + f4 = 0.95 (quota di persone con meno di 2000 euro) F5 = F4 + f5 = 1.00 (quota di persone fino a 5000 euro) R1 = 1.00 (quota di persone con almeno un euro di stipendio) R2 = R1 - f1 = 0.90 (quota di persone con almeno 500 euro) R3 = R2 - f2 = 0.60 (quota di persone con almeno 1000 euro) R4 = R3 - f3 = 0.20 (quota di persone con almeno 1500 euro) R5 = R4 - f4 = 0.05 (quota di persone con almeno 2000 euro)
La mediana come intersezione Spezzata delle frequenze cumulate e retrocumulate Cumulate NB: le due curve si intersecano in X=Mediana Retrocumulate Mediana
Media, mediana e dati troncati Supponiamo di seguire una popolazione nella sua e-voluzione (es.: mortalità di una coorte di imprese). Qui la media aritmetica è una misura centrale poco affidabile, perché la ‘coda’ di imprese longeve è ancora in vita. Otterremmo così medie assai diverse nel caso in cui tutte le imprese ancora in attività chiudano tra il 10° e il 12° anno (caso A), oppure, poniamo, tutte tra il 28° e il 32° anno (caso B). xi-xi+1 ni(A) ni(B) 0-1 15,4 1-2 13,3 2-3 10,9 3-4 7,8 4-5 6,2 5-6 4,4 6-7 4,1 7-8 3,1 8-9 2,0 9-10 2,4 10-12 30,4 28-32 La media aritmetica varia davvero molto, invece la mediana è robusta: 4,42
Dalla mediana al quantile La Mediana fornisce, a partire dalle cumulate, una misura della mo-dalità “che sta nel mezzo”. Ma possiamo anche chiederci, per esempio: Qual è il reddito familiare sopra cui sta nella fascia medio-alta, che divide la popolazione non ‘fifty-fifty’, 50% a sinistra e 50% a destra ma per es. 75% a sinistra (redditi inferiori) e 25 a destra? Qual’è la soglia di reddito oltre cui sta la fascia bassa, la soglia per esempio che discrimina il 20% meno benestante? Dove porre la ‘soglia della povertà’ che segnali il 10% più povero? Sono tutte (compresa la mediana!) varianti di una stessa famiglia di misure (‘quantili’) che scandiscono i valori assunti da una v.s. in corrispondenza di ‘posti significativi in graduatoria’: Il reddito che lascia a sinistra ¾ delle famiglie è un ‘quartile’ Il reddito che lascia a sinistra 1/5 delle famiglie è un ‘quintile’ Il reddito che lascia a sinistra 1/10 delle famiglie è un ‘decile’.. Secondo le esigenze, useremo quantili larghi (quartili) o dettagliati (decili).
Quartili, quintili, decili per variabili discrete Il calcolo di un quantile è simile al calcolo della Mediana. Per v.s. discrete: «Il c-mo quartile è la modalità xk la cui cumulata Fk è la prima a raggiungere o superare Fk=c/4: xk=4Qc(X) SSE Fkc/4 e Fk–1<c/4» «Il c-mo quintile è la modalità xk la cui cumulata Fk è la prima a raggiungere o superare Fk=c/5: xk=5Qc(X) SSE Fkc/5 e Fk–1<c/5» «Il c-mo decile è la modalità xk la cui cumulata Fk è la prima a raggiungere o superare Fk=c/10: xk=10Qc(X) SSE Fkc/10 e Fk–1<c/10» xi ni Fi 20 0,10 1 30 0,25 2 70 0,60 3 50 0,85 4 0,95 5 10 N.esami dati Quintili: 5Q1(X)=1 5Q2(X)=2 5Q3(X)=2,5 5Q4(X)=3 Per es. il secondo quintile 5Q2(X) è la modalità che lascia alla sua sinistra (va-lori inferiori) il 40% delle osservazioni, alla sua destra il 60%. La mediana è il II quartile. Quartili: 4Q1(X)=1,5 4Q2(X)=2=Me 4Q3(X)=3
Quartili, quintili, decili per variabili per classi Anche per v. per classi il calcolo di un quantile è simile a quello di Me(X). Una volta individuata la ‘classe quantile’, si interpola. Per es.: c-mo quartile Percentile è il valore al quale o al di sotto del quale si trova una specifica percentuale delle osservazioni di una v.s. Ad esempio il 60° percentile è quel valore che divide il gruppo di dati in due parti: il 60% a sinistra e il 40% a destra di esso (coincide quindi col terzo quintile). I decili vengono spesso usati in studi di politica economica (per in-dicare i livelli di reddito di scaglioni ‘decimali’ di popolazione). I percentili sono molto usati nei test psicologici. c-mo quintile c-mo decile c-mo percentile
Un esempio: quartili dell’età di maternità Cumulata di donne friulane che hanno avuto un figlio per età (coorti ’46-’60). xi|-xi+1 Fi(46) 15-20 0,07 20-25 0,51 25-30 0,86 30-35 0,91 1Q4(X)=20+50,18/0,44]=22,0 2Q4(X)=20+50,43/0,44]=24,9 3Q4(X)=25+50,24/0,35]=28,4 Interessante: da una coorte all’altra il primo quartile non varia granché (i calendari ‘precoci’ hanno quasi lo stesso peso), ma slittano in avanti la mediana e soprattutto il 3° quartile xi|-xi+1 Fi(60) 15-20 0,11 20-25 0,38 25-30 0,66 30-35 0,79 1Q4(X)=20+50,14/0,27]=22,6 2Q4(X)=25+50,12/0,28]=27,1 3Q4(X)=30+50,09/0,13]=33,5
Un esempio: decili dei redditi a Milano xi |- xi+1 0,0 |- 0,8 0,8 |- 1,2 1,2 |- 1,6 1,6 |- 2,0 2,0 |- 2,4 2,4 |- 2,8 2,8 |- 3,2 3,2 |- 3,6 3,6 |- 4,0 4,0 |- 4,4 4,4 |- 4,8 4,8 |- 5,2 5,2 |- 6,0 6,0 |- 8,0 8,0 |- 12 Fi(MIL) 35 44 105 193 272 474 570 702 772 825 851 877 903 974 1000 Fi(PIC) 11 25 113 279 419 615 723 803 851 916 940 957 976 996 1000 Calcoliamo i decili delle distribuzioni dei redditi mensili familiari ‘equivalenti’ stimate per Milano e per i piccoli comuni della regione dalla Survey Lombarda 2000. Nella colonna delle cumulate trovo la prima classe di reddito che raggiunge o supera il 10, 20, 30.. 90%. Entro la classe decile così individuata applico la formula: Per es. primo e secondo decile di Milano sono: 1Q10(X)MIL=1,2+0,4*(0,100-0,044)/(0,105-0,044)=1,567 2Q10(X)MIL=2,0+0,4*(0,200-0,193)/(0,272-0,193)=2,035
Leggere i decili di reddito Poveri si è nella stessa misura in città e fuori: il primo decile (reddito max del 10% più po-vero) è lo stesso. Anche il primo quartile (reddito del 25% più povero) non varia molto. Ma al crescere del decile la divaricazione cre-sce. La superiorità del reddito medio a Milano è dovuta alla maggiore dispersione dei redditi in città. Misuriamo la dispersione con le diffe-renze tra quantili a ugual distanza dalla me-diana: siamo già dentro alla prossima lezione! decile I II III IV V VI VII VIII IX KQ10(X)MIL 1,567 2,035 2,455 2,653 2,908 3,291 3,594 4,211 5,908 KQ10(X)PIC 1,541 1,810 2,060 2,346 2,565 2,769 3,115 3,585 4,301 Differenza interquantilica 9Q10(X)- 1Q10(X) 4Q5(X)- 1Q5(X) 3Q4(X)- 1Q4(X) D.i.Q Milano 4,341 2,176 1,585 D.i.Q Paesi 2,760 1,775 1,405 quart. I II III KQ4(X)MIL 2,289 2,908 3,874 KQ4(X)PIC 1,930 2,565 3,335