La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli.

Presentazioni simili


Presentazione sul tema: "LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli."— Transcript della presentazione:

1 LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

2 In questa lezione.. In questa lezione faremo conoscenza con unultima famiglia di misure centrali di una distribuzione: La mediana I quartili, i percentili e in generale i quantili Si tratta di misure che si applicano a variabili (almeno) ordinabili, e che si basano sulle frequenze cumulate o retrocumulate. Di queste misure vedremo la logica e le procedure di calcolo. Mentre la mediana è una misura di posizione centrale, quartili e percentili ci introducono alla descrizione della variabilità.

3 La mediana La mediana Me(X) è la modalità che occupa il posto centrale nella sequenza ordinata dei dati. Si dimostra che se la funzione di perdita è allora: Ricordiamo che la media aritmetica rende minima una misura quadratica del danno prodotto dagli errori che si compiono sostituendo la media stessa alle effettive osservazioni. Pensavamo che questa piacevole proprietà dipendesse dal fatto che M(X) è una media analitica, cioè coinvolge nel conto tulle le modalità e numerosità della v.s. Ora troviamo che anche la Mediana possiede una proprietà simile. Eppure essa è solo una media lasca. Basta vedere come si calcola..

4 Calcolo della mediana per serie ordinate La mediana è la modalità osservata nellunità di analisi che si colloca al centro nella serie statistica in ordine crescente. Essa lascia metà popolazione a sinistra e metà a destra nella se- quenza ordinata. La mediana è la modalità osservata nellunità di analisi che si colloca al centro nella serie statistica in ordine crescente. Essa lascia metà popolazione a sinistra e metà a destra nella se- quenza ordinata. Il calcolo di Me(X) discende immediatamente dalla definizione, nel caso di seriazione disaggregata, distinguendo due casi: Quindi per calcolare la mediana non si richiedono modalità quantitative (bastano ordinali!) e soprattutto non si coinvolgono nel calcolo tutte le modalità, ma solo quella che sta al centro della sequenza ordinata. N=pari=2r N=dispari=2r+1

5 Calcolo della mediana per variabili discrete Se le informazioni sono ricodificate in forma di variabile statistica il crite- rio di calcolo non cambia. Solo, non dovremo cercare la mediana nella sequenza ordinata delle N osservazioni, ma in quella delle k (

6 Un esempio e la sua percezione grafica xixi nini FiFi 0200, , , , , N.esami dati F(1)=0,25 è meno di 0,50: proseguiamo… F(2)=0,60 è più di 0,50: allora Me(X) è 2, la modalità corrispondente! Si può determinare Me(X) anche dal grafico a scalini della funzione cumulata: Sullasse verticale si individua il valore 0,5: da lì si fa partire una linea orizzontale, che incrocia generalmente la curva in un tratto verticale. Da quel punto di scende in verticale, e si trova il valore cercato. Me(X) F=0,5

7 Quando lunità mediana non esiste Può capitare che a una modalità si trovi esattamente F k =0.5 (possibile per N pari): il 50% dei casi si raggiunge esattamente in corrispondenza di un salto di modalità. si prende come mediana il valore centrale tra la modalità k e la successiva In questo caso si prende come mediana il valore centrale tra la modalità k e la successiva, anche se esso può essere un valore fittizio. Me(X) = (x k+1 +x k )/2SSE F k = 0.5 e F k–1 < 0.5 xixi nini FiFi 0200, , , , , Me(X) F(2) ora è proprio 0,50. X2 è os-servato nel 50% dei casi. Losser-vazione successi-va è 3. Me(X)= (2+3)/2=2,5

8 Calcolo della mediana per variabili per classi Consideriamo ora una v.s. segmentata in m classi I k =( I X k, S X k ), dove l'estremo superiore S X k della classe coincidere con l'estremo inferiore I X k+1 della classe successiva. Ci sarà un punto C allinterno di una classe tale che, se alziamo da C una verticale, essa spaccherà larea sottesa allistogramma esattamente in due: il 50% a sinistra, il 50% a destra. classe mediana In questo caso applicheremo il criterio già dato per individuare non il valore mediano, ma la "classe mediana": I k = Classe Me(X) SSE F k 0.5 e F k–1 < 0.5 x i -x i+1 nini fifi FiFi , , , Province per num. abitanti/kmq La classe mediana è ( ). Ma quale è con precisio- ne il punto C? C

9 Calcolo della mediana per interpolazione Zummiamo sul segmento della funzione cumulata. Per trovare il valore mediano a cui corrisponde F(Me)=0,5 esami- niamo i due triangoli OAB e OCD, che insistono sullo stesso angolo. La geometria di Talete spiega che i rapporti tra i cateti corrispon- denti dei due triangoli sono uguali OB sta a OD come BA sta a DAOB sta a OD come BA sta a DA Ma ognuno di questi cateti è mi- surabile in termini di modalità e frequenze cumulate, tutte osser- vate (F Me =0,5) tranne la nostra incognita: Me. FiFi i = S X k - I X k f k = F k -F k-1 F Me -F k-1 Me- I x k O A B C D

10 Una lettura di basso profilo dellinterpolante Abbiamo ottenuto la formula per cal- colare la mediana per interpolazione in modo alto, partendo da Talete. Ma possiamo anche trascurare Talete, leggere la formula e interpretarla in modo letterale: Se la classe mediana va da 400 a 1000, il valore mediano sarà pari allestremo inferiore della classe (400) più una quota dellintervallo della classe stessa ( =600). Tale quota % è posta uguale alla quota di frequenza della classe mediana che serve per arrivare al 50% della cumulata. ½ 640 Nota: Me(X)=640 ma M(X)=738

11 Un secondo esempio x i |-x i+1 fifi FiFi 15 |-25 0, |-35 0,4970, |-45 0,2730, |-65 0,0731,000 Immigrati per età Stimiamo letà mediana degli immigrati in Lombardia La classe mediana è 25-35), la prima la cui cumulata supera il 50%. 25+6,9=31,9 Me(X)=25+10(0,500-0,157)/0,497]=25+10 (0,343/0,497)= ,69=25+6,9=31,9 Nota: M(X)=33 > Me(X)=31,9 > Md(X)=30 Me= 31,9

12 Un terzo esempio x i |- x i+1 0 | | | | | | |-300 xixi hihi Famiglie lombarde per reddito annuo FiFi 11,5 51,4 82,9 94,1 97,5 99,5 1,00 FiFi La classe mediana è 20-40) Me(X) = 20+20(0,500-0,115)/0,399]= ,385/0,399]= ,965= 20+19,3= 39,3M=43,6>Me=39,3>Md=30

13 Le invenzioni dei fratelli Huysgens Torniamo alla tavola della distribuzione delle età di morte stimata da Graunt nel Quello che non sappiamo è che essa segna anche la data di nascita di due pietre miliari della statistica: media e mediana. La tavola viene infatti vista da due fratelli olandesi, astronomi e assicuratori. In otto- bre 1669 scrive Luis a Christian Huysgens: Ho trovato una misura interessante di vita media: lintensità totale di anni vissuti equi- ripartiti. Sarà m(X)=1822/100=18,22. Nasce letà media: 18 anni e un tanto. x i -x i+1 xixi Da 0 a 63 Da 6 a 1611 Da 16 a 2621 Da 26 a 3631 Da 36 a 4641 Da 46 a 5651 Da 56 a 6661 Da 66 a 7671 Da 76 a 8681 nini x i n i Bello, vero? Ma una settimana dopo (potenza delle poste) il fratello Christian risponde acidamente (come succede tra fratelli): Non mi consegue che 18 anni e 2 mesi sia l'età di ogni persona concepita...

14 Qualità nascoste della mediana: robustezza..Supponiamo che gli uomini siano ancora più deboli e su 100 ne muoiano 90 nei primi 6 anni; ma che quelli che superano tale età siano dei Nestori e dei Matusa- lemmi e vivano fino a 152 anni e 2 mesi. Tu otterresti lo stesso numero e tuttavia chi scommettesse che un nato pervenga all'età di 6 anni ne avrebbe un gran danno poiché di 10 solo 1 arriva a quel traguardo… x i -x i+1 Da 0 a 6 Da 6 a 16 Da 16 a 26 Da 26 a 36 Da 36 a 46 Da 46 a 56 Da 56 a 66 Da 66 a 76 Da 76 a 86 NiNi speranza dell'età futural'età a cui v'è uguale probabilità che egli arrivi o non arrivi E la nascita della mediana Conclude Christian: Son cose differenti la speranza dell'età futura di una persona e l'età a cui v'è uguale probabilità che egli arrivi o non arrivi. Il primo valore serve per calcolare i vitalizi e il secondo per le scommesse. E la nascita della mediana!! x i -x i+1 xixi Da 0 a ,2 Da 16 a 2621 nini x i n i La media resta 18,22 (ma Christian aveva sbagliato i calcoli..) Mediana = Me(X) = 6+10*(50-36)/24= =6+10*(14/24)= =11,83<18,22=M(x)

15 Robustezza e sensitività Dall'esempio dei fratelli Huysgens si capisce come la media aritmetica risenta molto più della mediana delle fluttuazioni dei valori estremi osservati. In altre parole, "forme" particolari della distribuzione sono percepite con forte sensitività dalla media aritmetica. La sensitività è una grande qualità della media, ma talvolta può produrre effetti imprevedibili.. Robustezza è la qualità di una misura di rilevare il "vero" ordine di grandezza delle osservazioni, senza lasciarsi influenzare da varia- zioni "marginali" nella distribuzione Robustezza è la qualità di una misura di rilevare il "vero" ordine di grandezza delle osservazioni, senza lasciarsi influenzare da varia- zioni "marginali" nella distribuzione. La robustezza è quindi una proprietà desiderabile per un indice di posizione, che può far propendere per una misura invece che per un'altra quando (come nel caso degli Huysgens e delle assicurazioni sulla vita) tale proprietà sia ritenuta imprescindibile. La mediana è una misura robusta dell'ordine di grandezza del fenomeno osservato. Lopposto della robustezza è la sensitività.

16 Una simulazione X sia il fatturato di 10 imprese. Conosciamo il valore di 9 imprese, ma dellultima sappiamo solo che è compreso tra 0 e 100. {39,44,53,60,62,66,71,74,81,k} Come varia M(X) al variare di x 10, e come varia Me(X)? La media (tratto continuo) è sensi- bile al variare di x 10, la mediana in- vece non risente proprio di varia- zioni che avvengano sulle code. RobustnessSensitivity Robustness e Sensitivity sono due qualità opposte. Il tipo di dati a disposizione suggerirà quale media è più adatta.

17 Mediana in variabili per classi La tabella mostra i dati relativi ad un campione di 560 persone cui è sta- to chiesto lammontare del loro reddito annuale in migliaia di euro. Calcolate il valore medio e la mediana Entratenumerosità [0; 5)20 [5; 10)200 [10; 20)250 [20; 30)50 [30; 50)30 [50; 70) Valori centralicumulateintensità 2, , Aggiungiamo le colonne di calcolo di de- stra. Media = Intensità totale / Numerosità Totale = 8350/560 = 14,911 Classe mediana = la prima la cui cumulata supera N/2=280: [10; 20) Mediana = * ( )/( ) = * (60/250) = 12,4

18 Cumulate e retrocumulate Consideriamo gli stipendi mensili degli impiegati in una società. Qual è la quota di persone che non guadagnano meno di x euro? F 1 = f 1 = 0.1 (quota di persone con meno di 500 euro di stipendio) F 2 = F 1 + f 2 = 0.40 (quota di persone con meno di 1000 euro) F 3 = F 2 + f 3 = 0.80 (quota di persone con meno di 1500 euro) F 4 = F 3 + f 4 = 0.95 (quota di persone con meno di 2000 euro) F 5 = F 4 + f 5 = 1.00 (quota di persone fino a 5000 euro) R 1 = 1.00 (quota di persone con almeno un euro di stipendio) R 2 = R 1 - f 1 = 0.90 (quota di persone con almeno 500 euro) R 3 = R 2 - f 2 = 0.60 (quota di persone con almeno 1000 euro) R 4 = R 3 - f 3 = 0.20 (quota di persone con almeno 1500 euro) R 5 = R 4 - f 4 = 0.05 (quota di persone con almeno 2000 euro)

19 La mediana come intersezione Spezzata delle frequenze cumulate e retrocumulate Cumulate Retrocumulate Mediana NB: le due curve si intersecano in X=Mediana

20 Media, mediana e dati troncati Supponiamo di seguire una popolazione nella sua e- voluzione (es.: mortalità di una coorte di imprese). Qui la media aritmetica è una misura centrale poco affidabile, perché la coda di imprese longeve è ancora in vita. Otterremmo così medie assai diverse nel caso in cui tutte le imprese ancora in attività chiudano tra il 10° e il 12° anno (caso A), oppure, poniamo, tutte tra il 28° e il 32° anno (caso B). x i -x i+1 n i (A) n i (B) 0-115, , ,9 3-47,8 4-56,2 5-64,4 6-74,1 7-83,1 8-92, , , ,4 robusta La media aritmetica varia davvero molto, invece la mediana è robusta: 4,42

21 Dalla mediana al quantile La Mediana fornisce, a partire dalle cumulate, una misura della mo- dalità che sta nel mezzo. Ma possiamo anche chiederci, per esempio: Qual è il reddito familiare sopra cui sta nella fascia medio-alta, che divide la popolazione non fifty-fifty, 50% a sinistra e 50% a destra ma per es. 75% a sinistra (redditi inferiori) e 25 a destra? Qualè la soglia di reddito oltre cui sta la fascia bassa, la soglia per esempio che discrimina il 20% meno benestante? Dove porre la soglia della povertà che segnali il 10% più povero? Sono tutte (compresa la mediana!) varianti di una stessa famiglia di misure (quantili) che scandiscono i valori assunti da una v.s. in corrispondenza di posti significativi in graduatoria: Il reddito che lascia a sinistra ¾ delle famiglie è un quartile Il reddito che lascia a sinistra 1/5 delle famiglie è un quintile Il reddito che lascia a sinistra 1/10 delle famiglie è un decile.. Secondo le esigenze, useremo quantili larghi (quartili) o dettagliati (decili).

22 Quartili, quintili, decili per variabili discrete Il calcolo di un quantile è simile al calcolo della Mediana. Per v.s. discrete: «Il c-mo quartile è la modalità x k la cui cumulata F k è la prima a raggiungere o superare F k =c/4: x k = 4 Q c (X) SSE F kc/4 e F k–1

23 Quartili, quintili, decili per variabili per classi Anche per v. per classi il calcolo di un quantile è simile a quello di Me(X). Una volta individuata la classe quantile, si interpola. Per es.: c-mo quartile c-mo quintile c-mo decile c-mo percentile Percentile è il valore al quale o al di sotto del quale si trova una specifica percentuale delle osservazioni di una v.s. Ad esempio il 60° percentile è quel valore che divide il gruppo di dati in due parti: il 60% a sinistra e il 40% a destra di esso (coincide quindi col terzo quintile). I decili vengono spesso usati in studi di politica economica (per in- dicare i livelli di reddito di scaglioni decimali di popolazione). I percentili sono molto usati nei test psicologici.

24 Un esempio: quartili delletà di maternità x i |-x i+1 F i (46) , , , ,91 x i |-x i+1 F i (60) , , , ,79 Cumulata di donne friulane che hanno avuto un figlio per età (coorti 46-60). 1 Q 4 (X)=20+50,18/0,44]=22,0 2 Q 4 (X)=20+50,43/0,44]=24,9 3 Q 4 (X)=25+50,24/0,35]=28,4 1 Q 4 (X)=20+50,14/0,27]=22,6 2 Q 4 (X)=25+50,12/0,28]=27,1 3 Q 4 (X)=30+50,09/0,13]=33,5 Interessante: da una coorte allaltra il primo quartile non varia granché (i calendari precoci hanno quasi lo stesso peso), ma slittano in avanti la mediana e soprattutto il 3° quartile

25 Un esempio: decili dei redditi a Milano x i |- x i+1 0,0 |- 0,8 0,8 |- 1,2 1,2 |- 1,6 1,6 |- 2,0 2,0 |- 2,4 2,4 |- 2,8 2,8 |- 3,2 3,2 |- 3,6 3,6 |- 4,0 4,0 |- 4,4 4,4 |- 4,8 4,8 |- 5,2 5,2 |- 6,0 6,0 |- 8,0 8,0 |- 12 F i (MIL) F i (PIC) Calcoliamo i decili delle distribuzioni dei redditi mensili familiari equivalenti stimate per Milano e per i piccoli comuni della regione dalla Survey Lombarda Nella colonna delle cumulate trovo la prima classe di reddito che raggiunge o supera il 10, 20, %. Entro la classe decile così individuata applico la formula: Per es. primo e secondo decile di Milano sono: 1 Q 10 (X) MIL =1,2+0,4*(0,100-0,044)/(0,105-0,044)=1,567 2 Q 10 (X) MIL =2,0+0,4*(0,200-0,193)/(0,272-0,193)=2,035

26 Leggere i decili di reddito Poveri si è nella stessa misura in città e fuori: il primo decile (reddito max del 10% più po- vero) è lo stesso. Anche il primo quartile (reddito del 25% più povero) non varia molto. Ma al crescere del decile la divaricazione cre- sce. La superiorità del reddito medio a Milano è dovuta alla maggiore dispersione dei redditi in città. Misuriamo la dispersione con le diffe- renze tra quantili a ugual distanza dalla me- diana: siamo già dentro alla prossima lezione! decile I II III IV V VI VII VIII IX K Q 10 (X) MIL 1,567 2,035 2,455 2,653 2,908 3,291 3,594 4,211 5,908 K Q 10 (X) PIC 1,541 1,810 2,060 2,346 2,565 2,769 3,115 3,585 4,301 quart. I II III K Q 4 (X) MIL 2,289 2,908 3,874 K Q 4 (X) PIC 1,930 2,565 3,335 Differenza interquantilica 9 Q 10 (X)- 1 Q 10 (X) 4 Q 5 (X)- 1 Q 5 (X) 3 Q 4 (X)- 1 Q 4 (X) D.i.Q Milano 4,341 2,176 1,585 D.i.Q Paesi 2,760 1,775 1,405


Scaricare ppt "LEZIONE A.7 Ancora sulle modalità centrali TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli."

Presentazioni simili


Annunci Google