La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LEZIONE A.6 Le distribuzioni cumulate

Presentazioni simili


Presentazione sul tema: "LEZIONE A.6 Le distribuzioni cumulate"— Transcript della presentazione:

1 LEZIONE A.6 Le distribuzioni cumulate
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.6 Le distribuzioni cumulate

2 In questa lezione.. In questa lezione impareremo a costruire e a interpretare una fun-zione derivata dalla funzione di frequenza f(x). Dapprima definiremo e costruiremo funzioni cumulate di frequenza (dette anche funzioni di ripartizione), Di seguito estenderemo definizioni e procedure di co-struzione alla funzione speculare, detta funzione retro-cumulata. Funzioni cumulate e retrocumulate ci consentiranno, nella prossima lezione, di introdurre l’ultimo pacchetto di ‘misure centrali’ di una variabile statistica.

3 Dalla frequenza alla frequenza cumulata
xi x1 x2 x3 x4 x5 ni n1 n2 n3 n4 n5 N fi f1 f2 f3 f4 f5 1 Ni =k=1..ink N1=n1 N2=n1+n2 N3=n1+n2+n3 N4=n1+n2+n3+n4 T=N5=n1+n2+n3+n4+n5 Fi =k=1..ifk F1=f1 F2=f1+f2 F3=f1+f2+f3 F4=f1+f2+f3+f4 1=F5=f1+f2+f3+f4+f5 Si dice frequenza cumulata associata alla modalità xi la frequenza di osservare modalità di X inferiori o al più uguali ad xi :

4 Una tipologia di scale di misurazione
Scala/proprietà Classificazione Ordinamento Misurazione Nominale SI’ NO Ordinale Quantit.discreta Quantit.per classi L’operazione di cumulazione implica il concetto di ordinamento gerar-chico delle modalità, quindi ha senso per le v.s. quantitative e per le v.s. qualitative (o mutabili) che siano ordinali. Per brevità faremo solo esempi di variabili quantitative, discrete e per intervalli. Soprattutto per la rappresentazione grafica che introdurremo, è buon senso applicarla solo a variabili quantitative.

5 Rappresentare le frequenze cumulate
Ni Riprendiamo l’esempio di 46 azionisti, distribuiti secondo la dimensione del loro pacchetto azionario. Per rappresentare graficamente la cu-mulata di una variabile discreta seguia-mo queste regole di costruzione: Questo è il bruco che striscia e si arrampica.. xi La funzione esiste da -, ma fino al pri-mo valore osservato ha valore 0: F(X<10)=0 Quindi la curva viaggia terra terra come un bruco fino alle soglie di x=10. Solo a quel punto la curva si impenna e sale a frequenza 35. Infatti F(X10)=f(10)=35. Azionisti per azioni xi ni Ni 10 35 50 9 44 100 2 46

6 Variabili discrete, diagrammi a scalini
Continuiamo a seguire il nostro bruco, che striscia lungo la funzione cumulata. Tra X=10 e X=50 di nuovo la curva pro-seuguea lungo una retta parallela alla ascissa: nessuna modalità è infatti os-servata dopo X=10 e prima di X=50. Di nuovo a X=50 esatto (punto di di-scontinuità della funzione) la curva si impenna in verticale e raggiunge F(X50)= f(10)+f(50)= 44. (100,46) (50,44) (10,35) xi E così via… Risultato di questo per-corso è una funzione spezzata con la caratteristica forma di una scala. Per costruire il grafico è sufficiente individuare i tre punti incorniciati, a partire dalle loro coordinate (xi, Ni), e poi congiungere i diversi tratti della spezzata. Azionisti per azioni xi ni Ni 10 35 50 9 44 100 2 46

7 Ancora sui diagrammi a scalini
Diagramma a ‘scalini’ Diagramma ad ‘aste’ Ni (50,44) (100,46) (10,35) xi Confrontiamo allora il diagramma (ad aste) delle frequenze con quello (a scalini) delle cumulate: Nel diagramma a scalini: La lunghezza delle tratte verticali è pro-porzionale ancora a ni o a fi, dato che è pari alla differenza tra due cumulate successive: fi=Fi-Fi-1 La funzione assume valore anche per modalità non osservate. Es. F(40)=F(10) La funzione cumulata assume valore an-che al di fuori del campo di variazione della v.s.: F(-)=0 e F()=1. Nel diagramma ad aste: La lunghezza delle barre è proporziona-le a ni oppure a fi. La v.s. discreta assume solo valori di-screti: non esiste per es. f(x) per X=40 La distribuzione di frequenza assume va-lori solo entro il campo di variazione di X

8 Una definizione e un esempio
La distribuzione cumu-lativa di frequenze (funzione di ripar-tizione) di una v.s. di-screta è una funzione continua compresa tra 0 e + (tra – e + se il carattere può assumere valori <0), con m punti di di-scontinuità. xi ni fi Fi 20 0,10 1 30 0,15 0,25 2 70 0,35 0,60 3 50 0,85 4 0,95 5 10 0,05 200 0.35 (2,0.60) (1,0.25) Studenti del II anno secondo il numero di esami già sostenuti F2=F(X2)=0,60 cioè: “Il 60% degli studenti ha dato non più di due esami” o anche “ha dato due esami o meno” F1=F(X1)=0,25 cioè: “un quarto degli studenti ha dato al massimo 1 esame” o anche “ha dato un numero di esami inferiore a 2” La differenza tra le due cumulate è pari alla frequenza dell’ultima modalità sommata: F2-F1 = F(X2)- F(X1) = f(X2) = f2

9 Se una variabile è per classi
Leggiamo la tabella a fianco: il 74% delle province italiane ha una densità inferiore ai 1000 abitanti per kmq. Ma entro quel 74% una parte (quanti?) ha densità molto minore, per es. compresa tra 0 e 550 Ab/kmq. Posso calcolarla? xi-xi+1 ni fi Fi 0-400 34 0,34 40 0,40 0.74 26 0,26 1 100 Province per num. abitanti/kmq Costruendo l’istogramma avevamo sottin-teso un’ipotesi importante: entro un inter-vallo il carattere si presume distribuirsi u-niformemente (distribuzione rettangolare) Quindi se tra x=400 e x=1000 stanno 40 province, noi ipotizziamo che tra x=400 e x=700 (cioè metà dell’intervallo) stiano 20 province, e tra x=400 e x=550 (cioè un quarto della classe) stiano 10 province e così via, segmentando all’infinito… hi fi= 0,40

10 Partendo dall’ipotesi di distribuzione uniforme
Se entro ciascuna classe le osservazioni si distribuiscono in modo uniforme al crescere continuo di X (cioè a intervalli i piccoli quanto si vuole di X corrisponde una fre-quenza fi=hi·i sempre uguale) allora la cu-mulazione di incrementi infinitesimi co-stanti di frequenza produce una funzione cumulata rettilinea. xi-xi+1 ni fi Fi 0-400 34 0,34 40 0,40 0.74 26 0,26 1 100 Province per num. abitanti/kmq Fi fi= Fi-Fi-1 Area: fi= ihi i hi i i

11 Variabili per classi e spezzata delle cumulate
Per costruire il grafico della cumulata di fre-quenza di una v.s. per classi occorre quindi Segnare i punti di coordinate (xi, Fi) (il punto corrispondente all’estremo su-periore di una classe coincide con il punto corrispondente all’estremo supe-riore della classe successiva) Congiungere i punti successivi della spezzata, prolungando a volontà a . xi-xi+1 ni fi Fi 0-400 34 0,34 40 0,40 0.74 26 0,26 1 100 Province per num. abitanti/kmq Fi La funzione di ripartizione di una v. per classi è una spezzata che congiunge i punti di coor-dinate (xi+1,Fi) partendo dal punto (x1,F0=0). L'ipotesi di distribuzione uniforme diventa ipotesi di crescita uniforme. La densità di frequenza corrisponde al coefficiente ango-lare (tang) della spezzata in ogni segmento. xi

12 Struttura per età Immigrati
Un primo esempio xi |-xi+1 fi hi Fi 15 |-25 0,157 1,57 25 |-35 0,497 4,97 0,654 35 |-45 0,273 2,73 0,927 45 |-65 0,073 0,37 1,000 Struttura per età Immigrati Esempi di lettura dei dati e del grafico: Il 65,4% degli immigrati ha meno di 35 anni. I ‘giovani’ immigrati (che non rag-giungono i 25 anni) sono il 15,7%. Fi 10xhi xi xi

13 Un secondo esempio Leggere dati e grafici:
xi |- xi+1 0 |- 20 20 |- 40 40 |- 60 60 |- 80 80 |- 100 100|-160 160|-300 fi 11,5 39,9 31,5 11,2 3,4 2,0 0,5 100 Fi 11,5 51,4 82,9 94,1 97,5 99,5 1,00 hi Fi Leggere dati e grafici: L’11,5% delle famiglie lombarde ha un reddito inferiore ai 20 milioni (di lire) annue. Il 99,5% ha entrate in-feriori ai 100 milioni. Famiglie lombarde per reddito annuo NB: la classe a max densità di frequenza (20-40) nell’i-stogramma è quella a max pendenza della spezzata xi

14 Indagine sui tempi casa-lavoro (N=250)
Un terzo esempio [xi ; xi+1) ni i hi Ni 0|—15 25 15 1,67 15|—30 30 2 55 30|—60 75 2,5 130 60|—120 90 60 220 120|—180 0,5 250 Indagine sui tempi casa-lavoro (N=250) Attenzione: Il 10% degli intervistati (25 su 250) im-piega meno di un quarto d’ora. Ma il 12% (30 su 250) impiega più di 2 ore. Questa frase corrisponde a una funzione ‘cumulata a rovescio’. Approfondiamo questo aspetto.

15 Retrocumulare [xi ; xi+1) ni Ni Fi NRi FRi 0|—15 25 0,10 250 1,00 15|—30 30 55 0,22 225 0,90 30|—60 75 130 0,52 195 0,78 60|—120 90 220 0,88 120 0,48 120|—180 0,12 Il 10% (30 su 250) impiega più di due ore. Ma anche: quasi la metà (il 48%) impiega non meno di un’ora. I dati sono gli stessi, ma cumulati a rovescio aprono a giudizi differenti: Quasi ¼ (22%) impiega meno di ½ ora Ma quasi la metà impiega più di 1 ora Si dice frequenza retrocumulata as-sociata alla modalità xi la fre-quenza di osservare modalità di X siperiori o almeno uguali a xi cumulata NB: Fr(i+1)=1-Fi retrocumulata

16 Un secondo esempio (un classico)
Graunt per primo nel 1662 stima una ‘ta-vola di mortalità’ della città di Londra. Essa consiste in una funzione retrocumu-lata. Da essa si può risalire alla distri-buzione di frequenza dell’età di morte (se 100 nascono e 64 vivono almeno 6 anni, =36 sono i decessi tra 0 e 6). Dalla distribuzione di frequenza si può ovviamente costruire la curva cumulata. xi-xi+1 NRi Da 0 a 6 100 Da 6 a 16 64 Da 16 a 26 40 Da 26 a 36 25 Da 36 a 46 16 Da 46 a 56 10 Da 56 a 66 6 Da 66 a 76 3 Da 76 a 86 1 ni Ni 36 24 60 15 75 9 84 6 90 4 94 3 97 2 99 1 100 Di 100 bambini nati a Londra nel 1662: 64 sopravvivevano a 6 anni 40 sopravvivevano a 16 anni 25 sopravvivevano a 26 anni 16 sopravvivevano a 36 anni 10 sopravvivevano a 46 anni 6 sopravvivevano a 56 anni 3 sopravvivevano a 66 anni 1 sopravviverà a 76 anni Di 100 nati, ben 36 muoiono prima di 6 anni. In altre parole: di 100 nati solo 64 hanno età di morte maggiore o pari a 6

17 Curve (retrocumulate) di “eliminazione”
xi-xi+1 NRi Da 0 a 6 64 Da 6 a 16 40 Da 16 a 26 25 Da 26 a 36 16 Da 36 a 46 10 Da 46 a 56 6 Da 56 a 66 3 Da 66 a 76 1 Da 76 a 86 NRi(85) 98,5 98,2 97,4 96,4 88,3 75,0 46,6 15,3 1,0 Questi sono tutti anni ‘guadagnati’! In rosso a tratto continuo la curva retro-cumulata di sopravvivenza (o di ‘elimina-zione’) della città di Londra nel 1662. In blu tratteggiata la stessa curva per la po-polazione italiana maschile nel 1985. Un confronto eloquente..

18 Un terzo esempio: industrial demography
La funzione retrocumulata non è esclusiva di demografia e epidemiologia. Interessa anche la ricerca operativa (curve di affidabilità di uno stock di pneumatici), l’economia del lavoro (funzione di anzianità di forza lavoro prima della pensione), l’economia industriale (cicli di vita delle imprese). xi-xi+1 Fi 0-1 15,4 1-2 28,7 2-3 39,6 3-4 47,4 4-5 53,6 5-6 58,0 6-7 62,1 7-8 65,2 8-9 67,2 9-10 69,6 ni FRi 15,4 100 13,3 84,6 10,9 71,3 7,8 60,4 6,2 52,6 4,4 46,4 4,1 42,0 3,1 37,9 2,0 34,8 2,4 32,8 69,6 30,4 Es.:‘mortalità’ di imprese nate nel 1983. Domanda: la curva non va a zero ma tende a un asintoto intorno a 25. Che vuol dire? Altra domanda: tracciate l’istogramma della densità di frequenza di X. Che significato ha? (Fonte: Biggiero, Caroli, 1995)

19 Ultimo esempio: slittamento dei passaggi
In Friuli, nella coorte di donne nate nel 1946, le % di quelle che non avevano ancora un figlio rispettivamente a 20, 25, 30 e 35 anni era-no del 93%, 49%, 14% e 9%. Questa espressione equivale a leggere una funzione retrocumulata (in rosso). Il confronto con la retrocumu-lata della coorte del 1960 (in blu) è davvero significativo. xi|-xi+1 FRi(46) 15-20 1,00 20-25 0,93 25-30 0,49 30-35 0,14 35 e + 0,09 La % di donne che non hanno esperito la mater-nità cresce (quasi) a ogni età. La % di ‘childles-sness’ (non maternità definitiva) si alza. xi|-xi+1 FRi(60) 15-20 1,00 20-25 0,89 25-30 0,62 30-35 0,34 35 e + 0,21 Se prendiamo le don-ne che stanno al cen-tro della distribuzione ordinata secondo l’età di maternità (50% della cumulata), la lo-ro età si sposta da 25 a 27 anni.


Scaricare ppt "LEZIONE A.6 Le distribuzioni cumulate"

Presentazioni simili


Annunci Google