La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LEZIONE A.3 Rappresentazioni grafiche

Presentazioni simili


Presentazione sul tema: "LEZIONE A.3 Rappresentazioni grafiche"— Transcript della presentazione:

1 LEZIONE A.3 Rappresentazioni grafiche
TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.3 Rappresentazioni grafiche

2 In questa lezione.. In questa lezione acquisteremo familiarità con
La rappresentazione di una variabile statistica in forma tabellare La rappresentazione di una distribuzione di frequenza nella forma grafica più adatta al corrispondente livello di misurazione. Introdurremo così i: Diagrammi a barre Diagrammi ad aste Istogrammi Infine, proprio perché la rappresentazione grafica di una variabi-le è uno strumento molto potente e efficace, prenderemo spunto da questa per introdurre il concetto di miscugli di popolazioni.

3 La rappresentazione tabellare
Abbiamo già visto che la forma ‘in punta di forchetta’ di una v.s. è quella (orizzontale) di una suc-cessione ordinata di coppie di va-lori {xi, ni} univocamente associati x1 x2 x3 x4 xk X = n1 n2 n3 n4 nk D’ora in poi useremo questa rappre-sentazione tabellare ‘in verticale’. xi x1 x2 x3 x4 x5 ni n1 n2 n3 n4 n5 N fi= ni /N xi ni Essa consente di affiancare alle colonne di modalità e numerosità altre colonne con elaborazioni successive dei dati (per esempio le frequenze relative), e quindi ci permette di seguire passo passo i calcoli per ogni misura di sintesi delle variabili.

4 Ripasso: una tipologia di variabili
Anche la rappresentazione tabella-re può essere troppo dettagliata. Come ‘fotografare’ una distribuzio-ne di frequenza? Trascriviamo le modalità (xi) sul-l’asse delle ascisse di un piano cartesiano, e le numerosità (ni) sull’asse delle ordinate. Così fa-cendo associamo ad ogni coppia (xi, ni) un punto sul piano. ni n1 n2 n3 n4 n5 (xi, ni) n1 x1 xi x1 x2 x3 x4 x5 Ma c’è un problema: non tutte le moda-lità di una v.s. sono tranquillamente associabili a punti su un piano. Dovremo dare regole di costruzione dei grafici diverse per tipo di variabile: Qualitative nominali Qualitative ordinali Quantitative discrete Quantitative per classi

5 Diagrammi a barre per variabili nominali
Unica regola per la costruzione dei diagrammi a barre: la lun-ghezza delle barre deve essere proporzionale a ni oppure a fi. Diagramma a ‘barre’ xi ni fi Appartamento in condominio 34 0,667 Casa rurale 6 0,117 Villino mono-bifamiliare 11 0,216 51 1,000 Popolazione italiana secondo il tipo di abitazione (dati di fantasia, numerosità in milioni) Nota: è del tutto arbitraria la scelta sia dell’ordine tra le modalità, sia della distanza tra barre

6 Altri rappresentazioni diagrammatiche
Diagramma a torta E’ talmente libera la scelta della rappresentazione gra-fica, che essa può assumere anche altre forme più o meno accattivanti .. Diagramma a nastri Altre iconografie

7 Diagrammi a barre, variabili ordinali
Due regole per costruire diagrammi a barre per variabili ordinali: Lunghezza delle barre propor-zionale a ni oppure a fi. Ordine tra le modalità obbliga-to (non la distanza) Abacus Social Barometer 1996, Autocolloca-zione politica. Giovani di anni, NordOvest xi ni fi Sinistra 20 0,113 Centrosin. 45 0,254 Centro 39 0,220 Centrodes. 59 0,290 Destra 177 1,000 NB:Che le ordina-te del grafico sia-no proporzionali a ni o a fi il risul-tato non cambia: fi = ni * (1/N)

8 Diagrammi ad aste, variabili discrete
Per costruire grafici per variabili discrete le regole diventano tre: Lunghezza delle aste pro-porzionale a ni oppure a fi. Ordine tra le modalità obbli-gato. Ora anche la distanza tra le modalità è obbligata!!! Diagramma ad ‘aste’ ni xi Numero di azionisti per dimensione del pacchetto azionario xi ni 10 35 50 9 100 2 la v.s. quantitativa discreta assume solo tre valori; essa non esiste, ad esempio, per x = 33,56 oppure per x = 0 il diagramma rappresenta davvero uno spazio bidimen-sionale, in cui ogni punto ha coordinate (xi, fi) o (xi, ni) le modalità sono poste sull'asse delle ascisse e le frequenze sull'asse delle ordinate per convenzione

9 Variabili per classi: il diagramma sbagliato
Che fare, se una variabile è per classi? In questo caso non pos-siamo associare a ogni coppia (xi,ni) un punto sul piano poiché le modalità non sono puntuali. Dovremo piuttosto alzare su ogni segmento dell’ascisse, associa-to a una classe (xi-xi+1), un ret-tangolo di giusta altezza. Ma quale altezza è giusta? Qualcosa non qua- dra: usando le nu-merosità come or-dinate, i 45 pazien-ti della classe (11-14) sembrano dav-vero pochi rispetto ai 63 della classe (14-19). Il grafico non rispetta le pro-porzioni tra classi Pazienti anoressiche per età di insorgen-za (Selvini, 1998) ni xi-xi+1 ni 9-11 11 11-14 45 14-19 63 19-25 23 142 xi Morale: meglio far sì che siano le aree ad essere pro-porzionali alle numerosità

10 Variabili per classi: l’istogramma giusto
Vogliamo che le aree dei rettangoli ri-spettino le proporzioni tra le numerosità. Poiché “Area rettangolo=basexaltezza” e la base dei rettangoli è l’ampiezza delle rispettive classi (i=xi+1-xi), l’altezza dei rettangoli deve essere hi=ni/i. Questo rapporto si chiama densità. Ora la terza classe (14-19) con-tinua ad avere area più estesa, ma la sua altezza è inferiore al-la classe (11-14) dato che corri-sponde a una classe più ampia hi xi-xi+1 ni 9-11 11 11-14 45 14-19 63 19-25 23 142 i hi=ni/i 2 5,50 3 15,00 5 12,60 6 3,83 Densità: hi=ni/i Condizione di area: ihii=N xi Il diagramma con altezze proporzionali alle densità e basi alle ampiezze delle classi si chiama ISTOGRAMMA

11 Due cose che è bene sapere sull’istogramma/1
La prima cosa è che, come per i diagrammi a aste l’ordinata può essere indifferentemente proporzionale a ni o a fi, anche l’istogramma può calibrare le ordinate non alla densità assolute hi=ni/i ma alle densità relative i=fi/i. Le proporzioni del grafico non mutano. La condizione d’area diventa iii=1 . f x xi-xi+1 ni fi 9-11 11 0,077 11-14 45 0,317 14-19 63 0,444 19-25 23 O,162 142 1,000 i  i=fi/i 2 0,0385 3 0,1057 5 0,0888 6 0,0262 x

12 Due cose che è bene sapere sull’istogramma/2
La seconda cosa è che, frammentando indefinitamente i segmenti di base, le ampiezze i diventano differenziali (dx) e le variabili tendono a funzioni di densità di frequenza continue per le quali vale la condizione d’area  f(x)dx = 1 f x Cioè l’area sottesa alla curva è =1. Non preoccupatevi, comunque. Nella prima e nella seconda parte del corso useremo variabili continue solo come forme idealtipiche per cogliere l’essenza di una legge di frequenza. f(x)dx=1 x

13 Due esempi di leggi matematiche di frequenza
Solo nell’analisi dell’inferenza ritroveremo ‘distribuzioni notevoli’, cioè leggi teoriche che stimano il valore della densità di frequenza in funzio-ne del valore delle modalità: y = f(x). Ci limitiamo a due esempi. f x f x f x = 1 / (b-a) f x =  e- x 1/ x x a b Distribuzione rettangolare o uni-forme. Ricordate l’istogramma? i = fi / i Distribuzione esponenziale (ne-gativa) (esempio: tempi di attesa)

14 Un esempio per classi hi
xi |- xi+1 0 |- 20 20 |- 40 40 |- 60 60 |- 80 80 |- 100 100|-160 160|-300 ni 126 439 346 123 37 22 6 1099 fi 11,5 39,9 31,5 11,2 3,4 2,0 0,5 100 i 20 60 140 hi 6,30 21,95 17,30 6,15 1,85 0,37 0,04 i 0,0057 0,0199 0,0157 0,0056 0,0017 0,0003 0,0001 hi Nota: la classe (80-100) ha numerosità che è solo il 60% superiore a quella della classe seguente, ma la densità è cinque volte tanto! General Survey Lombarda 2000 Distribuzione famiglie per reddito annuo (milioni lire) Nota: sull’asse orizzontale i redditi sono stati divisi per 10 (cioè espressi in decine di milioni) per pura comodità, senza che ne risenta la forma del grafico xi

15 Miscugli di popolazioni. Un esempio
Spesso una popolazione non è omogenea al suo interno, rispetto a un ca-rattere osservato. Facciamo il caso della struttura per età degli immigrati presenti in Lombardia Età xi |-xi+1 Totale fi ampiezza densità hi 15 |-25 15,7 10 1,57 25 |-35 49,7 4,97 35 |-45 27,3 2,73 45 |-65 7,3 20 0,37 100,0

16 Subpopolazioni e distribuzioni di frequenza
Ma popolazioni di diversa provenienza hanno diverse strutture per età. Per esempio: Età xi |-xi+1 Peru fi Albania 15 |-25 9,7 29,5 25 |-35 45,5 41,1 35 |-45 30,8 23,8 45 |-65 14,0 5,6 100,0 Più giovane la struttura per età albanese Più vecchia la struttura per età dei peruviani Il numero di immigrati di anni sarà pari alla somma delle numerosità di immigrati dei diversi paesi. La corrispondente frequenza relativa f(15-25) sarà invece la media aritmetica delle frequenze nei diversi gruppi nazionali, ciascuna ponderata per la numerosità del corrispondente gruppo (un dato che non possediamo!).

17 Tornateci su quando avremo introdotto il concetto di media ponderata..
Un secondo esempio Abbiamo già imparato a classificare le province ita-liane secondo il tasso di di-soccupazione. Disegnando gli istogrammi possiamo capire cosa signi-fica dire che una popola-zione è un miscuglio. Miscuglio è un aggregato di subpopolazioni rispetto a uno stesso carattere. La distribuzione di numerosità del miscuglio è la somma delle di-stribuzioni delle singole subpopo-lazioni. La distri-buzione di fre-quenza (relativa) è la loro media ponderata. xi|-xi+1 niN niS niT 0–5 15 5-10 36 8 44 10-15 4 21 25 15-25 16 55 45 100 Tornateci su quando avremo introdotto il concetto di media ponderata..

18 Un terzo esempio Il caso della curva dei decessi per età (Lexis)
L’andamento standard della frequenza dei decessi per età (dx) è quello riportato con linea spessa. Un secolo fa W. Lexis ha ipotizzato che la legge di frequenza dei decessi sia il risultato di un miscuglio di due popolazioni. dx x La curva rossa indica la subpopolazione congenitamente debole, che viene eliminata nei primi anni con andamento esponenziale negativo. La curva blu indica la legge dei decessi per la popolazione ‘normale’, simmetrica campanulare (la chiameremo curva Normale o di Gauss).

19 Un esempio riassuntivo
xi |- xi+1 0,0 |- 0,8 0,8 |- 1,2 1,2 |- 1,6 1,6 |- 2,0 2,0 |- 2,4 2,4 |- 2,8 2,8 |- 3,2 3,2 |- 3,6 3,6 |- 4,0 4,0 |- 4,4 4,4 |- 4,8 4,8 |- 5,2 5,2 |- 6,0 6,0 |- 8,0 8,0 |- 12 fi 35 9 61 88 79 202 96 132 70 53 26 1000 ni 4 1 7 10 9 23 11 15 8 6 3 114 i 0,8 0,4 2,0 4,0 hi 5,0 2,5 17,5 25,0 22,5 57,5 27,5 37,5 20,0 15,0 7,5 3,7 4,0 0,7 i 0,0437 0,0225 0,1525 0,2200 0,1975 0,5050 0,2400 0,3300 0,1750 0,1325 0,0650 0,0325 0,0350 0,0065 Esercitiamoci su dati di sur-vey che ci consentono di svi-luppare l’intera procedura di calcolo di variabili per classi. I dati riportati nelle prime due colonne riguardano le frequenze relative dei redditi ‘equivalenti’ delle 114 fami-glie di Milano città incluse nella General Social Survey. Conoscendo le fi e N (114) possiamo ricostruire le nu-merosità specifiche ni. Date le ampiezze (i) calco-liamo anche le densità.

20 I redditi di Milano città
Nota: sull’ordinata sono riportate le densità relative (verificate le proporzioni!) ma moltiplicate per cento per comodità (numeri più compatti). Nessun danno per il grafico! i xi |- xi+1 0,0 |- 0,8 0,8 |- 1,2 1,2 |- 1,6 1,6 |- 2,0 2,0 |- 2,4 2,4 |- 2,8 2,8 |- 3,2 3,2 |- 3,6 3,6 |- 4,0 4,0 |- 4,4 4,4 |- 4,8 4,8 |- 5,2 5,2 |- 6,0 6,0 |- 8,0 8,0 |- 12 fi 35 9 61 88 79 202 96 132 70 53 26 1000 i 0,0437 0,0225 0,1525 0,2200 0,1975 0,5050 0,2400 0,3300 0,1750 0,1325 0,0650 0,0325 0,0350 0,0065 Notate come la classe dei ricchi (6-8) pur essendo molto più numerosa delle precedenti (70 contro 26) ha ampiezza maggiore e densità assai minore.

21 I redditi dei piccoli comuni
xi |- xi+1 0,0 |- 0,8 0,8 |- 1,2 1,2 |- 1,6 1,6 |- 2,0 2,0 |- 2,4 2,4 |- 2,8 2,8 |- 3,2 3,2 |- 3,6 3,6 |- 4,0 4,0 |- 4,4 4,4 |- 4,8 4,8 |- 5,2 5,2 |- 6,0 6,0 |- 8,0 8,0 |- 10 fi 11 14 88 164 140 196 108 80 48 65 24 17 19 21 5 1000 i 0,0137 0,0350 0,2200 0,4100 0,3500 0,4900 0,2700 0,2000 0,1200 0,1625 0,0600 0,0425 0,0237 0,0105 0,0012 Questa invece è la distri-buzione di frequenza dei redditi nei piccoli comuni Anche sull’ascissa le modalità sono modificate in proporzione (moltipli-cate per dieci) per como-dità, senza danni per una corretta lettura del grafico

22 L’utilità del confronto
Rosso = Milano Blu = Paesi Più redditi mediobassi nei paesi Più poveri in città Più redditi alti in città La sovrapposizione tra le due distribuzioni consente di cogliere minuziosamente alcune importanti differenze

23 Miscugli: una porta verso l’analisi a 2 variabili
Acqua potabile (dati 1996) Nord e Centro ni Sud e Isole Totale (x1000) Sufficiente sempre 28069 5610 33679 Insufficiente 3 mesi 2391 3900 6291 Insufficiente 6+ mesi 1317 9257 10574 Totale 31777 18767 50544 Acqua potabile Nord e Centro fi Sud e Isole fi Totale Suff 88,3% 29,9% 66,6% Insuff 3 mesi 7,5% 20,8% 12,5% Insuff 6+ mesi 4,2% 49,3% 20,9% 31777 18767 50544 Popolazione italiana secondo l’accesso all’acqua potabile e la ripartizione geografica Miscugli si hanno anche per variabili qua-litative. Per esempio, hanno acqua a suffi-cienza 2 italiani su 3, ma solo 3 su 10 al Sud, e 9 su 10 al Nord. Le distribuzioni di frequenze relati-ve del Nord e del Sud corrispondo-no (se moltiplicate per le rispettive numerosità complessive) alla tabel-la delle numerosità congiunte per ‘Accesso all’acqua’ e ‘Ripartizione’. Il confronto tra subpopolazioni di un miscuglio è una porta di passaggio dell’analisi da una a due variabili!!


Scaricare ppt "LEZIONE A.3 Rappresentazioni grafiche"

Presentazioni simili


Annunci Google