Repetita iuvant Rappresentazioni grafiche var. qualitative (barre, torta) Sintesi di variabili quantitative: Min, max Media, proprietà: Internalità Baricentro Linearità Minimizzazione somma quadrati scarti i (xi – )2 i (xi – )2 per qualsiasi Media ponderata 19 aprile 2008
Variabilità per variabili quantitative campo di variazione: max(Xi) – min(Xi) scarto interquartile: quartili: mediana → 2 parti uguali quartili → 4 parti uguali Q1 → valore associato all’unità ordinata che viene dopo il primo 25% Q2 → valore associato all’unità ordinata che viene dopo il primo 50% (Mediana!!!) 19 aprile 2008
Q3 → valore associato all’unità ordinata che viene dopo il primo 75% viene dopo il primo 100% (Max!!!) in pratica: si ordinano le unità si individuano le unità portatrici di Q1 e Q3: Q1 = x((n+1)/4) Q3 = x((n+1)3/4) N.b. il quartile, come la mediana, non è la posizione bensì la modalità associata alla posizione! 19 aprile 2008
se le posizioni non sono un numero intero? si considera la parte intera separata da quella decimale: Es.: n = 29 → (n + 1)/4 = 30/4 = 7,5 parte intera c1 = [(n + 1)/4] → 7 parte decimale d1 = (n + 1)/4 – [(n + 1)/4] → 0,5 Q1 = x(c1) + d1(x(c1+1) – x(c1)) = = x(7) + 0,5(x(8) – x(7)) = 18 Età ni fi Ni Fi 18 10 0,345 19 3 0,104 13 0,449 20 7 0,241 0,690 21 9 0,310 29 1,000 Totale 19 aprile 2008
Q3 = x(c3) + d3(x(c3+1) – x(c3)) = = x(22) + 0,5(x(23) – x(22)) = 21 → (n + 1)3/4 = 90/4 = 22,5 parte intera c3 → 22 parte decimale d3 → 0,5 Q3 = x(c3) + d3(x(c3+1) – x(c3)) = = x(22) + 0,5(x(23) – x(22)) = 21 Età ni fi Ni Fi 18 10 0,345 19 3 0,104 13 0,449 20 7 0,241 0,690 21 9 0,310 29 1,000 Totale 19 aprile 2008
scarto interquartile: Q = Q3 – Q1 osservazioni: – lo scarto interquartile individua il range del 50% della distribuzione centrata sulla mediana (il secondo quartile…) u.s. 2 3 4 … … 4 8 14 … … 26 27 29 modalità 18 18 18 … … 20 20 20 … … 21 21 21 (posizione) (1) (2) (3) … …(14) (15) (16)… … (27) (28) (29) Q1 Q2 Q3 18 20 21 25% 50% – maggiore è Q, maggiore sarà la dispersione 19 aprile 2008
scarto quadratico medio σ: scarto: (xi – μ) i (xi – )2 i (xi – )2 per qualsiasi 19 aprile 2008
se si hanno le distribuzioni di frequenze lo sqm diventa: osservazioni: è nella stessa unità di misura dei dati (dipende dall’ordine di grandezza) circa il 70% dei valori osservati dovrebbe cadere nell’intervallo μ ± σ σ ≥ 0 σ = 0 → omogeneità se si hanno le distribuzioni di frequenze lo sqm diventa: 19 aprile 2008
non è nella stessa unità di misura dei dati bensì il suo quadrato varianza σ2: quadrato dello sqm… osservazioni: non è nella stessa unità di misura dei dati bensì il suo quadrato (dipende dall’ordine di grandezza) σ2 ≥ 0 σ2 = 0 omogeneità poco informativa nell’analisi monovariata se si hanno le distribuzioni di frequenze : 19 aprile 2008
qual è la variabile che presenta maggiore variabilità? sigarette/h ni Età 1 6 18 10 2 15 19 3 5 20 7 4 21 9 totale 29 Totale qual è la variabile che presenta maggiore variabilità? σetà = 1,249 σsig = 19 aprile 2008
ordini di grandezza differenti, unità di misura diverse, 6 60 45 48 159 1 4 9 16 sigarette/h ni 1 6 2 15 3 5 4 Tot 29 5,483 σ 0,875 xini xi2ni 6 30 15 12 63 Media 2,172 xi2 σetà = 1,249 σsig = 0,875 ordini di grandezza differenti, unità di misura diverse, appartenenza a gruppi di numerosità differente… → confronto? 19 aprile 2008
coefficiente di variazione (CV): → numero puro! sig/h Età σ 0,875 1,249 Media 2,172 19,517 CV 0,403 0,064 18 180 20 200 21 210 22 220 17 170 15 150 σ 2,429972 24,29972 σ2 5,904764 590,4764 19 aprile 2008
Raggruppamento in classi Esigenze di sintesi rendono oneroso e di poca rilevanza elencare tutte le modalità con rispettive frequenze modalità → intervalli di valori → classi Es.: u.s.: paziente variabile: età unità di misura: anni numerosità gruppo: 1738 19 aprile 2008
età ni 15 1 17 7 18 19 … 97 99 Totale 1738 19 aprile 2008
procedura (semplificata): si determina il range: r = max – min classe: intervallo di valori entro il quale si distribuiscono le osservazioni procedura (semplificata): si determina il range: r = max – min si sceglie il numero di classi = k si divide il range (r* un po’ più ampio di quello calcolato) per il numero di classi → si ottiene l’ampiezza di ogni classe d 1° classe: inf < min sup = est. inf. + d 2° classe: inf. = sup.1° + 1 sup. = est. inf. + d ecc... 19 aprile 2008
2° classe : inf = 36+1=37 → sup = 37+22=59 min=15 max=99 r=84 k=4 r*=88 d=r*/k=22 1° classe : inf = 14 → sup = 14+22=36 2° classe : inf = 36+1=37 → sup = 37+22=59 Classi di Età inf sup 14 36 37 59 60 82 83 105 19 aprile 2008
→ distribuzione di frequenze per le classi... Classi di età ni fi Ni Fi 14-36 571 0,328 37-59 821 0,472 1392 0,800 60-82 333 0,192 1725 0,992 83-105 13 0,008 1738 1,000 Totale osservazioni: è più conveniente considerare ampiezze costanti da tale distribuzione non è possibile identificare la reale distribuzione originaria… 19 aprile 2008