La distribuzione normale e normale standardizzata La disuguaglinaza di Chebischev
Disuguaglianza di Chebychev Presi un insieme di misure {x1 x2 , … , xN} ed un numero k 1 , La proporzione di misure rispetto al totale che distano dal valore medio non più di k volte “lo scarto quadratico medio” è almeno Il significato di questo teorema si può comprendere con l’aiuto della figura per la popolazione mostrata il teorema afferma che la proporzione della popolazione che sta nell’intervallo da m-ks a m+ks (L’area ombreggiata sotto la curva) deve essere almeno 1- 1 / k2 . Questo è il valore estremo inferiore della proporzione
Disuguaglianza di Chebychev Per ogni k1, sia s la deviazione standard, e sia Sk definito come Si ha che : dei dati cade Cioè almeno una frazione nell’intervallo
La regola empirica (distribuzione normale) Osservazioni La regola empirica (distribuzione normale) 99.7% delle osservazioni cadono nell’intervallo ( -3sd, +3sd) 95.4% nell’intervallo ( -2sd, +2sd) 68.2% nell’intervallo ( -sd, +sd) Questa regola si applica a dati continui che hanno una distribuzione normale
Contenuti della lezione A livello delle singole osservazioni La distribuzione normale Lo z score La distribuzione normale standardizzata
La distribuzione normale Curva simmetrica a forma di campana Media Distribuzione simmetrica e unimodale (media=moda=mediana) Caratterizzata da due parametri indipendenti: media e SD Al variare di questi parametri la curva modifica la sua posizione. La conoscenza di questi 2 parametri permette di calcolare la probabilità degli eventi di interesse.
Come varia la forma della curva al variare dei parametri Esempio: Distribuzione delle altezze negli adulti maschi e femmine Femmine Media=161 SD=6.3 Maschi Media=175 SD=7 161 175 Altezze
Media: =33.8, Deviazione Standard: =5.9 Esempio: Livello di albumina nel sangue in 216 pazienti affetti da cirrosi biliare primaria Livello di Frequenza Albumina (numero di pazienti) 20 2 22 6 24 7 26 9 28 21 30 20 32 28 34 39 36 28 38 22 40 12 42 11 44 4 46 3 48 1 50 1 52 1 56 1 ---------- 216 Distribuzione del livello di albumina in pazienti cirrotici n=216 .2 Distribuzione empirica Distribuzione teorica Frequenza 20 40 60 80 Albumina Media: =33.8, Deviazione Standard: =5.9
Espressione matematica Qual è la probabilità di osservare un paziente con valore di albumina superiore o uguale a 40? Qual è la frequenza dei pazienti con valori di albumina ….[Pr(x40)] Distribuzione del livello di albumina in pazienti cirrotici Probabilità empirica (12+11+4+3+1+1+1+1)/216=0.16 n=216 .2 Prevede la conoscenza dei valori osservati e delle loro frequenze Espressione matematica Frequenza 20 40 60 80 Albumina Probabilità teorica (area sotto la curva) Prevede la conoscenza della media e della deviazione statndard dei valori L’area totale sotto la curva è pari a 1
La regola empirica (distribuzione normale) Osservazioni La regola empirica (distribuzione normale) Questa regola si applica a dati continui che hanno una distribuzione normale 99.7% delle osservazioni cadono nell’intervallo ( -3sd, +3sd) 95.4% nell’intervallo ( -2sd, +2sd) 68.2% nell’intervallo ( -sd, +sd)
Osservazioni Lo Z score Lo z score è una trasformazione che permette di esprimere il fenomeno di interesse su una scala a-dimensionale. Definizione Lo z score, è la distanza (espressa in termini di deviazioni standard) tra un valore e la media. Esso è calcolato nel seguente modo: z = (x-media) SD
Esempio Media osservazioni=33.8 sd=5.9 Livello di albumina z-score frequenza 20 (20-33.8)/5.9 = -2.3 2 22 (22-33.8)/5.9 = -2 6 24 (24-33.8)/5.9 = -1.7 7 26 (26-33.8)/5.9 = -1.3 9 28 (28-33.8)/5.9 = -1 21 30 (30-33.8)/5.9 = -0.6 20 32 (32-33.8)/5.9 = -0.3 28 34 (34-33.8)/5.9 = 0.03 39 36 (36-33.8)/5.9 = 0.37 28 38 (38-33.8)/5.9 = 0.71 22 40 (40-33.8)/5.9 = 1.05 12 42 (42-33.8)/5.9 = 1.39 11 44 (44-33.8)/5.9 = 1.73 4 46 (46-33.8)/5.9 = 2.07 3 48 (48-33.8)/5.9 = 2.41 1 50 (50-33.8)/5.9 = 2.75 1 52 (52-33.8)/5.9 = 3.08 1 56 (56-33.8)/5.9 = 3.76 1 Valori meno frequenti Valori frequenti Valori meno frequenti
Osservazioni Se i dati (osservazioni) si distribuiscono “normalmente” vale la seguente regola: Valori non comuni Valori comuni -3 -2 -1 0 1 2 3 Z
La distribuzione dello z score Osservazioni La distribuzione dello z score Data una serie di valori distribuiti normalmente, la trasformazione di ogni osservazione in z score genera una nuova distribuzione: La normale standardizzata (media=0, sd=1) La distribuzione normale La distribuzione normale standardizzata Lo z score calcolato su valori normali si distribuisce normalmente con media zero e SD pari a 1
Area sotto la curva (normale standardizzata) Osservazioni Area sotto la curva (normale standardizzata) Table 1
99.7% degli z cadono nell’intervallo (-3,+3) Osservazioni La regola empirica (distribuzione normale standardizzata) 99.7% degli z cadono nell’intervallo (-3,+3) 95.4% nell’intervallo (-2,+2) 68.2% nell’intervallo (-1,+1) -3 -2 -1 0 1 2 3
La distribuzione normale standardizzata Osservazioni La distribuzione normale standardizzata Espressione matematica La distribuzione normale standardizzata è una distribuzione normale con parametri: Media=0, SD=1 Le probabilità associate ad ogni valore di z sono note (di solite riportate in tabelle).
Osservazioni Esempio Il livello medio di albumina nel sangue di pazienti con cirrosi biliare è pari a 34.5 g/l con SD pari a 5.84 g/l a) calcolare la probabilità di estrarre un paziente con valore superiore a 44.46 Pr(x>44.46) b) calcolare la probabilità di estrarre un paziente con valore superiore a 40 Pr(x>40) Soluzione a) Calcolo dello z-score la probabilità è pari a 1-(0.5+0.4564) = 0.044 (4%) b) Calcolo dello z-score la probabilità è pari a 1-(0.5+0.3264) = 0.174 (17.4%)
… dipende dalla sua distribuzione… Campioni …la volta scorsa avevamo introdotto il concetto di distribuzione delle media aritmetica … ci eravamo chiesti: quando è affidabile la stima della media calcolata sul campione? … dipende dalla sua distribuzione… … per grandi campioni la distribuzione è normale … con media pari al valore della media della popolazione e deviazione standard pari a SE