Università degli Studi di Modena e Reggio Emilia Corso di Statistica Medica La distribuzione normale e normale standardizzata Lezione 3 Dr. Roberto D’Amico Università degli Studi di Modena e Reggio Emilia Anno Accademico 2010-2011 roberto.damico@unimore.it
Contenuti della lezione A livello delle singole osservazioni La distribuzione normale Lo z score La distribuzione normale standardizzata
La distribuzione normale Osservazioni La distribuzione normale Curva simmetrica a forma di campana Media Distribuzione simmetrica e unimodale (media=moda=mediana) Caratterizzata da due parametri indipendenti: media e SD Al variare di questi parametri la curva modifica la sua posizione. La conoscenza di questi 2 parametri permette di calcolare la probabilità degli eventi di interesse.
Come varia la forma della curva al variare dei parametri media e DS Osservazioni Come varia la forma della curva al variare dei parametri media e DS Esempio: Distribuzione delle altezze negli adulti maschi e femmine Femmine Media=161 SD=6.3 Maschi Media=175 SD=7 161 175 Altezze
Media: =33.8, Deviazione Standard: =5.9 Esempio: Osservazioni Livello di albumina nel sangue in 216 pazienti affetti da cirrosi biliare primaria Livello di Frequenza Albumina (numero di pazienti) 20 2 22 6 24 7 26 9 28 21 30 20 32 28 34 39 36 28 38 22 40 12 42 11 44 4 46 3 48 1 50 1 52 1 56 1 ---------- 216 Distribuzione del livello di albumina in pazienti cirrotici n=216 .2 Distribuzione empirica Distribuzione teorica Frequenza 20 40 60 80 Albumina Media: =33.8, Deviazione Standard: =5.9
Qual è la frequenza dei pazienti con valori di albumina maggiori di 40 Osservazioni Distribuzione del livello di albumina in pazienti cirrotici Frequenza osservata (12+11+4+3+1+1+1+1)/216=0.16 n=216 .2 Prevede la conoscenza dei valori osservati e delle loro frequenze Espressione matematica Frequenza 20 40 60 80 Albumina Frequenza teorica (area sotto la curva) Prevede la conoscenza della media e della deviazione statndard dei valori L’area totale sotto la curva è pari a 1
La regola empirica (distribuzione normale) Osservazioni La regola empirica (distribuzione normale) Questa regola si applica a dati continui che hanno una distribuzione normale 99.7% delle osservazioni cadono nell’intervallo ( -3sd, +3sd) 95.4% nell’intervallo ( -2sd, +2sd) 68.2% nell’intervallo ( -sd, +sd)
Supponiamo che il peso medio alla nascita dei bambini sia pari a 3 Supponiamo che il peso medio alla nascita dei bambini sia pari a 3.3 kg con ds pari a 300 gr. A Modena nascono 3500 bambini all’anno. Calcolare quanti bambini nati hanno un peso maggiore di 3.9 kg e inferiore a 3.0 kg.
Osservazioni Lo Z score Lo z score è una trasformazione che permette di esprimere il fenomeno di interesse su una scala a-dimensionale. Definizione Lo z score, è la distanza (espressa in termini di deviazioni standard) tra un valore e la media. Esso è calcolato nel seguente modo: z = (x-media) SD
Esempio Media osservazioni=33.8 sd=5.9 Livello di albumina z-score frequenza 20 (20-33.8)/5.9 = -2.3 2 22 (22-33.8)/5.9 = -2 6 24 (24-33.8)/5.9 = -1.7 7 26 (26-33.8)/5.9 = -1.3 9 28 (28-33.8)/5.9 = -1 21 30 (30-33.8)/5.9 = -0.6 20 32 (32-33.8)/5.9 = -0.3 28 34 (34-33.8)/5.9 = 0.03 39 36 (36-33.8)/5.9 = 0.37 28 38 (38-33.8)/5.9 = 0.71 22 40 (40-33.8)/5.9 = 1.05 12 42 (42-33.8)/5.9 = 1.39 11 44 (44-33.8)/5.9 = 1.73 4 46 (46-33.8)/5.9 = 2.07 3 48 (48-33.8)/5.9 = 2.41 1 50 (50-33.8)/5.9 = 2.75 1 52 (52-33.8)/5.9 = 3.08 1 56 (56-33.8)/5.9 = 3.76 1 Valori meno frequenti Valori frequenti Valori meno frequenti
Osservazioni Se i dati (osservazioni) si distribuiscono “normalmente” vale la seguente regola: Valori non comuni Valori comuni -3 -2 -1 0 1 2 3 Z
La distribuzione dello z score Osservazioni La distribuzione dello z score Data una serie di valori distribuiti normalmente, la trasformazione di ogni osservazione in z score genera una nuova distribuzione: La normale standardizzata (media=0, sd=1) La distribuzione normale La distribuzione normale standardizzata Lo z score calcolato su valori normali si distribuisce normalmente con media zero e SD pari a 1
Area sotto la curva (normale standardizzata) Osservazioni Area sotto la curva (normale standardizzata) Table 1
99.7% degli z cadono nell’intervallo (-3,+3) Osservazioni La regola empirica (distribuzione normale standardizzata) 99.7% degli z cadono nell’intervallo (-3,+3) 95.4% nell’intervallo (-2,+2) 68.2% nell’intervallo (-1,+1) -3 -2 -1 0 1 2 3
La distribuzione normale standardizzata Osservazioni La distribuzione normale standardizzata Espressione matematica La distribuzione normale standardizzata è una distribuzione normale con parametri: Media=0, SD=1 Le probabilità associate ad ogni valore di z sono note (di solite riportate in tabelle).
Osservazioni Esempio Il livello medio di albumina nel sangue di pazienti con cirrosi biliare è pari a 34.5 g/l con SD pari a 5.84 g/l, calcolare: a) la percentuale dei pazienti che hanno valori di albumina superiori a 44.46 b) la percentuale dei pazienti che hanno valori di albumina superiori a 40 c) la percentuale dei pazienti con valori compresi tra 40 e 46 Soluzione a) Calcolo dello z-score la probabilità è pari a 1-(0.5+0.4564) = 0.044 (4%) b) Calcolo dello z-score la probabilità è pari a 1-(0.5+0.3264) = 0.174 (17.4%)