Varianza campionaria Errore standard della varianza campionaria
Media (s2) = 2 Varianza(s2) = 24/(N-1) Data una popolazione composta da N unità, {x} =2,3,6,8,11, μ=6, σ2=10.8 Possibili campioni 5 (2,2);(3,3);(6,6);(8,8);(11,11) 0.0 583.20 0.5 2 (2,3);(3,2) 1.0 212.18 2.0 (6,8);(8,6); 4.0 154.88 4.5 4 (3,6);(6,3);(8,11);(11,8); 18.0 158.76 8.0 (2,6);(6,2); 16.0 15.68 12.5 (3,8);(8,3);(6,11);(11,6); 50.0 11.56 (2,8);(8,2); 36.0 103.68 32.0 (3,11);(11,3); 64.0 898.88 40.5 (2,11);(11,2); 81.0 1764.18 S 25 270.00 3903.00 calcolo della media aritmetica e della varianza della varianza campionaria. Media (s2) = 2 Varianza(s2) = 24/(N-1) Media= 270/25= 10.80 Varianza= 3903/25= 156.12 24/(N-1)=2*10.82/4=58.32 Nota: Varianza(s2)= dove (μ4-(2/4) μ22)/4= 144.46
Dalla stessa popolazione si sono poi estratti: Data una popolazione, costituita da soggetti in buona salute e di età compresa tra i 25 e i 50 anni, la distribuzione dei livelli ematici di calcio approssima una gaussiana con media = 240 e deviazione standard = 15 moli/dl. Dalla stessa popolazione si sono poi estratti: 1000 campioni di dimensione n = 2 1000 campioni di dimensione n = 3 1000 campioni di dimensione n = 4 1000 campioni di dimensione n = 10 Di ciascun campione si sono calcolate la media e la varianza.
calcemia media in campioni di numerosità 2 , 3 , …. , 40 Come già sappiamo, all'aumentare della dimensione del campione la distribuzione delle medie campionarie è gaussiana con varianza inversamente proporzio-nale alla dimensione del campione. ... ma come sono distribuite le varianze campionarie?
Varianza della calcemia in campioni di numerosità 2 , 3 , …. , 40 La distribuzione delle varianze campionarie dipende dalla dimensione del campione non solo per la dispersione ma anche per la forma: l'asimmetria positiva, assai elevata se i campioni sono molto piccoli, si riduce lentamente all'aumentare della numerosità campionaria. ,
E(s2)=2 se x~N (, 2), V(s2)=24/n VARIANZE CAMPIONARIE n σ2 24/n 2 1 222.65 225 96 013.22 101 250 3 214.48 44 893.13 50 625 4 226.15 34 950.30 33 750 10 9 221.50 11 378.49 11 250 Si può dimostrare che il valore atteso E(s2) delle varianze campionarie coincide con la varianza dell'universo (2) da cui si sono estratti i campioni, e che se tale universo ha distribuzione gaussiana, la varianza delle varianze campionarie è pari a due volte il quadrato della varianza diviso per i gradi di libertà (n) della varianza campionaria. E(s2)=2 se x~N (, 2), V(s2)=24/n Il numero di gradi di libertà della varianza campionaria è dato dal numero di scarti indipendenti su cui essa è basata. Mentre gli n elementi del campione sono indipendenti, gli scarti dalla media campionaria non lo sono: infatti, dati n-1 scarti, lo scarto restante è univocamente determinato dal vincolo. Perciò i gradi di libertà di una varianza campionaria sono pari a n-1
In sintesi Si vuole studiare una caratteristica X presente nelle N unità di una popolazione . Popolazione: N unità con media m e deviazione standard s; da essa si estrae un campione (con reinserimento) di ampiezza n ottenendo (Nn possibili campioni) Voglio conoscere ignoto Voglio conoscere ignoto se e solo se x~N (, 2). Formula esatta dove Varianza(s2)=
FUNZIONE CHI-QUADRATO Si può dimostrare che, se i campioni sono tratti da una variabile gaussiana, il rapporto s2/2 è una variabile casuale, la cui distribuzione può essere descritta da una funzione la cui forma dipende da , e che è nota con il nome di 2 (Chi-quadrato): dove
Frattili della distribuzione 2 (Chi-quadrato) 1 0.00 0.00 0.00 0.00 0.02 0.10 1.32 2.71 3.84 5.02 6.63 7.88 2 0.01 0.02 0.05 0.10 0.21 0.58 2.77 4.61 5.99 7.38 9.21 10.60 3 0.07 0.11 0.22 0.35 0.58 1.21 4.11 6.25 7.81 9.35 11.34 12.84 4 0.21 0.30 0.48 0.71 1.06 1.92 5.39 7.78 9.49 11.14 13.28 14.86 5 0.41 0.55 0.83 1.15 1.61 2.67 6.63 9.24 11.07 12.83 15.09 16.75 6 0.68 0.87 1.24 1.64 2.20 3.45 7.84 10.64 12.59 14.45 16.81 18.55 7 0.99 1.24 1.69 2.17 2.83 4.25 9.04 12.02 14.07 16.01 18.48 20.28 8 1.34 1.65 2.18 2.73 3.49 5.07 10.22 13.36 15.51 17.53 20.09 21.95 9 1.73 2.09 2.70 3.33 4.17 5.90 11.39 14.68 16.92 19.02 21.67 23.59 10 2.16 2.56 3.25 3.94 4.87 6.74 12.55 15.99 18.31 20.48 23.21 25.19 11 2.60 3.05 3.82 4.57 5.58 7.58 13.70 17.28 19.68 21.92 24.72 26.76 12 3.07 3.57 4.40 5.23 6.30 8.44 14.85 18.55 21.03 23.34 26.22 28.30 13 3.57 4.11 5.01 5.89 7.04 9.30 15.98 19.81 22.36 24.74 27.69 29.82 14 4.07 4.66 5.63 6.57 7.79 10.17 17.12 21.06 23.68 26.12 29.14 31.32 15 4.60 5.23 6.26 7.26 8.55 11.04 18.25 22.31 25.00 27.49 30.58 32.80 16 5.14 5.81 6.91 7.96 9.31 11.91 19.37 23.54 26.30 28.85 32.00 34.27 17 5.70 6.41 7.56 8.67 10.09 12.79 20.49 24.77 27.59 30.19 33.41 35.72 18 6.26 7.01 8.23 9.39 10.86 13.68 21.60 25.99 28.87 31.53 34.81 37.16 19 6.84 7.63 8.91 10.12 11.65 14.56 22.72 27.20 30.14 32.85 36.19 38.58 20 7.43 8.26 9.59 10.85 12.44 15.45 23.83 28.41 31.41 34.17 37.57 40.00 21 8.03 8.90 10.28 11.59 13.24 16.34 24.93 29.62 32.67 35.48 38.93 41.40 22 8.64 9.54 10.98 12.34 14.04 17.24 26.04 30.81 33.92 36.78 40.29 42.80 23 9.26 10.20 11.69 13.09 14.85 18.14 27.14 32.01 35.17 38.08 41.64 44.18 24 9.89 10.86 12.40 13.85 15.66 19.04 28.24 33.20 36.42 39.36 42.98 45.56 25 10.52 11.52 13.12 14.61 16.47 19.94 29.34 34.38 37.65 40.65 44.31 46.93
USO DELLA DISTRIBUZIONE CHI-QUADRATO Esempio: Si vogliono calcolare il 5° e il 95° percentile della distribuzione delle varianze campionarie per campioni di dimensione n=10 tratti dalla distribuzione dei livelli ematici di Calcio [x ~ N (240, 225)]. Dalla tabella si ricava che il 5° ed il 95° percentile della distribuzione 2 con 9 gradi di libertà sono Pertanto i corrispondenti per-centili della distribuzione delle varianze campionarie sono
Esempio Durante un progetto di screening sull’ipertensione, si è analizzata una popolazione in cui la pressione sistolica media era 120 mmHg con dev. stand. 20 mmHg. a) Estraendo a caso un campione di 100 soggetti, qual è la probabilità che la pressione sistolica media sia > di 126 mmHg? b) Qual è il valore di pressione sistolica media oltre il quale si trovano il 10% delle pressioni sistoliche medie più alte? Risposte a) Supponendo che la pressione sistolica si distribuisca nella popolazione come una normale: b)
1) La probabilità che la media del campione sia maggiore di 85. Esempio 2 Qual è l’errore standard della media campionaria calcolata su un campione di 16 unità, se la popolazione dalla quale è stato estratto il campione si distribuisce in modo gaussiano come =80 e =20? Calcolare inoltre: 1) La probabilità che la media del campione sia maggiore di 85. 2) La probabilità che una unità estratta dalla popolazione abbia un valore compreso tra 83 e 88. 3) Quante delle 16 unità campionarie vi aspettate abbiano un valore > 83? Risposte 1) L’errore standard delle medie campionarie è: 2) =0.44038-0.3458 3) Delle 16 unità campionarie ci si aspetta che (160.15866)=7.046 abbiano un valore di x maggiore di 83.
Esempio (3) Una variabile casuale ha distribuzione gaussiana con =80 e =8. La distribuzione di campionamento della media per campioni di numerosità 25, … [indicare la risposta corretta]. [A] è gaussiana con media 80 e deviazione standard 8 [B] è gaussiana con media 80 e deviazione standard 8/25 [C] è di forma ignota con media 80 e deviazione standard 8/25 [D] è gaussiana con media 80 e deviazione standard 8/5 Esempio 4 La distribuzione della variabile x è asimmetrica positiva, con media =1.8180 g/m3 e deviazione standard =2.25 g/m3 . Descrivete la forma della distribuzione delle medie di campioni di dimensioni uguale a 40. Per il teorema del limite centrale la distribuzione delle medie di una variabile casuale x calcolate su campioni di numerosità 40 è gaussiana con media =1.8180 g/m3 ed errore standard =2.25/√40 g/m3 =0.355756 g/m3 .
Esempio 5 Per definizione, la variabile chi-quadrato con n-1 gdl è la somma di n variabili zeta al quadrato La statura degli iscritti alla leva nati nel Molise nel 1974 è distribuita in modo gaussiano con media pari a 169.2 cm e dev stand pari a 6.4. Qual è la probabilità che, considerata la statura di 3 iscritti alla leva (x1,x2,x3) si abbia: La variabile w è ottenuta come somma dei quadrati di 3 variabili casuali gaussiane standardizzate, si distribuisce quindi come un chi-quadrato con 3 gradi di libertà. Pertanto, la probabilità di osservare un valore di w maggiore di 6.15 si ricava direttamente dalle tavole della distribuzione chi-quadrato:
Esempio 6 Risposte a) b) c) Calcolare la probabilità che rifendosi ad una distribuzione chi-quadrato: a) la variabile X2 con 17 gradi di libertà abbia valori nell’intervallo [10.09;24.77]; b) la variabile X2 con 3 gradi di libertà abbia valori tra il 20° e il 50° centile della distribuzione; c) la variabile X2 con 5 gradi di libertà abbia un valore minore di 11.070. Risposte a) b) c)
La funzione di densità f(x) per x = χ²ν Appendice: funzione χ²ν chi quadro con ν gradi di libertà Si considerino n distribuzioni normali Z1(0;1); Z2(0;1); ... Zν (0;1) con media nulla e varianza unitaria indipendenti tra loro. Sarà : χ²ν= Z1² + Z2² + .... +Zν² La funzione di densità f(x) per x = χ²ν dove Γ() è la funzione Gamma. Pertanto si ottiene: valore atteso μ = ν (dove ν sono i gradi di libertà) varianza σ² = 2 ν simmetria β1 = 8/ ν curtosi β2 = 3 + 12/ ν moda ν0 = ν -2 (per ν ≥ 3)
Statistica dello scarto quadratico medio Sia s2 lo scarto quadratico medio di una serie di misure: con la variabile h: è distribuita come il con n-1 gradi di libertà. Si ha quindi: dove E(h) è il valore aspettato di h, mentre V(h) è la sua varianza. E quindi:
Inoltre per sufficientemente grande . Una migliore approssimazione la si ottiene considerando che, sempre per sufficientemente grande, se è la distribuzione normale con media dove e varianza è distribuito come il allora e varianza dove è la distribuzione normale con media è distribuito come: e . e quindi: