Lezione 8 Numerosità del campione
parte 1 la numerosità minima del campione nelle stime per intervalli
gli strumenti di inferenza Dato un campione con immagini { X1, X2, …, Xn } proveniente da una popolazione su cui è definita una variabile casuale X avente densità f (x) qualsiasi con media m e varianza s2 si possono usare la media campionaria e la varianza campionaria corretta per stimare i valori dei parametri della popolazione. come tutti gli strumenti di misura, anche gli stimatori sono imperfetti e la loro stima del parametro presenta un’incertezza che viene quantificata attraverso l’intervallo di confidenza:
la numerosità minima del campione nella stima della media
distribuzione della media campionaria dato un campione con immagini { X1, X2, …, Xn } proveniente da una popolazione infinita su cui è definita una variabile casuale X con densità f (x) qualsiasi, media m e varianza s2, la media campionaria fornisce una variabile casuale che, per n sufficientemente grande, risulta distribuita in modo normale, con media m e con varianza s2 / n
dalla media campionaria alla media campionaria standardizzata dato che la media campionaria segue una distribuzione normale con media m e varianza s2 / n è possibile costruire una variabile casuale con distribuzione normale standard, cioè con media nulla e varianza unitaria tramite la variabile Z è agevole individuare l’intervallo di confidenza della media campionaria, che può essere visto come l’incertezza dello strumento inferenziale
intervallo di confidenza a “1 - a” per la media da cui, per la simmetria della f ( Z ) , si ottiene:
intervallo di confidenza a “1 - a” per la media da cui:
intervallo di confidenza a “1 - a” per la media possiamo quindi sostenere che: estraendo a caso un campione con immagini { X1, X2, …, Xn }, con n sufficientemente grande, da una popolazione infinita su cui è definita una variabile casuale X con distribuzione qualsiasi, media m e varianza s2, c’è una probabilità pari a 1 - a che l’intervallo casuale con Z variabile normale standard e con z1-a/2 il valore del suo quantile (1 - a/2) contenga il valore della media m della X per l’intera popolazione. I1-a è chiamato intervallo di confidenza allo 1 - a per la media
ampiezza dell’intervallo di confidenza e numerosità del campione possiamo quindi affermare che: indicando con A1-a l’ampiezza di I1-a , intervallo di confidenza allo 1 - a per la media, si ha: da cui si ottiene:
ampiezza dell’intervallo di confidenza e numerosità del campione Se si è prefissato un valore massimo accettabile per l’ampiezza dell’intervallo di confidenza, valore che indichiamo con A1-a ,max , allora è possibile esplicitare il corrispondente valore minimo per la numerosità del campione nmin :
ampiezza dell’intervallo di confidenza e numerosità del campione Qualora la varianza della X per l’intera popolazione non sia conosciuta si può condurre il calcolo della numerosità richiesta al campione mediante lo stimatore “varianza campionaria corretta”: Sappiamo che se n è sufficientemente grande la variabile casuale segue una distribuzione “ t di Student con n-1 g.d.l ”.
ampiezza dell’intervallo di confidenza e numerosità del campione Possiamo quindi affermare che, se n è sufficientemente grande: estraendo a caso un campione con immagini { X1, X2, …, Xn } da una popolazione infinita su cui è definita una variabile casuale X con distribuzione qualsiasi, media m e varianza campionaria Sn2, c’è una probabilità pari a 1 - a che l’intervallo casuale con T variabile “t di Student con n-1 g.d.l “ e con t1-a/2 il valore del suo quantile (1 - a/2) contenga il valore della media m della popolazione.
ampiezza dell’intervallo di confidenza e numerosità del campione Sviluppando in modo analogo ai passaggi già visti nel caso di varianza della popolazione conosciuta, se si è prefissato un valore massimo accettabile per l’ampiezza dell’intervallo di confidenza, valore che indichiamo con A1-a , max , allora è possibile esplicitare il corrispondente valore minimo nmin per la numerosità del campione: Un problema da considerare è rappresentato dal fatto che il valore critico t1- a/2 della t di Student dipende da n
ampiezza dell’intervallo di confidenza e numerosità del campione Un problema da considerare è rappresentato dal fatto che il valore critico t1- a/2 della t di Student dipende da n
ampiezza dell’intervallo di confidenza e numerosità del campione Se n’min > 30 sappiamo che la distribuzione t di Student non differisce in maniera evidente dalla distribuzione normale standard. Un primo calcolo approssimato può essere condotto sostituendo al quantile della T il corrispondente quantile di una variabile Z normale standard. Individuato così un primo valore approssimato si può proseguire cercando il valore corretto di nmin mediante un procedimento iterativo:
ampiezza dell’intervallo di confidenza e numerosità del campione partendo da una prima valutazione del quantile della t di Student calcolato per un numero di g.d.l. pari a n’min - 1 si calcola: Con un ragionevole numero di iterazioni si può quindi individuare la numerosità richiesta al campione.
ampiezza dell’intervallo di confidenza e numerosità del campione Se pensiamo di dover operare con un campione di numerosità ridotta n < 30 dobbiamo ricordare che la distribuzione della media campionaria può essere considerata normale solamente se anche la X segue la distribuzione normale!!! Se ciò si verifica possiamo individuare il valore della numerosità richiesta nmin con un procedimento uguale a quello già mostrato per n > 30.
ampiezza dell’intervallo di confidenza e numerosità del campione Partiamo da una prima valutazione condotta con la: per poi ricalcolare iterativamente il valore di nmin partendo da una prima valutazione del quantile della t di Student calcolato per un numero di g.d.l. pari a n’min - 1 Con un ragionevole numero di iterazioni si può quindi individuare la numerosità richesta al campione.
intervallo di confidenza per la media se n ≈ N Se il numero n degli elementi del campione non è molto minore della numerosità N (finita) della popolazione: la: deve essere sostituita dalla:
intervallo di confidenza per la media se n ≈ N possiamo quindi sostenere che: estraendo a caso un campione da una popolazione finita composta da N elementi su cui è definita una variabile casuale X con distribuzione qualsiasi, media m e varianza s2, c’è una probabilità pari a 1 - a che l’intervallo casuale con Z variabile normale standard e con z1-a/2 il valore del suo quantile (1 - a/2) contenga il valore della media m della X per l’intera popolazione.
numerosità del campione ed ampiezza dell’intervallo di confidenza per la media di conseguenza possiamo affermare che: indicando con A1-a l’ampiezza di I1-a , intervallo di confidenza allo 1 - a per la media, si ha: da cui si ottiene:
numerosità del campione ed ampiezza dell’intervallo di confidenza per la media Se si è prefissato un valore massimo accettabile per l’ampiezza dell’intervallo di confidenza, valore che indichiamo con A1-a , max , allora è possibile esplicitare il corrispondente valore minimo per la numerosità del campione:
la numerosità minima del campione nella stima della varianza
distribuzione della varianza campionaria corretta dato un campione con immagini { X1, X2, …, Xn } proveniente da una popolazione infinita su cui è definita una variabile casuale X con distribuzione normale, media m e varianza s2, la varianza campionaria corretta divisa per s2 fornisce una variabile casuale che segue una distribuzione C 2 con n - 1 gradi di libertà
Intervalli di confidenza per la varianza campionaria corretta
numerosità del campione ed ampiezza dell’intervallo di confidenza per la varianza considerando l’evento si nota che : da cui:
numerosità del campione ed ampiezza dell’intervallo di confidenza per la varianza indicando con A1-a l’ampiezza di I1-a , intervallo di confidenza allo 1 - a per la varianza: si ottiene:
numerosità del campione ed ampiezza dell’intervallo di confidenza per la varianza Sappiamo che Sn2 è uno stimatore corretto e consistente della varianza quindi, al crescere della numerosità n del campione, il suo valore si distribuisce in modo sempre più “concentrato in prossimità” di s2
numerosità del campione ed ampiezza dell’intervallo di confidenza per la varianza E’ pertanto possibile ipotizzare che, per valori di n sufficientemente elevati, la casualità con cui viene estratto il campione non faccia variare in modo significativo il valore della varianza campionaria Sn2. Con queste premesse, dopo aver fissato il valore massimo accettabile per la ampiezza dell’intervallo di confidenza, si può scrivere:
numerosità del campione ed ampiezza dell’intervallo di confidenza per la varianza da cui si ottiene la:
numerosità del campione ed ampiezza dell’intervallo di confidenza per la varianza il valore di nmin non compare in modo esplicito, ma deve essere individuato attraverso i gradi di libertà della C 2 il più basso valore dei gradi di libertà per cui i valori critici della C 2 soddisfano la: è pari a nmin - 1