Dalmine, 26 Maggio 2004 Esercitazioni di Statistica con Matlab Dott. Orietta Nicolis fttp:\ingegneria.unibg.it
ztest ztest2 ttest ttest2 TEST D’IPOTESI Formulazione delle ipotesi; Determinazione statistica test; Decisione (ad un livello di significatività) In matalb, ztest ztest2 ttest ttest2
Test d’ipotesi per la media [h, sig, ci, zval]=ztest(x,m,sigma,alpha,tail) Input: x =vettore delle osservazioni del campione m=ipotesi nulla sulla media sigma=dev. std. nota della popolazione alpha =livello di significatività tail = specifica l’ipotesi alternativa Output: h = se h=1 rifiuto H0, se h=0, accetto H0. zval = valore della statistica test. ci =intervallo di confidenza per la media sig = la prob. che il valore di z possa essere più grande, sotto l’ipotesi nulla (p-value).
Esempio Si genera un campione di 50 numeri casuali da una distribuzione normale con media 2 e deviazione standard 1. Naturalmente la media campionaria e quella teorica sono diverse tra loro. Si vuole verificare che tale differenza non è significativa.
Soluzione x=normrnd(2, 1, 50,1); mc=mean(x) [h, sig, ci, zval]=ztest(x, 2,1)
Test d’ipotesi per la media Se la varianza è nota Se la varianza non è nota
Probabilità dell’errore di I e II specie e potenza Potenza del test
Esempio Un campione indipendente di 30 unità rilevate su un carattere X, normalmente distribuito, ha dato il seguente risultato. a) Verificare se la media m della popolazione può essere 140, con α fissato al livello del 5%, contro un’ipotesi alternativa che sia minore. b) Posto σ = 3,3 costruire e rappresentare graficamente la funzione di potenza per i seguenti valori di m: 140; 139; 138; 137, 136. Xi 138 143 135 144 Totale fi 15 7 5 3 30
…in matlab x=[zeros(15,1)+138; zeros(7,1)+143; zeros(5,1)+135; zeros(3,1)+144]; [h sig, ci, tval]=ttest(x,140,0.05,-1) % zona di rifiuto t1=tinv(0.05, 29) x1=140+t1*std(x)/sqrt(length(x)) % approssimando alla distribuzione normale… normspec([-Inf x1], 140, std(x)/sqrt(30))
ma=sqrt(n).*(m1-m0)./sigma; zs=norminv(alpha); pots=normcdf(zs,ma,1); %determino la nuova soglia critica con sigma noto sc=norminv(0.05, 140, 3.3/sqrt(30)) normspec([-Inf sc], 140, 3.3/sqrt(30)) % potenza del test m0=140; n=30; sigma=3.3; alpha=0.05; m1=(136:140)'; ma=sqrt(n).*(m1-m0)./sigma; zs=norminv(alpha); pots=normcdf(zs,ma,1); plot(m1, pots); TITLE('funzione di potenza');
H0: =7 contro l'ipotesi alternativa H1: >7 ; Esempio Un carattere X si distribuisce secondo una variabile casuale normale di media ignota e varianza paria 36. Da tale popolazione si estrae un campione indipendente di numerosità n = 25. Fissato α= 0.05, determinare: a) la zona di rifiuto del test per la verifica dell'ipotesi H0: =7 contro l'ipotesi alternativa H1: >7 ; b) dopo aver descritto la funzione di potenza del test impiegato nella verifica d'ipotesi, fornire il valore che questa assume per = 7;7.5; 8; 8.5; 9; 9.5; 10; 10.5; 11; 11.5; 12; 12.5; 13 e delinearne graficamente l'andamento.
% zona di rifiuto sc=norminv(0.95, 7, sqrt(36/25)) normspec([sc +Inf], 7, sqrt(36/25)) % potenza del test m0=7; n=25; sigma=6; alpha=0.05; m1=(7:0.5:13)'; ma=sqrt(n).*(m1-m0)./sigma; zd=norminv(1-alpha); potd=1-normcdf(zd,ma,1); plot(m1, potd); TITLE('funzione di potenza '); % oppure p=1-normcdf(sc, m1, sigma/sqrt(n)) plot(m1, p, '-*')
Test d’ipotesi per la differenza di due medie
Esempio Si sono rilevati i tempi di produzione di 6 operai che assemblano componenti elettroniche secondo un determinato schema e si sono ottenuti i seguenti risultati (in minuti) 8,2 5,3 6,5 5,1 9,7 10,8. Si sono rilevati inoltre i tempi di produzione di 8 operai che assemblano componenti elettroniche dello stesso tipo ma secondo uno schema di lavoro diverso e si sono ottenuti i seguenti risultati (sempre in minuti) 9,5 8,3 7,5 10,9 9,3 8,0 11,3 8,8. Dopo aver introdotto le opportune ipotesi, verificare (=0.10) se è indifferente usare i due schemi di lavoro.
…in matlab x=[8.2 5.3 6.5 5.1 9.7 10.8]; y=[9.5 8.3 7.5 10.9 9.3 8.0 11.3 8.8]; [h sig, ci, tval]=ttest2(x,y,0.10,0)
Esercizio (esame 24/09/2003) Si sospetta che il livello medio di glucosio nel sangue della popolazione Messicana sia pari a 105. Da un campione di 20 persone si è rilevato un livello medio di glucosio pari a 110, con una devianza di 14. Supponendo che il livello di glucosio nel sangue (X) segua una distribuzione normale e posto =0.05, è possibile ritenere che il livello medio di glucosio nel sangue dell'intera popolazione sia maggiore di 105 ? Da un campione di 15 persone estratto da una popolazione del Nord America il livello medio del sangue è risultato pari a 100, con una deviazione standard di 12.5. Supponendo l'omogeneità delle varianze delle due popolazioni, si può ritenere significativa la differenza tra i due livelli medi di glucosio?
Esercizio (esame 23/06/2003) Una partita di 10000 chiodi viene venduta con un contratto che prevede che la frazione di difettosi non debba superare π=0.05. Il responsabile del controllo di qualità di una ditta aquirente decide di estrarre un campione casuale di n=500 chiodi e di accettare il lotto (e quindi di acquistarlo) solamente se nel campione si riscontrano meno di k=27 pezzi difettosi. .Determinare il sistema delle ipotesi e la regione critica del test corrispondente alla procedura decisionale sopra descritta. Calcolare il rischio del venditore, cioè la probabilità che venga rifiutata la partita quando essa effettivamente non contiene più dell' 5% di pezzi difettosi. Nel caso particolare di =0.1, calcolare il rischio del compratore, cioè la probabilità di accettare la partita. Trovare la dimensione campionaria n e la soglia critica k di un piano di un campionamento alternativo tale che il rischio del compratore (quando =0.1) e del venditore (quando =0.05) siano entrambi pari al 2%. Sapendo che nel campione (di numerosità n=500) si sono riscontrati x=28 pezzi difettosi, calcolare il p-value e commentare il risultato con riferimento al test d'ipotesi del punto a).