Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un campione di numerosità n (X1, …,Xn) consente di decidere tra due ipotesi sul valore di q. Il campione è una variabile casuale n-pla a componenti indipendenti e identicamente distribuite come X. H0 : q Q0 ipotesi nulla (Q0 Q1 = Q) H1 : q Q1 ipotesi alternativa (Q0 Q1 = ) La regola consiste nel determinare una partizione dello spazio dei campioni in due sottoinsiemi A (regione di accettazione) e R (regione di rifiuto) tale che se il campione (X1, …,Xn) A si accetta H0, se il campione (X1, …,Xn) R si accetta H1 (si rifiuta H0). La partizione dello spazio dei campioni è spesso determinata sulla base di una funzione del campione t(X1, …,Xn) detta statistica-test. H0 vera H1 vera accetto H0 errore seconda specie rifiuto H0 errore prima specie probabilità di commettere un errore prima specie a (ampiezza del test) probabilità di commettere un errore seconda specie b, (1- b) potenza del test
Test di ipotesi H0 vera H1 vera accetto H0 1-b b rifiuto H0 a 1-a Probabilità di errore H0 vera H1 vera accetto H0 1-b b rifiuto H0 a 1-a Si fissa un valore per la probabilità di commettere un errore di prima specie a. Il test migliore minimizza la probabilità di commettere un errore di seconda specie b. Il test di ipotesi sul valor medio consiste nel determinare un insieme di valori della media campionaria (statistica-test) che conducono a rifiutare l’ipotesi nulla e un insieme di valori della media campionaria che conducono ad accettare l’ipotesi nulla.
Ipotesi Un’ipotesi può essere: semplice, quando specifica un singolo valore per il parametro incognito sia per H0 che per H1 composta, specifica un intervallo di valori per il parametro incognito Sia allora è un’ipotesi semplice, mentre è un’ipotesi composta. Un’ipotesi composta può essere: unidirezionale, specifica valori del parametro in una sola direzione bidirezionale, quando specifica intervalli di valori in più direzioni è unidirezionale, mentre bidirezionale.
Test di ipotesi sul valor medio X variabile casuale con valore medio E(X)=m incognito e varianza nota Var(X)= s2=225. Verificare le seguenti ipotesi sul valore medio di X: H0: m=40=m0 H1: m=45=m1 a=0.05 campione di numerosità n=36: 18 58 64 35 54 50 42 26 66 53 47 40 60 32 52 27 52 62 38 44 19 45 54 43 27 23 82 74 78 36 37 34 48 39 41 57
H0 H1 m0= = m1 40 45
Test di ipotesi sul valor medio
b a = 0.05 H0 H1 m0= = m1 40 45 44.1 zona di rifiuto di H0 livello di significatività osservato <a m0= = m1 40 45 44.1 zona di rifiuto di H0 zona di accettazione di H0 appartiene alla zona di Rifiuto di H0
b a = 0.05 H0 H1 m0= = m1 0 2 1.645 zona di rifiuto di H0 0 2 1.645 zona di rifiuto di H0 zona di accettazione di H0 appartiene alla zona di Rifiuto di H0
Potenza del test b a = 0.05 H0 H1 m0= = m1 40 45 44.1 40 45 44.1 zona di rifiuto di H0 zona di accettazione di H0
Funzione di potenza Se l’ipotesi alternativa è composta la potenza del test è una funzione Si chiama funzione di potenza del test la funzione che descrive la probabilità, al variare di , di rifiutare e viene indicata con
Funzione di potenza H0: m=m0 H1: m>m0 n numerosità campionaria, a ampiezza del test 1-b(m) 1 m m0 a m1 1-b(m1) b(m1)
Test del rapporto delle massime verosimiglianze Un test con livello di significatività pari a e una funzione di potenza è detto uniformemente più potente a livello se: per ogni altro test con uguale livello di significatività e funzione di potenza . Test uniformemente più potenti possono essere individuati mediante l’approccio basato sul rapporto delle massime verosimiglianze. Dato un problema di verifica d’ipotesi: la statistica rapporto delle massime verosimiglianze è: è la stima di massima verosimiglianza di con il vincolo è la stima di massima verosimiglianza non vincolata. R={(X1, X2,.,Xn) tali che l(X1, X2,.,Xn) k} A={(X1, X2,.,Xn) tali che l(X1, X2,.,Xn) >k} k tale che l’ampiezza del test sia a
Test di ipotesi sul valor medio X variabile casuale con valore medio E(X)=m incognito e varianza Var(X)= s2=225. H0: m=40=m0 H1: m=35=m1 a=0.05 campione di numerosità n=36: 18 58 64 35 54 50 42 26 66 53 47 40 60 32 52 27 52 62 38 44 19 45 54 43 27 23 82 74 78 36 37 34 48 39 41 57
b a = 0.05 H1 H0 m1= = m0 35 40 35.9 zona di accettazione di H0 35 40 35.9 zona di accettazione di H0 zona di rifiuto di H0 appartiene alla zona di Accettazione di H0
Test di ipotesi sul valor medio X variabile casuale con valore medio E(X)=m incognito e varianza Var(X)= s2=225. H0: m=40=m0 H1: m40 a=0.1 campione di numerosità n=36: 18 58 64 35 54 50 42 26 66 53 47 40 60 32 52 27 52 62 38 44 19 45 54 43 27 23 82 74 78 36 37 34 48 39 41 57
a/2 = 0.05 a/2 = 0.05 H1 H0 H1 35.9 40 44.01 m0= zona di rifiuto di H0 35.9 40 44.01 m0= zona di rifiuto di H0 zona di accettazione di H0 zona di rifiuto di H0 appartiene alla zona di Rifiuto di H0
Test di ipotesi sul confronto tra 2 valori medi: campioni indipendenti X1 variabile casuale con valore medio E(X1)=m1 incognito e varianza nota Var(X)= s12. X2 variabile casuale con valore medio E(X2)= m2 incognito e varianza nota Var(X)= s22. campione di numerosità n1 di X1 campione di numerosità n2 di X2 H0: m1=m2 H1: m1 >(<, )m2 a=0.05
m2 m1
m2 m1
H0 H1 a= 0.05 0 >0 zona di rifiuto di H0 zona di accettazione di H0
Le valutazioni di un indice di affidabilità effettuate su due distinti ed indipendenti gruppi di prodotti hanno fornito i seguenti risultati: gruppo I: 12 15 20 20 25 18 16 14 24 26 25 25 gruppo II: 10 14 15 17 12 20 16 10 12 8 I=20 s2I=22.66 II=13.4 s2II=12.24 Verificare l’ipotesi che il valor medio dell’indice di affidabilità nel gruppo I è significativamente superiore rispetto a quello del gruppo II con probabilità di errore di primo tipo a=0.025 (varianze incognite e uguali). H0: mI-mII=0 H1: mI-mII>0 I=20 s2I=22.66 II=13.4 s2II=12.24 t20,0.025=2.086 s2=[(12*22.66)+10*12.24)/20]=20.2 s2*(1/12+1/10)=4.45* (1/12+1/10)=1.91 R={ tali che I- II/1.91> 2.086} A={ tali che I- II /1.91 2.086} Poiché (20-13.4)/1.91=3.46, l’ipotesi nulla è rifiutata.
Test di ipotesi sul confronto tra 2 valori medi: campioni appaiati X1 variabile casuale Normale con valore medio E(X1)= m1 incognito e varianza Var(X1)= s12. X2 variabile casuale Normale con valore medio E(X2)= m2 incognito e varianza Var(X2)= s22. H0: m1=m2 (H0: md=0 con d=X1-X2) H1: m1>m2 oppure m1<m2 oppure m1m2 (md>0, md<0, md0) test basato su t di Student di parametro n-1: (x11,….,x1n) campione di ampiezza n generato da X1 (x21,….,x2n) campione di ampiezza n generato da X2
H0 H1 a= 0.05 0 >0 zona di rifiuto di H0 zona di accettazione di H0
I seguenti dati rappresentano gli errori commessi da 8 lettori ottici, in due prove distinte, prima e dopo l’inserimento di un dispositivo: Prima: 6 7 12 12 11 10 16 9 Dopo: 4 6 9 12 10 9 15 8 Verificare l’ipotesi che che il dispositivo abbia migliorato in modo significativo le prestazioni del lettore con una probabilità di errore di primo tipo a=0.01. H0: md=0 con d=Xprima-Xdopo H1: md>0 d=P-D 2 1 3 0 1 1 1 1 d=10/8=1.25 sd=0.83 t7,0.01=2.99 R={ tali che ( d-0)/( sd /n-1)> 2.99} A={ tali che ( d-0)/( sd /n-1< 2.99} Poiché (1.25-0)/(0.83/7)=3.99, l’ipotesi nulla è rifiutata.
Test di ipotesi sul valor medio (ANOVA) Test di ipotesi sul valor medio (ANOVA). Caso di k>2 campioni indipendenti: Analisi della Varianza ad 1 fattore X1 variabile casuale Normale con valore medio E(X1)= m1 incognito e varianza Var(X1)= s12. X2 variabile casuale Normale con valore medio E(X2)= m2 incognito e varianza Var(X2)= s22. X3 variabile casuale Normale con valore medio E(X3)= m3 incognito e varianza Var(X3)= s32. H0: m1=m2=m3 H1: almeno due medie diverse
H0: m1=m2=m3 H1: almeno due medie diverse Test basato su F di Fisher: (x11,….,x1n1) campione di ampiezza n1 generato da X1 (x21,….,x2n2) campione di ampiezza n2 generato da X2 (x31,….,x3n3) campione di ampiezza n3 generato da X3 media campionaria del campione generato da X1 varianza campionaria del campione generato da X1 Fk-1, n-k= F3-1, n-3= Test di ipotesi sul valor medio (ANOVA). Caso di k>2 campioni indipendenti: Analisi della Varianza ad 1 fattore
ANOVA processo 1 processo 2 processo 3 6 2 2 5 4 4 7 3 2 6 2 3 4 4 4 VARIABILE tempo di vita di un circuito processo 1 processo 2 processo 3 6 2 2 5 4 4 7 3 2 6 2 3 4 4 4 6 5 1
H0 H0: m1=m2=m3 H1: almeno due medie diverse 1=5.7 2=3.3 3=2.7 =3.9 1=5.7 2=3.3 3=2.7 =3.9 s21=0.9 s22=1.22 s23=1.22 F2,15,0.01=6.36 n1=n2=n3=6 n=18 k=3 1. F=11.2>6.36 =F2,15,0.01 si rifiuta l’ipotesi nulla. 2. La media della variabile è maggiore nel gruppo 1 3. La distribuzione della variabile deve essere ipotizzata normale. 4. Omoschedasticità ANOVA 6,0 Somma dei Media dei quadrati df quadrati F Sig. Fra gruppi 29,778 2 14,889 11,167 ,001 5,5 Entro gruppi 20,000 15 1,333 Totale 49,778 17 5,0 4,5 0,00 0,05 0,10 0,0 H0 4,0 Media della VARIABILE NEI GRUPPI F2,15 3,5 3,0 2,5 6.36 11.2 1,00 2,00 3,00 Accetto H0 Rifiuto H0 GRUPPI
Test di indipendenza H0: X e Y indipendenti nij = ni0 n0j / n i=1,.., r ; j=1,.., s H1: X e Y non indipendenti almeno un nij ni0 n0j / n Test chi quadro basato su: Rifiuto
Con riferimento alla seguente distribuzione di un collettivo di individui secondo il sesso (X) e l’opinione sulla liberalizzazione dei servizi di telecomunicazioni TLC (Y), eseguire il test chi quadrato (c 2) con una probabilità di errore di primo tipo a=0.05, commentare il risultato (relazione tra sesso e opinione sulla liberalizzazione dei servizi di telecomunicazioni: quali modalità si attraggono e quali si respingono). Ridistribuire le frequenze in modo da avere massima dipendenza tra le variabili. a favore contrari indecisi femmine 2 8 1 maschi 8 1 2 H0: sesso e opinione liberalizzazione servizi TLC indipendenti H1: sesso e opinione liberalizzazione servizi TLC dipendenti c 2(2-1)*(3-1),0.05=5.991 R={c 2 > 5.991} A={c 2 < 5.991} c 2 =9.378> 5.991. Si rifiuta l’ipotesi nulla. 0,00 0,05 0,10 0,0 H0 5.991 9.378 Accetto H0 Rifiuto H0
Test di correlazione Si consideri una v.c. doppia (X,Y) di cui si osserva un campione di numerosità n. Ogni osservazione è costituita da una coppia (Xi,Yi) (i=1,..n) e pertanto l’intero campione sarà costituito dalle n coppie di v.c. (X1,Y1),… (Xn,Yn).Si suppone che vi sia indipendenza tra le osservazioni campionarie, cioè tra le coppie di v.c. relative a osservazioni differenti, mentre ovviamente le due v.c. (Xi,Yi) (i=1,..n) non sono in generale indipendenti poiché tra esse intercorre la stessa relazione che vi è tra X e Y. Il coefficiente di correlazione campionario è dato dalla: dove la quantità: è la covarianza campionaria tra le v.c. X e Y, mentre le: sono le varianze campionarie corrette della varianza di X e della varianza di Y
Test di correlazione Se r=0, ossia le componenti la v.c. normale doppia (X,Y) sono indipendenti, si può provare che: ha esattamente distribuzione t di Student con (n-2) gradi di libertà. Se r 0 si può operare con una trasformazione di variable (“trasformata z di Fisher”): che ha distribuzione approssimativamente Normale con media e varianza date da:
Campione di numerosità n=8 generato da una v.a. (X,Y) normale doppia: (0.68, 2.7), (1.73, 3.51), (1.51, 3.62), (2.67, 4.51), (1.32, 3.28), (0.52, 2.71), (1.71, 3.95), (0.83, 3.01). Si supponga di voler verificare ad un livello di significatività 0.05 le ipotesi seguenti: H0: r=0 H1: r 0 La regione di accettazione è data da (t6, 0.025 =2.447) A: -2.447 2.447 Il coefficiente di correlazione campionario r vale 0.97. Si rifiuta l’ipotesi nulla. Tra X e Y esiste una significativa correlazione positiva. H0 -2.447 0 2.447 f(t, n-2)
Campione di numerosità n=8 generato da una v.a. (X,Y) normale doppia: (0.68, 2.7), (1.73, 3.51), (1.51, 3.62), (2.67, 4.51), (1.32, 3.28), (0.52, 2.71), (1.71, 3.95), (0.83, 3.01). Si supponga ora di voler verificare ad un livello di significatività 0.05 le ipotesi seguenti: H0: r=0.5 H1: r 0.5 La regione di accettazione è data da (z1-0.025 =1.96) A: -1.96 1.96 Il coefficiente di correlazione campionario r vale 0.97. Si rifiuta l’ipotesi nulla. Tra X e Y esiste una significativa correlazione superiore a 0.5. -1.96 0 1.96 f(Z) H0
Test per la verifica di ipotesi sul modello distributivo