Cap. 19 Test statistici Cioè come verificare ipotesi statistiche utilizzando i dati campionari
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro L’obiettivo è invece utilizzare dati campionari per stabilire se un’ipotesi, qualche che essa sia, possa essere «ragionevolmente» accettata o rifiutata (in termini probabilistici). L’ipotesi statistica è una congettura riguardante una qualche caratteristica (statistica) del fenomeno in U Tale congettura è formulata a priori, ovvero prima di estrarre il campione L’ipotesi può essere parametrica, quando riguarda il valore di un parametro (la media, la varianza…) di U, oppure non parametrica, ad esempio l’esistenza o meno di relazione statistica in una coppia di fenomeni congiuntamente osservati sulla stessa U, oppure riguardo al tipo di v.c. adatta a interpretare il fenomeno in U … L’ipotesi sottoposta a test si chiama ipotesi nulla (H0).
La verifica di ipotesi (statistiche) è la metodologia inferenziale che a partire dai dati campionari porta a decidere se accettare o rifiutare l’ipotesi nulla H0 controllando probabilisticamente l’errore campionario. Il test statistico è la regola pratica che porta a questa decisione.
Errore campionario Un test statistico, cioè la regola che porta ad accettare o rifiutare H0, è basato sui dati campionari, cioè su una osservazione parziale dell’intera U di riferimento. E’ dunque condotto in condizioni di incertezza: quando il test porta al rifiuto di H0 questo non significa necessariamente “H0 falsa” ma solo che “i dati campionari non suffragano sufficientemente H0”. Quando invece il test porta all’accettazione di H0 questo non significa necessariamente “H0 vera” ma soltanto che “i dati campionari sono consistenti e supportano H0”. Accettare o rifiutare H0 sulla base dei dati campionari comporta inevitabilmente il rischio di commettere un errore. Errore di I specie: rifiutare H0 quando H0 è vera. Errore di II specie: accettare H0 quando H0 è falsa.
Livello di significatività Il livello di significatività, ovvero la probabilità dell’errore di I specie che si è disposti a tollerare, è scelto a piacere Però, minore è la probabilità dell’errore di I specie (a) che si è disposti a tollerare, maggiore è la probabilità dell’errore di II specie (b) che si è costretti a subire. L’ideale sarebbe avere dei dati che identifichino con grande precisione la correttezza della nostra ipotesi statistica, ovvero tali per cui anche fissando una piccola probabilità dell’errore di I specie (a) si abbia una piccola probabilità dell’errore di II specie (b), ovvero un valore grande di 1- b (che viene chiamato potenza del test statistico). Generalmente il livello di significatività è fissato al 90%, 95% o 99%
Z-test per la verifica di ipotesi su m popolazione normale, s2 nota Si calcola la stima puntuale per m, cioè la media del campione: Se H0 è vera, dovrebbe essere piccola
Z-test per la verifica di ipotesi su m popolazione normale, s2 nota Con le probabilità scelte a e (1- a) si divide la probabilità (area) sotto la curva a campana della statistica test Z in due zone: una zona di valori a favore dell’accettazione di H0. Sono i valori intorno allo 0, con probabilità pari a (1- a) - zona di accettazione una zona di valori che depongono per il rifiuto di H0. Sono i valori lontani da 0 (in + e in -) cioè quelli corrispondenti alle due code della campana. Sotto ciascuna coda si divide la probabilità residua a equamente in a/2 e a/2 – zona di rifiuto o zona critica. Test: si rifiuta H0 a livello (1- a) se il valore sperimentale cade nella regione critica, individuata dal valore Z-score za/2
Z-test per la verifica di ipotesi su m popolazione normale, s2 ignota Al posto di s2 utilizziamo la sua stima: La statistica test che si ottiene non è più distribuita come una normale standard Z ma come una T di Student con n-1 gradi di libertà: Per ottenere il valore critico del test bisogna guardare sulle tavole il T-score ta/2
Test approssimati per grandi campioni in mancanza di informazioni ausiliarie a priori sulla normalità della popolazione è necessario compensare con una quantità di dati campionari sufficientemente grande.
Z-test per la verifica di ipotesi sulla frequenza relativa p, grandi campioni
Verifica dell’ipotesi di indipendenza statistica tra due variabili X e Y Quando si dispone di dati completi, cioè in ambito descrittivo, si ha se e soltanto se X e Y sono statisticamente indipendenti. Con dati campionari l’indice può essere diverso da 0 anche se X e Y sono statisticamente indipendenti, a causa dell’errore campionario.
Verifica dell’ipotesi di indipendenza statistica tra due variabili X e Y Un teorema di teoria delle probabilità garantisce che per n sufficientemente grande (e, come al solito, sotto H0) la statistica test c2 è approssimativamente una v.c. chiamata (anche lei!) Chi quadrato con gradi di libertà (k-1)(h-1), dove k è il numero di righe e h è il numero di colonne della tabella di contingenza, cioè dei dati campionari.
Test Chi quadrato di indipendenza statistica Il valore sperimentale coincide in questo caso con la stima puntuale del c2 Questo valore va confrontato con il valore critico riportato nelle tavole, per i relativi gradi di libertà