Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi sulla media (varianza incognita) 2.Tabella dei t-score 3.Test di ipotesi su proporzioni (variabile Bernoulliana) 4.Effetto della dimensione campionaria sul test di ipotesi 5.Potenza del test e dimensione del campione 6.Errore statistico del I tipo e teorema del limite centrale 7.Summary: procedimenti su test d’ipotesi sulla media
La distribuzione t presenta un'ampiezza leggermente diversa per ciascun differente valore dei gdl e si applicano, quindi, differenti t-scores per ciascun valore dei gdl. tavole t TINV(0.05;10)= 2.3 Il valore t riporta i t-score di una probabilità di sottesa dalla coda destra o di 0.05 su entrambe le code nota che P(t 0.025, 10 gdl ) > P(z ) =1. 96 T_student_e_normale.xls
La distribuzione t presenta un'ampiezza leggermente diversa per ciascun differente valore dei gdl e si applicano, quindi, differenti t-scores per ciascun valore dei gdl. tavole t TINV(0.05;10)= 2.3 Il valore t riporta i t-score di una probabilità di sottesa dalla coda destra o di 0.05 su entrambe le code
esempio ipotizzata; ignota calcoliamo il t score sulle differenze ES_trattamento_ADHD_diff2gruppi_Ttest.xls
esempio ipotizzata; ignota calcoliamo il t score sulle differenze stimiamo l’errore standard ES_trattamento_ADHD_diff2gruppi_Ttest.xls
esempio ipotizzata; ignota calcoliamo il t score sulle differenze ES_trattamento_ADHD_diff2gruppi_Ttest.xls
Ipotesi monodirezionale a una coda H0: nessuna effetto del trattamento: T – NT = diff = 0 H1: il trattamento ha effetto: T – NT = diff > 0 Se P(T < t) < rifiuto H0 Se P(T accetto H0 rifiuto Ho accetto Ho pongo = 0.05 oppure (in assenza di calcolatrice) Se T > P( T < t ) rifiuto H0 Se T < P( T < t ) accetto H0
visualizziamo il risultato t score= 3.22, gdl= 24-1 Visualizziamo t : TINV(0.05; 23)= ± 2.1 Visualizziamo il P(t-score): TDIST(3.22; 23;1)= Se la droga non ha effetto la probabilità di trovare una differenza fra medie come quella trovata è molto piccola (0.0018) L’ipotesi H0 che la differenza fra le popolazioni sia nulla può essere rigettata, quindi La media della popolazione sotto trattamento è maggiore di quella in assenza t critico t score
ricettario Ricettario_T.xls
inferenza su proporzioni il caso di popolazioni Bernoulliane In molti casi è necessario testare l’ipotesi che la proporzione della popolazione assuma un determinato valore p 0 Su 1200 intervistati il 52% (p) preferesce un’ “aumento delle tasse” piuttosto che una “diminuzione dei servizi”. Tale percentuale si discosta in maniera significativa da quella ipotizzata della popolazione (i.e., p 0 =50%) ? H0: p = p 0 ; H1: p ≠ p 0 (bidirezionale); H1: p > p 0 (monodirezionale)
inferenza su proporzioni il caso di popolazioni Bernoulliane Dal TLC abbiamo visto che la distribuzione campionaria di una proporzioni ha media p 0 ed errore standard nel caso in cui H0 sia vera la statistica sarà ottenuta rispettatando l'impostazione vista per la media campionaria
risolviamo quindi il problema p= 0.52; p 0 = 0.50; n= 1200 Visualizziamo la distribuzione campionaria di z quando H0 è vera z critico visualizziamo lo z critico nel caso di un ipotesi bidirezionale per p= 0.05 con NORMSINV(0.025) visualizziamo lo z-score z score calcoliamo il p valore a due code, 2*P(Z<z) con (1-NORMSDIST(z-score))*
Attenzione! dire “non si rifiuta H0” è corretto dire “si accetta H0” è sbagliato
dimensione campionaria e p-valore z critico z score p= 0.52; p 0 = 0.50; n= 4800 adesso p= < forte evidenza contro H0 a favore di H1 si può concludere: la maggioranza della popolazione è favorevole all’aumento delle tasse
corrispondenza con la binomiale la statistica corrisponde a quella che si estrae dalla binomiale quando n è grande e p → 0.5 dato che essa si approssima alla normale con variabile aleatoria standardizzata appross_normale_binomiale.xls
paranormale o no? si consegna un mazzo di 50 carte di colore rosso e blu. La prova per il soggetto A consiste nell'indovinare il colore della carta scelta da un soggetto B che si trova in un'altra stanza. Il soggetto A indovina 32 carte, è possibile sostenere che si tratta di un fenomeno paranormale, ad un livello di signicativita del 5%? H0: S = I = 50 H1: S > I > 50 (unidirezionale) Lo z-critico tale che P(Z z 0.05 ) = 0.95 è z critico z oss > z c (1.98 > 1.645), si riuta l'ipotesi H0
dimostratore Excel: Si costruisce un grafico dinamico in Excel che illustra la normale standard, il valore critico per p= 0.05 e i valori della statistica z risultanti da possibili proporzioni Osserva come il p-valore cambia al variare della dimensione del campione Normale_standard_e_proporzioni.xls
Le dimensioni del campione sono un fattore critico per i test statistici. se n è piccolo, 1.la stima è imprecisa 2.è difficile rifiutare H0 a meno che la media del campione non sia molto diversa da μ 0 ; 3.quindi la probabilità di commettere un errore di II tipo sarà grande P di commettere l’errore del II tipo
potenza del test Calcoliamo la capacità del test statistico di riconoscere la falsità di H0 quando questa è effettivamente falsa (1- ) Se p < rifiuto H0 Se p > accetto H0 rifiuto Ho accetto Ho Come fare ? Simuliamo due distribuzioni campionarie normali in Excel e verifichiamo
potenza del test in Excel Potenza_Test_NORMALE_VISUALIZZA.xls Immaginiamo un test di intelligenza standardizzato con media 100 e = 20 H1 è rappresentata da qualunque distribuzione di dati normali con media diversa da 100
potenza del test in Excel Potenza_Test_NORMALE_VISUALIZZA.xls Usiamo NORMDIST(C i=1→n ; $B$1;$B$2 ;0) per generare H0 NORMDIST( F i=1→n ; $B$5;$B$6 ;0) per generare H1 Visualizziamo le distribuzioni campionarie delle medie
potenza del test in Excel Potenza_Test_NORMALE_VISUALIZZA.xls Valore critico di z per l’alfa specificato nella cella K2 calcolato con NORMINV(J2; $B$1;$B$2) Corrisponderà alla probabilità sottesa dalla distribuzione H1 sotto il valore critico, quindi: NORMDIST(J3;$B$5;$B$6;TRUE) 1- beta, quindi: 1-J5
potenza del test in Excel Potenza_Test_NORMALE_VISUALIZZA.xls la probabilità che con un il mio test sia effettivamente in grado di riconoscere la falsità di H0 quando questa è effettivamente falsa è dell’ 80%
potenza del test in Excel Potenza_Test_NORMALE_VISUALIZZA.xls Se diminuisce la potenza del test aumenta o diminuisce? con diminuisce al 27%
Funzione continua della potenza Potenza_Test_NORMALE_VISUALIZZA.xls Possiamo quindi calcolare la funzione che associa a ciascun valore di z-critico il valore corrispondente della potenza del test Facciamolo nella seconda parte del foglio
Funzione continua della potenza Potenza_Test_NORMALE_VISUALIZZA.xls Otteniamo il seguente grafico
Funzione continua della potenza Potenza_Test_NORMALE_VISUALIZZA.xls La potenza del test diminuisce al diminuire della differenza fra le distribuzioni
Funzione continua della potenza Potenza_Test_NORMALE_VISUALIZZA.xls la potenza del test diminuisce all’aumentare della deviazione standard delle distribuzioni e quindi al diminuire di n = 20 = 30
errori statistici e TLC Cap. 12 Paganoni, Pontiggia: Esempio 1 La standardizzazione in z permette di suddividere lo spazio dell’ inferenza statistica in due regioni PotenzaTESTeTLC.xls
errori statistici e TLC PotenzaTESTeTLC.xls Cap. 12 Paganoni, Pontiggia: Esempio 1 La standardizzazione in z permette di suddividere lo spazio dell’ inferenza statistica in due regioni Per un quantile di ordine (z ) la % di realizzazioni campionarie di rifiuti di H0 anche se vera dovrebbe essere prossima ad = 2.5% indipendentemente dalla dimensione campionaria Verifichiamo con un documento in tutto simile a Teorema_del_Limite_Centrale.xls Teorema_del_Limite_Centrale.xls
errori statistici e TLC TLC con 500 numeri casuali da 1, 5, o 20 variabili aleatorie di legge gaussiana di media 50 e = 2.5 …. dovreste essere in grado di generarli …. proviamo assieme ? PotenzaTESTeTLC.xls
verifica delle ipotesi con Excel TLC con 500 numeri casuali da 1, 5, o 20 variabili aleatorie di legge gaussiana di media 50 e = Calcoliamo lo z critico= NORMINV(1- z ;0;1)= Calcoliamo le Regioni Critiche per le 3 dimensioni campionarie PotenzaTESTeTLC.xls
TLC con variabile aleatoria gaussiana generiamo 20 variabili aleatorie (n) ciascuna di 500 osservazioni con legge normale di parametri 50 (B1) e 2.5 (B2) applicando ad ogni cella
Calcoliamo le regioni critiche per la distribuzione delle medie campionarie con n= 1, n= 5 e n= 20 = B1 + B4 * SQRT(I5) TLC con variabile aleatoria gaussiana
Con la funzione COUNTIF(Intervallo;Criterio) troviamo per quanti campioni simulati possiamo rifiutare H0 sulla base del valore della media campionaria = COUNTIF(V20:V519;">"&I8)/COUNT(V20:V519) TLC con variabile aleatoria gaussiana
La percentuale di realizzazioni campionarie in cui rifiutiamo H0 anche se è vera si approssima ad indipendentemente da n TLC con variabile aleatoria gaussiana
Esercizio H0: = 50; H1: = 52 con = 2.5 Verificane gli errori del secondo tipo la % di realizzazioni campionarie di rifiuti di H1 anche se vera, al variare della dimensione campionaria (n= 1; n= 5; n= 20) Cap. 12 Paganoni, Pontiggia: Esempio 2 1-NORMDIST(RC; ; ; )
procedimenti su test d’ipotesi sulla media ProcedimentoIpotesiStatistica test Distribuzione Statistica test 1 n ≥ 30 Varianza σ 2 nota Distribuzione normale 2 n ≥ 30 Varianza σ 2 incognita Distribuzione normale 3 n < 30 Pop. normale Varianza σ 2 nota Distribuzione normale 4 n < 30 Pop. normale Varianza σ 2 incognita Distribuzione t di Student con n -1 gradi di libertà Il proc. 4 può essere usato anche per grandi campioni da pop.normale al posto del procedimento 2: il proc. esatto è quello basato sulla distribuzione t mentre l’altro è approssimato.