Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Implementazione del TLC in Excel con una variabile aleatoria uniforme 2.Implementazione del TLC in Excel con una variabile aleatoria Bernoulliana 3.Implementazione del TLC in Excel con una variabile aleatoria con DP di qualunque forma; 4.Campionamento Monte Carlo In Excel 5.Applicazioni del TLC: 6.Test di ipotesi sulla media (varianza nota) 7.Test di ipotesi sulla media (varianza incognita) 8.La distribuzione t-student
Teorema del Limite Centrale per grandi campioni la distribuzione campionaria della media campionaria è approssimativamente una distribuzione normale questo permette di inferire la probabilità associata alla media di un campione di dati indipendentemente dalle proprietà e forma della popolazione Teorema_del_Limite_Centrale.xls
1. TLC con variabile aleatoria uniforme 1.La relazione è soddisfatta 2.La relazione è soddisfatta 3.La varianza campionaria decresce all’aumentare di n 4.Testiamo la normalità per i 3 all’aumentare di n e visualizziamo Teorema_del_Limite_Centrale.xls
NPP usando il comando SMALL 1.Costruiamo i normal probability plot usando la stessa tecnica usata nel documento Normal_Probability_Plot_Paganoni.xls Normal_Probability_Plot_Paganoni.xls 2.Utilizzeremo la funzione SMALL per ordinare in maniera ascendente il set dinamico di dati di X
NPP usando il comando SMALL In ogni cella di AF scriviamo: SMALL( $W$20:$W$519 ;$A20) ritorna l’A20-esimo valore più piccolo specificato nell’array $W$20:$W$519.
output dinamico Pessimo adattamento alla normale Ottimo adattamento alla normale ancora meglio
parametri del fit L’intercetta corrisponde a X La slope o pendenza all’ errore standard
2. TLC con proporzioni (variabile aleatoria Bernoulliana) Simuliamo l’esempio 4.8 a pag 94 del vostro libro di testo (Repubblicani)1 (Democratici) Generalizzando il TLC al caso delle proporzioni possiamo prevedere quale sarà la forma della distribuzione campionaria Varianza di una variabile aleatoria di Bernoulli
2. TLC con proporzioni (variabile aleatoria Bernoulliana) vediamo se è proprio così
2. TLC con proporzioni (variabile aleatoria Bernoulliana) generiamo 20 variabili aleatorie (n) ciascuno di 500 osservazioni ciascuna con legge di Bernulli di parametro p applicando IF(RAND()<=$B$1;1;0) ad ogni cella
2. TLC con proporzioni (variabile aleatoria Bernoulliana) Il resto del foglio è uguale al precedente nota che si genera una seriazione della variabile bernoulliana in 13 classi nel range [0, 1] Gli zeri vengono conteggiati nel primo intervallo, gli uni nell’ultimo
2. TLC con proporzioni risultato Simili ai risultati precedenti Media campionaria = media della popolazione E varianza campionaria = p(1-p)/n
output dinamico pessimo adattamento alla normale nessuna stima dei parametri adattamento parziale alla normale con cattiva stima dei parametri ottimo adattamento alla normale con ottima stima dei parametri
3. TLC con distribuzioni di qualunque forma Figura 4.4, pag. 98 vostro testo verificato ma con le altre forme?
3. TLC con distribuzioni di qualunque forma Abbiamo bisogno di: Metodo di Campionamento Monte Carlo per generare numeri random con una distribuzione di probabilità qualsiasi (specificata da voi) In Excell è molto semplice ed è possibile nidificando le due funzioni VLOOKUP(RAND(); array)
V-Shaped Discrete Probability Distribution Results (p. 48)
La probabilità che la funzione VLOOKUP(RAND; …) consegni il valore nella cella i-esima dalla colonna D è uguale all’ampiezza dell’ intervallo i-esimo e [i+1]-esimo della colonna di riferimento in C: se Ci- Ci+1= 1 e Di= 1 allora P(VLOOKUP(RAND; …)= 1)=1; se Ci- Ci+1= 0.5 e Di= 1 allora P(VLOOKUP(RAND; …)= 1)=0.5; se Ci- Ci+1= 0.2 e Di= 1 allora P(VLOOKUP(RAND; …)= 1)=0.2; Tale probabilità corrisponde alla frequenza relativa
implementazione: step 1 Iniziamo disegnando la funzione desiderata y=f(x) riscaliamo y creando una variabile y’ che abbia le stesse proprietà di y ma la cui somma dia 1 y’=f(x) avrà le stesse proprietà di una distribuzione di probabilità
implementazione: step 1 Iniziamo disegnando la funzione desiderata y=f(x) y’(x)=p(X) B3/$B$17 SUM($C$2:C2)
implementazione: step 1 Iniziamo disegnando la funzione desiderata y=f(x) y’(x)=p(X) SUM($C$2:C2)
implementazione: step 1 Iniziamo disegnando la funzione desiderata y=f(x) y’(x)=p(X) Array di input per la funzione VLOOKUP(RAND;$D$3:$E$16)
implementazione: step 1 Iniziamo disegnando la funzione desiderata y=f(x) y’(x)=p(X) statistiche per il calcolo della media e varianza da una distribuzione di frequenze
Campionamento Monte Carlo: step 2
Maggiore è il numero di valori generati più è precisio il campionamento N= 28
Campionamento Monte Carlo: step 2 N= 28 Maggiore è il numero di valori generati più è precisio il campionamento N= 10000
distribuzione della media campionaria: step 3 Si procede nello stesso modo illustrato per i fogli precedenti Il risultato è effettivamente robusto: si generalizza anche a questa distribuzione
output
applicazione 1 del TLC (media e varianza note) Il tempo medio per andare da A a B è = 5 s con una varianza di 25 s. Si raccolgono 100 osservazioni. Una media del campione pari a 5.4 fa parte della popolazione o no? dal TLC z0.05 z-score disegno la normale 2.disegno lo z-score 3.1-P(Z>0.8) =1-NORMSDIST(0.8) 4.Maggiore del valore critico
Il tempo medio per andare da A a B è = 5 s con una varianza di 25 s. Si raccolgono 100 osservazioni. Una media del campione pari a 5.4 fa parte della popolazione o no? dal TLC z0.05 z-score non rifiutiamo H0 : m 5 contro l’ipotesi alternativa monodirezionale con un margine di errore 0.05 applicazione 1 del TLC (media e varianza note)
ricettario Ricettario_Z.xls
creare un foglio di lavoro con riferimenti personalizzati Foglio: RIFERIMENTI_PERSONALIZZATI E’ possibile scrivere la formula all’interno di una cella senza usare il riferimento colonna riga ma usando riferimenti che abbiano un significato statistico basta assegnare alle celle il nome desiderato (B1 → nobs; B2 → devst) usando Insert → Name → Define adesso il nome della cella B1 è nobs non più B1
problema dell’applicazione 1 In generale mentre la media della popolazione è nota (o almeno ipotizzabile) la varianza non lo è. Come procedere in questi casi?
applicazione 2 ipotizzata; ignota SoggettoD0D due misure di performance per due livelli di dosaggio del farmaco (campioni dipendenti) 2 ipotesi sull’efficacia del trattamento: H0: nessun effetto: diff = 0 H1: nessun effetto: diff > 0 la media della popolazione è nota (corrisponde alla nostra ipotesi) ma la varianza no
t di student distribuzione campionaria della media con varianza incognita se l’errore standard è stimato con la deviazione standard campionaria invece che con la deviazione standard della popolazione si ottiene la distribuzione standard T
t di student in Excel TDIST o DISTRIB.T(ABS(x);gradi_libertà;coda) gdl= n-1 T_student_e_normale.xls
t di student in Excel T_student_e_normale.xls simmetrica rispetto alla media 0 leptokurtica (con code più lunghe della normale) la varianza dipende da n maggiore è n più si approssima alla normale Metà negativa TDIST(ABS(X);gdl;1) Metà positiva 1-TDIST(ABS(X);gdl;1)
La distribuzione t presenta un'ampiezza leggermente diversa per ciascun differente valore dei gdl e si applicano, quindi, differenti t-scores per ciascun valore dei gdl. tavole t TINV(0.05;10)= 2.3 Il valore t riporta i t-score di una probabilità di sottesa dalla coda destra o di 0.05 su entrambe le code nota che P(t 0.025, 10 gdl ) > P(z ) =1. 96