Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza e Gradi di Libertà 2.Requisiti degli indici di dispersione 3.Proprietà notevoli della varianza (dimostrazioni Excel) 4.Teorema della somma delle Varianze (Dimostratore Excel) 5.Deviazione Standard 6.Punti z, standardizzazione, distribuzione normale standard e sue applicazioni 7.Tavole dei punti z 8.Metodo probit 9.Retta dei minimi quadrati, euqzione di previsione e stima dei parametri (a e b)
indici di dispersione relativi al centro IQR e campo di variazione sono misure di variabilità assoluta: non tengono in considerazione di come le misure si distribuiscono attorno al centro (media) dato che (come già dimostrato) la somma delle deviazioni dalla media è nulla la più rilevante misura di variabilità fa uso dello scarto quadratico dalla media o devianza Perché non basta la devianza ? dipende dalla numerosità del campione l'unità di misura è il quadrato di quella della variabile avete verifichato usando il documento Mean&MedianPropertyDemonstration.xls (Foglio: proprietà della devianza) ? Mean&MedianPropertyDemonstration.xls
facciamo in modo che la dispersione dei dati sia proporzionale alla media dei punteggi: quindi k corrisponderà al rapporto fra = F2/F4 devianza e n Mean&MedianPropertyDemonstration.xls Foglio: proprietà della devianza
Calcoliamo per ciascun punteggio lo scarto dalla media al quadrato in colonna V e cumuliamo gli scarti in W Otteniamo così le devianze per campioni di grandezza da 1 a n Costruiamo quindi il grafico di dispersione con la devianza cumulata in y e il numero di osservazioni in x = SUM ($V$ i :V n )= (H i -$T$2)^2 devianza e n Mean&MedianPropertyDemonstration.xls Foglio: proprietà della devianza
osserviamo la relazione fra devianza, grandezza del campione e parametri e ) la pendenza della retta dipende dalla media della popolazione? devianza e n Mean&MedianPropertyDemonstration.xls Foglio: proprietà della devianza
risultato Numerosità campione Devianza simulazione con = /9 450 150 250 100 93
varianza, g.d.l., popolazine o campione? È necessario pesare gli scarti con il numero delle osservazioni popolazione campione Gradi di libertà
media delle deviazioni al quadrato nulla i valori sono uguali piccola i valori sono simili e quindi distribuiti vicino alla media grande i valori sono diversi e quindi distribuiti lontano dalla media
perché g.d.l.? campione popolazione
perché g.d.l.? campione (N) popolazione errore
perché g.d.l.? campione popolazione campione (N-1) > cresce la probabilità che valori della popolazione siano correttamente campionati
varianza e requisiti Un indice per la misura della variabilita deve avere le seguenti caratteristiche: deve assumere valori maggiori o uguali a 0 di facile interpretazione (come la devianza la sua unità di misura è il quadrato della variabile ) deve essere invariante alla traslazione preferibilmente invariante alla scala applicabile a variabili discrete (distribuzioni di frequenze)
varianza e invarianze stessa varianza dopo aver aggiunto 10 a ciascun valore (invarianza alla traslazione) la varianza dopo aver moltiplicato tutti gli elementi per 10 corriponde a: s 2 K 2 (no invarianza alla scala)
varianza e requisiti Un indice per la misura della variabilita deve avere le seguenti caratteristiche: deve assumere valori maggiori o uguali a 0 di facile interpretazione (come la devianza la sua unità di misura è il quadrato della variabile ) deve essere invariante alla traslazione preferibilmente invariante alla scala applicabile a variabili discrete (distribuzioni di frequenze)
varianza e distribuzioni di frequenze relative vedi Eq. a pag. 109, Agresti (Es. 4.55) e/o Eq Borazzo (pag. 102) verifichiamo il significato dell’equazione nel nostro dataset corrisponde alla media x
NUMFREND_DATASET_AGE.xls Tabella pivot che calcola le % del numero di amici per ogni categoria di età (colonna) per tutte le possibili ooservazioni di numero di amici Tabella che riporta i valori della tabella pivot nel formato desiderato Tabella che converte i valori di frequenza nel prodotto fra frequenza relativa e valore al quadrato dall’osservazione = O6*$I6^2 = VARP('media e mediana'!B5:B859) = SUM(Q5:Q32) - = VARP('media e mediana'!B5:B859) Foglio: Verifica_VARI_distrib_discreta
Tabella pivot che calcola le % del numero di amici per ogni categoria di età (colonna) per tutte le possibili ooservazioni di numero di amici Tabella che riporta i valori della tabella pivot nel formato desiderato Tabella che converte i valori di frequenza nel prodotto fra frequenza relativa e valore assunto dall’osservazione I valori sono uguali quindi è vero che NUMFREND_DATASET_AGE.xls Foglio: Verifica_VARI_distrib_discreta
varianza e requisiti Un indice per la misura della variabilita deve avere le seguenti caratteristiche: deve assumere valori maggiori o uguali a 0 di facile interpretazione (come la devianza la sua unità di misura è il quadrato della variabile ) deve essere invariante alla traslazione preferibilmente invariante alla scala applicabile a variabili discrete (distribuzioni di frequenze)
perché è così importante ?(1) La varianza della somma di variabili casuali indipendenti (non correlate) è uguale alla somma delle loro varianze Teorema della somma delle varianze (I) domanda tipo: misuriamo separatamente la prestazione degli studenti in due classi diverse (stesso docente/stessa materia). Quale è la varianza risultante dalla somma delle due due distribuzioni?
domanda sommando le due distribuzioni otteniamo una distribuzione: più variabile della verde o meno? più a sinistra o più a destra? più variabile più a destra
domanda spostando la media di una delle due distribuzioni: cambia la variabilità della distribuzione somma? di quanto si è spostata? NO tanto quanto la verde
dimostrazione il foglio ha caratteristiche simili a Sampling_Size_&_Density.xls ma include 2 (non 1) serie di valori numerici distribuiti normalmente SumOFVAriances.xls
dimostrazione SumOFVAriances.xls 200 punteggi indipendentemente conseguiti dalle due classi Somma dei punteggi; SUM(C1 i : C2 i ) la somma delle varianze calcolate indipendentemente sulle 2 classi (504) è molto vicina alla varianza calcolata sommando i punteggi dei due campioni di dati (492) Il teorema è dimostrato
dimostrazione SumOFVAriances.xls verifica la stabilità della legge variando la media, e la varianza delle due distribuzioni teoriche di riferimento
definisce la variabilità/scala della distribuzione normale a cui ogni distribuzione campionaria tende (teorema del limite centrale) all’aumentare del numero di osservazioni perché è così importante ?(2) un limite della varianza è legato alla sua difficoltà di interpretazione dato che essa è espressa nell'unita di misura al quadrato della variabile cui si riferisce. per ovviare a questo problema si utilizza la deviazione standard: la redice quadrata della varianza
riscriviamo la formula della normale in termini di deviazioni standard varianza deviazione standard
gode delle stesse proprietà della varianza con il vantaggio che è espressa nella stessa unità di misura della variabile media del valore assoluto degli scarti di ciascuna osservazione dalla media
interpretare s: regola empirica se l'istogramma della distribuzione ha una forma approssimativamente campanulare: Circa il 68% delle osservazioni assume valori compresi tra e Circa il 95% delle osservazioni assume valori compresi tra e La quasi totalità delle osservazioni assume valori compresi tra e
s nella distribuzione di frequenze
dimostratore in Mathematica TheEmpiricalRuleForNormalDistributions-author
Esempio voto in trentesimi all’esame di statistica in una classe di 25 studenti 14 voti su 25 (56%) sono nell’intervallo compreso fra ± 1 s dalla media. nessun voto appartiene a più di 2 s dalla media
trasformazione lineare del punteggio in termini del numero di deviazioni standard dalla media fornisce un criterio (relativo no assoluto) per l’identificazione degli outlier essendo una trasformazione lineare, non cambia la forma della distribuzione delle osservazioni la distribuzione degli z ha media 0 e dev.st 1. alla base dell’ inferenza statistica z-score: standardizzazione
applicazione (1) Si supponga che i punteggi della classe siano distribuiti in maniera normale con media 65 (centesimi) e deviazione standard sd; 75 -1sd; 55 +2sd; 85 -2sd; 45 +3sd; 95 -3sd; % Che percentuale di studenti riceve un punteggio compreso tra 45 e 85? ~ il 95%
applicazione (2) Si supponga che i punteggi della classe siano distribuiti in maniera normale con media 65 (centesimi) e deviazione standard sd; 75 -1sd; 55 +2sd; 85 -2sd; 45 +3sd; 95 -3sd; Come rispondere alla domanda: che percentuale di studenti riceve un punteggio minore/maggiore di 85? per rispondere a questa domanda mi devo riferire alla distribuzione dei punti z, ossia alla distribuzione normale standard ???
distribuzione normale standard: N(0;1) un punteggio è esprimibile nei termini del numero di deviazioni standard che lo separano dalla media (z) a ciascun valore della variabile x può essere quindi associato il corrispondente valore della variabile standardizzata z, ottenuto applicando la standardizzazione
mapping N(0,1) → N(x,s) = = = = la standardizzazione consente di trovare le aree sottese alla distribuzione normale usando delle tabelle
mapping N(0,1) → N(x,s) ad esempio ad x= 85 corrisponde un z score di 2.00 = x x
= x x Tavole N(0,1) pag 526 testo solo il 2.28% degli studenti riceve un punteggio maggiore di 85
cumulativa (z) P ( Z < z) con z si denota il [100(1 - )]-esimo percentile di N(0, 1) (z)(z) z 0.05
valori più comunemente usati z 0.05 = z = 1.96 z = 2.576
Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto VotoFrequenza Frequenza Cumulata Z(Freq Cum) probit: mapping x → z
VotoFrequenza Frequenza Cumulata Z(Freq Cum) probit: mapping x → z Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto
VotoFrequenza Frequenza Cumulata Z(Freq Cum) probit: mapping x → z Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto
VotoFrequenza Frequenza Cumulata Z(Freq Cum) probit: mapping x → z Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto
probit: mapping x → z VotoFrequenza Frequenza Cumulata Z(Freq Cum) Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto
VotoFrequenza Frequenza Cumulata Z(Freq Cum) probit: mapping x → z Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto
VotoFrequenza Frequenza Cumulata Z(Freq Cum) probit: mapping x → z Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto
soluzione dei minimi quadrati e stima Il punto in cui la retta che meglio descrive la relazione fra punteggi e punteggi trasformati interseca l’asse delle x (i.e., z= 0) corrisponde alla stima della media Il reciproco del coefficiente angolare (1/b) da la deviazione standard capitolo 9 testo b
calcoliamo b e a minimizza la somma degli scarti al quadrato fra valore osservato y i e valore predetto dal modello lineare, f(x i ) (residui) z (x i,z i ) ax i + b - z i f(x,z)= ax + b x b a codevianza da tale processo di minimizzazione si può dimostrare che pag vostro testo
VotoFrequenza Frequenza Cumulata Z(Freq Cum) nel nostro caso media b= =
VotoFrequenza Frequenza Cumulata Z(Freq Cum) nel nostro caso media b= = ; a= =-5.1
verifichiamo z(f) = x Punteggio Z(fp)
verifichiamo z(f) = x Punteggio Z(fp) = = 9.78 corrispondono esattamente ai parametri della distribuzione da cui abbiamo campionato le osservazioni
utilità del metodo illustrato stabilità: permette di ottenere stime stabili dei parametri della distribuzione anche quando si hanno poche classi di eventi Punteggio Z(fp) anche se vengono eliminati punti la retta non cambia e le stime rimangono invariate
utilità del metodo illustrato stabilità: permette di ottenere stime stabili dei parametri della distribuzione anche quando si hanno poche classi di eventi precisione: fornisce stime più precise dei parametri di quelle ottenibili mediante l’applicazione degli indici di tendenza centrale e dispersione applicati e distribuzioni di frequenze VotoFrequenza Frequenza Cumulata Z(Freq Cum)