Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Varianza.

Slides:



Advertisements
Presentazioni simili
Come organizzare i dati per un'analisi statistica al computer?
Advertisements

LA VARIABILITA’ IV lezione di Statistica Medica.
LA DISTRIBUZIONE NORMALE
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Analisi dei dati per i disegni ad un fattore
Descrizione dei dati Metodi di descrizione dei dati
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Introduzione alla statistica per la ricerca Lezione I
Distribuzioni di probabilità
Appunti di inferenza per farmacisti
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Modello di regressione lineare semplice
Lezione 4 Probabilità.
Analisi della varianza
Quale valore dobbiamo assumere come misura di una grandezza?
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Le distribuzioni campionarie
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Gli indici di dispersione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
Accenni di analisi monovariata e bivariata
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
Il residuo nella predizione
Martina Serafini Martina Prandi
“Teoria e metodi della ricerca sociale e organizzativa”
Test basati su due campioni Test Chi - quadro
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Intervalli di confidenza
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
La distribuzione campionaria della media
Elaborazione statistica di dati
Accenni di analisi monovariata e bivariata
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
1 Statistica Scienza dell’incertezza PROBABILITÀ ALLA BASE DELL’INFERENZA Ipotesi VERA o FALSA? Campionamento Analisi statistica Scelta di una delle due.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Seriazione.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Rosoluzione.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Campionamento.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Inferenza.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Media aritmetica.
Distribuzioni limite La distribuzione normale Si consideri una variabile casuale rappresentata mediante una combinazione lineare di altre variabili casuali.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Scienze tecniche e psicologiche
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Implementazione.
Introduzione all’inferenza
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
Gli Indici di VARIABILITA’
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
Transcript della presentazione:

Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza e Gradi di Libertà 2.Requisiti degli indici di dispersione 3.Proprietà notevoli della varianza (dimostrazioni Excel) 4.Teorema della somma delle Varianze (Dimostratore Excel) 5.Deviazione Standard 6.Punti z, standardizzazione, distribuzione normale standard e sue applicazioni 7.Tavole dei punti z 8.Metodo probit 9.Retta dei minimi quadrati, euqzione di previsione e stima dei parametri (a e b)

indici di dispersione relativi al centro  IQR e campo di variazione sono misure di variabilità assoluta: non tengono in considerazione di come le misure si distribuiscono attorno al centro (media)  dato che (come già dimostrato) la somma delle deviazioni dalla media è nulla la più rilevante misura di variabilità fa uso dello scarto quadratico dalla media o devianza Perché non basta la devianza ?  dipende dalla numerosità del campione  l'unità di misura è il quadrato di quella della variabile  avete verifichato usando il documento Mean&MedianPropertyDemonstration.xls (Foglio: proprietà della devianza) ? Mean&MedianPropertyDemonstration.xls

facciamo in modo che la dispersione dei dati sia proporzionale alla media dei punteggi: quindi k corrisponderà al rapporto fra  = F2/F4 devianza e n Mean&MedianPropertyDemonstration.xls Foglio: proprietà della devianza

 Calcoliamo per ciascun punteggio lo scarto dalla media al quadrato in colonna V e cumuliamo gli scarti in W  Otteniamo così le devianze per campioni di grandezza da 1 a n  Costruiamo quindi il grafico di dispersione con la devianza cumulata in y e il numero di osservazioni in x = SUM ($V$ i :V n )= (H i -$T$2)^2 devianza e n Mean&MedianPropertyDemonstration.xls Foglio: proprietà della devianza

osserviamo la relazione fra devianza, grandezza del campione e parametri  e  ) la pendenza della retta dipende dalla media della popolazione? devianza e n Mean&MedianPropertyDemonstration.xls Foglio: proprietà della devianza

risultato  Numerosità campione Devianza simulazione con  =  /9  450  150  250  100  93

varianza, g.d.l., popolazine o campione?  È necessario pesare gli scarti con il numero delle osservazioni popolazione campione Gradi di libertà

 media delle deviazioni al quadrato  nulla  i valori sono uguali  piccola  i valori sono simili e quindi distribuiti vicino alla media  grande  i valori sono diversi e quindi distribuiti lontano dalla media

perché g.d.l.? campione popolazione

perché g.d.l.? campione (N) popolazione errore

perché g.d.l.? campione popolazione campione (N-1) > cresce la probabilità che valori della popolazione siano correttamente campionati

varianza e requisiti  Un indice per la misura della variabilita deve avere le seguenti caratteristiche:  deve assumere valori maggiori o uguali a 0  di facile interpretazione (come la devianza la sua unità di misura è il quadrato della variabile )  deve essere invariante alla traslazione  preferibilmente invariante alla scala  applicabile a variabili discrete (distribuzioni di frequenze)

varianza e invarianze  stessa varianza dopo aver aggiunto 10 a ciascun valore (invarianza alla traslazione)  la varianza dopo aver moltiplicato tutti gli elementi per 10 corriponde a: s 2  K 2 (no invarianza alla scala)

varianza e requisiti  Un indice per la misura della variabilita deve avere le seguenti caratteristiche:  deve assumere valori maggiori o uguali a 0  di facile interpretazione (come la devianza la sua unità di misura è il quadrato della variabile )  deve essere invariante alla traslazione  preferibilmente invariante alla scala  applicabile a variabili discrete (distribuzioni di frequenze)

varianza e distribuzioni di frequenze relative vedi Eq. a pag. 109, Agresti (Es. 4.55) e/o Eq Borazzo (pag. 102) verifichiamo il significato dell’equazione nel nostro dataset corrisponde alla media x

NUMFREND_DATASET_AGE.xls Tabella pivot che calcola le % del numero di amici per ogni categoria di età (colonna) per tutte le possibili ooservazioni di numero di amici Tabella che riporta i valori della tabella pivot nel formato desiderato Tabella che converte i valori di frequenza nel prodotto fra frequenza relativa e valore al quadrato dall’osservazione = O6*$I6^2 = VARP('media e mediana'!B5:B859) = SUM(Q5:Q32) - = VARP('media e mediana'!B5:B859) Foglio: Verifica_VARI_distrib_discreta

Tabella pivot che calcola le % del numero di amici per ogni categoria di età (colonna) per tutte le possibili ooservazioni di numero di amici Tabella che riporta i valori della tabella pivot nel formato desiderato Tabella che converte i valori di frequenza nel prodotto fra frequenza relativa e valore assunto dall’osservazione I valori sono uguali quindi è vero che NUMFREND_DATASET_AGE.xls Foglio: Verifica_VARI_distrib_discreta

varianza e requisiti  Un indice per la misura della variabilita deve avere le seguenti caratteristiche:  deve assumere valori maggiori o uguali a 0  di facile interpretazione (come la devianza la sua unità di misura è il quadrato della variabile )  deve essere invariante alla traslazione  preferibilmente invariante alla scala  applicabile a variabili discrete (distribuzioni di frequenze)

perché è così importante ?(1) La varianza della somma di variabili casuali indipendenti (non correlate) è uguale alla somma delle loro varianze Teorema della somma delle varianze (I) domanda tipo: misuriamo separatamente la prestazione degli studenti in due classi diverse (stesso docente/stessa materia). Quale è la varianza risultante dalla somma delle due due distribuzioni?

domanda sommando le due distribuzioni otteniamo una distribuzione:  più variabile della verde o meno?  più a sinistra o più a destra? più variabile più a destra

domanda spostando la media di una delle due distribuzioni:  cambia la variabilità della distribuzione somma?  di quanto si è spostata? NO tanto quanto la verde

dimostrazione il foglio ha caratteristiche simili a Sampling_Size_&_Density.xls ma include 2 (non 1) serie di valori numerici distribuiti normalmente SumOFVAriances.xls

dimostrazione SumOFVAriances.xls 200 punteggi indipendentemente conseguiti dalle due classi Somma dei punteggi; SUM(C1 i : C2 i ) la somma delle varianze calcolate indipendentemente sulle 2 classi (504) è molto vicina alla varianza calcolata sommando i punteggi dei due campioni di dati (492) Il teorema è dimostrato

dimostrazione SumOFVAriances.xls verifica la stabilità della legge variando la media, e la varianza delle due distribuzioni teoriche di riferimento

definisce la variabilità/scala della distribuzione normale a cui ogni distribuzione campionaria tende (teorema del limite centrale) all’aumentare del numero di osservazioni perché è così importante ?(2)  un limite della varianza è legato alla sua difficoltà di interpretazione dato che essa è espressa nell'unita di misura al quadrato della variabile cui si riferisce.  per ovviare a questo problema si utilizza la deviazione standard: la redice quadrata della varianza

riscriviamo la formula della normale in termini di deviazioni standard  varianza deviazione standard

gode delle stesse proprietà della varianza con il vantaggio che è espressa nella stessa unità di misura della variabile  media del valore assoluto degli scarti di ciascuna osservazione dalla media

interpretare s: regola empirica se l'istogramma della distribuzione ha una forma approssimativamente campanulare:  Circa il 68% delle osservazioni assume valori compresi tra e  Circa il 95% delle osservazioni assume valori compresi tra e  La quasi totalità delle osservazioni assume valori compresi tra e

s nella distribuzione di frequenze

dimostratore in Mathematica TheEmpiricalRuleForNormalDistributions-author

Esempio voto in trentesimi all’esame di statistica in una classe di 25 studenti 14 voti su 25 (56%) sono nell’intervallo compreso fra ± 1 s dalla media. nessun voto appartiene a più di 2 s dalla media

 trasformazione lineare del punteggio in termini del numero di deviazioni standard dalla media  fornisce un criterio (relativo no assoluto) per l’identificazione degli outlier  essendo una trasformazione lineare, non cambia la forma della distribuzione delle osservazioni  la distribuzione degli z ha media 0 e dev.st 1.  alla base dell’ inferenza statistica z-score: standardizzazione

applicazione (1) Si supponga che i punteggi della classe siano distribuiti in maniera normale con media 65 (centesimi) e deviazione standard sd; 75 -1sd; 55 +2sd; 85 -2sd; 45 +3sd; 95 -3sd; %  Che percentuale di studenti riceve un punteggio compreso tra 45 e 85? ~ il 95%

applicazione (2) Si supponga che i punteggi della classe siano distribuiti in maniera normale con media 65 (centesimi) e deviazione standard sd; 75 -1sd; 55 +2sd; 85 -2sd; 45 +3sd; 95 -3sd;  Come rispondere alla domanda: che percentuale di studenti riceve un punteggio minore/maggiore di 85? per rispondere a questa domanda mi devo riferire alla distribuzione dei punti z, ossia alla distribuzione normale standard ???

distribuzione normale standard: N(0;1) un punteggio è esprimibile nei termini del numero di deviazioni standard che lo separano dalla media (z) a ciascun valore della variabile x può essere quindi associato il corrispondente valore della variabile standardizzata z, ottenuto applicando la standardizzazione

mapping N(0,1) → N(x,s)  = = = = la standardizzazione consente di trovare le aree sottese alla distribuzione normale usando delle tabelle

mapping N(0,1) → N(x,s)  ad esempio ad x= 85 corrisponde un z score di 2.00 = x x

 = x x Tavole N(0,1) pag 526 testo solo il 2.28% degli studenti riceve un punteggio maggiore di 85

cumulativa  (z) P ( Z < z) con z  si denota il [100(1 -  )]-esimo percentile di N(0, 1) (z)(z) z 0.05

valori più comunemente usati  z 0.05 =  z = 1.96  z = 2.576

 Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa  Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto VotoFrequenza Frequenza Cumulata Z(Freq Cum) probit: mapping x → z

VotoFrequenza Frequenza Cumulata Z(Freq Cum) probit: mapping x → z  Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa  Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto

VotoFrequenza Frequenza Cumulata Z(Freq Cum) probit: mapping x → z  Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa  Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto

VotoFrequenza Frequenza Cumulata Z(Freq Cum) probit: mapping x → z  Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa  Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto

probit: mapping x → z VotoFrequenza Frequenza Cumulata Z(Freq Cum)  Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa  Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto

VotoFrequenza Frequenza Cumulata Z(Freq Cum) probit: mapping x → z  Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa  Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto

VotoFrequenza Frequenza Cumulata Z(Freq Cum) probit: mapping x → z  Dato che la relazione che lega i punteggi x e gli z è lineare la relazione fra x e gli z-score delle proporzioni cumulate associate a ciascun x, Z(P(X < x i )), sarà lineare anch’essa  Da questa relazione sarà possibile inferire i parametri della popolazione da cui il campione è stato estratto

soluzione dei minimi quadrati e stima  Il punto in cui la retta che meglio descrive la relazione fra punteggi e punteggi trasformati interseca l’asse delle x (i.e., z= 0) corrisponde alla stima della media  Il reciproco del coefficiente angolare (1/b) da la deviazione standard capitolo 9 testo  b

calcoliamo b e a minimizza la somma degli scarti al quadrato fra valore osservato y i e valore predetto dal modello lineare, f(x i ) (residui) z (x i,z i ) ax i + b - z i f(x,z)= ax + b x b a codevianza da tale processo di minimizzazione si può dimostrare che pag vostro testo

VotoFrequenza Frequenza Cumulata Z(Freq Cum) nel nostro caso media  b= =

VotoFrequenza Frequenza Cumulata Z(Freq Cum) nel nostro caso media  b= = ; a= =-5.1

verifichiamo z(f) = x Punteggio Z(fp)

verifichiamo z(f) = x Punteggio Z(fp) = = 9.78 corrispondono esattamente ai parametri della distribuzione da cui abbiamo campionato le osservazioni

utilità del metodo illustrato  stabilità: permette di ottenere stime stabili dei parametri della distribuzione anche quando si hanno poche classi di eventi Punteggio Z(fp) anche se vengono eliminati punti la retta non cambia e le stime rimangono invariate

utilità del metodo illustrato  stabilità: permette di ottenere stime stabili dei parametri della distribuzione anche quando si hanno poche classi di eventi  precisione: fornisce stime più precise dei parametri di quelle ottenibili mediante l’applicazione degli indici di tendenza centrale e dispersione applicati e distribuzioni di frequenze VotoFrequenza Frequenza Cumulata Z(Freq Cum)