Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Seriazione.

Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Seriazione di frequenze in classi equifrequenti 2.Percentile 3.Densità di frequenza 4.Lisciare una distribuzione di probabilità con Mathematica e Excel (numerosità del campione) 5.Caratteristiche rilevanti di una distribuzione (accuratezza/precisione/sim metria) 6.Indici di tendenza centrale 7.Mediana e sue proprietà notevoli (dimostratore Excel)

distribuzioni campionarie - empiriche Sintomi&Pesticidi.xls → distribuzione di frequenza per variabile qualitativa (scala nominale: serie sconnessa)  avete provato a completare il foglio ?  avete provato a sintetizzare i dati mediante l’utilizzo delle Tabelle Pivot? NUMFREND_DATASET_AGE_1.xls → distribuzione di frequenza relativa per variabile quantitativa (scala rapporti: seriazione)  Seriazione in classi equiampie mediante la funzione raggruppa di Excel  Perché è meglio effettuare una seriazione in classi equifrequenti?

abbiamo bisogno di 1.discretizzare la variabile età in maniera che in ogni classe ci sia un ugual numero di osservazioni (classi equiafrequenti) 2.utilizzare la suddivisione in percentili (valore al di sotto del quale una certa % di osservazioni in un campione di dati cade) 3.utilizzare la funzione if then per definire gli intervalli limitati aperti, es. a  età < b indicato con [a,b)

percentile in cucina e statistica 100% del pane se affettiamo in maniera accurata 0% 12.5% 25 % 37.5 % 50 % ogni fetta conterrà una uguale % di pane (12.5%) facciamo la stessa cosa con la nostra variabile età usando Excel come coltello

1.dividiamo in 6 fette l’età calcoliamo per ogni taglio il percentile; Fx: PERCENTILE(colonna di dati bloccata; fetta) + affettiamo! + 16.6-esimo percentile Valore al di sotto del quale si osservano il 16. 66% delle osservazioni 83.3-esimo percentile Valore al di sotto del quale si osservano l’ 83.3% delle osservazioni

6 categorie di età = AVERAGE(G4:H4)

discretizzazione della variabile AGE una colonna di dati che ricodifica la colonna AGE con le 6 categorie di età Se il valore in AGE è compreso fra due valori percentili allora ritorna la media dei valori percentili, altrimenti, se…

concatenazione di tanti IF quante sono le fette

facciamo a fette l’età con le tabelle pivot Per visualizzare il grafico basterà posizionarsi con il cursore sulla tabella pivot e premere

verifichiamo la bontà delle fette  le proporzioni di ciascuna categoria oscilla attorno al valore atteso (0.17)  la loro media coincide perfettamente con il valore atteso  ottima affettatura! = 1/6

numero di amici per fette  le distribuzioni sono molto diverse fra loro  come descrivere queste diversità è un problema di statistica descrittiva (cap 3 del vostro libro)  diversi aspetti notevoli delle distribuzioni

dalla distribuzione discreta alla continua una distribuzione di dati campionari è una foto sfuocata della distribuzione dei dati di popolazione

dalla distribuzione discreta alla continua attenzione all’errore! la figura (3.6 pag 39) non può rappresentare frequenze relative altrimenti le barre in (a) dovrebbero apparire più alte delle barre in (b) e (c) nel vostro testo è omesso un concetto fondamentale per la rappresentazione di istogrammi: densità di frequenza densità

densità di frequenza e istogrammi

dimostratore in Mathematica http://demonstrations.wolfram.com/# ImpactOfSampleSizeOnApproximatingTheNormalDistribution

dimostratore in Mathematica http://demonstrations.wolfram.com/#  L’altezza delle barre esprime la densità di frequenza dato che la somma dell’area di tutte le barre è 1  h= area barra/base = f i /ampiezza intervallo  aumentando il numero di osservazioni la distribuzione di frequenze si approssima alla curva continua liscia  prova a manipolare la la variabilità della distribuzione di origine

file di lavoro in moodle 2 http://moodle2.units.it/course/view.php?id=273 Cliccare sul link per scaricare il file

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls  Osservazioni random di punteggi alla Bayley Scale of Infant and Toddler Development  Punteggi standardizzati con media 100 su diverse scale di sviluppo (linguistico, motorio, cognitivo)  variabile continua casuale normale

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls deviazione standard (  68% delle osservazioni 0 0.025 0.05 050100150 Curva teorica normale N(100,10) densità punteggi BSITD Funzione per implementarla = NORMDIST(x; media; dev_standard; false) Si indica con  per la popolazione e con x per il campione

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls 0 0.025 0.05 050100150 Curva teorica normale N(100,10) densità punteggi BSITD La colonna H non contiene i valori in y (densità) della curva ma piuttosto i valori in x (z  ) corrispondenti a probabilità sottese ed estratte a caso, ossia il quantile di ordine 1-RAND() RAND() → NORMINV(RAND()) 0.788 → 108 0.539 → 101 0.500 → 100

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls 0 0.025 0.05 050100150 Curva teorica normale N(100,10) densità punteggi BSITD La colonna H non contienei i valori in y della curva ma piuttosto i valori in x corrispondenti a probabilità sottese ed estratte a caso RAND() → INVNORM(RAND()) 0.788 → 108 0.539 → 101 0.500 → 100 = ROUNDUP(NORMINV(RAND();$F$1;$F$2);0)

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls Tagli (colonna J) in classi equiampie in maniera che i valori delle modalità (colonna K) varino in maniera dinamica attorno alla media  di una quantità proporzionale all’errore  e alla risoluzione (r) = J2+($F$2*$F$4*2)/$F$3

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls Nella colonna L conteggio del numero di punteggi maggiori/uguali di ciascun taglio con la funzione countif(x i→n ; “>=”$J i ) = COUNTIF($H$2:$H$16;">="&$J2)

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls La frequenza assoluta in M di ciascun evento (modalità) è data dalla semplice differenza fra celle successive della colonna J = L2-L3= M3/$M$9

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls  funzione di ripartizione empirica: somma cumulata delle frequenze relative (colonna O)  usa la funzione SUM fissando il riferimento della cella di origine: SUM($X $i : X i+n ) = SUM($N$2:N4)

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls = N3/(J3-J2) La densità di frequenza in P è data dalla frequenza relativa di ciascun evento in N divisa per la lunghezza del passo

risultato 6 passi 15 osservazioni 30 passi 15 osservazioni 30 passi 200 osservazioni funzione di ripartizione empirica P(X < x i ) distribuzione empirica distribuzione di densità di probabilità

esercitatevi con questo foglio di lavoro per fare vostre diverse proprietà delle distribuzioni divertitevi a provare diverse combinazione di grandezza dei parametri campionari e teorici

esercizio completa la seguente tabella calcolando i valori di densità di frequenza mancanti

accuratezza e precisione in statistica preciso/ non accurato non preciso/ non accurato non preciso/ accurato preciso/ accurato tempo

distribuzione campanulare accuratezza valore atteso precisione

anche la forma conta simmetrica centro aimmetrica 50% Il centro corrisponde al: 1.50% percentile delle osservazioni (Mediana) 2.Massima frequenza (Moda) 3.Baricentro (Media) media 50% mediana moda dove sta il centro ? asimmetrica negativa coda sinistra coda destra

la moda nelle nostre fette di età evitiamo di procedere ‘ad occhio’ affidandoci ad una procedura che sia al contempo breve e non soggetta ad errori  algoritmo potremo identificare il picco di frequenza e riportare il rispettivo valore di età in ogni istogramma si indecisosi indeciso NUMFREND_DATASET_AGE.xls

funzioni MAX e VLOOKUP  crea una colonna uguale alla colonna A nella colonna G (= A i )  Usa la funzione MAX(x i→n ) per estrarre il valore osservato per ciascuna modalità con maggiore frequenza;  Usa la funzione VLOOKUP per identificare il valore di età corrispondente al valore di massima frequenza osservato per ciascuna modalità

risultato Il risultato di excel è instabile: se si ordinano i dati i n modo crescente in funzione della prima categoria di età (23) il massimo è 10 Attenzione!!! distribuzione bimodale Questa è la fonte di distorsione

mediana  In excel: MEDIAN(x i→n )….  In teorie è il valore della variabile assunto dall'osservazione centrale del campione ordinato  quando l'ampiezza campionaria n è dispari, abbiamo una sola osservazione centrale e la mediana è: x (n+1)/2  quando n è pari, si hanno due osservazioni centrali e la mediana è il valore centrale tra i due: x n/2 + x (n+1)/2 2

mediana e quartili a mano Punteggi ordinati 7696 9899101104105113 Q1 mediana (Q2)Q3  minimo e massimo  quartili: suddividono la distribuzione in 4 parti in modo che ogni parte contenga il 25% di osservazioni in più della successiva  si indicano con Q1, Q2, e Q3 e se n + 1 è divisibile per 4 si trovano con (n + 1)  l/2, con l il livello di Q: 1, 2 o 3  mediana nel secondo quartile Ordiniamo i dati dal più piccolo al più grande e otteniamo:

area sotto la distribuzione continua

metodo 1: ordinamento della serie  Crea la tabella pivot e ordina in modo ascendente la colonna della categoria 23  Usa la funzione COUNT(x i→n ) arrotondata per eccesso (con ROUNDUP) per identificare la riga corrispondente a x (n+1)/2  Usa la funzione INDEX( xi→n; riga di riferimento ) per farti restituire il valore nell’ array con la posizione di riga indicata  Il numero corrisponde con quello calcolato mediante la funzione MEDIAN

metodo 2: somma cumulata delle frequenze relative funzione di ripartizione empirica Clicca due volte su Count of Soggetto e si aprirà la finestra Seleziona “Options>>” e sclegli “% of column” dal menu a tendina

metodo 2: somma cumulata delle frequenze relative funzione di ripartizione empirica

visualizzare le funzioni di ripartizione esempio a pag 44. Tabella 3.5 per un applicazione su dati ordinali

proprietà notevole della mediana  minimizza la somma degli scarti assoluti  la somma degli scarti assoluti dei dati (x i ) da qualunque elemento della serie (a) è sempre maggiore della somma degli scarti assoluti dei dati dalla mediana (M)  formalmente: verifichiamo con Excel

file di lavoro in moodle 2 http://moodle2.units.it/course/view.php?id=273 Cliccare sul link per scaricare il file

minimo con Excel Mean&MedianPropertyDemonstration.xls 10 osservazioni estratte a caso da una distribuzione N(50,10) con mediana 44 e somma degli scarti dalla mediana 53 = ABS(J2-$T$2)

minimo con Excel Mean&MedianPropertyDemonstration.xls eseguiamo un for loop for(i= 1:n) { y(i)= }  In ogni cella si calcola lo scarto dell’elemento i-esimo della serie dal valore degli altri elementi. La diagonale è infatti nulla  per ogni colonna si calcola quindi la somma = ABS($H4-J$2)= sum(J4:J13)

visualizziamo il risultato Mean&MedianPropertyDemonstration.xls  più vicino è il dato alla mediana, minore sarà il suo scarto assoluto  grafico di dispersione che mostri la relazione tra punteggi (in x) e somma degli scarti dei punteggi dai dati (in y)

visualizziamo il risultato Mean&MedianPropertyDemonstration.xls  aggiungiamo altre serie di dati:  linea verticale con altezza (y= scarto minimo)  linea orizzontale con coordinata x= Mediana

visualizziamo il risultato Mean&MedianPropertyDemonstration.xls  aggiungiamo altre serie di dati:  linea verticale con altezza (y= scarto minimo)  linea orizzontale con coordinata x= Mediana per aggiungere la linea dei minimi quadrati clicca col tasto destro sui punti e seleziona

visualizziamo il risultato Mean&MedianPropertyDemonstration.xls  aggiungiamo altre serie di dati:  linea verticale con altezza (y= scarto minimo)  linea orizzontale con coordinata x= Mediana per aggiungere la linea dei minimi quadrati clicca col tasto destro sui punti e seleziona quindi scegli la funzione polinomiale di secondo grado del tipo y= ax 2 + bx + c

Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Seriazione.

Presentazioni simili

Presentazione sul tema: "Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Seriazione."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Seriazione.

Presentazioni simili

Presentazione sul tema: "Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Seriazione."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back