Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoAnna Borghi Modificato 8 anni fa
1
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Seriazione di frequenze in classi equifrequenti 2.Percentile 3.Densità di frequenza 4.Lisciare una distribuzione di probabilità con Mathematica e Excel (numerosità del campione) 5.Caratteristiche rilevanti di una distribuzione (accuratezza/precisione/sim metria) 6.Indici di tendenza centrale 7.Mediana e sue proprietà notevoli (dimostratore Excel)
2
distribuzioni campionarie - empiriche Sintomi&Pesticidi.xls → distribuzione di frequenza per variabile qualitativa (scala nominale: serie sconnessa) avete provato a completare il foglio ? avete provato a sintetizzare i dati mediante l’utilizzo delle Tabelle Pivot? NUMFREND_DATASET_AGE_1.xls → distribuzione di frequenza relativa per variabile quantitativa (scala rapporti: seriazione) Seriazione in classi equiampie mediante la funzione raggruppa di Excel Perché è meglio effettuare una seriazione in classi equifrequenti?
3
abbiamo bisogno di 1.discretizzare la variabile età in maniera che in ogni classe ci sia un ugual numero di osservazioni (classi equiafrequenti) 2.utilizzare la suddivisione in percentili (valore al di sotto del quale una certa % di osservazioni in un campione di dati cade) 3.utilizzare la funzione if then per definire gli intervalli limitati aperti, es. a età < b indicato con [a,b)
4
percentile in cucina e statistica 100% del pane se affettiamo in maniera accurata 0% 12.5% 25 % 37.5 % 50 % ogni fetta conterrà una uguale % di pane (12.5%) facciamo la stessa cosa con la nostra variabile età usando Excel come coltello
5
1.dividiamo in 6 fette l’età calcoliamo per ogni taglio il percentile; Fx: PERCENTILE(colonna di dati bloccata; fetta) + affettiamo! + 16.6-esimo percentile Valore al di sotto del quale si osservano il 16. 66% delle osservazioni 83.3-esimo percentile Valore al di sotto del quale si osservano l’ 83.3% delle osservazioni
6
6 categorie di età = AVERAGE(G4:H4)
7
discretizzazione della variabile AGE una colonna di dati che ricodifica la colonna AGE con le 6 categorie di età Se il valore in AGE è compreso fra due valori percentili allora ritorna la media dei valori percentili, altrimenti, se…
8
concatenazione di tanti IF quante sono le fette
9
facciamo a fette l’età con le tabelle pivot Per visualizzare il grafico basterà posizionarsi con il cursore sulla tabella pivot e premere
10
verifichiamo la bontà delle fette le proporzioni di ciascuna categoria oscilla attorno al valore atteso (0.17) la loro media coincide perfettamente con il valore atteso ottima affettatura! = 1/6
11
numero di amici per fette le distribuzioni sono molto diverse fra loro come descrivere queste diversità è un problema di statistica descrittiva (cap 3 del vostro libro) diversi aspetti notevoli delle distribuzioni
12
dalla distribuzione discreta alla continua una distribuzione di dati campionari è una foto sfuocata della distribuzione dei dati di popolazione
13
dalla distribuzione discreta alla continua attenzione all’errore! la figura (3.6 pag 39) non può rappresentare frequenze relative altrimenti le barre in (a) dovrebbero apparire più alte delle barre in (b) e (c) nel vostro testo è omesso un concetto fondamentale per la rappresentazione di istogrammi: densità di frequenza densità
14
densità di frequenza e istogrammi
15
dimostratore in Mathematica http://demonstrations.wolfram.com/# ImpactOfSampleSizeOnApproximatingTheNormalDistribution
16
dimostratore in Mathematica http://demonstrations.wolfram.com/# L’altezza delle barre esprime la densità di frequenza dato che la somma dell’area di tutte le barre è 1 h= area barra/base = f i /ampiezza intervallo aumentando il numero di osservazioni la distribuzione di frequenze si approssima alla curva continua liscia prova a manipolare la la variabilità della distribuzione di origine
17
file di lavoro in moodle 2 http://moodle2.units.it/course/view.php?id=273 Cliccare sul link per scaricare il file
18
lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls Osservazioni random di punteggi alla Bayley Scale of Infant and Toddler Development Punteggi standardizzati con media 100 su diverse scale di sviluppo (linguistico, motorio, cognitivo) variabile continua casuale normale
19
lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls deviazione standard ( 68% delle osservazioni 0 0.025 0.05 050100150 Curva teorica normale N(100,10) densità punteggi BSITD Funzione per implementarla = NORMDIST(x; media; dev_standard; false) Si indica con per la popolazione e con x per il campione
20
lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls 0 0.025 0.05 050100150 Curva teorica normale N(100,10) densità punteggi BSITD La colonna H non contiene i valori in y (densità) della curva ma piuttosto i valori in x (z ) corrispondenti a probabilità sottese ed estratte a caso, ossia il quantile di ordine 1-RAND() RAND() → NORMINV(RAND()) 0.788 → 108 0.539 → 101 0.500 → 100
21
lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls 0 0.025 0.05 050100150 Curva teorica normale N(100,10) densità punteggi BSITD La colonna H non contienei i valori in y della curva ma piuttosto i valori in x corrispondenti a probabilità sottese ed estratte a caso RAND() → INVNORM(RAND()) 0.788 → 108 0.539 → 101 0.500 → 100 = ROUNDUP(NORMINV(RAND();$F$1;$F$2);0)
22
lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls Tagli (colonna J) in classi equiampie in maniera che i valori delle modalità (colonna K) varino in maniera dinamica attorno alla media di una quantità proporzionale all’errore e alla risoluzione (r) = J2+($F$2*$F$4*2)/$F$3
23
lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls Nella colonna L conteggio del numero di punteggi maggiori/uguali di ciascun taglio con la funzione countif(x i→n ; “>=”$J i ) = COUNTIF($H$2:$H$16;">="&$J2)
24
lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls La frequenza assoluta in M di ciascun evento (modalità) è data dalla semplice differenza fra celle successive della colonna J = L2-L3= M3/$M$9
25
lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls funzione di ripartizione empirica: somma cumulata delle frequenze relative (colonna O) usa la funzione SUM fissando il riferimento della cella di origine: SUM($X $i : X i+n ) = SUM($N$2:N4)
26
lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls = N3/(J3-J2) La densità di frequenza in P è data dalla frequenza relativa di ciascun evento in N divisa per la lunghezza del passo
27
risultato 6 passi 15 osservazioni 30 passi 15 osservazioni 30 passi 200 osservazioni funzione di ripartizione empirica P(X < x i ) distribuzione empirica distribuzione di densità di probabilità
28
esercitatevi con questo foglio di lavoro per fare vostre diverse proprietà delle distribuzioni divertitevi a provare diverse combinazione di grandezza dei parametri campionari e teorici
29
esercizio completa la seguente tabella calcolando i valori di densità di frequenza mancanti
30
accuratezza e precisione in statistica preciso/ non accurato non preciso/ non accurato non preciso/ accurato preciso/ accurato tempo
31
distribuzione campanulare accuratezza valore atteso precisione
32
anche la forma conta simmetrica centro aimmetrica 50% Il centro corrisponde al: 1.50% percentile delle osservazioni (Mediana) 2.Massima frequenza (Moda) 3.Baricentro (Media) media 50% mediana moda dove sta il centro ? asimmetrica negativa coda sinistra coda destra
33
la moda nelle nostre fette di età evitiamo di procedere ‘ad occhio’ affidandoci ad una procedura che sia al contempo breve e non soggetta ad errori algoritmo potremo identificare il picco di frequenza e riportare il rispettivo valore di età in ogni istogramma si indecisosi indeciso NUMFREND_DATASET_AGE.xls
34
funzioni MAX e VLOOKUP crea una colonna uguale alla colonna A nella colonna G (= A i ) Usa la funzione MAX(x i→n ) per estrarre il valore osservato per ciascuna modalità con maggiore frequenza; Usa la funzione VLOOKUP per identificare il valore di età corrispondente al valore di massima frequenza osservato per ciascuna modalità
35
risultato Il risultato di excel è instabile: se si ordinano i dati i n modo crescente in funzione della prima categoria di età (23) il massimo è 10 Attenzione!!! distribuzione bimodale Questa è la fonte di distorsione
36
mediana In excel: MEDIAN(x i→n )…. In teorie è il valore della variabile assunto dall'osservazione centrale del campione ordinato quando l'ampiezza campionaria n è dispari, abbiamo una sola osservazione centrale e la mediana è: x (n+1)/2 quando n è pari, si hanno due osservazioni centrali e la mediana è il valore centrale tra i due: x n/2 + x (n+1)/2 2
37
mediana e quartili a mano Punteggi ordinati 7696 9899101104105113 Q1 mediana (Q2)Q3 minimo e massimo quartili: suddividono la distribuzione in 4 parti in modo che ogni parte contenga il 25% di osservazioni in più della successiva si indicano con Q1, Q2, e Q3 e se n + 1 è divisibile per 4 si trovano con (n + 1) l/2, con l il livello di Q: 1, 2 o 3 mediana nel secondo quartile Ordiniamo i dati dal più piccolo al più grande e otteniamo:
38
area sotto la distribuzione continua
39
metodo 1: ordinamento della serie Crea la tabella pivot e ordina in modo ascendente la colonna della categoria 23 Usa la funzione COUNT(x i→n ) arrotondata per eccesso (con ROUNDUP) per identificare la riga corrispondente a x (n+1)/2 Usa la funzione INDEX( xi→n; riga di riferimento ) per farti restituire il valore nell’ array con la posizione di riga indicata Il numero corrisponde con quello calcolato mediante la funzione MEDIAN
40
metodo 2: somma cumulata delle frequenze relative funzione di ripartizione empirica Clicca due volte su Count of Soggetto e si aprirà la finestra Seleziona “Options>>” e sclegli “% of column” dal menu a tendina
41
metodo 2: somma cumulata delle frequenze relative funzione di ripartizione empirica
42
visualizzare le funzioni di ripartizione esempio a pag 44. Tabella 3.5 per un applicazione su dati ordinali
43
proprietà notevole della mediana minimizza la somma degli scarti assoluti la somma degli scarti assoluti dei dati (x i ) da qualunque elemento della serie (a) è sempre maggiore della somma degli scarti assoluti dei dati dalla mediana (M) formalmente: verifichiamo con Excel
44
file di lavoro in moodle 2 http://moodle2.units.it/course/view.php?id=273 Cliccare sul link per scaricare il file
45
minimo con Excel Mean&MedianPropertyDemonstration.xls 10 osservazioni estratte a caso da una distribuzione N(50,10) con mediana 44 e somma degli scarti dalla mediana 53 = ABS(J2-$T$2)
46
minimo con Excel Mean&MedianPropertyDemonstration.xls eseguiamo un for loop for(i= 1:n) { y(i)= } In ogni cella si calcola lo scarto dell’elemento i-esimo della serie dal valore degli altri elementi. La diagonale è infatti nulla per ogni colonna si calcola quindi la somma = ABS($H4-J$2)= sum(J4:J13)
47
visualizziamo il risultato Mean&MedianPropertyDemonstration.xls più vicino è il dato alla mediana, minore sarà il suo scarto assoluto grafico di dispersione che mostri la relazione tra punteggi (in x) e somma degli scarti dei punteggi dai dati (in y)
48
visualizziamo il risultato Mean&MedianPropertyDemonstration.xls aggiungiamo altre serie di dati: linea verticale con altezza (y= scarto minimo) linea orizzontale con coordinata x= Mediana
49
visualizziamo il risultato Mean&MedianPropertyDemonstration.xls aggiungiamo altre serie di dati: linea verticale con altezza (y= scarto minimo) linea orizzontale con coordinata x= Mediana
50
visualizziamo il risultato Mean&MedianPropertyDemonstration.xls aggiungiamo altre serie di dati: linea verticale con altezza (y= scarto minimo) linea orizzontale con coordinata x= Mediana per aggiungere la linea dei minimi quadrati clicca col tasto destro sui punti e seleziona
51
visualizziamo il risultato Mean&MedianPropertyDemonstration.xls aggiungiamo altre serie di dati: linea verticale con altezza (y= scarto minimo) linea orizzontale con coordinata x= Mediana per aggiungere la linea dei minimi quadrati clicca col tasto destro sui punti e seleziona quindi scegli la funzione polinomiale di secondo grado del tipo y= ax 2 + bx + c
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.