Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Seriazione.

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Le distribuzioni di probabilità continue
Proprietà degli stimatori
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
LA DISTRIBUZIONE NORMALE
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Descrizione dei dati Metodi di descrizione dei dati
Gli errori nell’analisi statistica
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Cap. 4 Distribuzioni di frequenza, tabelle e grafici Cioè come si sfruttano i dati grezzi, perché è da qui che inizia l’analisi statistica.
Statistica descrittiva
Introduzione alla statistica per la ricerca Lezione I
Statistica con Excel Procedure utili per l’analisi dati ottenute col foglio elettronico. Giovanni Raho 11/04/2011 Edizione 2011 prog. Giocìvanni Raho.
Misurazione Le osservazioni si esprimono in forma di misurazioni
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Pedagogia sperimentale
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
I principali tipi di grafici
Le distribuzioni campionarie
Le rappresentazioni grafiche
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
Costruire una tabella pivot che riepiloghi il totale del fatturato di ogni agente per categorie di vendita, mese per mese. Per inserire una tabella pivot.
Tabelle Pivot Istogrammi e frequenze Diagramma box-plot
Statistica La statistica è
Statistica Descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
COSA VUOL DIRE FARE STATISTICA
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
Martina Serafini Martina Prandi
IL CAMPIONE.
Marta Pinto Stefania Serra Valentina Paravidino
Le distribuzioni campionarie
Test basati su due campioni Test Chi - quadro
STATISTICHE DESCRITTIVE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
Elaborazione statistica di dati
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
Accenni di analisi monovariata e bivariata
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
In alcuni casi gli esiti di un esperimento possono essere considerati numeri naturali in modo naturale. Esempio: lancio di un dado In atri casi si definisce.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Rosoluzione.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Campionamento.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Media aritmetica.
La funzione CASUALE. Gli istogrammi.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Analisi descrittiva.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Campionamento.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
Scienze tecniche e psicologiche
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Implementazione.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza.
Transcript della presentazione:

Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Seriazione di frequenze in classi equifrequenti 2.Percentile 3.Densità di frequenza 4.Lisciare una distribuzione di probabilità con Mathematica e Excel (numerosità del campione) 5.Caratteristiche rilevanti di una distribuzione (accuratezza/precisione/sim metria) 6.Indici di tendenza centrale 7.Mediana e sue proprietà notevoli (dimostratore Excel)

distribuzioni campionarie - empiriche Sintomi&Pesticidi.xls → distribuzione di frequenza per variabile qualitativa (scala nominale: serie sconnessa)  avete provato a completare il foglio ?  avete provato a sintetizzare i dati mediante l’utilizzo delle Tabelle Pivot? NUMFREND_DATASET_AGE_1.xls → distribuzione di frequenza relativa per variabile quantitativa (scala rapporti: seriazione)  Seriazione in classi equiampie mediante la funzione raggruppa di Excel  Perché è meglio effettuare una seriazione in classi equifrequenti?

abbiamo bisogno di 1.discretizzare la variabile età in maniera che in ogni classe ci sia un ugual numero di osservazioni (classi equiafrequenti) 2.utilizzare la suddivisione in percentili (valore al di sotto del quale una certa % di osservazioni in un campione di dati cade) 3.utilizzare la funzione if then per definire gli intervalli limitati aperti, es. a  età < b indicato con [a,b)

percentile in cucina e statistica 100% del pane se affettiamo in maniera accurata 0% 12.5% 25 % 37.5 % 50 % ogni fetta conterrà una uguale % di pane (12.5%) facciamo la stessa cosa con la nostra variabile età usando Excel come coltello

1.dividiamo in 6 fette l’età calcoliamo per ogni taglio il percentile; Fx: PERCENTILE(colonna di dati bloccata; fetta) + affettiamo! esimo percentile Valore al di sotto del quale si osservano il % delle osservazioni 83.3-esimo percentile Valore al di sotto del quale si osservano l’ 83.3% delle osservazioni

6 categorie di età = AVERAGE(G4:H4)

discretizzazione della variabile AGE una colonna di dati che ricodifica la colonna AGE con le 6 categorie di età Se il valore in AGE è compreso fra due valori percentili allora ritorna la media dei valori percentili, altrimenti, se…

concatenazione di tanti IF quante sono le fette

facciamo a fette l’età con le tabelle pivot Per visualizzare il grafico basterà posizionarsi con il cursore sulla tabella pivot e premere

verifichiamo la bontà delle fette  le proporzioni di ciascuna categoria oscilla attorno al valore atteso (0.17)  la loro media coincide perfettamente con il valore atteso  ottima affettatura! = 1/6

numero di amici per fette  le distribuzioni sono molto diverse fra loro  come descrivere queste diversità è un problema di statistica descrittiva (cap 3 del vostro libro)  diversi aspetti notevoli delle distribuzioni

dalla distribuzione discreta alla continua una distribuzione di dati campionari è una foto sfuocata della distribuzione dei dati di popolazione

dalla distribuzione discreta alla continua attenzione all’errore! la figura (3.6 pag 39) non può rappresentare frequenze relative altrimenti le barre in (a) dovrebbero apparire più alte delle barre in (b) e (c) nel vostro testo è omesso un concetto fondamentale per la rappresentazione di istogrammi: densità di frequenza densità

densità di frequenza e istogrammi

dimostratore in Mathematica ImpactOfSampleSizeOnApproximatingTheNormalDistribution

dimostratore in Mathematica  L’altezza delle barre esprime la densità di frequenza dato che la somma dell’area di tutte le barre è 1  h= area barra/base = f i /ampiezza intervallo  aumentando il numero di osservazioni la distribuzione di frequenze si approssima alla curva continua liscia  prova a manipolare la la variabilità della distribuzione di origine

file di lavoro in moodle 2 Cliccare sul link per scaricare il file

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls  Osservazioni random di punteggi alla Bayley Scale of Infant and Toddler Development  Punteggi standardizzati con media 100 su diverse scale di sviluppo (linguistico, motorio, cognitivo)  variabile continua casuale normale

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls deviazione standard (  68% delle osservazioni Curva teorica normale N(100,10) densità punteggi BSITD Funzione per implementarla = NORMDIST(x; media; dev_standard; false) Si indica con  per la popolazione e con x per il campione

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls Curva teorica normale N(100,10) densità punteggi BSITD La colonna H non contiene i valori in y (densità) della curva ma piuttosto i valori in x (z  ) corrispondenti a probabilità sottese ed estratte a caso, ossia il quantile di ordine 1-RAND() RAND() → NORMINV(RAND()) → → → 100

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls Curva teorica normale N(100,10) densità punteggi BSITD La colonna H non contienei i valori in y della curva ma piuttosto i valori in x corrispondenti a probabilità sottese ed estratte a caso RAND() → INVNORM(RAND()) → → → 100 = ROUNDUP(NORMINV(RAND();$F$1;$F$2);0)

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls Tagli (colonna J) in classi equiampie in maniera che i valori delle modalità (colonna K) varino in maniera dinamica attorno alla media  di una quantità proporzionale all’errore  e alla risoluzione (r) = J2+($F$2*$F$4*2)/$F$3

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls Nella colonna L conteggio del numero di punteggi maggiori/uguali di ciascun taglio con la funzione countif(x i→n ; “>=”$J i ) = COUNTIF($H$2:$H$16;">="&$J2)

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls La frequenza assoluta in M di ciascun evento (modalità) è data dalla semplice differenza fra celle successive della colonna J = L2-L3= M3/$M$9

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls  funzione di ripartizione empirica: somma cumulata delle frequenze relative (colonna O)  usa la funzione SUM fissando il riferimento della cella di origine: SUM($X $i : X i+n ) = SUM($N$2:N4)

lisciamo una distribuzione di frequenza con Excel Sampling_Size_&_Density.xls = N3/(J3-J2) La densità di frequenza in P è data dalla frequenza relativa di ciascun evento in N divisa per la lunghezza del passo

risultato 6 passi 15 osservazioni 30 passi 15 osservazioni 30 passi 200 osservazioni funzione di ripartizione empirica P(X < x i ) distribuzione empirica distribuzione di densità di probabilità

esercitatevi con questo foglio di lavoro per fare vostre diverse proprietà delle distribuzioni divertitevi a provare diverse combinazione di grandezza dei parametri campionari e teorici

esercizio completa la seguente tabella calcolando i valori di densità di frequenza mancanti

accuratezza e precisione in statistica preciso/ non accurato non preciso/ non accurato non preciso/ accurato preciso/ accurato tempo

distribuzione campanulare accuratezza valore atteso precisione

anche la forma conta simmetrica centro aimmetrica 50% Il centro corrisponde al: 1.50% percentile delle osservazioni (Mediana) 2.Massima frequenza (Moda) 3.Baricentro (Media) media 50% mediana moda dove sta il centro ? asimmetrica negativa coda sinistra coda destra

la moda nelle nostre fette di età evitiamo di procedere ‘ad occhio’ affidandoci ad una procedura che sia al contempo breve e non soggetta ad errori  algoritmo potremo identificare il picco di frequenza e riportare il rispettivo valore di età in ogni istogramma si indecisosi indeciso NUMFREND_DATASET_AGE.xls

funzioni MAX e VLOOKUP  crea una colonna uguale alla colonna A nella colonna G (= A i )  Usa la funzione MAX(x i→n ) per estrarre il valore osservato per ciascuna modalità con maggiore frequenza;  Usa la funzione VLOOKUP per identificare il valore di età corrispondente al valore di massima frequenza osservato per ciascuna modalità

risultato Il risultato di excel è instabile: se si ordinano i dati i n modo crescente in funzione della prima categoria di età (23) il massimo è 10 Attenzione!!! distribuzione bimodale Questa è la fonte di distorsione

mediana  In excel: MEDIAN(x i→n )….  In teorie è il valore della variabile assunto dall'osservazione centrale del campione ordinato  quando l'ampiezza campionaria n è dispari, abbiamo una sola osservazione centrale e la mediana è: x (n+1)/2  quando n è pari, si hanno due osservazioni centrali e la mediana è il valore centrale tra i due: x n/2 + x (n+1)/2 2

mediana e quartili a mano Punteggi ordinati Q1 mediana (Q2)Q3  minimo e massimo  quartili: suddividono la distribuzione in 4 parti in modo che ogni parte contenga il 25% di osservazioni in più della successiva  si indicano con Q1, Q2, e Q3 e se n + 1 è divisibile per 4 si trovano con (n + 1)  l/2, con l il livello di Q: 1, 2 o 3  mediana nel secondo quartile Ordiniamo i dati dal più piccolo al più grande e otteniamo:

area sotto la distribuzione continua

metodo 1: ordinamento della serie  Crea la tabella pivot e ordina in modo ascendente la colonna della categoria 23  Usa la funzione COUNT(x i→n ) arrotondata per eccesso (con ROUNDUP) per identificare la riga corrispondente a x (n+1)/2  Usa la funzione INDEX( xi→n; riga di riferimento ) per farti restituire il valore nell’ array con la posizione di riga indicata  Il numero corrisponde con quello calcolato mediante la funzione MEDIAN

metodo 2: somma cumulata delle frequenze relative funzione di ripartizione empirica Clicca due volte su Count of Soggetto e si aprirà la finestra Seleziona “Options>>” e sclegli “% of column” dal menu a tendina

metodo 2: somma cumulata delle frequenze relative funzione di ripartizione empirica

visualizzare le funzioni di ripartizione esempio a pag 44. Tabella 3.5 per un applicazione su dati ordinali

proprietà notevole della mediana  minimizza la somma degli scarti assoluti  la somma degli scarti assoluti dei dati (x i ) da qualunque elemento della serie (a) è sempre maggiore della somma degli scarti assoluti dei dati dalla mediana (M)  formalmente: verifichiamo con Excel

file di lavoro in moodle 2 Cliccare sul link per scaricare il file

minimo con Excel Mean&MedianPropertyDemonstration.xls 10 osservazioni estratte a caso da una distribuzione N(50,10) con mediana 44 e somma degli scarti dalla mediana 53 = ABS(J2-$T$2)

minimo con Excel Mean&MedianPropertyDemonstration.xls eseguiamo un for loop for(i= 1:n) { y(i)= }  In ogni cella si calcola lo scarto dell’elemento i-esimo della serie dal valore degli altri elementi. La diagonale è infatti nulla  per ogni colonna si calcola quindi la somma = ABS($H4-J$2)= sum(J4:J13)

visualizziamo il risultato Mean&MedianPropertyDemonstration.xls  più vicino è il dato alla mediana, minore sarà il suo scarto assoluto  grafico di dispersione che mostri la relazione tra punteggi (in x) e somma degli scarti dei punteggi dai dati (in y)

visualizziamo il risultato Mean&MedianPropertyDemonstration.xls  aggiungiamo altre serie di dati:  linea verticale con altezza (y= scarto minimo)  linea orizzontale con coordinata x= Mediana

visualizziamo il risultato Mean&MedianPropertyDemonstration.xls  aggiungiamo altre serie di dati:  linea verticale con altezza (y= scarto minimo)  linea orizzontale con coordinata x= Mediana

visualizziamo il risultato Mean&MedianPropertyDemonstration.xls  aggiungiamo altre serie di dati:  linea verticale con altezza (y= scarto minimo)  linea orizzontale con coordinata x= Mediana per aggiungere la linea dei minimi quadrati clicca col tasto destro sui punti e seleziona

visualizziamo il risultato Mean&MedianPropertyDemonstration.xls  aggiungiamo altre serie di dati:  linea verticale con altezza (y= scarto minimo)  linea orizzontale con coordinata x= Mediana per aggiungere la linea dei minimi quadrati clicca col tasto destro sui punti e seleziona quindi scegli la funzione polinomiale di secondo grado del tipo y= ax 2 + bx + c