Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Media aritmetica e sue proprietà notevoli (dimostratore Excel) 2.Relazione lineare e dati bivariati 3.Media geometrica, media ponderata e media troncata 4.Indicatori di tendenza centrale nel Dataset NUMFREND (Excel) 5.Indici di dispersione 6.Campo di variazione, Scarto interquartile, Outlier 7.Box-plot 8.Costruzione Box plot in Excel e identificazione degli Outlier 9.Valori anomali e proprietà della distribuzione campionaria (dimostratore Excel)
comunicazione Sospensione lezioni psicologia il Martedì 14/03 per sessione di tesi di Laurea A psicologia il ponte di Pasqua va dal 03/04 al 07/04 Recupereremo Giovedì 02/04, dalle 14:00 – 16:30 (ultima mezz’ora domande e dubbi) X
In excel: average(x i→n )…. la somma dei valori assunti dalle osservazioni divisa per il totale delle osservazioni per distribuzioni molto asimmetriche la media tende a spostarsi nella direzione della coda più lunga della distribuzione rispetto alla mediana media baricentro
media e mediana delle nostre fette di età NUMFREND_DATASET_AGE.xls il valore restituito corrisponde a AVERAGE(B5:B859) Foglio: media e mediana
media e mediana delle nostre fette di età NUMFREND_DATASET_AGE.xls in tutte le fasce di età la media è spostata a destra rispetto alla mediana chiara asimmetria nella serie di dati La deviazione fra media e mediana è infatti un indice grezzo di asimmetria L’asimmetria aumenta all’aumentare dell’età Coefficiente di asimmetria di Pearson= Foglio: Pivot_Table_media_median
proprietà notevoli della media 1.la media nel caso di distribuzioni di frequenze corrisponde alla somma dei prodotti fra valori assunti dalle osservazioni (x i ) e la loro frequenza relativa (f i ) o probabilità: vedi equazione a pag. 80 dell’ Agresti, e Equazione 4.2 Borazzo (pag. 86) 2.Teorema della somma degli scarti: solo la somma degli scarti dalla media è nulla (media come baricentro) 3.Teorema della devianza:
verifichiamo la proprietà n.1 NUMFREND_DATASET_AGE.xls Tabella pivot che calcola le % del numero di amici per ogni categoria di età (colonna) per tutte le possibili ooservazioni di numero di amici Tabella che riporta i valori della tabella pivot nel formato desiderato Tabella che converte i valori di frequenza nel prodotto fra frequenza relativa e valore assunto dall’osservazione = O6*$I6 = AVERAGE('media e mediana'!B5:B859) = SUM(Q5:Q32) Foglio: Verifica_MEDIA_distrib_disc
Tabella pivot che calcola le % del numero di amici per ogni categoria di età (colonna) per tutte le possibili ooservazioni di numero di amici Tabella che riporta i valori della tabella pivot nel formato desiderato Tabella che converte i valori di frequenza nel prodotto fra frequenza relativa e valore assunto dall’osservazione I valori sono uguali quindi è vero che = verifichiamo la proprietà n.1 NUMFREND_DATASET_AGE.xls Foglio: Verifica_MEDIA_distrib_disc
foglio “proprietà della media 1” simile a quello utilizzato per dimostrare la proprietà della mediana la relazione fra somma degli scarti e punteggi è un esempio di dati quantitativi bivariati di tipo lineare della forma: y= ax + b (pag vostro testo) è descritta dalla retta dei minimi quadrati con pendenza 10 e intercetta 1041 verifichiamo la proprietà n.2 Mean&MedianPropertyDemonstration.xls Foglio: proprietà della media 1
digressione sulla relazione lineare relazione positiva relazione negativa intercetta coefficiente angolare (b)
foglio “proprietà della media 1” simile a quello utilizzato per dimostrare la proprietà della mediana la relazione fra somma degli scarti e punteggi è un esempio di dati quantitativi bivariati di tipo lineare della forma: y= ax + b (pag vostro testo) è descritta dalla retta dei minimi quadrati con pendenza 10 e intercetta 1041 ponendo y= 0 e estraendo x si ottiene che l’intersezione della retta con lo zero è in 1041/10: esattamente quando a i corrisponde alla media atan(a) con a= n verifichiamo la proprietà n.2 Mean&MedianPropertyDemonstration.xls Foglio: proprietà della media 1
stesso procedimento per la verifica della proprietà n.3 somma dei quadrati degli scarti dalla media è un minimo Mean&MedianPropertyDemonstration.xls Foglio: proprietà della media 2
L’emissione di diossido di carbonio procapite (tonnellate) per le 8 nazioni più popolate è: Bangladesh 0.3, Brazil 1.8, China 2.3, India 1.2, Indonesia 1.4, Pakistan 0.7, Russia 9.9, U.S Campione ordinato: 0.3, 0.7, 1.2, 1.4, 1.8, 2.3, 9.9, 20.1 Mediana = Media = Esercizio
L’emissione di diossido di carbonio procapite (tonnellate) per le 8 nazioni più popolate è: Bangladesh 0.3, Brazil 1.8, China 2.3, India 1.2, Indonesia 1.4, Pakistan 0.7, Russia 9.9, U.S Campione ordinato : 0.3, 0.7, 1.2, 1.4, 1.8, 2.3, 9.9, 20.1 Mediana = ( )/2 = 1.6 Media = ( … )/8 = 4.7 soluzione
altre misure di tendenza centrale media geometrica radice n-esima del prodotto di tutti i valori “ For any two positive numbers a and b, the geometric mean of a and b is the positive number such that a/x =x/b. Note that x = (ab) 1/2 ” (Bass, 2007, p.392) corrisponde all’altezza sull’ipotenusa del triangolo rettangolo
altre misure di tendenza centrale media geometrica radice n-esima del prodotto di tutti i valori è intermedia fra mediana e media aritmetica (in distribuzioni asimmetriche) si usa, ad esempio, per il calcolo dei tassi di crescita medi
nel nostro dataset =(PRODUCT(B5:B859))^(1/COUNT( B5:B859)) MedianaM AritmM Geom Categoria età = 23 In tutti i casi vale la relazione: NUMFREND_DATASET_AGE.xls Foglio: Verifica_Trimmed_MEAN
altre misure di tendenza centrale media ponderata i valori di ogni osservazione vengono prima moltiplicati e poi sommati per il loro peso, che, in genere, coincide con il numero di volte in cui quel dato è presente (frequenza). Se = n i coincide con la media aritmetica Utile nel caso si debba calcolare la media aggregata da più medie campionarie di diversa numerosità di cui non si hanno le singole osservazioni
esempio: tasso di attività femminile Pag. 41 Tabella 3.4
altre misure di tendenza centrale media troncata (trimmed) calcolata eliminando una percentuale uguale di punteggi dai due estremi della distribuzione e facendo la media aritmetica dei dati rimanenti MedianaM AritmM Geom Categoria età = 23 10% 90% 10% Si dice troncata al 20%
nel nostro dataset =PERCENTILE(B6:B860;$Q$3) IF per non visualizza i valori al di fuori dell’intervallo: IF(OR(G858 O$3);""; G858 ) NUMFREND_DATASET_AGE.xls Foglio: Verifica_Trimmed_MEAN
domanda a cosa corrisponde la media troncata allo 0% di un set di dati ? alla media aritmetica alla media geometrica alla mediana alla media ponderata Perchè ?
indici di dispersione densità di frequenza punteggio osservato stessa tendenza centrale diversa variabilità campo di variazione scarto interquartile outlier devianza varianza deviazione standard
grafico a scatola (box-plot) è una rappresentazione sintetica della distribuzione: gli elementi utilizzati per costruire la scatola sono i quartili, gli estremi della distribuzione e gli outlier punteggio osservato densità baffo inferiore: X min senza outliers baffo superiore: X max senza outliers Q1Q2Q3 Outlier un dato che cade al di fuori del range definito da: con IQR= Q3-Q1 lo scarto interquartile Esempio a pag. 17 Paganoni, Pontiggia (Cap. 2) campo di variazione
scatole e distribuzioni
dimostratore in Mathematica DescriptionsOfUnivariateData
dimostratore in Mathematica poca variabilità tanta variabilità
si può fare in Excel
scatole in Excel Partendo dal minimo possiamo calcolare tutti gli scarti dai valori successivi (escludendo gli outlier) e otteniamo Selezione l’ istogramma a colonne in pila che non sommano a 1 Selezione quindi la serie in riga (Rows) Esempio tratto dal Paganoni, Pontiggia, Cap. 3 Box_plot_VitaminaD&Magnesio.xls QUARTILE(array; 2) QUARTILE(array; 1) QUARTILE(array; 3) MIN(array) MAX(array)
Partendo dal minimo possiamo calcolare tutti gli scarti dai valori successivi (escludendo gli outlier) e otteniamo baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min scatole in Excel Esempio tratto dal Paganoni, Pontiggia, Cap. 3 Box_plot_VitaminaD&Magnesio.xls
facciamo scomparire le parti inutili Partendo dal minimo possiamo calcolare tutti gli scarti dai valori successivi (escludendo gli outlier) e otteniamo baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min
facciamo scomparire le parti inutili baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Fai doppio clic sull’area inutile e elimina sfondo e bordi spuntando le due caselle Continua a eliminare …
creiamo i baffi baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Fai doppio clic sull’area al di sotto di Q1 e dall scheda Y error bars seleziona l’opsione Minus: immetti quindi la cella che contiene il valore risultante da Q1 - baffo inf (B16) nel campo con il meno
creiamo i baffi baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Fai doppio clic sull’area al di sopra di Q3 e dall scheda Y error bars seleziona l’opsione Plus: immetti quindi la cella che contiene il valore risultante da baffo sup – Q3 (B19) nel campo con il più
aggiungi l’outlier Aggiungi alla serie di dati il valore Outlier creando una nuova serie e immettendo il valore dell’outlier nel campo Value baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Outlier
modifica l’outlier Cambia la tipologia del grafico associato alla visualizzazione dell’outlier: clicca sulla barra rosa dell’outlier, comparirà la barra delle opzioni chart, modifica la serie Outlier in grafico a punti baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Outlier
dimostratore Excel: Box plot dinamico Che forma ha un Box-Plot applicato a 50 osservazioni estratte a caso da una combinazione delle due distribuzioni Normali?
dimostratore Excel: Box plot dinamico Gli Outlier aumentano/diminuiscono se le distribuzioni si allontanano?
dimostratore Excel: Box plot dinamico Il foglio ha caratteristiche simili a Sampling_Size_&_Density.xls Box_Plot_Dinamico.xls
dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Distribuzione uniforme di eventi dicotomici (1 e 0) con IF(RAND()> $B$1 ;1;0)
dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Se il valore in D è = 0 genera un numero random dalla distribuzione Normale 1 altrimenti dalla distribuzione Normale 2
dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls da questo si generano distribuzioni teoriche, campionarie e funzione di ripartizione seguendo la procedura usata per Sampling_Size_&_Density.xls
dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Colonna con i punteggi senza Outlier: Se il punteggio è minore di Limite inferiore o maggiore Limite superiore riporta il punteggio altimenti una cella vuota “” IF(OR(x i $I$11);"";F i ) Questa colonna è necessaria per il calcolo del baffo inferiore e superiore: Minimo e Massimo della distribuzione senza Outlier
dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Statistiche necessarie per la visualizzazione del Box-plot (Solo i Baffi calcolati su colonna G) Colonna per la ricerca degli Outlier: Se il punteggio è minore di Limite inferiore o maggiore Limite superiore scrivi “Outlier”: IF(OR(x i $I$11);"Outlier";"")
dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Scatole che compongono il Box-plot Sequenza di outliers identificabili a gruppi di 5 nel dataset
dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls VLOOKUP(H19; C2:F6 ;4;FALSE)VLOOKUP(H19; C7:F11 ;4;FALSE)
alcune conclusioni Box_Plot_Dinamico.xls distribuzioni con diversi indici di dispersione ma stesso centro danno luogo ad outliers equidistribuiti attorno alla mediana
alcune conclusioni stesse distribuzioni poco precise difficilmente danno luogo ad outliers: non è la quantità di disperzione assoluta che conta ma la coerenza nei gruppi di dati
alcune conclusioni gli outliers hanno deviazione negativa dalla mediana quando la distribuzione meno precisa è a sinistra di quella più precisa
alcune conclusioni gli outliers hanno deviazione positiva dalla mediana quando la distribuzione meno precisa è a destra di quella più precisa
eliminazione degli outlier dal DATASET In alcune circostanze il dato outlier è interpretabile come un fonte di errore campionario e deve quindi essere escluso dal campione La procedura per l’identificazione, degli outlier, e l’esclusione degli outlier su grandi Dataset come quello relativo alla GSS in Excel può essere effettuata usando la funzione VLOOKUP già introdotta e le tabelle Pivot Nei fogli “FOGLIO DI LAVORO_OUTLIERS”, “Pivot Elimina Outliers” e “BOX_PLOT_No_OUTLIERS” di NUMFREND_DATASET_AGE.xls è illustrata la procedura per effettuare I’analisi descrittiva sui diversi campioni di età Procedura analoga a quella descritta nei cap.4 e 5 del Paganoni e Pontiggia
Passo 1 Apriamo NUMFREND_DATASET_AGE.xls Iniziamo creando una copia del foglio di lavoro 1
Passo 2: VLOOK per outliers Dopo aver creato le tabelle contenenti I valori necessari per l’identificazione degli outlier (IQR), si creano tre colonne: Le colonna L inf e L sup riportano in ogni cella i valori di limite inferiore/superiore relativo alla categoria di età corrispondente al punteggio i-esimo La colonna Outliers riporta Outlier se il mumero di amici i-esimo è del valore nella stessa riga in L sup
Passo 3: rimozione outliers con Pivot Creazione tabella Pivot a doppia entrata riportante tutti i dati ordinati in riga per soggetto e in colonna per categoria di età Inserisci gli outliers nel campo filtro della tabella “Drop Page Fields Here” trascinando Escludi gli outliers selezionando sul menu a tendina in testa alla tabella Pivot e scegliendo di visualizzare gli spazi vuoti
box-plot per i 6 campioni di età con outlier senza outlier
indici di dispersione relativi al centro IQR e campo di variazione sono misure di variabilità assoluta: non tengono in considerazione di come le misure si distribuiscono attorno al centro (media) dato che (come già dimostrato) la somma delle deviazioni dalla media è nulla la più rilevante misura di variabilità fa uso dello scarto quadratico dalla media o devianza Perché non basta la devianza ? dipende dalla numerosità del campione l'unità di misura è il quadrato di quella della variabile verifica usando il documento Mean&MedianPropertyDemonstration.xls (Foglio: proprietà della devianza) Mean&MedianPropertyDemonstration.xls