La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Media aritmetica.

Presentazioni simili


Presentazione sul tema: "Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Media aritmetica."— Transcript della presentazione:

1 Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Media aritmetica e sue proprietà notevoli (dimostratore Excel) 2.Relazione lineare e dati bivariati 3.Media geometrica, media ponderata e media troncata 4.Indicatori di tendenza centrale nel Dataset NUMFREND (Excel) 5.Indici di dispersione 6.Campo di variazione, Scarto interquartile, Outlier 7.Box-plot 8.Costruzione Box plot in Excel e identificazione degli Outlier 9.Valori anomali e proprietà della distribuzione campionaria (dimostratore Excel)

2 comunicazione  Sospensione lezioni psicologia il Martedì 14/03 per sessione di tesi di Laurea  A psicologia il ponte di Pasqua va dal 03/04 al 07/04  Recupereremo Giovedì 02/04, dalle 14:00 – 16:30 (ultima mezz’ora domande e dubbi) X

3  In excel: average(x i→n )….  la somma dei valori assunti dalle osservazioni divisa per il totale delle osservazioni  per distribuzioni molto asimmetriche la media tende a spostarsi nella direzione della coda più lunga della distribuzione rispetto alla mediana media baricentro

4 media e mediana delle nostre fette di età NUMFREND_DATASET_AGE.xls il valore restituito corrisponde a AVERAGE(B5:B859) Foglio: media e mediana

5 media e mediana delle nostre fette di età NUMFREND_DATASET_AGE.xls  in tutte le fasce di età la media è spostata a destra rispetto alla mediana  chiara asimmetria nella serie di dati  La deviazione fra media e mediana è infatti un indice grezzo di asimmetria  L’asimmetria aumenta all’aumentare dell’età Coefficiente di asimmetria di Pearson= Foglio: Pivot_Table_media_median

6 proprietà notevoli della media 1.la media nel caso di distribuzioni di frequenze corrisponde alla somma dei prodotti fra valori assunti dalle osservazioni (x i ) e la loro frequenza relativa (f i ) o probabilità: vedi equazione a pag. 80 dell’ Agresti, e Equazione 4.2 Borazzo (pag. 86) 2.Teorema della somma degli scarti: solo la somma degli scarti dalla media è nulla (media come baricentro) 3.Teorema della devianza:

7 verifichiamo la proprietà n.1 NUMFREND_DATASET_AGE.xls Tabella pivot che calcola le % del numero di amici per ogni categoria di età (colonna) per tutte le possibili ooservazioni di numero di amici Tabella che riporta i valori della tabella pivot nel formato desiderato Tabella che converte i valori di frequenza nel prodotto fra frequenza relativa e valore assunto dall’osservazione = O6*$I6 = AVERAGE('media e mediana'!B5:B859) = SUM(Q5:Q32) Foglio: Verifica_MEDIA_distrib_disc

8 Tabella pivot che calcola le % del numero di amici per ogni categoria di età (colonna) per tutte le possibili ooservazioni di numero di amici Tabella che riporta i valori della tabella pivot nel formato desiderato Tabella che converte i valori di frequenza nel prodotto fra frequenza relativa e valore assunto dall’osservazione I valori sono uguali quindi è vero che = verifichiamo la proprietà n.1 NUMFREND_DATASET_AGE.xls Foglio: Verifica_MEDIA_distrib_disc

9  foglio “proprietà della media 1” simile a quello utilizzato per dimostrare la proprietà della mediana  la relazione fra somma degli scarti e punteggi è un esempio di dati quantitativi bivariati di tipo lineare della forma: y= ax + b (pag. 59-61 vostro testo)  è descritta dalla retta dei minimi quadrati con pendenza 10 e intercetta 1041 verifichiamo la proprietà n.2 Mean&MedianPropertyDemonstration.xls Foglio: proprietà della media 1

10 digressione sulla relazione lineare relazione positiva relazione negativa intercetta coefficiente angolare (b)

11  foglio “proprietà della media 1” simile a quello utilizzato per dimostrare la proprietà della mediana  la relazione fra somma degli scarti e punteggi è un esempio di dati quantitativi bivariati di tipo lineare della forma: y= ax + b (pag. 59-61 vostro testo)  è descritta dalla retta dei minimi quadrati con pendenza 10 e intercetta 1041  ponendo y= 0 e estraendo x si ottiene che l’intersezione della retta con lo zero è in 1041/10: esattamente quando a i corrisponde alla media  atan(a) con a= n  verifichiamo la proprietà n.2 Mean&MedianPropertyDemonstration.xls Foglio: proprietà della media 1

12 stesso procedimento per la verifica della proprietà n.3 somma dei quadrati degli scarti dalla media è un minimo Mean&MedianPropertyDemonstration.xls Foglio: proprietà della media 2

13 L’emissione di diossido di carbonio procapite (tonnellate) per le 8 nazioni più popolate è: Bangladesh 0.3, Brazil 1.8, China 2.3, India 1.2, Indonesia 1.4, Pakistan 0.7, Russia 9.9, U.S. 20.1 Campione ordinato: 0.3, 0.7, 1.2, 1.4, 1.8, 2.3, 9.9, 20.1 Mediana = Media = Esercizio

14 L’emissione di diossido di carbonio procapite (tonnellate) per le 8 nazioni più popolate è: Bangladesh 0.3, Brazil 1.8, China 2.3, India 1.2, Indonesia 1.4, Pakistan 0.7, Russia 9.9, U.S. 20.1 Campione ordinato : 0.3, 0.7, 1.2, 1.4, 1.8, 2.3, 9.9, 20.1 Mediana = (1.4 + 1.8)/2 = 1.6 Media = (0.3 + 0.7 + 1.2 + … + 20.1)/8 = 4.7 soluzione

15 altre misure di tendenza centrale media geometrica radice n-esima del prodotto di tutti i valori “ For any two positive numbers a and b, the geometric mean of a and b is the positive number such that a/x =x/b. Note that x = (ab) 1/2 ” (Bass, 2007, p.392) corrisponde all’altezza sull’ipotenusa del triangolo rettangolo

16 altre misure di tendenza centrale media geometrica radice n-esima del prodotto di tutti i valori è intermedia fra mediana e media aritmetica (in distribuzioni asimmetriche) si usa, ad esempio, per il calcolo dei tassi di crescita medi

17 nel nostro dataset =(PRODUCT(B5:B859))^(1/COUNT( B5:B859)) 0.00 0.05 0.10 0.15 0.20 020 MedianaM AritmM Geom Categoria età = 23 In tutti i casi vale la relazione: NUMFREND_DATASET_AGE.xls Foglio: Verifica_Trimmed_MEAN

18 altre misure di tendenza centrale media ponderata i valori di ogni osservazione vengono prima moltiplicati e poi sommati per il loro peso, che, in genere, coincide con il numero di volte in cui quel dato è presente (frequenza).  Se  = n i coincide con la media aritmetica  Utile nel caso si debba calcolare la media aggregata da più medie campionarie di diversa numerosità di cui non si hanno le singole osservazioni

19 esempio: tasso di attività femminile Pag. 41 Tabella 3.4

20 altre misure di tendenza centrale media troncata (trimmed) calcolata eliminando una percentuale uguale di punteggi dai due estremi della distribuzione e facendo la media aritmetica dei dati rimanenti 0.00 0.05 0.10 0.15 0.20 020 MedianaM AritmM Geom Categoria età = 23 10% 90% 10% Si dice troncata al 20%

21 nel nostro dataset =PERCENTILE(B6:B860;$Q$3) IF per non visualizza i valori al di fuori dell’intervallo: IF(OR(G858 O$3);""; G858 ) NUMFREND_DATASET_AGE.xls Foglio: Verifica_Trimmed_MEAN

22 domanda a cosa corrisponde la media troncata allo 0% di un set di dati ?  alla media aritmetica  alla media geometrica  alla mediana  alla media ponderata Perchè ?

23 indici di dispersione densità di frequenza punteggio osservato stessa tendenza centrale diversa variabilità  campo di variazione  scarto interquartile  outlier  devianza  varianza  deviazione standard

24 grafico a scatola (box-plot) è una rappresentazione sintetica della distribuzione: gli elementi utilizzati per costruire la scatola sono i quartili, gli estremi della distribuzione e gli outlier punteggio osservato densità baffo inferiore: X min senza outliers baffo superiore: X max senza outliers Q1Q2Q3 Outlier un dato che cade al di fuori del range definito da: con IQR= Q3-Q1 lo scarto interquartile Esempio a pag. 17 Paganoni, Pontiggia (Cap. 2) campo di variazione

25 scatole e distribuzioni

26 dimostratore in Mathematica http://demonstrations.wolfram.com/# DescriptionsOfUnivariateData

27 dimostratore in Mathematica http://demonstrations.wolfram.com/# poca variabilità tanta variabilità

28 si può fare in Excel

29 scatole in Excel Partendo dal minimo possiamo calcolare tutti gli scarti dai valori successivi (escludendo gli outlier) e otteniamo Selezione l’ istogramma a colonne in pila che non sommano a 1 Selezione quindi la serie in riga (Rows) Esempio tratto dal Paganoni, Pontiggia, Cap. 3 Box_plot_VitaminaD&Magnesio.xls QUARTILE(array; 2) QUARTILE(array; 1) QUARTILE(array; 3) MIN(array) MAX(array)

30 Partendo dal minimo possiamo calcolare tutti gli scarti dai valori successivi (escludendo gli outlier) e otteniamo 0 0.5 1 1.5 1 baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min scatole in Excel Esempio tratto dal Paganoni, Pontiggia, Cap. 3 Box_plot_VitaminaD&Magnesio.xls

31 facciamo scomparire le parti inutili Partendo dal minimo possiamo calcolare tutti gli scarti dai valori successivi (escludendo gli outlier) e otteniamo 0 0.5 1 1.5 1 baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min

32 facciamo scomparire le parti inutili 0 0.5 1 1.5 1 baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Fai doppio clic sull’area inutile e elimina sfondo e bordi spuntando le due caselle Continua a eliminare …

33 creiamo i baffi 0 0.5 1 1.5 1 baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Fai doppio clic sull’area al di sotto di Q1 e dall scheda Y error bars seleziona l’opsione Minus: immetti quindi la cella che contiene il valore risultante da Q1 - baffo inf (B16) nel campo con il meno

34 creiamo i baffi 0 0.5 1 1.5 1 baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Fai doppio clic sull’area al di sopra di Q3 e dall scheda Y error bars seleziona l’opsione Plus: immetti quindi la cella che contiene il valore risultante da baffo sup – Q3 (B19) nel campo con il più

35 aggiungi l’outlier Aggiungi alla serie di dati il valore Outlier creando una nuova serie e immettendo il valore dell’outlier nel campo Value 0 0.5 1 1.5 1 baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Outlier

36 modifica l’outlier Cambia la tipologia del grafico associato alla visualizzazione dell’outlier: clicca sulla barra rosa dell’outlier, comparirà la barra delle opzioni chart, modifica la serie Outlier in grafico a punti 0 0.5 1 1.5 1 baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Outlier

37 dimostratore Excel: Box plot dinamico Che forma ha un Box-Plot applicato a 50 osservazioni estratte a caso da una combinazione delle due distribuzioni Normali? 0.000 0.025 0.050 050100150200

38 dimostratore Excel: Box plot dinamico Gli Outlier aumentano/diminuiscono se le distribuzioni si allontanano? 0.000 0.025 0.050 050100150200

39 dimostratore Excel: Box plot dinamico Il foglio ha caratteristiche simili a Sampling_Size_&_Density.xls Box_Plot_Dinamico.xls

40 dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Distribuzione uniforme di eventi dicotomici (1 e 0) con IF(RAND()> $B$1 ;1;0)

41 dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Se il valore in D è = 0 genera un numero random dalla distribuzione Normale 1 altrimenti dalla distribuzione Normale 2

42 dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls da questo si generano distribuzioni teoriche, campionarie e funzione di ripartizione seguendo la procedura usata per Sampling_Size_&_Density.xls

43 dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Colonna con i punteggi senza Outlier: Se il punteggio è minore di Limite inferiore o maggiore Limite superiore riporta il punteggio altimenti una cella vuota “” IF(OR(x i $I$11);"";F i ) Questa colonna è necessaria per il calcolo del baffo inferiore e superiore: Minimo e Massimo della distribuzione senza Outlier

44 dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Statistiche necessarie per la visualizzazione del Box-plot (Solo i Baffi calcolati su colonna G) Colonna per la ricerca degli Outlier: Se il punteggio è minore di Limite inferiore o maggiore Limite superiore scrivi “Outlier”: IF(OR(x i $I$11);"Outlier";"")

45 dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Scatole che compongono il Box-plot Sequenza di outliers identificabili a gruppi di 5 nel dataset

46 dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls VLOOKUP(H19; C2:F6 ;4;FALSE)VLOOKUP(H19; C7:F11 ;4;FALSE)

47 alcune conclusioni Box_Plot_Dinamico.xls distribuzioni con diversi indici di dispersione ma stesso centro danno luogo ad outliers equidistribuiti attorno alla mediana

48 alcune conclusioni stesse distribuzioni poco precise difficilmente danno luogo ad outliers: non è la quantità di disperzione assoluta che conta ma la coerenza nei gruppi di dati

49 alcune conclusioni gli outliers hanno deviazione negativa dalla mediana quando la distribuzione meno precisa è a sinistra di quella più precisa

50 alcune conclusioni gli outliers hanno deviazione positiva dalla mediana quando la distribuzione meno precisa è a destra di quella più precisa

51 eliminazione degli outlier dal DATASET  In alcune circostanze il dato outlier è interpretabile come un fonte di errore campionario e deve quindi essere escluso dal campione  La procedura per l’identificazione, degli outlier, e l’esclusione degli outlier su grandi Dataset come quello relativo alla GSS in Excel può essere effettuata usando la funzione VLOOKUP già introdotta e le tabelle Pivot  Nei fogli “FOGLIO DI LAVORO_OUTLIERS”, “Pivot Elimina Outliers” e “BOX_PLOT_No_OUTLIERS” di NUMFREND_DATASET_AGE.xls è illustrata la procedura per effettuare I’analisi descrittiva sui diversi campioni di età  Procedura analoga a quella descritta nei cap.4 e 5 del Paganoni e Pontiggia

52 Passo 1  Apriamo NUMFREND_DATASET_AGE.xls  Iniziamo creando una copia del foglio di lavoro 1

53 Passo 2: VLOOK per outliers  Dopo aver creato le tabelle contenenti I valori necessari per l’identificazione degli outlier (IQR), si creano tre colonne:  Le colonna L inf e L sup riportano in ogni cella i valori di limite inferiore/superiore relativo alla categoria di età corrispondente al punteggio i-esimo  La colonna Outliers riporta Outlier se il mumero di amici i-esimo è del valore nella stessa riga in L sup

54 Passo 3: rimozione outliers con Pivot  Creazione tabella Pivot a doppia entrata riportante tutti i dati ordinati in riga per soggetto e in colonna per categoria di età  Inserisci gli outliers nel campo filtro della tabella “Drop Page Fields Here” trascinando  Escludi gli outliers selezionando sul menu a tendina in testa alla tabella Pivot e scegliendo di visualizzare gli spazi vuoti

55 box-plot per i 6 campioni di età con outlier senza outlier

56 indici di dispersione relativi al centro  IQR e campo di variazione sono misure di variabilità assoluta: non tengono in considerazione di come le misure si distribuiscono attorno al centro (media)  dato che (come già dimostrato) la somma delle deviazioni dalla media è nulla la più rilevante misura di variabilità fa uso dello scarto quadratico dalla media o devianza Perché non basta la devianza ?  dipende dalla numerosità del campione  l'unità di misura è il quadrato di quella della variabile  verifica usando il documento Mean&MedianPropertyDemonstration.xls (Foglio: proprietà della devianza) Mean&MedianPropertyDemonstration.xls


Scaricare ppt "Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Media aritmetica."

Presentazioni simili


Annunci Google