Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste 2014-2015 1.Media aritmetica.

Slides:



Advertisements
Presentazioni simili
QUANTILI.
Advertisements

Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
La teoria di portafoglio: cap.7-9
Lez. 3 - Gli Indici di VARIABILITA’
Analisi preliminari dei dati
Descrizione dei dati Metodi di descrizione dei dati
C – Indici di Asimmetria e Curtosi
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Statistica descrittiva
Introduzione alla statistica per la ricerca Lezione I
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Statistica con Excel Procedure utili per l’analisi dati ottenute col foglio elettronico. Giovanni Raho 11/04/2011 Edizione 2011 prog. Giocìvanni Raho.
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Pedagogia sperimentale
Lezione 12 Riccardo Sama' Copyright Riccardo Sama' Excel.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Di Capuano,Colucci e Panunzi Valori medi I valori medi.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simone Mosca & Daniele Zucchini 4Bi.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
Costruire una tabella pivot che riepiloghi il totale del fatturato di ogni agente per categorie di vendita, mese per mese. Per inserire una tabella pivot.
Tabelle Pivot Istogrammi e frequenze Diagramma box-plot
Lez. 3 - Gli Indici di VARIABILITA’
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Statistica La statistica è
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
COSA VUOL DIRE FARE STATISTICA
Domande riepilogative per l’esame
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
Martina Serafini Martina Prandi
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Seriazione.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Dipartimento di Economia, Management e Istituzioni APPPLICAZIONI AZIENDALI MEDIANTE FOGLIO ELETTRONICO 4° modulo: Calcoli statistici, Regressione Prof.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Rosoluzione.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Campionamento.
Statistica sociale Modulo A A.A Prof.ssa Barbara Baldazzi Dottore Mario Mastrangelo Facoltà di Lettere e Filosofia Università di Tor Vergata.
STATISTICA ASSISTITA Esercitazione dott.ssa Clelia Cascella.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Inferenza.
RAPPRESENTAZIONE DATI LA RAPPRESENTAZIONE PUÒ ESSERE UTILIZZATA A SCOPO DI ANALISI, INTERPRETAZIONI E COMUNICAZIONI. PER RAGGIUNGERE QUESTI OBIETTIVI È.
La funzione CASUALE. Gli istogrammi.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Analisi descrittiva.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Campionamento.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
Statistica con Excel Corso di Fisica ed Elementi di Laboratorio ed Informatica CdL Scienze Biologiche AA 2015/2016.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Analisi delle osservazioni
Scienze tecniche e psicologiche
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Implementazione.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
Gli Indici di VARIABILITA’
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza.
Transcript della presentazione:

Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Media aritmetica e sue proprietà notevoli (dimostratore Excel) 2.Relazione lineare e dati bivariati 3.Media geometrica, media ponderata e media troncata 4.Indicatori di tendenza centrale nel Dataset NUMFREND (Excel) 5.Indici di dispersione 6.Campo di variazione, Scarto interquartile, Outlier 7.Box-plot 8.Costruzione Box plot in Excel e identificazione degli Outlier 9.Valori anomali e proprietà della distribuzione campionaria (dimostratore Excel)

comunicazione  Sospensione lezioni psicologia il Martedì 14/03 per sessione di tesi di Laurea  A psicologia il ponte di Pasqua va dal 03/04 al 07/04  Recupereremo Giovedì 02/04, dalle 14:00 – 16:30 (ultima mezz’ora domande e dubbi) X

 In excel: average(x i→n )….  la somma dei valori assunti dalle osservazioni divisa per il totale delle osservazioni  per distribuzioni molto asimmetriche la media tende a spostarsi nella direzione della coda più lunga della distribuzione rispetto alla mediana media baricentro

media e mediana delle nostre fette di età NUMFREND_DATASET_AGE.xls il valore restituito corrisponde a AVERAGE(B5:B859) Foglio: media e mediana

media e mediana delle nostre fette di età NUMFREND_DATASET_AGE.xls  in tutte le fasce di età la media è spostata a destra rispetto alla mediana  chiara asimmetria nella serie di dati  La deviazione fra media e mediana è infatti un indice grezzo di asimmetria  L’asimmetria aumenta all’aumentare dell’età Coefficiente di asimmetria di Pearson= Foglio: Pivot_Table_media_median

proprietà notevoli della media 1.la media nel caso di distribuzioni di frequenze corrisponde alla somma dei prodotti fra valori assunti dalle osservazioni (x i ) e la loro frequenza relativa (f i ) o probabilità: vedi equazione a pag. 80 dell’ Agresti, e Equazione 4.2 Borazzo (pag. 86) 2.Teorema della somma degli scarti: solo la somma degli scarti dalla media è nulla (media come baricentro) 3.Teorema della devianza:

verifichiamo la proprietà n.1 NUMFREND_DATASET_AGE.xls Tabella pivot che calcola le % del numero di amici per ogni categoria di età (colonna) per tutte le possibili ooservazioni di numero di amici Tabella che riporta i valori della tabella pivot nel formato desiderato Tabella che converte i valori di frequenza nel prodotto fra frequenza relativa e valore assunto dall’osservazione = O6*$I6 = AVERAGE('media e mediana'!B5:B859) = SUM(Q5:Q32) Foglio: Verifica_MEDIA_distrib_disc

Tabella pivot che calcola le % del numero di amici per ogni categoria di età (colonna) per tutte le possibili ooservazioni di numero di amici Tabella che riporta i valori della tabella pivot nel formato desiderato Tabella che converte i valori di frequenza nel prodotto fra frequenza relativa e valore assunto dall’osservazione I valori sono uguali quindi è vero che = verifichiamo la proprietà n.1 NUMFREND_DATASET_AGE.xls Foglio: Verifica_MEDIA_distrib_disc

 foglio “proprietà della media 1” simile a quello utilizzato per dimostrare la proprietà della mediana  la relazione fra somma degli scarti e punteggi è un esempio di dati quantitativi bivariati di tipo lineare della forma: y= ax + b (pag vostro testo)  è descritta dalla retta dei minimi quadrati con pendenza 10 e intercetta 1041 verifichiamo la proprietà n.2 Mean&MedianPropertyDemonstration.xls Foglio: proprietà della media 1

digressione sulla relazione lineare relazione positiva relazione negativa intercetta coefficiente angolare (b)

 foglio “proprietà della media 1” simile a quello utilizzato per dimostrare la proprietà della mediana  la relazione fra somma degli scarti e punteggi è un esempio di dati quantitativi bivariati di tipo lineare della forma: y= ax + b (pag vostro testo)  è descritta dalla retta dei minimi quadrati con pendenza 10 e intercetta 1041  ponendo y= 0 e estraendo x si ottiene che l’intersezione della retta con lo zero è in 1041/10: esattamente quando a i corrisponde alla media  atan(a) con a= n  verifichiamo la proprietà n.2 Mean&MedianPropertyDemonstration.xls Foglio: proprietà della media 1

stesso procedimento per la verifica della proprietà n.3 somma dei quadrati degli scarti dalla media è un minimo Mean&MedianPropertyDemonstration.xls Foglio: proprietà della media 2

L’emissione di diossido di carbonio procapite (tonnellate) per le 8 nazioni più popolate è: Bangladesh 0.3, Brazil 1.8, China 2.3, India 1.2, Indonesia 1.4, Pakistan 0.7, Russia 9.9, U.S Campione ordinato: 0.3, 0.7, 1.2, 1.4, 1.8, 2.3, 9.9, 20.1 Mediana = Media = Esercizio

L’emissione di diossido di carbonio procapite (tonnellate) per le 8 nazioni più popolate è: Bangladesh 0.3, Brazil 1.8, China 2.3, India 1.2, Indonesia 1.4, Pakistan 0.7, Russia 9.9, U.S Campione ordinato : 0.3, 0.7, 1.2, 1.4, 1.8, 2.3, 9.9, 20.1 Mediana = ( )/2 = 1.6 Media = ( … )/8 = 4.7 soluzione

altre misure di tendenza centrale media geometrica radice n-esima del prodotto di tutti i valori “ For any two positive numbers a and b, the geometric mean of a and b is the positive number such that a/x =x/b. Note that x = (ab) 1/2 ” (Bass, 2007, p.392) corrisponde all’altezza sull’ipotenusa del triangolo rettangolo

altre misure di tendenza centrale media geometrica radice n-esima del prodotto di tutti i valori è intermedia fra mediana e media aritmetica (in distribuzioni asimmetriche) si usa, ad esempio, per il calcolo dei tassi di crescita medi

nel nostro dataset =(PRODUCT(B5:B859))^(1/COUNT( B5:B859)) MedianaM AritmM Geom Categoria età = 23 In tutti i casi vale la relazione: NUMFREND_DATASET_AGE.xls Foglio: Verifica_Trimmed_MEAN

altre misure di tendenza centrale media ponderata i valori di ogni osservazione vengono prima moltiplicati e poi sommati per il loro peso, che, in genere, coincide con il numero di volte in cui quel dato è presente (frequenza).  Se  = n i coincide con la media aritmetica  Utile nel caso si debba calcolare la media aggregata da più medie campionarie di diversa numerosità di cui non si hanno le singole osservazioni

esempio: tasso di attività femminile Pag. 41 Tabella 3.4

altre misure di tendenza centrale media troncata (trimmed) calcolata eliminando una percentuale uguale di punteggi dai due estremi della distribuzione e facendo la media aritmetica dei dati rimanenti MedianaM AritmM Geom Categoria età = 23 10% 90% 10% Si dice troncata al 20%

nel nostro dataset =PERCENTILE(B6:B860;$Q$3) IF per non visualizza i valori al di fuori dell’intervallo: IF(OR(G858 O$3);""; G858 ) NUMFREND_DATASET_AGE.xls Foglio: Verifica_Trimmed_MEAN

domanda a cosa corrisponde la media troncata allo 0% di un set di dati ?  alla media aritmetica  alla media geometrica  alla mediana  alla media ponderata Perchè ?

indici di dispersione densità di frequenza punteggio osservato stessa tendenza centrale diversa variabilità  campo di variazione  scarto interquartile  outlier  devianza  varianza  deviazione standard

grafico a scatola (box-plot) è una rappresentazione sintetica della distribuzione: gli elementi utilizzati per costruire la scatola sono i quartili, gli estremi della distribuzione e gli outlier punteggio osservato densità baffo inferiore: X min senza outliers baffo superiore: X max senza outliers Q1Q2Q3 Outlier un dato che cade al di fuori del range definito da: con IQR= Q3-Q1 lo scarto interquartile Esempio a pag. 17 Paganoni, Pontiggia (Cap. 2) campo di variazione

scatole e distribuzioni

dimostratore in Mathematica DescriptionsOfUnivariateData

dimostratore in Mathematica poca variabilità tanta variabilità

si può fare in Excel

scatole in Excel Partendo dal minimo possiamo calcolare tutti gli scarti dai valori successivi (escludendo gli outlier) e otteniamo Selezione l’ istogramma a colonne in pila che non sommano a 1 Selezione quindi la serie in riga (Rows) Esempio tratto dal Paganoni, Pontiggia, Cap. 3 Box_plot_VitaminaD&Magnesio.xls QUARTILE(array; 2) QUARTILE(array; 1) QUARTILE(array; 3) MIN(array) MAX(array)

Partendo dal minimo possiamo calcolare tutti gli scarti dai valori successivi (escludendo gli outlier) e otteniamo baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min scatole in Excel Esempio tratto dal Paganoni, Pontiggia, Cap. 3 Box_plot_VitaminaD&Magnesio.xls

facciamo scomparire le parti inutili Partendo dal minimo possiamo calcolare tutti gli scarti dai valori successivi (escludendo gli outlier) e otteniamo baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min

facciamo scomparire le parti inutili baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Fai doppio clic sull’area inutile e elimina sfondo e bordi spuntando le due caselle Continua a eliminare …

creiamo i baffi baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Fai doppio clic sull’area al di sotto di Q1 e dall scheda Y error bars seleziona l’opsione Minus: immetti quindi la cella che contiene il valore risultante da Q1 - baffo inf (B16) nel campo con il meno

creiamo i baffi baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Fai doppio clic sull’area al di sopra di Q3 e dall scheda Y error bars seleziona l’opsione Plus: immetti quindi la cella che contiene il valore risultante da baffo sup – Q3 (B19) nel campo con il più

aggiungi l’outlier Aggiungi alla serie di dati il valore Outlier creando una nuova serie e immettendo il valore dell’outlier nel campo Value baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Outlier

modifica l’outlier Cambia la tipologia del grafico associato alla visualizzazione dell’outlier: clicca sulla barra rosa dell’outlier, comparirà la barra delle opzioni chart, modifica la serie Outlier in grafico a punti baffo sup-Q3 Q3-Q2 Q2-Q1 Q1-baffo inf min Outlier

dimostratore Excel: Box plot dinamico Che forma ha un Box-Plot applicato a 50 osservazioni estratte a caso da una combinazione delle due distribuzioni Normali?

dimostratore Excel: Box plot dinamico Gli Outlier aumentano/diminuiscono se le distribuzioni si allontanano?

dimostratore Excel: Box plot dinamico Il foglio ha caratteristiche simili a Sampling_Size_&_Density.xls Box_Plot_Dinamico.xls

dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Distribuzione uniforme di eventi dicotomici (1 e 0) con IF(RAND()> $B$1 ;1;0)

dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Se il valore in D è = 0 genera un numero random dalla distribuzione Normale 1 altrimenti dalla distribuzione Normale 2

dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls da questo si generano distribuzioni teoriche, campionarie e funzione di ripartizione seguendo la procedura usata per Sampling_Size_&_Density.xls

dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Colonna con i punteggi senza Outlier: Se il punteggio è minore di Limite inferiore o maggiore Limite superiore riporta il punteggio altimenti una cella vuota “” IF(OR(x i $I$11);"";F i ) Questa colonna è necessaria per il calcolo del baffo inferiore e superiore: Minimo e Massimo della distribuzione senza Outlier

dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Statistiche necessarie per la visualizzazione del Box-plot (Solo i Baffi calcolati su colonna G) Colonna per la ricerca degli Outlier: Se il punteggio è minore di Limite inferiore o maggiore Limite superiore scrivi “Outlier”: IF(OR(x i $I$11);"Outlier";"")

dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls Scatole che compongono il Box-plot Sequenza di outliers identificabili a gruppi di 5 nel dataset

dimostratore Excel: Box plot dinamico Box_Plot_Dinamico.xls VLOOKUP(H19; C2:F6 ;4;FALSE)VLOOKUP(H19; C7:F11 ;4;FALSE)

alcune conclusioni Box_Plot_Dinamico.xls distribuzioni con diversi indici di dispersione ma stesso centro danno luogo ad outliers equidistribuiti attorno alla mediana

alcune conclusioni stesse distribuzioni poco precise difficilmente danno luogo ad outliers: non è la quantità di disperzione assoluta che conta ma la coerenza nei gruppi di dati

alcune conclusioni gli outliers hanno deviazione negativa dalla mediana quando la distribuzione meno precisa è a sinistra di quella più precisa

alcune conclusioni gli outliers hanno deviazione positiva dalla mediana quando la distribuzione meno precisa è a destra di quella più precisa

eliminazione degli outlier dal DATASET  In alcune circostanze il dato outlier è interpretabile come un fonte di errore campionario e deve quindi essere escluso dal campione  La procedura per l’identificazione, degli outlier, e l’esclusione degli outlier su grandi Dataset come quello relativo alla GSS in Excel può essere effettuata usando la funzione VLOOKUP già introdotta e le tabelle Pivot  Nei fogli “FOGLIO DI LAVORO_OUTLIERS”, “Pivot Elimina Outliers” e “BOX_PLOT_No_OUTLIERS” di NUMFREND_DATASET_AGE.xls è illustrata la procedura per effettuare I’analisi descrittiva sui diversi campioni di età  Procedura analoga a quella descritta nei cap.4 e 5 del Paganoni e Pontiggia

Passo 1  Apriamo NUMFREND_DATASET_AGE.xls  Iniziamo creando una copia del foglio di lavoro 1

Passo 2: VLOOK per outliers  Dopo aver creato le tabelle contenenti I valori necessari per l’identificazione degli outlier (IQR), si creano tre colonne:  Le colonna L inf e L sup riportano in ogni cella i valori di limite inferiore/superiore relativo alla categoria di età corrispondente al punteggio i-esimo  La colonna Outliers riporta Outlier se il mumero di amici i-esimo è del valore nella stessa riga in L sup

Passo 3: rimozione outliers con Pivot  Creazione tabella Pivot a doppia entrata riportante tutti i dati ordinati in riga per soggetto e in colonna per categoria di età  Inserisci gli outliers nel campo filtro della tabella “Drop Page Fields Here” trascinando  Escludi gli outliers selezionando sul menu a tendina in testa alla tabella Pivot e scegliendo di visualizzare gli spazi vuoti

box-plot per i 6 campioni di età con outlier senza outlier

indici di dispersione relativi al centro  IQR e campo di variazione sono misure di variabilità assoluta: non tengono in considerazione di come le misure si distribuiscono attorno al centro (media)  dato che (come già dimostrato) la somma delle deviazioni dalla media è nulla la più rilevante misura di variabilità fa uso dello scarto quadratico dalla media o devianza Perché non basta la devianza ?  dipende dalla numerosità del campione  l'unità di misura è il quadrato di quella della variabile  verifica usando il documento Mean&MedianPropertyDemonstration.xls (Foglio: proprietà della devianza) Mean&MedianPropertyDemonstration.xls