L’analisi monovariata

Slides:



Advertisements
Presentazioni simili
LA MEDIA STATISTICA di Zappa Giacomo.
Advertisements

- le Medie la Moda la Mediana
SCALA INTERVALLO / A RAPPORTO
____________________
LA VARIABILITA’ IV lezione di Statistica Medica.
Indici di dispersione Quantili: sono misure di posizione non centrale che dividono la serie ordinata di dati in un certo numero di parti di uguale numerosità.
Statistica I valori medi.
STATISTICA DESCRITTIVA
“Teoria e metodi della ricerca sociale e organizzativa”
Variabilità Variabilità: inevitabile fluttuazione dei fenomeni naturali, fisici, sociali ecc le indicazioni fornite dalle misure di tendenza centrale (media.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
La distribuzione normale e normale standardizzata
L’analisi Monovariata
Introduzione alla statistica per la ricerca Lezione I
COSA VUOL DIRE FARE STATISTICA
Misure di posizione Gli indici di posizione servono per individuare la tendenza centrale del fenomeno studiato. I più utilizzati sono: Moda Mediana Quartili,
Canale A. Prof.Ciapetti AA2003/04
STATISTICA a.a DISTRIBUZIONI DI FREQUENZE
Misure di dispersione Giovanni Filatrella
Statistica sociale Modulo A
Cos’è un problema?.
Misurazione Le osservazioni si esprimono in forma di misurazioni
SNV a.s Servizio di valutazione del sistema dellistruzione Incontro provinciale di coordinamento organizzativo a cura del CSA di Treviso Novembre.
Nicola Paparella, Università degli Studi, Lecce, aprile 2006 Pedagogia sperimentale Note ed appunti Corso di base / 5
Pedagogia sperimentale
Luciano giromini – la misura in psicologia, 2009 database e distribuzioni - misure di sintesi - misure di variabilità descrizione dei dati:
Statistica descrittiva
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Esercizio 1: La seguente distribuzione riporta i punteggi di un test sullo spettro autistico misurato su un gruppo di bambini: a)Costruire una tabella.
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Un trucchetto di Moltiplicazione per il calcolo mentale
Compito 1: La seguente distribuzione riporta il numero di errori di un gruppo di bambini con ritardo mentale in un test di lettura”: Costruire una tabella.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Simone Mosca & Daniele Zucchini 4Bi.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
La Variabilità e La Concentrazione
Compito 1: La seguente distribuzione riporta i punteggi di “apertura mentale” su individui con disturbo ossessivo compulsivo: Costruire una tabella di.
L’analisi monovariata
Lez. 3 - Gli Indici di VARIABILITA’
Teoria della probabilità
Compito 1: 1) La seguente distribuzione riporta i punteggi di depressione su individui con disturbo post- traumatico da stress: a)Costruire.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Gli indici di dispersione
Analisi monovariata: valori caratteristici
COSA VUOL DIRE FARE STATISTICA
Accenni di analisi monovariata e bivariata
Corso di Analisi Statistica per le Imprese Indici di variabilita’ ed eterogeneita’ Prof. L. Neri a.a
Martina Serafini Martina Prandi
Marta Pinto Stefania Serra Valentina Paravidino
3 June Biostatistica Biostatitistica= Statistica per scienze Biostatitistica= Statistica per scienze biologiche e sanitarie. biologiche e sanitarie.
STATISTICHE DESCRITTIVE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
A.A STATISTICA E CALCOLO DELLE PROBABILITA’ Docenti: Stefania Mignani Maurizio Brizzi.
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
INDICATORI DI TENDENZA CENTRALE. Consentono di sintetizzare un insieme di misure tramite un unico valore “rappresentativo”  indice che riassume o descrive.
Gli Indici di VARIABILITA’
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
L’analisi monovariata
L’analisi monovariata
Transcript della presentazione:

L’analisi monovariata L’analisi monovariata serve a studiare la distribuzione di singole variabili. Rappresenta il primo risultato empirico del lavoro di ricerca, le sue funzioni sono: descrivere la distribuzione della variabile: cioè descrivere come una singola caratteristica è distribuita fra i casi, anche utilizzando misure di tendenza centrale o di variabilità; propedeutiche ad analisi successive, cioè l’analisi monovariata permette di compiere una serie di operazioni preliminari come: controllare la plausibilità dei valori; individuare squilibri nella distribuzione; valutare la possibilità di aggregare diverse modalità della variabile (tramite operazioni di ricodifica); valutare le possibilità di costruzione di indici sintetici. Metodologia della ricerca sociale

L’analisi monovariata: la distribuzione di frequenza La distribuzione di frequenza di una variabile è una rappresentazione in cui ad ogni valore (modalità) della variabile viene associato il numero di casi che lo presenta (la sua frequenza). La distribuzione di frequenza può presentare: le frequenze assolute: il conteggio del numero dei casi che presenta ciascuna modalità della variabile; le frequenze relative: che relativizzano ciascun valore assoluto per permettere il confronto tra diverse distribuzioni, si tratta in genere di proporzioni, le più comunemente utilizzate sono le percentuali; Inoltre può essere utile, nel caso di variabili ordinali o cardinali, presentare la distribuzione cumulata di frequenza, che per ciascun valore/modalità della variabile presenta la somma delle frequenze (assolute o relative) corrispondenti a quel valore/modalità e a tutti quelli inferiori. Metodologia della ricerca sociale

L’analisi monovariata: la distribuzione di frequenza   Frequenze assolute Frequenze relative Frequenze cumulate Proporzioni Percentuali Assolute Relative (%) Senza titolo 30 0,025 2,5 Licenza elementare 509 0,424 42,4 539 44,9 Licenza media 342 0,285 28,5 881 73,4 Diploma 264 0,22 22 1145 95,4 Laurea 55 0,046 4,6 1200 100 Totale 1 Proporzione = 30/1200 Percentuale= (30*100)/1200 Metodologia della ricerca sociale

Le caratteristiche della distribuzione L’analisi monovariata è dunque un analisi puramente descrittiva (e completa) di come una variabile si distribuisce nella popolazione. Le distribuzioni delle variabili possono essere riportate integralmente (come nella tabella appena presentate e/o sotto forma di grafici) o attraverso misure sintetiche: i valori caratteristici della distribuzione. Si tratta di indici, espressi in forma numerica, utili ad una rappresentazione sintetica delle caratteristiche fondamentali della distribuzione di una variabile. Le principali caratteristiche che descrivono una distribuzione di dati sono due: le misure di tendenza centrale, che mirano ad individuare quale valore sintetizza meglio la distribuzione, le misure di variabilità, che mirano a rendere conto del modo in cui le altre modalità si collocano attorno ai valori individuati dalle misure di tendenza centrale. Naturalmente tali misure differiscono in relazione al “tipo” di variabile che si sta analizzando. Metodologia della ricerca sociale

Differenza interquartile L’analisi monovariata: i tipi di variabili Tipo di variabile Operazioni che è possibile compiere fra le modalità Misure di tendenza centrale Misure di dispersione Nominale = ≠ Moda Indice di omogeneità Ordinale > < Mediana Differenza interquartile Cardinale + - (× ÷) Media Deviazione standard Metodologia della ricerca sociale

Le misure di tendenza centrale VARIABILI NOMINALI Moda: è la modalità che presenta la frequenza maggiore, è la modalità prevalente nella distribuzione. VARIABILI ORDINALI Mediana: è la modalità del caso che occupa il posto di mezzo nella distribuzione ordinata dei casi secondo la variabile: se i casi sono dispari il caso centrale è quello che occupa la posizione (N+1)/2; se i casi sono pari ci sono due casi centrali (nelle posizioni N/2 e (N/2)+1, e se non presentano la stessa modalità la distribuzione può avere due mediane. VARIABILI CARDINALI Media aritmetica: è data dalla somma dei valori assunti dalla variabile su tutti i casi divisa per il numero dei casi: Metodologia della ricerca sociale

Le misure di tendenza centrale: esempi VARIABILI NOMINALI VARIABILI ORDINALI Religione n. % Cattolica 560 46,7 Protestante 194 16,2 Ebraica 156 13,0 Musulmana 264 19,5 Altro 55 4,6 Totale 1200 100 Titolo di studio n. % f.c. (n.) f.c. (%) Senza titolo 30 2,5 Licenza elementare 509 42,4 539 44,9 Licenza media 342 28,5 881 73,4 Diploma 264 22,0 1145 95,4 Laurea 55 4,6 1200 100 Totale Moda: “Cattolica” Moda: “Licenza elementare” Mediana: “Licenza media” Un modo semplice di individuare la mediana è guardare la distribuzione delle frequenze cumulate: se le modalità della variabile ordinale sono in ordine, la mediana è la classe in cui cade il 50 %, o il/i casi che occupano il posto (N+1)/2 oppure N/2 e (N/2)+1. Metodologia della ricerca sociale

Le misure di tendenza centrale: esempi VARIABILI CARDINALI Voto in matematica n. % f.c. (n.) f.c. (%) 3 23 1,9 4 67 5,6 90 7,5 4,5 118 9,8 208 17,3 5 128 10,7 336 28,0 5,5 244 20,3 580 48,3 6 312 26,0 892 74,3 6,5 117 1009 84,1 7 95 7,9 1104 92,0 8 64 5,3 1168 97,3 8,5 32 2,7 1200 100,0 Totale Moda: 6 Mediana: 6 Media= [(3*23)+(4*67)+(4,5*188)+ (5*128)+(5,5*244)+(6*312)+ (6,5*117)+(7*95)+(8*64)+ (8,5*32)]/1200= 5,77 Se infatti per ogni valore abbiamo la frequenza con cui si presenta la media può essere calcolata come la somma dei prodotti tra i valori e le rispettive frequenze Metodologia della ricerca sociale

Le misure di variabilità Le misure della variabilità ci informano su quanto i valori della distribuzione mutano/sono dispersi, e sono diverse a seconda del tipo di variabile che si sta analizzando. VARIABILI NOMINALI Una variabile nominale ha una distribuzione massimamente omogenea quando tutti i casi presentano la stessa modalità, massimamente eterogenea quando i casi sono equidistribuiti tra le modalità. Indicando con pi le proporzioni di una distribuzione di frequenza, l’indice di omogeneità è dato da: cioè dalla somma dei quadrati delle proporzioni. Varia tra un minimo pari a 1/k (dove k è il numero delle modalità) e un massimo di 1. Il complemento a 1 dell’indice di omogeneità è detto indice di eterogeneità: Metodologia della ricerca sociale

Le misure di variabilità: indici di omogeneità/eterogeneità VARIABILI NOMINALI Religione n. p. % Cattolica 560 0,47 46,7 Protestante 194 0,16 16,2 Ebraica 156 0,13 13,0 Musulmana 264 0,19 19,5 Altro 55 0,05 4,6 Totale 1200 1 100 O= (0,47)2+(0,16)2+(0,13)2+ (0,19)2+(0,05)2= 0,302 E= 1- 0,302=0,698 In alcuni casi può essere utile normalizzare l’indice di omogeneità o di eterogeneità, per neutralizzare l’influenza del numero delle modalità: Orel=(k*O-1)/(k-1) Erel=1-[(k*O-1)/(k-1)] Metodologia della ricerca sociale

Normalizzare gli indici di omogeneità/eterogeneità La normalizzazione permette di confrontare la dispersione di variabili che hanno un diverso numero di modalità. O= 0,302 E= 0,698 Religione n. p. % Cattolica 560 0,47 46,7 Protestante 194 0,16 16,2 Ebraica 156 0,13 13,0 Musulmana 264 0,19 19,5 Altro 55 0,05 4,6 Totale 1200 1 100 Orel=(k*O-1)/(k-1) Orel=(5*0,302-1)/(5-1)=0,128 Erel=1-[(k*O-1)/(k-1)]=1-Orel Erel=1-0,128=0,872 O= 0,419 E= 0,581 Settore lavorativo n. p. % Primario 237 0,20 19,8 Secondario 276 0,23 23,0 Terziario 687 0,57 57,3 Totale 1200 1,00 100,0 Orel=(k*O-1)/(k-1) Orel=(3*0,419-1)/(3-1)=0,128 Erel=1-[(k*O-1)/(k-1)]=1-Orel Erel=1-128=0,872 Metodologia della ricerca sociale

Le misure di variabilità VARIABILI ORDINALI Dividendo la distribuzione ordinata di una variabile in quattro parti, possiamo individuare i valori sui casi che segnano i confini tra i quarti, detti quartili. La differenza tra i valori del primo e del terzo quartile definiscono un indice di dispersione: la differenza interquartile. Se infatti questa differenza è piccola la distribuzione sarà molto concentrata attorno alla mediana, se è molto grande la distribuzione sarà dispersa: Q= Q3 – Q1 Mediana=3 Q=4-2=2 Mediana=1 Q=2-1=1 n. % c.(n) c.(%) 1 30 2,5 2 509 42,4 539 44,9 3 342 28,5 881 73,4 4 264 22,0 1145 95,4 5 55 4,6 1200 100 Totale n. % f.c.(n) f.c.(%) 1 860 71,7 2 194 16,2 1054 87,9 3 56 4,7 1110 92,6 4 35 2,9 1145 95,5 5 55 4,6 1200 100,1 Totale 100,0 Q1 Q3 Metodologia della ricerca sociale

Le misure di variabilità: la differenza interquartile Mediana=3 Q=4-2=2 Mediana=1 Q=6-2=4 n. % c.(n) c.(%) 1 50 5,0 2 397 39,7 447 44,7 3 234 23,4 681 68,1 4 138 13,8 819 81,9 5 125 12,5 944 94,4 6 44 4,4 988 98,8 7 12 1,2 1000 100,0 Totale   n. % c.(n) c.(%) 1 145 14,5 2 162 16,2 307 30,7 3 134 13,4 441 44,1 4 138 13,8 579 57,9 5 135 13,5 714 71,4 6 124 12,4 838 83,8 7 1000 100,0 Totale   Q1 Q3 Metodologia della ricerca sociale

Le misure di variabilità VARIABILI CARDINALI La media aritmetica degli scarti dalla media (in valore assoluto) di una variabile è una prima misura di variabilità: lo scostamento semplice medio. Se, invece di considerare i valori assoluti, per annullare il segno degli scarti li si eleva al quadrato, si calcola la media e di estrae dalla radice quadrata, ottenendo lo scarto quadratico medio, o deviazione standard: La varianza è il quadrato della deviazione standard: Il valore assoluto serve ad evitare che il risultato dell’operazione sia zero: infatti è una caratteristica propria della media aritmetica che la somma degli scarti dei singoli valori da essa sia pari a zero. L’elevare al quadrato gli scarti dalla media dei singoli valori permette di conferire un peso maggiore agli scarti maggiori, oltre che di annullamento il segno degli scarti negativi. Per l’analisi monovariata si utilizza la deviazione standard perché ha lo stesso ordine di grandezza dei valori della variabile, ma la varianza è una misura centrale nella statistica: tutta l’analisi dei dati gira intorno al concetto di varianza spiegata. Metodologia della ricerca sociale

Le misure di variabilità: ssm, deviazione standard e varianza VARIABILI CARDINALI Media=5,77 Voto in matematica n. % f.c. (n.) f.c. (%) 3 23 1,9 4 67 5,6 90 7,5 4,5 118 9,8 208 17,3 5 128 10,7 336 28,0 5,5 244 20,3 580 48,3 6 312 26,0 892 74,3 6,5 117 1009 84,1 7 95 7,9 1104 92,0 8 64 5,3 1168 97,3 8,5 32 2,7 1200 100,0 Totale ssm={[23*(3-5,77)]+[67*(4-5,77)]+…+ [64*(8-5,77)]+[32*(8,5-5,77)]}/1200 =1000,2/1200=0,83 S2={[23*(3-5,77)2]+[67*(4-5,77)2]+…+ [64*(8-5,77)2]+[32*(8,5-5,77)2]}/1200 =1449,72/1200=1,21 S=√ {[23*(3-5,77)2]+[67*(4-5,77)2]+…+ [64*(8-5,77)2]+[32*(8,5-5,77)2]}/1200 =√(1449,72/1200)=√1,21=1,1 Metodologia della ricerca sociale