La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lanalisi monovariata Lanalisi monovariata serve a studiare la distribuzione di singole variabili. Rappresenta il primo risultato empirico del lavoro di.

Presentazioni simili


Presentazione sul tema: "Lanalisi monovariata Lanalisi monovariata serve a studiare la distribuzione di singole variabili. Rappresenta il primo risultato empirico del lavoro di."— Transcript della presentazione:

1 Lanalisi monovariata Lanalisi monovariata serve a studiare la distribuzione di singole variabili. Rappresenta il primo risultato empirico del lavoro di ricerca, le sue funzioni sono: a) descrivere la distribuzione della variabile : cioè descrivere come una singola caratteristica è distribuita fra i casi, anche utilizzando misure di tendenza centrale o di variabilità ; b)propedeutiche ad analisi successive, cioè lanalisi monovariata permette di compiere una serie di operazioni preliminari come: I.controllare la plausibilità dei valori; II.individuare squilibri nella distribuzione; III.valutare la possibilità di aggregare diverse modalità della variabile (tramite operazioni di ricodifica ); IV.valutare le possibilità di costruzione di indici sintetici. Metodologia della ricerca sociale1

2 Lanalisi monovariata: la distribuzione di frequenza La distribuzione di frequenza di una variabile è una rappresentazione in cui ad ogni valore ( modalità ) della variabile viene associato il numero di casi che lo presenta (la sua frequenza ). La distribuzione di frequenza può presentare: a)le frequenze assolute : il conteggio del numero dei casi che presenta ciascuna modalità della variabile; b)le frequenze relative : che relativizzano ciascun valore assoluto per permettere il confronto tra diverse distribuzioni, si tratta in genere di proporzioni, le più comunemente utilizzate sono le percentuali; Inoltre può essere utile, nel caso di variabili ordinali o cardinali, presentare la distribuzione cumulata di frequenza, che per ciascun valore/modalità della variabile presenta la somma delle frequenze (assolute o relative) corrispondenti a quel valore/modalità e a tutti quelli inferiori. Metodologia della ricerca sociale2

3 Frequenze assolute Frequenze relativeFrequenze cumulate ProporzioniPercentualiAssoluteRelative (%) Senza titolo300,0252,5302,5 Licenza elementare 5090,42442,453944,9 Licenza media 3420,28528,588173,4 Diploma2640, ,4 Laurea550,0464, Totale Lanalisi monovariata: la distribuzione di frequenza Metodologia della ricerca sociale3 Proporzione = 30/1200 Percentuale= (30*100)/1200

4 Le caratteristiche della distribuzione Lanalisi monovariata è dunque un analisi puramente descrittiva (e completa) di come una variabile si distribuisce nella popolazione. Le distribuzioni delle variabili possono essere riportate integralmente (come nella tabella appena presentate e/o sotto forma di grafici) o attraverso misure sintetiche: i valori caratteristici della distribuzione. Si tratta di indici, espressi in forma numerica, utili ad una rappresentazione sintetica delle caratteristiche fondamentali della distribuzione di una variabile. Le principali caratteristiche che descrivono una distribuzione di dati sono due: le misure di tendenza centrale, che mirano ad individuare quale valore sintetizza meglio la distribuzione, le misure di variabilità, che mirano a rendere conto del modo in cui le altre modalità si collocano attorno ai valori individuati dalle misure di tendenza centrale. Naturalmente tali misure differiscono in relazione al tipo di variabile che si sta analizzando. Metodologia della ricerca sociale4

5 Lanalisi monovariata: i tipi di variabili Metodologia della ricerca sociale5 Tipo di variabile Operazioni che è possibile compiere fra le modalità Misure di tendenza centrale Misure di dispersione Nominale = Moda Indice di omogeneità Ordinale = > < Moda Mediana Indice di omogeneità Differenza interquartile Cardinale = > < + - (× ÷) Moda Mediana Media Indice di omogeneità Differenza interquartile Deviazione standard

6 Le misure di tendenza centrale VARIABILI NOMINALI Moda: è la modalità che presenta la frequenza maggiore, è la modalità prevalente nella distribuzione. VARIABILI ORDINALI Mediana: è la modalità del caso che occupa il posto di mezzo nella distribuzione ordinata dei casi secondo la variabile: se i casi sono dispari il caso centrale è quello che occupa la posizione (N+1)/2 ; se i casi sono pari ci sono due casi centrali (nelle posizioni N/2 e (N/2)+1, e se non presentano la stessa modalità la distribuzione può avere due mediane. VARIABILI CARDINALI Media aritmetica: è data dalla somma dei valori assunti dalla variabile su tutti i casi divisa per il numero dei casi: Metodologia della ricerca sociale6

7 Le misure di tendenza centrale: esempi Metodologia della ricerca sociale 7 Titolo di studio n.% f.c. (n.) f.c. (%) Senza titolo302,5 302,5 Licenza elementare 50942, ,9 Licenza media 34228, ,4 Diploma26422, ,4 Laurea554, Totale Religione n.% Cattolica56046,7 Protestante19416,2 Ebraica15613,0 Musulmana26419,5 Altro554,6 Totale VARIABILI NOMINALI VARIABILI ORDINALI Moda: Cattolica Moda: Licenza elementare Mediana: Licenza media Un modo semplice di individuare la mediana è guardare la distribuzione delle frequenze cumulate: se le modalità della variabile ordinale sono in ordine, la mediana è la classe in cui cade il 50 %, o il/i casi che occupano il posto (N+1)/2 oppure N/2 e (N/2)+1.

8 Le misure di tendenza centrale: esempi Metodologia della ricerca sociale8 Voto in matematica n.% f.c. (n.) f.c. (%) 3231,9 23 1,9 4675,6 90 7,5 4,51189, , , ,0 5,524420, , , ,3 6,51179, ,1 7957, ,0 8645, ,3 8,5322, ,0 Totale ,0 VARIABILI CARDINALI Moda: 6 Mediana: 6 Media= [(3*23)+(4*67)+(4,5*188)+ (5*128)+(5,5*244)+(6*312)+ (6,5*117)+(7*95)+(8*64)+ (8,5*32)]/1200= 5,77 Se infatti per ogni valore abbiamo la frequenza con cui si presenta la media può essere calcolata come la somma dei prodotti tra i valori e le rispettive frequenze

9 Le misure di variabilità Le misure della variabilità ci informano su quanto i valori della distribuzione mutano/sono dispersi, e sono diverse a seconda del tipo di variabile che si sta analizzando. VARIABILI NOMINALI Una variabile nominale ha una distribuzione massimamente omogenea quando tutti i casi presentano la stessa modalità, massimamente eterogenea quando i casi sono equidistribuiti tra le modalità. Indicando con p i le proporzioni di una distribuzione di frequenza, lindice di omogeneità è dato da: cioè dalla somma dei quadrati delle proporzioni. Varia tra un minimo pari a 1/k (dove k è il numero delle modalità) e un massimo di 1. Il complemento a 1 dellindice di omogeneità è detto indice di eterogeneità : Metodologia della ricerca sociale9

10 Le misure di variabilità: indici di omogeneità/eterogeneità Metodologia della ricerca sociale10 Religione n.p.% Cattolica5600,4746,7 Protestante1940,1616,2 Ebraica1560,1313,0 Musulmana2640,1919,5 Altro550,054,6 Totale VARIABILI NOMINALI O= (0,47) 2 +(0,16) 2 +(0,13) 2 + (0,19) 2 +(0,05) 2 = 0,302 E= 1- 0,302= 0,698 In alcuni casi può essere utile normalizzare lindice di omogeneità o di eterogeneità, per neutralizzare linfluenza del numero delle modalità: O rel =(k*O-1)/(k-1) E rel =1-[(k*O-1)/(k-1)]

11 Normalizzare gli indici di omogeneità/eterogeneità Metodologia della ricerca sociale11 Religione n.p.% Cattolica5600,4746,7 Protestante1940,1616,2 Ebraica1560,1313,0 Musulmana2640,1919,5 Altro550,054,6 Totale La normalizzazione permette di confrontare la dispersione di variabili che hanno un diverso numero di modalità. O= 0,302 E= 0,698 O rel =(k*O-1)/(k-1) O rel =(5*0,302-1)/(5-1)= 0,128 E rel =1-[(k*O-1)/(k-1)]=1-O rel E rel =1-0,128= 0,872 Settore lavorativo n.p.% Primario2370,2019,8 Secondario2760,2323,0 Terziario6870,5757,3 Totale12001,00100,0 O= 0,419 E= 0,581 O rel =(k*O-1)/(k-1) O rel =(3*0,419-1)/(3-1)= 0,128 E rel =1-[(k*O-1)/(k-1)]=1-O rel E rel =1-128= 0,872

12 Le misure di variabilità VARIABILI ORDINALI Dividendo la distribuzione ordinata di una variabile in quattro parti, possiamo individuare i valori sui casi che segnano i confini tra i quarti, detti quartili. La differenza tra i valori del primo e del terzo quartile definiscono un indice di dispersione: la differenza interquartile. Se infatti questa differenza è piccola la distribuzione sarà molto concentrata attorno alla mediana, se è molto grande la distribuzione sarà dispersa: Q= Q 3 – Q 1 Metodologia della ricerca sociale12 n.%c.(n)c.(%) 1302,5 30 2, , , , , , ,4 5554, Totale n.%f.c.(n)f.c.(%) , , , , , , , , , ,1 Totale ,0 Mediana=3 Q=4-2=2 Mediana=1 Q=2-1=1 Q1Q3Q1Q3

13 n.%c.(n)c.(%) , , , , , , , , , , , , , ,0 Totale ,0 Le misure di variabilità: la differenza interquartile Metodologia della ricerca sociale13 n.%c.(n)c.(%) 1 505,0 50 5, , , , , , , , , , , , ,0 Totale ,0 Mediana=3 Q=4-2=2 Mediana=1 Q=6-2=4 Q1Q3 Q1Q3

14 Le misure di variabilità VARIABILI CARDINALI La media aritmetica degli scarti dalla media (in valore assoluto) di una variabile è una prima misura di variabilità: lo scostamento semplice medio. Se, invece di considerare i valori assoluti, per annullare il segno degli scarti li si eleva al quadrato, si calcola la media e di estrae dalla radice quadrata, ottenendo lo scarto quadratico medio, o deviazione standard : La varianza è il quadrato della deviazione standard: Metodologia della ricerca sociale14 Il valore assoluto serve ad evitare che il risultato delloperazione sia zero: infatti è una caratteristica propria della media aritmetica che la somma degli scarti dei singoli valori da essa sia pari a zero. Lelevare al quadrato gli scarti dalla media dei singoli valori permette di conferire un peso maggiore agli scarti maggiori, oltre che di annullamento il segno degli scarti negativi. Per lanalisi monovariata si utilizza la deviazione standard perché ha lo stesso ordine di grandezza dei valori della variabile, ma la varianza è una misura centrale nella statistica: tutta lanalisi dei dati gira intorno al concetto di varianza spiegata.

15 Le misure di variabilità: ssm, deviazione standard e varianza Metodologia della ricerca sociale15 VARIABILI CARDINALI ssm={[23*(3-5,77)]+[67*(4-5,77)]+…+ [64*(8-5,77)]+[32*(8,5-5,77)]}/1200 =1000,2/1200= 0,83 Media=5,77 S 2 ={[23*(3-5,77) 2 ]+[67*(4-5,77) 2 ]+…+ [64*(8-5,77) 2 ]+[32*(8,5-5,77) 2 ]}/1200 =1449,72/1200= 1,21 S= {[23*(3-5,77) 2 ]+[67*(4-5,77) 2 ]+…+ [64*(8-5,77) 2 ]+[32*(8,5-5,77) 2 ]}/1200 =(1449,72/1200)=1,21= 1,1 Voto in matematica n.% f.c. (n.) f.c. (%) 3231,9 23 1,9 4675,6 90 7,5 4,51189, , , ,0 5,524420, , , ,3 6,51179, ,1 7957, ,0 8645, ,3 8,5322, ,0 Totale ,0


Scaricare ppt "Lanalisi monovariata Lanalisi monovariata serve a studiare la distribuzione di singole variabili. Rappresenta il primo risultato empirico del lavoro di."

Presentazioni simili


Annunci Google