“Teoria e metodi della ricerca sociale e organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti
Lezione Analisi monovariata Corbetta, capitolo 12
L’analisi monovariata L’analisi monovariata costituisce la forma più semplice di analisi del fenomeno indagato. Essa consiste in un’analisi descrittiva focalizzata su una sola variabile.
L’Analisi Monovariata Tratta lo studio della distribuzione dei dati osservati sugli stati di una variabile. Distribuzione di frequenza Serve ad avere una prima impressione sul fenomeno preso in esame e soprattutto a verificarne la plausibilità ed eventuali squilibri. Essa costituisce l’analisi più elementare e serve anche a facilitare agli altri studiosi la lettura di analisi più complesse.
La distribuzione di frequenza La prima è più elementare delle analisi è la distribuzione di frequenza. Essa consiste in un banale conteggio delle modalità di una variabile.
LA MATRICE DEI DATI: CASI PER VARIABILI
Distribuzioni di frequenza: il genere Il conteggio dei casi osservati
Distribuzioni di frequenza Le quote percentuali delle modalità
Distribuzioni di frequenza Le percentuali sui casi validi, al netto dei casi mancanti
Distribuzioni di frequenza Le quote percentuali delle modalità
Distribuzioni di frequenza Le percentuali sui casi validi, al netto dei casi mancanti
Distribuzioni di frequenza Le percentuali cumulative
Rappresentazioni grafiche di distribuzioni di frequenza DIAGRAMMA A BARRE
Rappresentazioni grafiche di distribuzioni di frequenza DIAGRAMMA A TORTA
Le distribuzioni di frequenza come distribuzioni di probabilità Le proporzioni delle modalità possono essere interpretate come probabilità. Maschi Pm 0,486 Femmine Pf 0,514 Totale Pm+f 1,000
Maschi Pm 0,486 Femmine Pf 0,514 Totale Pm+f 1,000 Una probabilità può variare tra 0 e 1 Un evento è certo quando ha probabilità 1 Un evento è irrealizzabile quando ha probabilità 0 La somma delle probabilità di tutti gli eventi possibili è uguale a 1 Nell’esempio abbiamo che la probabilità di estrarre a caso una femmina dal nostro campione è 0,514. La probabilità di estrarre un maschio è di 0,486. Estraendo a caso un soggetto dal nostro campione abbiamo più probabilità di estrarre una femmina che non un maschio. Siamo certi (probabilità uguale ad 1) di estrarre o un maschio o una femmina.
L’analisi monovariata: le statistiche Le statistiche servono a dare una descrizione sintetica del fenomeno. Esse si applicano in modo diverso secondo la scala di misurazione con la quale sono rilevate le variabili.
L’analisi monovariata: le statistiche Esistono misure di tendenza centrale che sintetizzano l’informazione contenuta nella variabile in un valore caratteristico. Esistono misure di dispersione che indicano la varietà delle informazioni presenti in una variabile.
Le misure di tendenza centrale su variabili NOMINALI LA MODA: E’ la modalità più frequente.
MODA in una distribuzione di frequenza
Le misure di tendenza centrale su variabili ORDINALI LA MEDIANA: E’ la modalità che occupa il posto di mezzo nella distribuzione ordinata dei casi secondo quella modalità.
Le misure di tendenza centrale su variabili ORDINALI Dato un elenco ordinato di N casi, la mediana è la modalità che si trova in corrispondenza del caso (N+1)/2 quando N è dispari. Se invece N è pari le mediane sono le modalità in corrispondenza del caso (N/2) e del caso (N/2 +1).
MEDIANA (N dispari) 1° 2° 3° 4° 5° Graduatoria di 5 competitori. La mediana è la modalità relativa al caso in TERZA posizione.
MEDIANA (N pari) 1° 2° 3° 4° 5° 6° Graduatoria di 6 competitori. La mediana è rappresentata da due modalità: sono le modalità relative ai casi in TERZA e QUARTA posizione.
MEDIANA , N dispari in una variabile ordinale MEDIANA = stato 4 50%
MEDIANA , N pari in una variabile metrica 50% MEDIANA = 19,5
Le misure di tendenza centrale su variabili CARDINALI LA MEDIA ARITMETICA: Equivale alla somma dei valori di tutti i casi diviso il numero dei casi. N= numero dei casi Xi=i-esimo caso
ETA’ MEDIA x1 x2 x3 x4 x5 20 25 27 33 5 studenti con età differenti L’età media degli studenti è 25 anni
MEDIA su una distribuzione di frequenza Modalità k=4 Numerosità N=5 Età Freq. 20 2 25 1 27 33 x1.f1 x2.f2 x3.f3 x4.f4
In una variabile dicotomica, dove i valori sono 0 e 1 la media corrisponde alla proporzione dei casi sulla modalità 1 x f 80 1 20 N=100
La somma degli scarti dalla media è uguale a ZERO. Proprietà della MEDIA La somma degli scarti dalla media è uguale a ZERO.
La somma degli scarti dalla media è uguale a ZERO. Proprietà della MEDIA La somma degli scarti dalla media è uguale a ZERO. ISCRITTI scarti -139 +139 media
VALORI CARATTERISTICI
Se la distribuzione è asimmetrica la media “risente” dei valori estremi. In questi casi il valore caratteristico preferibile è la mediana. ESEMPIO: il reddito. n Valori estremi 1300 2400 12000 Reddito Mediana Media
Le misure di dispersione su variabili NOMINALI L’indice di omogeneità
Misura la dispersione in una variabile nominale Indice di omogeneità Misura la dispersione in una variabile nominale Dove k è il numero di modalità e pi è la proporzione di casi che si trovano nella categoria i-esima. L’indice di omogeneità O è dato quindi dalla somma dei quadrati delle frequenze proporzionali. Indice di eterogeneità
O p Indice di omogeneità Omin = 0,502 + 0,502 = 0,50 È massimo (=1) quando tutti i casi assumono la stessa modalità. È minimo (=1/k) quando la distribuzione è massimamente eterogenea, i casi si distribuiscono ugualmente nelle diverse modalità. ESEMPIO con due modalità (p,1- p) O 1 Omin = 0,502 + 0,502 = 0,50 1/2 Omax = 02 + 12 = 1 p 1/2 1
Video di Faidate presenti su youtube e categoria tematica Maggiore è questo indice più è la concentrazione dei contenuti del rispettivo dominio: elevata omogeneità in Spagna e Germania, dove spiccano poche categorie, ed una minore in Francia, dove invece i contenuti sono dispersi tra più categorie.
Indice di omogeneità relativa Per confrontare distribuzioni con un diverso numero di modalità. Varia tra 0 (minima omogeneità) ed 1 (massima omogeneità).
Le misure di dispersione su variabili ORDINALI La differenza interquartile
al 25%, al 50%(la mediana) e al 75% Quartili Corrispondono ai valori/modalità che occupano nella distribuzione ordinata dei casi la posizione al 25%, al 50%(la mediana) e al 75% dei casi
QUARTILI
Nell’esempio precedente: La differenza interquartile Misura la dispersione in una variabile ordinale Dove Q3 è il terzo quartile e Q1 è il primo. Nell’esempio precedente:
Le misure di dispersione su variabili CARDINALI Campo di variazione Scostamento semplice medio Deviazione standard e Varianza
Campo di variazione (o Range) Semplicemente offre una misura della variazione in una distribuzione calcolando la differenza tra il valore massimo ed il valore minimo.
CAMPO DI VARIAZIONE (o RANGE)
Lo scostamento semplice medio Lo scostamento semplice medio, si calcola attraverso la somma degli scarti assoluti dalla media.
La deviazione standard La deviazione standard costituisce una misura della variabilità della distribuzione. Equivale alla somma degli scarti dalla media al quadrato.
La varianza La varianza costituisce la misura statistica più importante. Per le sue proprietà essa costituisce una sintesi dell’informazione presente nella distribuzione della variabile.
VARIANZA su una distribuzione di frequenza Età Freq. 20 2 25 1 27 33 N=5
La varianza campionaria Quando si lavora su campioni la stima statisticamente più corretta per calcolare la varianza del campione si trova: NB: S è la deviazione standard campionaria.
TRASFORMAZIONE DELLE VARIABILI CARDINALI Esistono alcune procedure che trasformano le variabili cardinali: - normalizzazione - standardizzazione
QUALSIASI DISTRIBUZIONE CONTINUA PUO’ ESSERE NORMALIZZATA Valore osservato i-esimo La nuova variabile x01 varierà tra 0 ed 1.
DUE SCALE CON DIVERSO RANGE POSSONO ESSERE RESE COMPARABILI Voto “vecchio” di maturità Voto “nuovo” di maturità Minimo 36 Massimo 60 Minimo 60 Massimo 100 48 36 60 80 60 100 0,5 1 NB: la distanza relativa tra i casi rimane la stessa.
QUALSIASI DISTRIBUZIONE CONTINUA PUO’ ESSERE STANDARDIZZATA Una distribuzione standardizzata ha media uguale a 0 e deviazione standard (o varianza) uguale a 1. Z può variare tra meno e più infinito
Media 23 Dev.std 3,8 Media 22 Dev.std 6,9 DUE DISTRIBUZIONI POSSONO ESSERE COMPARATE IN TERMINI DI PUNTI STANDARD, A PARITA’ DI MEDIA E DI DISPERSIONE. Si standardizza rispetto ad un contesto di riferimento. Voto corso A Voto corso B Media 23 Dev.std 3,8 Media 22 Dev.std 6,9 NB: la distanza relativa tra i casi cambia. Nelle nuove distribuzioni la varianza = 1, la media = 0.