“Teoria e metodi della ricerca sociale e organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti
Relazioni tra variabili La relazione tra variabili può essere caratterizzata da: forma forza direzione.
Forma della relazione La forma di una relazione caratterizza i possibili modi in cui i valori delle variabili sono associati. La forma può caratterizzare anche il segno di una relazione (quando le variabili sono metriche o ordinali).
ESEMPIO: forma di una relazione Percentuali di riga (di cella e marginali) I maschi sono più istruiti delle donne.
ESEMPIO: forma di una relazione Presenza di malattie per fascia d’età Elaborazioni Multiscopo AVQ 2003
Forza della relazione La forza della relazione misura il grado di “covariazione” tra le variabili. In altre parole indica il potere predittivo di una variabile sull’altra. “Qualunque fenomeno, che vari in un modo qualsiasi ogni volta che un altro fenomeno varia in qualche modo particolare, è una causa o un effetto di quel fenomeno, p è connesso a quel fenomeno mediante qualche fatto di causazione” John Stuart Mill
ESEMPIO: forza di una relazione Soddisfatti del lavoro Non soddisfatti del lavoro totale maschio 536 287 823 femmina 304 139 443 840 426 1266 V di cramer = 0,035
ESEMPIO: forza di una relazione Coefficiente di determinazione tra anni di scolarità del padre e anni di scolarità del figlio r2 = 0.37
Direzione della relazione Quando è possibile ipotizzare un rapporto di causazione, allora è possibile attribuire alle variabili lo status di dipendenti o indipendenti e definire quindi una direzione di successione. X Y
ESEMPIO: direzione della relazione Stabiliamo che l’istruzione condizioni il reddito ! Regressione lineare Ogni anno di scolarità in più “produce” in media un incremento nel reddito di 128 euro
Variabili indipendenti e dipendenti A seconda della posizione che le variabili occupano in un’ipotesi causale esse si costituiscono come variabili dipendenti o indipendenti. Una stessa variabile dunque può essere dipendente o indipendente a seconda del modello analitico in cui è inserita. Ad esempio la coorte d’età (X) può condizionare il titolo di studio (Y). Ma in un altro caso il titolo di studio (X) può essere il fattore condizionante della carriera lavorativa (Y).
Applicazioni di analisi bivariata su variabili categoriali su variabili ordinali su variabili cardinali
Applicazioni di analisi bivariata su variabili categoriali
Variabili categoriali (o nominali) Su esse registriamo un numero finito di stati (modalità) che riteniamo non ordinabili lungo alcuna dimensione concettuale. Le modalità godono di un alto grado di autonomia semantica.
L’Analisi Bivariata Tratta lo studio della distribuzione dei dati osservati sugli stati di due variabili. Si indagano le relazioni intercorrenti tra due variabili. Possono dare risposta a semplici interrogativi teorici.
Tavole di contingenza, o tabelle a doppia entrata, o incroci L’Analisi Bivariata Tavole di contingenza, o tabelle a doppia entrata, o incroci Costituiscono lo fase più elementare nello studio delle relazioni tra due variabili.
Struttura di una tavola di contingenza Frequenze di cella (R x C) e marginali (R + C) Variabile X sulle righe, variabile Y sulle colonne Y X Y1 Y2 Y3 X1 f11 f12 f13 f1. X2 f21 f22 f23 f2. f.1 f.2 f.3 N
fij frequenza della cella della i-esima riga e j-esima colonna Struttura di una tavola di contingenza Righe: i = 1…R Colonne: j = 1…C fij frequenza della cella della i-esima riga e j-esima colonna fi. frequenza marginale della i-esima riga f.j frequenza marginale della j-esima colonna
Struttura di una tavola di contingenza Frequenze di cella e marginali Variabile X sulle righe, variabile Y sulle colonne
Struttura di una tavola di contingenza Percentuali totali di cella e marginali Y X Y1 Y2 Y3 X1 f11/N % f12/N % f13/N % f1. /N % X2 f21/N % f22/N % f23/N % f2. /N % f.1/N % f.2/N % f.3/N % 100
Struttura di una tavola di contingenza Percentuali totali di cella e marginali
Struttura di una tavola di contingenza Percentuali CONDIZIONATE di riga (di cella e marginali). Y X Y1 Y2 Y3 X1 f11/f1. % f12/f1. % f13/f1. % 100 X2 f21/f2. % f22/f2. % f23/f2. % f.1/N % f.2/N % f.3/N %
Struttura di una tavola di contingenza Percentuali CONDIZIONATE di riga (di cella e marginali) Le percentuali di riga considerano lo stesso numero di maschi e femmine (=100).
Differenze percentuali tra percentuali condizionate - 1,5 % + 0,8 % Differenza % tra maschi e femmine sul titolo dell’obbligo ( a parità di numero). Differenza % tra maschi e femmine sul titolo universitario ( a parità di numero). Le differenze calcolate confrontando le percentuali di riga (ossia rispetto alla variabile indipendente) sulla stessa modalità della variabile dipendente permettono di misurare l’influenza (ipotetica) della variabile indipendente.
Struttura di una tavola di contingenza Percentuali di colonna (di cella e marginali). Y X Y1 Y2 Y3 X1 f11/f.1 % f12/f.2% f13/f.3 % f1./N % X2 f21/f.1 % f22/f.2 % f23/f.3 % f2./N % 100
Gli odds ratio Le relazioni tra variabili possono essere analizzate in termini probabilistici. L’odds ratio è una misura dell’associazione tra due variabili. L’odds è un rapporto di probabilità. L’odds ratio è un rapporto di odds.
Odds Un odds è un rapporto di frequenze tra osservazioni che appartengono ad una data categoria e osservazioni che non appartengono ad una data categoria. Esempio: distribuzione di freq. in base alla variabile “diploma di laurea” Freq. Laureati 471 Non laureati 685 Tot. 1156 Odd= 471/685 = 0,688 (in decimali) Prob.= 471/1156 = 0,407 = 40,7% Le probabilità variano da 0 a 1 Gli odds variano da 0 a +inf.
Gli odds assumono valori inferiori ad 1 se la probabilità che si verifichi un dato evento è inferiore alla probabilità che non si verifichi Gli odds assumono valori superiori ad 1 se la probabilità che si verifichi un dato evento è superiore alla probabilità che non si verifichi Gli odds assumono valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non si verifichi.
La relazione tra odds e probabilità è la seguente:
Odds e Odds ratio
Odds marginali L’odds marginale di aver conseguito un’istruzione superiore piuttosto che inferiore è pari a 471/685=0.688 L’odds marginale inverso sarà 1/0.688=1.454. La propensione marginale che qualcuno abbia un livello di istruzione inferiore è circa 1.5 volte superiore rispetto a quella di avere un livello di istruzione superiore.
Odds condizionali La distribuzione condizionale del livello di istruzione mostra che per gli uomini gli odds di raggiungere un livello di istruzione superiore piuttosto che inferiore sono 0.875 =237/271. Per le donne i corrispondenti odds si attestano a 0.565 =234/414
Odds ratio Il modo in cui i due odds condizionali differiscono l’uno dall’altro può essere espresso dal loro rapporto: 0.875/0.565=(237/271)/(234/414)=1.547 L’odds ratio indica il rapporto fra il prodotto delle celle della diagonale principale e il prodotto delle celle della diagonale secondaria. L’odds di raggiungere un livello di istruzione superiore piuttosto che inferiore è 1.5 volte più favorevole per i maschi che le donne.
Y a b c d Relazione tra probabilità, odds ed odds ratio e in una tavola due X due: X
Misure di associazione tra variabili categoriali Chi-quadrato (Test di significatività) V di Cramer Q di Yule Phi
Chi-Quadrato χ2 Il Chi-quadrato si basa su un confronto tra l’ipotesi di perfetta indipendenza delle due variabili, ed il fenomeno così come è stato osservato. Si confrontano le frequenze di cella attese con quelle osservate. Le frequenze attese di cella si trovano assumendo che la relazione tra le variabili sia dovuta al caso, e si calcolano attraverso la scomposizione delle frequenze marginali.
In situazione di perfetta indipendenza il χ2 vale zero Chi-Quadrato χ2 Frequenze attese di cella (R x C): In situazione di perfetta indipendenza il χ2 vale zero
Chi-Quadrato χ2 Maggiore è il valore di χ 2 , maggiore è l’associazione tra le variabili, poiché maggiore è la distanza dall’ipotesi di perfetta indipendenza. Se le due variabili sono indipendenti χ 2 vale 0. i=1…R j=1…C Dove f*ij è la frequenza attesa di cella
Test del Chi-Quadrato χ2 Quando N è abbastanza ampio (N>100) è possibile effettuare un test di significatività ricorrendo alla distribuzione nota del Chi-Quadrato. Dunque, considerando il numero di gradi di libertà, è possibile sottoporre a test di significatività l’ipotesi nulla che la relazione tra due variabili sia dovuta al caso. gl = (R-1)(C-1)
Test del Chi-Quadrato χ2 Gradi di libertà: gl = (R-1)(C-1) Il grado di libertà consiste nei valori da immettere che non possono essere calcolati automaticamente con i totali marginali. 40 20 50 10 60 30 10 20 df=1
Test di significatività Testiamo l’H0, l’ipotesi nulla che afferma l’indipendenza, ossia che la relazione tra le due variabili è dovuta al caso. Si stabilisce un livello di significatività oltre il quale respingere l’Ho.
χ2 Distribuzione di probabilità nota della v.c. χ2 P(T<11,78) = 0.7 = = 1 - α φ(χ2) Funzione di densità di χ2 con gl=10 AREA di Rifiuto di H0 0.7 0.3 χ2 11,78
Logica falsificazionista, Ipotesi H1 IPOTESI di LAVORO: - Ipotesi di associazione tra due variabili χ2 >0 H0 IPOTESI NULLA: -Le due variabili sono tra loro indipendenti χ2 =0
Logica falsificazionista, Ipotesi Per corroborare H1 devo falsificare H0. Non verifico H1, ma ne falsifico l’ipotesi “complementare” attraverso un test empirico che mi porterà ad accettare o respingere H0. Se rifiuto H0, allora l’ipotesi di lavoro H1 viene corroborata. Se “accetto” H0, non possiamo escludere che l’associazione non sia dovuta al caso, l’ipotesi di lavoro H1 viene falsificata. ATTENZIONE: Nella logica falsificazionista H0 non è un’ipotesi alternativa che sostituisce H1. Più correttamente occorrerebbe affermare che H0 non può essere rifiutata, non che H0 è accettata.
Logica falsificazionista, errori Realtà del fenomeno H0 vera H0 falsa H0 non rifiutata No errore Errore II tipo (β) H0 rifiutata I tipo (α) Esito del test
α è la probabilità teorica di rifiutare a priori l’H0 quando questa è vera. α viene fissata arbitrariamente, solitamente si utilizza una soglia del 5 %. α = 0,05
Livello di significatività α ; costituisce l’area di RIFIUTO di H0, ossia l’area di ACCETTAZIONE di H1 α χ2 χ2α
φ(χ2) Funzione di densità di χ2 χ2
Il χ2 E’ FUNZIONE DEI GRADI DI LIBERTA’ φ(χ2) g=4 g=10 g=20 χ2
α Valore critico del Chi-quadro corrispondente per 2 gradi di libertà e area alfa dello 0,05 α
Il Chi-Quadrato χ2 è utile come test di significatività statistica, ma non come misura dell’intensità della relazione. Un grave limite del Chi-quadrato è la sua dipendenza dalla numerosità dei casi considerati. In caso di perfetta indipendenza esso vale 0, ma in caso di dipendenza il valore è proporzionale a N.
ESEMPIO: Hp. relazione tra genere e frequenza alla messa Sensibilità del χ2 alla numerosità ESEMPIO: Hp. relazione tra genere e frequenza alla messa Basso Medio Alto Basso Medio Alto 15 32 67 114 14 56 80 150 29 88 147 264 150 320 670 1140 140 560 800 1500 290 880 1470 2640 M M F F χ2 = 5,99 χ2 = 28,74 = 2,87
V di Cramer Per superare i limiti del Chi-quadrato (dovuti alla sensibilità alla numerosità dei casi) come misura di associazione sono stati proposti degli indici corretti. Dove m è il numero minore tra R e C V varia tra 0 ed 1, ed è 0 in situazione di indipendenza. Se le variabili sono dicotomiche V coincide con il coefficiente di correlazione r di Pearson (misura d’associazione cardinale).
Q di Yule Si utilizza nelle tavole 2x2 e considera il rapporto tra somma e differenza dei prodotti delle celle sulle diagonali. a b a+b c d c+d a+c b+d N Q = bc - ad bc + ad Q varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il valore negativo indica una relazione inversa, ossia le modalità delle due variabili sono associate in modo inverso.
Q di Yule Avvertenze: Q assume valore -1 o +1 quando una cella delle quattro è vuota. In questo caso la dipendenza non è perfetta, ma la Q raggiunge il suo massimo. Gli autori suggeriscono di attribuire una forza espressa in quartili al valore assoluto di Q.
Phi Si utilizza nelle tavole 2x2 e considera il rapporto tra differenza dei prodotti delle celle sulle diagonali e la radice del prodotto delle marginali.E’ basato sul Chi-quadrato, come la V di Cramer. Phi varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il valore negativo indica una relazione inversa, ossia le modalità delle due variabili sono associate in modo inverso.
Phi Avvertenze: Talvolta Phi richiede una procedura di standardizzazione poiché il valore massimo può essere lontano dai valori ipotetici -1, +1. Phi è per definizione sensibile alle frequenze marginali. Si dimostra inoltre che:
Misure di cograduazione tra variabili ordinali Gamma Tau-c d di Somers
Applicazioni di analisi bivariata su variabili ordinali
Misure di cograduazione Gamma E’ una misura simmetrica, insensibile alle marginali, e si utilizza tra variabili ordinali. Considera la determinazione di coppie concordanti e discordanti. Una coppia è concordante quando una delle due è superiore all’altra in entrambe le variabili. E’ discordante quando una delle due è superiore all’altra in una variabile, ma inferiore nella seconda variabile. = nc - nd nc + nd Gamma varia tra -1 e 1, ed è 0 in situazione di indipendenza.
Coppie concordanti e discordanti Titolo di studio e salute percepita Non bene Bene Molto Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786
ALL’AUMENTARE DEL TITOLO di STUDIO CORRISPONDE UNA SALUTE MIGLIORE. IPOTIZZIAMO UNA COGRADUAZIONE POSITIVA TRA TITOLO DI STUDIO E SALUTE PERCEPITA, cioè: ALL’AUMENTARE DEL TITOLO di STUDIO CORRISPONDE UNA SALUTE MIGLIORE. IN BASE A CIO DEFINIAMO: Coppie concordanti: quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo di studio più alto associato a una salute migliore. Coppie discordanti: quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo di studio più alto associato a una salute peggiore (o viceversa).
Coppie concordanti nc11=28773 X (11373+2359+15236+3553)= 935726733 Non bene Bene Molto Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc11=28773 X (11373+2359+15236+3553)= 935726733
Coppie concordanti nc12=9299 X (2359+3553)= 54975688 Molto Non bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc12=9299 X (2359+3553)= 54975688
Coppie concordanti nc13= 1202 X (0) = 0 Nessuna coppia concordante Non bene Bene Molto Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc13= 1202 X (0) = 0 Nessuna coppia concordante
Coppie concordanti nc21=10657 X (15236+3553)= 200234373 Molto Non bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc21=10657 X (15236+3553)= 200234373
Coppie concordanti nc22=11373 X (3553)= 40408269 Molto Non bene Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc22=11373 X (3553)= 40408269
Coppie discordanti nd11=28773 X (0)= 0 Nessuna coppia discordante Non bene Bene Molto Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd11=28773 X (0)= 0 Nessuna coppia discordante
Coppie discordanti nd12=9299 X (10657+10334)= 195195309 Molto Non bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd12=9299 X (10657+10334)= 195195309
Coppie discordanti nd13=1202 X (10657+11373+10334+15236)=57215200 Non bene Bene Molto Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd13=1202 X (10657+11373+10334+15236)=57215200
Coppie discordanti nd22=11373 X (10334)= 117528582 Molto Non bene Bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd22=11373 X (10334)= 117528582
Coppie discordanti nd23=2359 X (10334+15236)= 60319630 Molto Non bene Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd23=2359 X (10334+15236)= 60319630
Misure di cograduazione Totale coppie concordanti nc = nc11 + nc12 + nc21 + nc22 = 1.231.345.063 Totale coppie discordanti nd = nd12 + nd13 + nd22 + nd23 = 430.258.721 Le celle che generano coppie concordanti sono (R-1)(C-1) = 4 Così come le celle che generano coppie discordanti.
Misure di cograduazione Gamma nd= 430258721 nc= 1231345063 = nc - nd 1231345063 – 430258721 = 0,482 nc + nd 1231345063 + 430258721 Gamma uguale a 0,482 significa che la relazione tra titolo di studio e salute percepita è positiva, e che la probabilità che in una coppia di soggetti estratta a caso il soggetto che ha maggiore titolo di studio sia anche quello che ha migliore salute è superiore del 48,2 % della probabilità di trovare l’opposto.
Test di significatività per Gamma Misure di cograduazione Test di significatività per Gamma Anche per Gamma esiste un test di significatività che ci permette di testare l’ipotesi nulla di indipendenza. I software permettono di calcolare la probabilità asintotica che viene utilizzata per respingere o meno l’ipotesi nulla.