La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

“Teoria e metodi della ricerca sociale e organizzativa”

Presentazioni simili


Presentazione sul tema: "“Teoria e metodi della ricerca sociale e organizzativa”"— Transcript della presentazione:

1 “Teoria e metodi della ricerca sociale e organizzativa”
Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti

2 Relazioni tra variabili
La relazione tra variabili può essere caratterizzata da: forma forza direzione.

3 Forma della relazione La forma di una relazione caratterizza i possibili modi in cui i valori delle variabili sono associati. La forma può caratterizzare anche il segno di una relazione (quando le variabili sono metriche o ordinali).

4 ESEMPIO: forma di una relazione
Percentuali di riga (di cella e marginali) I maschi sono più istruiti delle donne.

5 ESEMPIO: forma di una relazione
Presenza di malattie per fascia d’età Elaborazioni Multiscopo AVQ 2003

6 Forza della relazione La forza della relazione misura il grado di “covariazione” tra le variabili. In altre parole indica il potere predittivo di una variabile sull’altra. “Qualunque fenomeno, che vari in un modo qualsiasi ogni volta che un altro fenomeno varia in qualche modo particolare, è una causa o un effetto di quel fenomeno, p è connesso a quel fenomeno mediante qualche fatto di causazione” John Stuart Mill

7 ESEMPIO: forza di una relazione
Soddisfatti del lavoro Non soddisfatti del lavoro totale maschio 536 287 823 femmina 304 139 443 840 426 1266 V di cramer = 0,035

8 ESEMPIO: forza di una relazione
Coefficiente di determinazione tra anni di scolarità del padre e anni di scolarità del figlio r2 = 0.37

9 Direzione della relazione
Quando è possibile ipotizzare un rapporto di causazione, allora è possibile attribuire alle variabili lo status di dipendenti o indipendenti e definire quindi una direzione di successione. X Y

10 ESEMPIO: direzione della relazione
Stabiliamo che l’istruzione condizioni il reddito ! Regressione lineare Ogni anno di scolarità in più “produce” in media un incremento nel reddito di 128 euro

11 Variabili indipendenti e dipendenti
A seconda della posizione che le variabili occupano in un’ipotesi causale esse si costituiscono come variabili dipendenti o indipendenti. Una stessa variabile dunque può essere dipendente o indipendente a seconda del modello analitico in cui è inserita. Ad esempio la coorte d’età (X) può condizionare il titolo di studio (Y). Ma in un altro caso il titolo di studio (X) può essere il fattore condizionante della carriera lavorativa (Y).

12 Applicazioni di analisi bivariata su variabili categoriali
su variabili ordinali su variabili cardinali

13 Applicazioni di analisi bivariata su variabili categoriali

14 Variabili categoriali (o nominali)
Su esse registriamo un numero finito di stati (modalità) che riteniamo non ordinabili lungo alcuna dimensione concettuale. Le modalità godono di un alto grado di autonomia semantica.

15 L’Analisi Bivariata Tratta lo studio della distribuzione dei dati osservati sugli stati di due variabili. Si indagano le relazioni intercorrenti tra due variabili. Possono dare risposta a semplici interrogativi teorici.

16 Tavole di contingenza, o tabelle a doppia entrata, o incroci
L’Analisi Bivariata Tavole di contingenza, o tabelle a doppia entrata, o incroci Costituiscono lo fase più elementare nello studio delle relazioni tra due variabili.

17 Struttura di una tavola di contingenza
Frequenze di cella (R x C) e marginali (R + C) Variabile X sulle righe, variabile Y sulle colonne Y X Y1 Y2 Y3 X1 f11 f12 f13 f1. X2 f21 f22 f23 f2. f.1 f.2 f.3 N

18 fij frequenza della cella della i-esima riga e j-esima colonna
Struttura di una tavola di contingenza Righe: i = 1…R Colonne: j = 1…C fij frequenza della cella della i-esima riga e j-esima colonna fi. frequenza marginale della i-esima riga f.j frequenza marginale della j-esima colonna

19 Struttura di una tavola di contingenza
Frequenze di cella e marginali Variabile X sulle righe, variabile Y sulle colonne

20 Struttura di una tavola di contingenza
Percentuali totali di cella e marginali Y X Y1 Y2 Y3 X1 f11/N % f12/N % f13/N % f1. /N % X2 f21/N % f22/N % f23/N % f2. /N % f.1/N % f.2/N % f.3/N % 100

21 Struttura di una tavola di contingenza
Percentuali totali di cella e marginali

22 Struttura di una tavola di contingenza
Percentuali CONDIZIONATE di riga (di cella e marginali). Y X Y1 Y2 Y3 X1 f11/f1. % f12/f1. % f13/f1. % 100 X2 f21/f2. % f22/f2. % f23/f2. % f.1/N % f.2/N % f.3/N %

23 Struttura di una tavola di contingenza
Percentuali CONDIZIONATE di riga (di cella e marginali) Le percentuali di riga considerano lo stesso numero di maschi e femmine (=100).

24 Differenze percentuali tra percentuali condizionate
- 1,5 % + 0,8 % Differenza % tra maschi e femmine sul titolo dell’obbligo ( a parità di numero). Differenza % tra maschi e femmine sul titolo universitario ( a parità di numero). Le differenze calcolate confrontando le percentuali di riga (ossia rispetto alla variabile indipendente) sulla stessa modalità della variabile dipendente permettono di misurare l’influenza (ipotetica) della variabile indipendente.

25 Struttura di una tavola di contingenza
Percentuali di colonna (di cella e marginali). Y X Y1 Y2 Y3 X1 f11/f.1 % f12/f.2% f13/f.3 % f1./N % X2 f21/f.1 % f22/f.2 % f23/f.3 % f2./N % 100

26 Gli odds ratio Le relazioni tra variabili possono essere analizzate in termini probabilistici. L’odds ratio è una misura dell’associazione tra due variabili. L’odds è un rapporto di probabilità. L’odds ratio è un rapporto di odds.

27 Odds Un odds è un rapporto di frequenze tra osservazioni che appartengono ad una data categoria e osservazioni che non appartengono ad una data categoria. Esempio: distribuzione di freq. in base alla variabile “diploma di laurea” Freq. Laureati 471 Non laureati 685 Tot. 1156 Odd= 471/685 = 0,688 (in decimali) Prob.= 471/1156 = 0,407 = 40,7% Le probabilità variano da 0 a 1 Gli odds variano da 0 a +inf.

28 Gli odds assumono valori inferiori ad 1 se la probabilità che si verifichi un dato evento è inferiore alla probabilità che non si verifichi Gli odds assumono valori superiori ad 1 se la probabilità che si verifichi un dato evento è superiore alla probabilità che non si verifichi Gli odds assumono valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non si verifichi.

29 La relazione tra odds e probabilità è la seguente:

30 Odds e Odds ratio

31 Odds marginali L’odds marginale di aver conseguito un’istruzione superiore piuttosto che inferiore è pari a 471/685=0.688 L’odds marginale inverso sarà 1/0.688= La propensione marginale che qualcuno abbia un livello di istruzione inferiore è circa 1.5 volte superiore rispetto a quella di avere un livello di istruzione superiore.

32 Odds condizionali La distribuzione condizionale del livello di istruzione mostra che per gli uomini gli odds di raggiungere un livello di istruzione superiore piuttosto che inferiore sono =237/271. Per le donne i corrispondenti odds si attestano a =234/414

33 Odds ratio Il modo in cui i due odds condizionali differiscono l’uno dall’altro può essere espresso dal loro rapporto: 0.875/0.565=(237/271)/(234/414)=1.547 L’odds ratio indica il rapporto fra il prodotto delle celle della diagonale principale e il prodotto delle celle della diagonale secondaria. L’odds di raggiungere un livello di istruzione superiore piuttosto che inferiore è 1.5 volte più favorevole per i maschi che le donne.

34 Y a b c d Relazione tra probabilità, odds ed odds ratio e in una tavola due X due: X

35 Misure di associazione tra variabili categoriali
Chi-quadrato (Test di significatività) V di Cramer Q di Yule Phi

36 Chi-Quadrato χ2 Il Chi-quadrato si basa su un confronto tra l’ipotesi di perfetta indipendenza delle due variabili, ed il fenomeno così come è stato osservato. Si confrontano le frequenze di cella attese con quelle osservate. Le frequenze attese di cella si trovano assumendo che la relazione tra le variabili sia dovuta al caso, e si calcolano attraverso la scomposizione delle frequenze marginali.

37 In situazione di perfetta indipendenza il χ2 vale zero
Chi-Quadrato χ2 Frequenze attese di cella (R x C): In situazione di perfetta indipendenza il χ2 vale zero

38 Chi-Quadrato χ2 Maggiore è il valore di χ 2 , maggiore è l’associazione tra le variabili, poiché maggiore è la distanza dall’ipotesi di perfetta indipendenza. Se le due variabili sono indipendenti χ 2 vale 0. i=1…R j=1…C Dove f*ij è la frequenza attesa di cella

39 Test del Chi-Quadrato χ2
Quando N è abbastanza ampio (N>100) è possibile effettuare un test di significatività ricorrendo alla distribuzione nota del Chi-Quadrato. Dunque, considerando il numero di gradi di libertà, è possibile sottoporre a test di significatività l’ipotesi nulla che la relazione tra due variabili sia dovuta al caso. gl = (R-1)(C-1)

40 Test del Chi-Quadrato χ2
Gradi di libertà: gl = (R-1)(C-1) Il grado di libertà consiste nei valori da immettere che non possono essere calcolati automaticamente con i totali marginali. 40 20 50 10 60 30 10 20 df=1

41 Test di significatività
Testiamo l’H0, l’ipotesi nulla che afferma l’indipendenza, ossia che la relazione tra le due variabili è dovuta al caso. Si stabilisce un livello di significatività oltre il quale respingere l’Ho.

42 χ2 Distribuzione di probabilità nota della v.c. χ2
P(T<11,78) = 0.7 = = 1 - α φ(χ2) Funzione di densità di χ con gl=10 AREA di Rifiuto di H0 0.7 0.3 χ2 11,78

43 Logica falsificazionista, Ipotesi
H1 IPOTESI di LAVORO: - Ipotesi di associazione tra due variabili χ2 >0 H0 IPOTESI NULLA: -Le due variabili sono tra loro indipendenti χ2 =0

44 Logica falsificazionista, Ipotesi
Per corroborare H1 devo falsificare H0. Non verifico H1, ma ne falsifico l’ipotesi “complementare” attraverso un test empirico che mi porterà ad accettare o respingere H0. Se rifiuto H0, allora l’ipotesi di lavoro H1 viene corroborata. Se “accetto” H0, non possiamo escludere che l’associazione non sia dovuta al caso, l’ipotesi di lavoro H1 viene falsificata. ATTENZIONE: Nella logica falsificazionista H0 non è un’ipotesi alternativa che sostituisce H1. Più correttamente occorrerebbe affermare che H0 non può essere rifiutata, non che H0 è accettata.

45 Logica falsificazionista, errori
Realtà del fenomeno H0 vera H0 falsa H0 non rifiutata No errore Errore II tipo (β) H0 rifiutata I tipo (α) Esito del test

46 α è la probabilità teorica di rifiutare a priori l’H0 quando questa è vera.
α viene fissata arbitrariamente, solitamente si utilizza una soglia del 5 %. α = 0,05

47 Livello di significatività α ; costituisce l’area di RIFIUTO di H0, ossia l’area di ACCETTAZIONE di H1 α χ2 χ2α

48 φ(χ2) Funzione di densità di χ2
χ2

49 Il χ2 E’ FUNZIONE DEI GRADI DI LIBERTA’
φ(χ2) g=4 g=10 g=20 χ2

50 α Valore critico del Chi-quadro corrispondente
per 2 gradi di libertà e area alfa dello 0,05 α

51 Il Chi-Quadrato χ2 è utile come test di significatività statistica, ma non come misura dell’intensità della relazione. Un grave limite del Chi-quadrato è la sua dipendenza dalla numerosità dei casi considerati. In caso di perfetta indipendenza esso vale 0, ma in caso di dipendenza il valore è proporzionale a N.

52 ESEMPIO: Hp. relazione tra genere e frequenza alla messa
Sensibilità del χ2 alla numerosità ESEMPIO: Hp. relazione tra genere e frequenza alla messa Basso Medio Alto Basso Medio Alto 15 32 67 114 14 56 80 150 29 88 147 264 150 320 670 1140 140 560 800 1500 290 880 1470 2640 M M F F χ2 = 5,99 χ2 = 28,74 = 2,87

53 V di Cramer Per superare i limiti del Chi-quadrato (dovuti alla sensibilità alla numerosità dei casi) come misura di associazione sono stati proposti degli indici corretti. Dove m è il numero minore tra R e C V varia tra 0 ed 1, ed è 0 in situazione di indipendenza. Se le variabili sono dicotomiche V coincide con il coefficiente di correlazione r di Pearson (misura d’associazione cardinale).

54 Q di Yule Si utilizza nelle tavole 2x2 e considera il rapporto tra somma e differenza dei prodotti delle celle sulle diagonali. a b a+b c d c+d a+c b+d N Q = bc - ad bc + ad Q varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il valore negativo indica una relazione inversa, ossia le modalità delle due variabili sono associate in modo inverso.

55 Q di Yule Avvertenze: Q assume valore -1 o +1 quando una cella delle quattro è vuota. In questo caso la dipendenza non è perfetta, ma la Q raggiunge il suo massimo. Gli autori suggeriscono di attribuire una forza espressa in quartili al valore assoluto di Q.

56 Phi Si utilizza nelle tavole 2x2 e considera il rapporto tra differenza dei prodotti delle celle sulle diagonali e la radice del prodotto delle marginali.E’ basato sul Chi-quadrato, come la V di Cramer. Phi varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il valore negativo indica una relazione inversa, ossia le modalità delle due variabili sono associate in modo inverso.

57 Phi Avvertenze: Talvolta Phi richiede una procedura di standardizzazione poiché il valore massimo può essere lontano dai valori ipotetici -1, +1. Phi è per definizione sensibile alle frequenze marginali. Si dimostra inoltre che:

58 Misure di cograduazione tra variabili ordinali
Gamma Tau-c d di Somers

59 Applicazioni di analisi bivariata su variabili ordinali

60 Misure di cograduazione
Gamma E’ una misura simmetrica, insensibile alle marginali, e si utilizza tra variabili ordinali. Considera la determinazione di coppie concordanti e discordanti. Una coppia è concordante quando una delle due è superiore all’altra in entrambe le variabili. E’ discordante quando una delle due è superiore all’altra in una variabile, ma inferiore nella seconda variabile. = nc - nd nc + nd Gamma varia tra -1 e 1, ed è 0 in situazione di indipendenza.

61 Coppie concordanti e discordanti
Titolo di studio e salute percepita Non bene Bene Molto Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786

62 ALL’AUMENTARE DEL TITOLO di STUDIO CORRISPONDE UNA SALUTE MIGLIORE.
IPOTIZZIAMO UNA COGRADUAZIONE POSITIVA TRA TITOLO DI STUDIO E SALUTE PERCEPITA, cioè: ALL’AUMENTARE DEL TITOLO di STUDIO CORRISPONDE UNA SALUTE MIGLIORE. IN BASE A CIO DEFINIAMO: Coppie concordanti: quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo di studio più alto associato a una salute migliore. Coppie discordanti: quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo di studio più alto associato a una salute peggiore (o viceversa).

63 Coppie concordanti nc11=28773 X (11373+2359+15236+3553)= 935726733
Non bene Bene Molto Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc11=28773 X ( )=

64 Coppie concordanti nc12=9299 X (2359+3553)= 54975688 Molto Non bene
Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc12=9299 X ( )=

65 Coppie concordanti nc13= 1202 X (0) = 0 Nessuna coppia concordante
Non bene Bene Molto Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc13= 1202 X (0) = 0 Nessuna coppia concordante

66 Coppie concordanti nc21=10657 X (15236+3553)= 200234373 Molto Non bene
Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc21=10657 X ( )=

67 Coppie concordanti nc22=11373 X (3553)= 40408269 Molto Non bene Bene
Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nc22=11373 X (3553)=

68 Coppie discordanti nd11=28773 X (0)= 0 Nessuna coppia discordante
Non bene Bene Molto Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd11=28773 X (0)= 0 Nessuna coppia discordante

69 Coppie discordanti nd12=9299 X (10657+10334)= 195195309 Molto Non bene
Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd12=9299 X ( )=

70 Coppie discordanti nd13=1202 X (10657+11373+10334+15236)=57215200
Non bene Bene Molto Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd13=1202 X ( )=

71 Coppie discordanti nd22=11373 X (10334)= 117528582 Molto Non bene Bene
Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd22=11373 X (10334)=

72 Coppie discordanti nd23=2359 X (10334+15236)= 60319630 Molto Non bene
Licenza elementare 28773 9299 1202 39274 Licenza media 10657 11373 2359 24389 Diploma e più 10334 15236 3553 29123 49764 35908 7114 92786 nd23=2359 X ( )=

73 Misure di cograduazione
Totale coppie concordanti nc = nc11 + nc12 + nc21 + nc22 = Totale coppie discordanti nd = nd12 + nd13 + nd22 + nd23 = Le celle che generano coppie concordanti sono (R-1)(C-1) = 4 Così come le celle che generano coppie discordanti.

74 Misure di cograduazione
Gamma nd= nc= = nc - nd = 0,482 nc + nd Gamma uguale a 0,482 significa che la relazione tra titolo di studio e salute percepita è positiva, e che la probabilità che in una coppia di soggetti estratta a caso il soggetto che ha maggiore titolo di studio sia anche quello che ha migliore salute è superiore del 48,2 % della probabilità di trovare l’opposto.

75 Test di significatività per Gamma
Misure di cograduazione Test di significatività per Gamma Anche per Gamma esiste un test di significatività che ci permette di testare l’ipotesi nulla di indipendenza. I software permettono di calcolare la probabilità asintotica che viene utilizzata per respingere o meno l’ipotesi nulla.


Scaricare ppt "“Teoria e metodi della ricerca sociale e organizzativa”"

Presentazioni simili


Annunci Google