La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Teoria e metodi della ricerca sociale e organizzativa Corso di Laurea in Scienze dellOrganizzazione Facoltà di Sociologia Università Milano-Bicocca 2009.

Presentazioni simili


Presentazione sul tema: "1 Teoria e metodi della ricerca sociale e organizzativa Corso di Laurea in Scienze dellOrganizzazione Facoltà di Sociologia Università Milano-Bicocca 2009."— Transcript della presentazione:

1 1 Teoria e metodi della ricerca sociale e organizzativa Corso di Laurea in Scienze dellOrganizzazione Facoltà di Sociologia Università Milano-Bicocca 2009 Simone Sarti

2 2 Relazioni tra variabili La relazione tra variabili può essere caratterizzata da: forma forza direzione.

3 3 Forma della relazione La forma di una relazione caratterizza i possibili modi in cui i valori delle variabili sono associati. La forma può caratterizzare anche il segno di una relazione (quando le variabili sono metriche o ordinali).

4 4 ESEMPIO: forma di una relazione Percentuali di riga (di cella e marginali) I maschi sono più istruiti delle donne.

5 5 Presenza di malattie per fascia detà Elaborazioni Multiscopo AVQ 2003 ESEMPIO: forma di una relazione

6 6 Forza della relazione La forza della relazione misura il grado di covariazione tra le variabili. In altre parole indica il potere predittivo di una variabile sullaltra. Qualunque fenomeno, che vari in un modo qualsiasi ogni volta che un altro fenomeno varia in qualche modo particolare, è una causa o un effetto di quel fenomeno, p è connesso a quel fenomeno mediante qualche fatto di causazione John Stuart Mill

7 7 ESEMPIO: forza di una relazione V di cramer = 0,035 Soddisfatti del lavoro Non soddisfatti del lavoro totale maschio femmina totale

8 8 ESEMPIO: forza di una relazione Coefficiente di determinazione tra anni di scolarità del padre e anni di scolarità del figlio r 2 = 0.37

9 9 Direzione della relazione Quando è possibile ipotizzare un rapporto di causazione, allora è possibile attribuire alle variabili lo status di dipendenti o indipendenti e definire quindi una direzione di successione. XY

10 10 ESEMPIO: direzione della relazione Ogni anno di scolarità in più produce in media un incremento nel reddito di 128 euro Stabiliamo che listruzione condizioni il reddito ! Regressione lineare

11 11 Variabili indipendenti e dipendenti A seconda della posizione che le variabili occupano in unipotesi causale esse si costituiscono come variabili dipendenti o indipendenti. Una stessa variabile dunque può essere dipendente o indipendente a seconda del modello analitico in cui è inserita. Ad esempio la coorte detà (X) può condizionare il titolo di studio (Y). Ma in un altro caso il titolo di studio (X) può essere il fattore condizionante della carriera lavorativa (Y).

12 12 Applicazioni di analisi bivariata su variabili categoriali su variabili ordinali su variabili cardinali

13 Applicazioni di analisi bivariata su variabili categoriali

14 Variabili categoriali (o nominali) Su esse registriamo un numero finito di stati (modalità) che riteniamo non ordinabili lungo alcuna dimensione concettuale. Le modalità godono di un alto grado di autonomia semantica.

15 LAnalisi Bivariata Tratta lo studio della distribuzione dei dati osservati sugli stati di due variabili. Si indagano le relazioni intercorrenti tra due variabili. Possono dare risposta a semplici interrogativi teorici.

16 LAnalisi Bivariata Tavole di contingenza, o tabelle a doppia entrata, o incroci Costituiscono lo fase più elementare nello studio delle relazioni tra due variabili.

17 Struttura di una tavola di contingenza YXYX Y1Y1 Y2Y2 Y3Y3 X1X1 f 11 f 12 f 13 f 1. X2X2 f 21 f 22 f 23 f 2. f.1 f.2 f.3 N Frequenze di cella (R x C) e marginali (R + C) Variabile X sulle righe, variabile Y sulle colonne

18 Struttura di una tavola di contingenza Righe: i = 1…R Colonne:j = 1…C f ij frequenza della cella della i-esima riga e j-esima colonna f.j frequenza marginale della j-esima colonna f i. frequenza marginale della i-esima riga

19 Struttura di una tavola di contingenza Frequenze di cella e marginali Variabile X sulle righe, variabile Y sulle colonne

20 Struttura di una tavola di contingenza YXYX Y1Y1 Y2Y2 Y3Y3 X1X1 f 11 /N %f 12 /N %f 13 /N %f 1. /N % X2X2 f 21 /N %f 22 /N %f 23 /N %f 2. /N % f.1 /N %f.2 /N %f.3 /N % 100 Percentuali totali di cella e marginali

21 Struttura di una tavola di contingenza Percentuali totali di cella e marginali

22 Struttura di una tavola di contingenza YXYX Y1Y1 Y2Y2 Y3Y3 X1X1 f 11 /f 1. %f 12 /f 1. %f 13 /f 1. %100 X2X2 f 21 /f 2. %f 22 /f 2. %f 23 /f 2. %100 f.1 /N %f.2 /N %f.3 /N % 100 Percentuali CONDIZIONATE di riga (di cella e marginali).

23 Struttura di una tavola di contingenza Percentuali CONDIZIONATE di riga (di cella e marginali) Le percentuali di riga considerano lo stesso numero di maschi e femmine (=100).

24 Differenze percentuali tra percentuali condizionate Le differenze calcolate confrontando le percentuali di riga (ossia rispetto alla variabile indipendente) sulla stessa modalità della variabile dipendente permettono di misurare linfluenza (ipotetica) della variabile indipendente. - 1,5 % Differenza % tra maschi e femmine sul titolo dellobbligo ( a parità di numero). + 0,8 % Differenza % tra maschi e femmine sul titolo universitario ( a parità di numero).

25 Struttura di una tavola di contingenza YXYX Y1Y1 Y2Y2 Y3Y3 X1X1 f 11 /f.1 %f 12 /f.2 %f 13 /f.3 %f 1. /N % X2X2 f 21 /f.1 %f 22 /f.2 %f 23 /f.3 %f 2. /N % 100 Percentuali di colonna (di cella e marginali).

26 26 Gli odds ratio Le relazioni tra variabili possono essere analizzate in termini probabilistici. Lodds ratio è una misura dellassociazione tra due variabili. Lodds è un rapporto di probabilità. Lodds ratio è un rapporto di odds.

27 27 Odds Un odds è un rapporto di frequenze tra osservazioni che appartengono ad una data categoria e osservazioni che non appartengono ad una data categoria. Freq. Laureati471 Non laureati685 Tot.1156 Odd= 471/685 = 0,688(in decimali) Prob.= 471/1156 = 0,407 = 40,7% Le probabilità variano da 0 a 1 Gli odds variano da 0 a +inf. Esempio: distribuzione di freq. in base alla variabile diploma di laurea

28 28 Gli odds assumono valori inferiori ad 1 se la probabilità che si verifichi un dato evento è inferiore alla probabilità che non si verifichi Gli odds assumono valori superiori ad 1 se la probabilità che si verifichi un dato evento è superiore alla probabilità che non si verifichi Gli odds assumono valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non si verifichi.

29 29 La relazione tra odds e probabilità è la seguente:

30 30 Odds e Odds ratio

31 31 Odds marginali Lodds marginale di aver conseguito unistruzione superiore piuttosto che inferiore è pari a 471/685=0.688 Lodds marginale inverso sarà 1/0.688= La propensione marginale che qualcuno abbia un livello di istruzione inferiore è circa 1.5 volte superiore rispetto a quella di avere un livello di istruzione superiore.

32 32 Odds condizionali La distribuzione condizionale del livello di istruzione mostra che per gli uomini gli odds di raggiungere un livello di istruzione superiore piuttosto che inferiore sono =237/271. Per le donne i corrispondenti odds si attestano a =234/414

33 33 Odds ratio Il modo in cui i due odds condizionali differiscono luno dallaltro può essere espresso dal loro rapporto: 0.875/0.565=(237/271)/(234/414)=1.547 Lodds ratio indica il rapporto fra il prodotto delle celle della diagonale principale e il prodotto delle celle della diagonale secondaria. Lodds di raggiungere un livello di istruzione superiore piuttosto che inferiore è 1.5 volte più favorevole per i maschi che le donne.

34 34 Relazione tra probabilità, odds ed odds ratio e in una tavola due X due: ab cd X Y

35 Misure di associazione tra variabili categoriali Chi-quadrato (Test di significatività) V di Cramer Q di Yule Phi

36 Chi-Quadrato χ 2 Il Chi-quadrato si basa su un confronto tra lipotesi di perfetta indipendenza delle due variabili, ed il fenomeno così come è stato osservato. Si confrontano le frequenze di cella attese con quelle osservate. Le frequenze attese di cella si trovano assumendo che la relazione tra le variabili sia dovuta al caso, e si calcolano attraverso la scomposizione delle frequenze marginali.

37 Chi-Quadrato χ 2 Frequenze attese di cella (R x C): In situazione di perfetta indipendenza il χ 2 vale zero

38 Chi-Quadrato χ 2 Maggiore è il valore di χ 2, maggiore è lassociazione tra le variabili, poiché maggiore è la distanza dallipotesi di perfetta indipendenza. Se le due variabili sono indipendenti χ 2 vale 0. i=1…R j=1…C Dove f* ij è la frequenza attesa di cella

39 Test del Chi-Quadrato χ 2 Quando N è abbastanza ampio (N>100) è possibile effettuare un test di significatività ricorrendo alla distribuzione nota del Chi- Quadrato. Dunque, considerando il numero di gradi di libertà, è possibile sottoporre a test di significatività lipotesi nulla che la relazione tra due variabili sia dovuta al caso. gl = (R-1)(C-1)

40 Test del Chi-Quadrato χ 2 Gradi di libertà: gl = (R-1)(C-1) Il grado di libertà consiste nei valori da immettere che non possono essere calcolati automaticamente con i totali marginali df=1

41 Test di significatività Testiamo lH 0, lipotesi nulla che afferma lindipendenza, ossia che la relazione tra le due variabili è dovuta al caso. Si stabilisce un livello di significatività oltre il quale respingere lH o.

42 Distribuzione di probabilità nota della v.c. χ 2 P(T<11,78) = 0.7 = φ( χ 2 ) Funzione di densità di χ 2 con gl=10 χ2χ2 AREA di Rifiuto di H 0 = 1 - α 11,

43 Logica falsificazionista, Ipotesi H 1 IPOTESI di LAVORO: - Ipotesi di associazione tra due variabili χ 2 >0 H 0 IPOTESI NULLA: -Le due variabili sono tra loro indipendenti χ 2 =0

44 Logica falsificazionista, Ipotesi Per corroborare H 1 devo falsificare H 0. Non verifico H 1, ma ne falsifico lipotesi complementare attraverso un test empirico che mi porterà ad accettare o respingere H 0. Se rifiuto H 0, allora lipotesi di lavoro H 1 viene corroborata. Se accetto H 0, non possiamo escludere che lassociazione non sia dovuta al caso, lipotesi di lavoro H 1 viene falsificata. ATTENZIONE: Nella logica falsificazionista H 0 non è unipotesi alternativa che sostituisce H 1. Più correttamente occorrerebbe affermare che H 0 non può essere rifiutata, non che H 0 è accettata.

45 Logica falsificazionista, errori H 0 veraH 0 falsa H 0 non rifiutata No errore Errore II tipo (β) H 0 rifiutata Errore I tipo (α) No errore Esito del test Realtà del fenomeno

46 α è la probabilità teorica di rifiutare a priori lH 0 quando questa è vera. α viene fissata arbitrariamente, solitamente si utilizza una soglia del 5 %. α = 0,05

47 Livello di significatività α ; costituisce larea di RIFIUTO di H 0, ossia larea di ACCETTAZIONE di H 1 0 α χ2αχ2α χ2χ2

48 φ( χ 2 ) Funzione di densità di χ 2 0 φ(χ2)φ(χ2) χ2χ2

49 Il χ 2 E FUNZIONE DEI GRADI DI LIBERTA 0 φ(χ2)φ(χ2) χ2χ2 g=10 g=20 g=4

50 Valore critico del Chi-quadro corrispondente per 2 gradi di libertà e area alfa dello 0,05 0 α

51 Il Chi-Quadrato χ 2 è utile come test di significatività statistica, ma non come misura dellintensità della relazione. Un grave limite del Chi-quadrato è la sua dipendenza dalla numerosità dei casi considerati. In caso di perfetta indipendenza esso vale 0, ma in caso di dipendenza il valore è proporzionale a N.

52 Sensibilità del χ 2 alla numerosità χ2χ2 χ2χ2 = 2,87 = 28,74 = 5,99 ESEMPIO: Hp. relazione tra genere e frequenza alla messa M F M F Basso Medio Alto

53 V di Cramer Per superare i limiti del Chi-quadrato (dovuti alla sensibilità alla numerosità dei casi) come misura di associazione sono stati proposti degli indici corretti. V varia tra 0 ed 1, ed è 0 in situazione di indipendenza. Se le variabili sono dicotomiche V coincide con il coefficiente di correlazione r di Pearson (misura dassociazione cardinale). Dove m è il numero minore tra R e C

54 Q di Yule Si utilizza nelle tavole 2x2 e considera il rapporto tra somma e differenza dei prodotti delle celle sulle diagonali. Q = bc - ad bc + ad aba+b cdc+d a+cb+dN Q varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il valore negativo indica una relazione inversa, ossia le modalità delle due variabili sono associate in modo inverso.

55 Q di Yule Avvertenze: Q assume valore -1 o +1 quando una cella delle quattro è vuota. In questo caso la dipendenza non è perfetta, ma la Q raggiunge il suo massimo. Gli autori suggeriscono di attribuire una forza espressa in quartili al valore assoluto di Q.

56 Phi Si utilizza nelle tavole 2x2 e considera il rapporto tra differenza dei prodotti delle celle sulle diagonali e la radice del prodotto delle marginali.E basato sul Chi-quadrato, come la V di Cramer. Phi varia tra -1 e 1, ed è 0 in situazione di indipendenza. Il valore negativo indica una relazione inversa, ossia le modalità delle due variabili sono associate in modo inverso.

57 Phi Avvertenze: Talvolta Phi richiede una procedura di standardizzazione poiché il valore massimo può essere lontano dai valori ipotetici -1, +1. Phi è per definizione sensibile alle frequenze marginali. Si dimostra inoltre che:

58 Gamma Tau-c d di Somers Misure di cograduazione tra variabili ordinali

59 Applicazioni di analisi bivariata su variabili ordinali

60 Gamma E una misura simmetrica, insensibile alle marginali, e si utilizza tra variabili ordinali. Considera la determinazione di coppie concordanti e discordanti. = n c - n d n c + n d Gamma varia tra -1 e 1, ed è 0 in situazione di indipendenza. Una coppia è concordante quando una delle due è superiore allaltra in entrambe le variabili. E discordante quando una delle due è superiore allaltra in una variabile, ma inferiore nella seconda variabile. Misure di cograduazione

61 Coppie concordanti e discordanti Non bene Bene Molto Bene Licenza elementare Licenza media Diploma e più Titolo di studio e salute percepita

62 Coppie concordanti: quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo di studio più alto associato a una salute migliore. IPOTIZZIAMO UNA COGRADUAZIONE POSITIVA TRA TITOLO DI STUDIO E SALUTE PERCEPITA, cioè: ALLAUMENTARE DEL TITOLO di STUDIO CORRISPONDE UNA SALUTE MIGLIORE. IN BASE A CIO DEFINIAMO: Coppie discordanti: quando, rispetto ad una determinata cella ij, le altre celle hanno un titolo di studio più alto associato a una salute peggiore (o viceversa).

63 Coppie concordanti n c11 =28773 X ( )= Non bene Bene Molto Bene Licenza elementare Licenza media Diploma e più

64 Coppie concordanti n c12 =9299 X ( )= Non bene Bene Molto Bene Licenza elementare Licenza media Diploma e più

65 Coppie concordanti n c13 = 1202 X (0) = 0 Nessuna coppia concordante Non bene Bene Molto Bene Licenza elementare Licenza media Diploma e più

66 Coppie concordanti n c21 =10657 X ( )= Non bene Bene Molto Bene Licenza elementare Licenza media Diploma e più

67 Coppie concordanti n c22 =11373 X (3553)= Non bene Bene Molto Bene Licenza elementare Licenza media Diploma e più

68 Coppie discordanti Non bene Bene Molto Bene Licenza elementare Licenza media Diploma e più n d11 =28773 X (0)= 0 Nessuna coppia discordante

69 Coppie discordanti Non bene Bene Molto Bene Licenza elementare Licenza media Diploma e più n d12 =9299 X ( )=

70 Coppie discordanti Non bene Bene Molto Bene Licenza elementare Licenza media Diploma e più n d13 =1202 X ( )=

71 Coppie discordanti Non bene Bene Molto Bene Licenza elementare Licenza media Diploma e più n d22 =11373 X (10334)=

72 Coppie discordanti Non bene Bene Molto Bene Licenza elementare Licenza media Diploma e più n d23 =2359 X ( )=

73 Misure di cograduazione n d = n d12 + n d13 + n d22 + n d23 = n c = n c11 + n c12 + n c21 + n c22 = Totale coppie discordanti Totale coppie concordanti Le celle che generano coppie concordanti sono (R-1)(C-1) = 4 Così come le celle che generano coppie discordanti.

74 Gamma = n c - n d = – = 0,482 n c + n d Misure di cograduazione n d = n c = Gamma uguale a 0,482 significa che la relazione tra titolo di studio e salute percepita è positiva, e che la probabilità che in una coppia di soggetti estratta a caso il soggetto che ha maggiore titolo di studio sia anche quello che ha migliore salute è superiore del 48,2 % della probabilità di trovare lopposto.

75 75 Test di significatività per Gamma Misure di cograduazione Anche per Gamma esiste un test di significatività che ci permette di testare lipotesi nulla di indipendenza. I software permettono di calcolare la probabilità asintotica che viene utilizzata per respingere o meno lipotesi nulla.


Scaricare ppt "1 Teoria e metodi della ricerca sociale e organizzativa Corso di Laurea in Scienze dellOrganizzazione Facoltà di Sociologia Università Milano-Bicocca 2009."

Presentazioni simili


Annunci Google