La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Analisi di dati categoriali Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti.

Presentazioni simili


Presentazione sul tema: "Analisi di dati categoriali Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti."— Transcript della presentazione:

1 Analisi di dati categoriali Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti

2 2 I modelli log-lineari rappresentano un approccio complementare e compatto al problema dellanalisi multivariata delle variabili categoriali Obiettivo: esprimere la struttura della tabella di contingenza a più vie con un numero limitato di parametri Il modello si configura come una descrizione plausibile e parsimoniosa della realtà I modelli log-lineari

3 3 Il modello moltiplicativo tavola 2x2 Le frequenze possono essere espresse come funzione moltiplicativa di quattro parametri effetto generale, effetto numerosità i A effetto marginale della variabile A j B effetto marginale della variabile B ij AB effetto interazione fra le var A e B Lassenza di un effetto si avrà quando il parametro indicante quelleffetto assume valore 1

4 4 Esempio Tab. contingenza 2 x 2 di mobilità intergenerazionale BORCMI BOR CMI A B 4 equazioni per 9 incognite! Occorre introdurre dei vincoli !

5 5 La parametrizzazione di Goodman nel caso di 2 variabili dicotomiche Il prodotto dei parametri relativi alle stesse variabili deve essere uguale i A =1 j B =1 ij AB =1 Svolgendo le produttorie ne deriva: 1 A 2 A =1ossia 1 A =1/ 2 A 1 B 2 B =1ossia 1 B =1/ 2 B 11 AB = 22 AB = 1/ 12 AB =1/ 21 AB

6 6 BORCMI BOR CMI Parametrizzazione di Goodman 4 incognite per 4 valori osservati

7 7 A B Calcolo delleffetto numerosità F 11 F 12 F 21 F 22 Frequenze osservate Media geometrica delle frequenze di cella. Cattura leffetto dovuto alla numerosità dei casi.

8 8 A B Calcolo delleffetto marginale di A F 11 F 12 F 21 F 22 Frequenze osservate E la radice quarta delleffetto marginale di A. Se minore di 1 le chance di avere origini borghesi sono minori di quelle di essere CMI.

9 9 A B Calcolo delleffetto marginale di B F 11 F 12 F 21 F 22 Frequenze osservate E la radice quarta delleffetto marginale di B. Se minore di 1 le chance di avere destinazione borghese sono minori di quelle di essere CMI.

10 10 A B Calcolo delleffetto interazione F 11 F 12 F 21 F 22 Frequenze osservate E la radice quarta dellodds ratio, che misura lassociazione tra le due variabili A/B. Se maggiore di 1, i soggetti di origine borghese (piuttosto che CMI) hanno più chance di diventare borghesi (piuttosto che CMI).

11 11 Calcolo degli effetti A B

12 12 Ricostruzione delle frequenze. Le frequenze ricostruite (attese) sono uguali a quelle osservate nella tabella.

13 13 Luso di pochi parametri (che costituiscono il modello dei dati osservati) ci permette di interpretare gli effetti, ma anche di testare delle ipotesi. VEROSIMIGLIANZA E PARSIMONIA

14 14 Note conclusive modello moltiplicativo Il parametro (e dove 1,28 4= 2,76 è lodds ratio) 1,28 è leffetto interazione o associazione tra A e B e quindi evidenzia la forza dellassociazione tra le variabili La forza della relazione è tanto maggiore quanto più ci allontaniamo da 1. La relazione è positiva se il valore del parametro è superiore ad 1, mentre è negativa se il valore è inferiore ad 1.

15 15 Modelli insaturi F ij = i A j B ij AB modello saturo F ij = i A j B modello insaturo, assumiamo che tra la var.A e la var.B ci sia indipendenza, dunque poniamo leffetto interazione ( ij AB ) pari a 1. F ij = i A modello insaturo, la struttura si semplifica ulteriormente. Fissiamo leffetto marginale della variabile B pari a 1 F ij = modello insaturo, la struttura si semplifica ulteriormente. Assumiamo che i casi siano distribuiti in modo uniforme in tutte le celle.

16 16 Il modello additivo Tavola 2x2 Attraverso il logaritmo le frequenze possono essere espresse come funzione additiva ossia come somma dei quattro parametri. Lequazione log-lineare può essere considerata come unequazione di regressione nella quale lunità di analisi non sono gli individui bensì le celle (la var. dipendente è rappresentata dal logaritmo della frequenza di cella) (Corbetta 1992)

17 17 La parametrizzazione di Goodman nel caso di 2 variabili dicotomiche nel modello additivo La somma dei parametri lambda delle varie categorie di una stessa variabile deve essere uguale a zero. i A =0 j B =0 i j ij AB =0 Svolgendo le sommatorie ne deriva 2 A = - 1 A 2 B = - 1 B 22 AB = 11 AB = - 12 AB = - 21 AB Tale parametrizzazione, introducendo vincoli sui parametri, serve per identificare il modello: in altre parole, abbiamo 4 equazioni e 9 parametri da stimare a partire dalle quattro celle di frequenze. Con tale parametrizzazione le 4 frequenze di cella di una tavola 2x2 possono essere ottenute combinando 4 parametri

18 Calcolo degli effetti modello additivo INTERPRETAZIONE DEI LAMBDA Gli effetti dei marginali e di interazione possono essere considerati in termini di deviazioni dai valori medi delle frequenze di celle. Lo squilibrio fra i due marginali è maggiore per la variabile B rispetto alla variabile A Il valore positivo di 11 AB segnala la presenza di una relazione positiva. Le celle 11 e 22 presentano una frequenza più alta rispetto al caso di indipendenza.

19 19 Ricostruiamo la tab.2*2 con il modello additivo: le frequenze ricostruite (attese) sono uguali a quelle osservate. lnF 11 = + 1 A + 1 B + 11 AB =3,85 lnF 12 = + 1 A - 1 B - 11 AB =3,97 lnF 21 = - 1 A + 1 B - 11 AB =3,78 lnF 22 = - 1 A - 1 B + 11 AB =4,92

20 20 Modelli insaturi lnF ij = + i A + j B + ij AB modello saturo lnF ij = + i A + j B modello insaturo, fissiamo leffetto interazione pari a zero lnF ij = + i A fissiamo leffetto interazione e il marginale della var.b pari a zero lnF ij = fissiamo leffetto interazione e gli effetti dei marginali della var.A e della var.B pari a zero

21 21 Come si calcolano gli errori standard delle stime dei parametri R = numero di categorie della variabile di riga C = numero di categorie della variabile di colonna Lipotesi nulla secondo la quale nella popolazione il valore di lambda è uguale a zero può essere verificata utilizzando un test t.

22 22 Rapportiamo i parametri stimati allerrore standard per calcolare i valori t da confrontare con quelli critici. TEST DI SIGNIFICATIVITA DEI PARAMETRI

23 23 0 0,95 T Soglia +1,98 Soglia -1,98 IPOTESI NULLA Dal momento che i valori ottenuti sono superiori in valore assoluto a ±1,98 (il valore critico di t per alfa=0,05) possiamo concludere che i parametri sono significativamente diversi da zero per alfa=0,05. Non si può passare ad un modello insaturo. 0,025

24 24 Possiamo calcolare gli I.C. dei parametri aggiungendo il valore t allerrore standard: INTERVALLI DI CONFIDENZA DEI PARAMETRI ,61 4,58 lim.inf. lim.sup.

25 25 MODELLO SATURO * MODELLO INDIPENDENZA MODELLO SOLO EFFETTO A MODELLO SOLO EFFETTO B EQUIPROBABILITA MODELLI TEORICI *Il modello saturo riproduce i dati osservati. (AB) Notazione (A)(B) (A) (B)

26 26 Test dei modelli I modelli con tutti i parametri che ci consentono di realizzare lidentità tra frequenze attese ed osservate si chiamano saturi (esso conterrà tanti parametri quante sono le celle). I modelli semplificati, nei quali uno o più parametri vengono fissati a zero vengono definiti insaturi Il modello insaturo genererà delle frequenze teoriche o frequenze attese che verranno confrontate con le frequenze osservate.

27 27 Se gli scarti tra frequenze attese e osservate sono di entità ridotta il modello semplificato (o insaturo) verrà accettato. Il confronto fra frequenze attese e frequenze osservate viene fatto sulla base del calcolo della statistica L 2 Nota come statistica del chi-quadrato del rapporto di verosimiglianza. Si distribuisce come una variabile chi-quadrato con tanti gradi di libertà quanti sono i parametri lambda indipendenti posti a zero.

28 Il modello teorico non deve scostarsi troppo dai dati osservati. LH 0 è che il modello si scosta troppo (contrariamente al test di indipendenza del Chi-quadrato!) 0 L2pL2p L2L2 g = gradi di libertà Rifiuto H 0 Non posso rifiutare H 0 DATI OSSERVATI MODELLO P Probabilità che il modello sia vero !

29 SEX*TITOLODISTUDIO Modello saturo (P=1) Probabilità che il modello sia vero !

30 30 SINTASSI SPSS data list free/ n sex titolo. begin data end data. weight by n. value labels sex 1'm' 2'f' /titolo 1 'licmedia' 2 'diploma'. HILOGLINEAR sex(0 1) titolo(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ESTIM /DESIGN.

31 31 Lobiettivo è trovare un modello con un basso valore di L 2 ad esso associato e quindi con unalta probabilità di rappresentare la struttura delle relazioni tra le variabili a livello di popolazione. Un modello viene corroborato quanto i dati osservati hanno unelevata probabilità di essere generati dal modello ipotizzato. Il rapporto di verosimiglianza è utile per individuare gli scarti tra modello e dati quanto il campione non supera i 1500 casi. Quando il campione è molto ampio ladozione della statistica L 2 comporta il rifiuto di modelli buoni. Il valore della statistica L 2 aumenta allaumentare della dimensione del campione.

32 32 BIC Una statistica più appropriata per valutare la bontà di adattamento del modello ai dati è rappresentata dal Criterio bayesiano di informazione (BIC) LnN è il logaritmo naturale della dimensione del campione Il BIC rappresenta un buon compromesso tra capacità di riproduzione dei dati e parsimonia. Più negativo è il valore assunto dalla statistica BIC, migliore è ladattamento ai dati di un certo modello.

33 33 MODELLO A TRE VIE Modelli gerarchici

34 34 Nei modelli gerarchici le relazioni multivariate di un certo livello includono tutte le relazioni più semplici di livello subordinato. Le frequenze attese vengono stimate sulla base del modello teorico attraverso algoritmi iterativi (ad esempio ladattamento proporzionale iterativo)

35 Esempi di notazione dei modelli gerarchici A=area S=sex E=educ (ASE) - modello saturo lnF ijk = + i A + j S + k E + ij AS + ik AE + jk SE + ijk ASE (AS)(AE)(SE) – effetti a due lnF ijk = + i A + j S + k E + ij AS + ik AE + jk SE (AS)(SE) – effetti a due di sole due variabili lnF ijk = + i A + j S + k E + ij AS + jk SE (A)(S) – effetti marginali di sole due variabili lnF ijk = + i A + j S

36 36 ModelloL2L2 gp (ABC)0,001,00 (AB)(AC)(BC)1,510,20 (AB)(C)34,030,00 (A)(B)(C)76,240,00 ESEMPIO DI VALUTAZIONE DEI MODELLI Probabilità che il modello sia vero !

37 37 CONFRONTO FRA MODELLI ELIMINAZIONE DEI PARAMETRI DAI MODELLI PROCEDURA BACKWARD Si parte dal modello saturo e si eliminano man mano i parametri che non tolgono verosimiglianza. Si aumenta la parsimonia lasciando il modello verosimile

38 38 *PM (1=favorevole alla pena di morte 2=non favorevole) *REL(1=non-praticante 2=praticante) *POL(1=centro-destra 2=centro-sinistra)

39 VALUTAZIONE DEL PASSAGGIO DAL MODELLO SATURO AL MODELLO 2 L L 2 1 = 0,095 g 2 - g 1 =1 ACCETTATO ! VALUTAZIONE DEL PASSAGGIO DAL MODELLO 2 AL MODELLO 3 L L 2 2 =126,835 g 3 - g 2 =1NON ACCETTATO! MODELLO 1 SATURO [PM*REL*POL] L 2 = 0g=0P=1,00 MODELLO 2 INSATURO [PM*REL] [PM*POL] [REL*POL] L 2 = 0,095g=1P=0.75 MODELLO 3 INSATURO [PM*REL] [PM*POL] L 2 = 126,926g=2P=0,00 Il passaggio da un modello allaltro è valutato attraverso la differenza tra i valori L 2 associati ai due modelli (+ PARSIMONIOSO -PARSIMONIOSO), e la differenza tra i rispettivi gradi di libertà. Delta L 2 e Delta G hanno la distribuzione nota del Chi-quadrato, per cui è possibile effettuare un test di significatività.

40 40 *PM (1=favorevole alla pena di morte 2=non favorevole) *REL(1=non-praticante 2=praticante) *POL(1=centro-destra 2=centro-sinistra) data list free/ PM REL POL PESO. begin data end data. weight by PESO. LOGLINEAR PM(1,2) REL(1,2) POL(1,2) /PRINT= ESTIM /DESIGN = PM REL POL PM BY REL PM BY POL REL BY POL.

41 41 SESSOEDUCAZIONE AREA Modello: area*sex*educ lnF ijk = + i A + j S + k E + ij AS + ik AE + jk SE + ijk ASE Abbiamo una relazione tra genere (M/F) e educazione (D/ND). Vogliamo sapere se larea geografica (sud/nord) influisce su questa relazione. Costruiamo un modello teorico di indipendenza e lo confrontiamo con le frequenze osservate. Si tratta di porre a zero i seguenti parametri: ijk ASE

42 42 Modello saturo ASE Modello area*sex*educ lnF ijk = + i A + j S + k E + ij AS + ik AE + jk SE + ijk ASE

43 43 SINTASSI SPSS HILOGLINEAR sex(0 1) titolo(0 1) area(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ESTIM /DESIGN. Modello saturo

44 44 (A)(S)(E) lnF ijk = + i A + j S + j E

45 45 Altro esempio: SPSS SESSO*TITOLODISTUDIO*STATOCIVILE === STC Modello più parsimonioso: (ST)(C)


Scaricare ppt "Analisi di dati categoriali Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti."

Presentazioni simili


Annunci Google