La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

“Analisi di dati categoriali”

Presentazioni simili


Presentazione sul tema: "“Analisi di dati categoriali”"— Transcript della presentazione:

1 “Analisi di dati categoriali”
Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti

2 I modelli log-lineari I modelli log-lineari rappresentano un approccio complementare e compatto al problema dell’analisi multivariata delle variabili categoriali Obiettivo: esprimere la struttura della tabella di contingenza a più vie con un numero limitato di parametri Il modello si configura come una descrizione plausibile e parsimoniosa della realtà

3 Il modello moltiplicativo tavola 2x2
Le frequenze possono essere espresse come funzione moltiplicativa di quattro parametri  effetto generale, effetto numerosità iA effetto marginale della variabile A jB effetto marginale della variabile B ijAB effetto interazione fra le var A e B L’assenza di un effetto si avrà quando il parametro indicante quell’effetto assume valore 1

4 Esempio B Tab. contingenza 2 x 2 di mobilità intergenerazionale A BOR CMI 4 equazioni per 9 incognite! Occorre introdurre dei vincoli !

5 La parametrizzazione di Goodman nel caso di 2 variabili dicotomiche
Il prodotto dei parametri relativi alle stesse variabili deve essere uguale iA =1  jB =1  ijAB =1 Svolgendo le produttorie ne deriva: 1A 2A =1 ossia 1A=1/2A 1B 2B =1 ossia 1B=1/2B 11AB =22AB = 1/12AB=1/ 21AB

6 Parametrizzazione di Goodman
BOR CMI Parametrizzazione di Goodman 4 incognite per 4 valori osservati

7 Calcolo dell’effetto numerosità
B Frequenze osservate A F11 F12 F21 F22 Media geometrica delle frequenze di cella. Cattura l’effetto dovuto alla numerosità dei casi.

8 Calcolo dell’effetto marginale di A
B Frequenze osservate A F11 F12 F21 F22 E’ la radice quarta dell’effetto marginale di A. Se minore di 1 le chance di avere origini borghesi sono minori di quelle di essere CMI.

9 Calcolo dell’effetto marginale di B
Frequenze osservate F11 F12 F21 F22 A E’ la radice quarta dell’effetto marginale di B. Se minore di 1 le chance di avere destinazione borghese sono minori di quelle di essere CMI.

10 Calcolo dell’effetto interazione
B Frequenze osservate A F11 F12 F21 F22 E’ la radice quarta dell’odds ratio, che misura l’associazione tra le due variabili A/B. Se maggiore di 1, i soggetti di origine borghese (piuttosto che CMI) hanno più chance di diventare borghesi (piuttosto che CMI).

11 B Calcolo degli effetti A

12 Ricostruzione delle frequenze
Ricostruzione delle frequenze. Le frequenze ricostruite (attese) sono uguali a quelle osservate nella tabella.

13 L’uso di pochi parametri (che costituiscono il modello dei dati osservati) ci permette di interpretare gli effetti, ma anche di testare delle ipotesi. VEROSIMIGLIANZA E PARSIMONIA

14 Note conclusive modello moltiplicativo
Il parametro (e dove 1,284=2,76 è l’odds ratio) 1,28 è l’effetto interazione o associazione tra A e B e quindi evidenzia la forza dell’associazione tra le variabili La forza della relazione è tanto maggiore quanto più ci allontaniamo da 1. La relazione è positiva se il valore del parametro è superiore ad 1, mentre è negativa se il valore è inferiore ad 1.

15 Modelli insaturi Fij= iAjBijAB  modello saturo
Fij= iAjB  modello insaturo, assumiamo che tra la var.A e la var.B ci sia indipendenza, dunque poniamo l’effetto interazione (ijAB) pari a 1. Fij= iA modello insaturo, la struttura si semplifica ulteriormente. Fissiamo l’effetto marginale della variabile B pari a 1 Fij=   modello insaturo, la struttura si semplifica ulteriormente. Assumiamo che i casi siano distribuiti in modo uniforme in tutte le celle.

16 Il modello additivo Tavola 2x2
Attraverso il logaritmo le frequenze possono essere espresse come funzione additiva ossia come somma dei quattro parametri. L’equazione log-lineare può essere considerata come un’equazione di regressione nella quale l’unità di analisi non sono gli individui bensì le celle (la var. dipendente è rappresentata dal logaritmo della frequenza di cella) (Corbetta 1992)

17 La parametrizzazione di Goodman nel caso di 2 variabili dicotomiche nel modello additivo
La somma dei parametri lambda delle varie categorie di una stessa variabile deve essere uguale a zero. iA = jB =0 i jijAB =0 Svolgendo le sommatorie ne deriva 2A = - 1A 2B = - 1B 22AB = 11AB = - 12AB = - 21AB Tale parametrizzazione, introducendo vincoli sui parametri, serve per identificare il modello: in altre parole, abbiamo 4 equazioni e 9 parametri da stimare a partire dalle quattro celle di frequenze. Con tale parametrizzazione le 4 frequenze di cella di una tavola 2x2 possono essere ottenute combinando 4 parametri

18 Calcolo degli effetti modello additivo
INTERPRETAZIONE DEI LAMBDA Gli effetti dei marginali e di interazione possono essere considerati in termini di deviazioni dai valori medi delle frequenze di celle. Lo squilibrio fra i due marginali è maggiore per la variabile B rispetto alla variabile A Il valore positivo di 11AB segnala la presenza di una relazione positiva. Le celle 11 e 22 presentano una frequenza più alta rispetto al caso di indipendenza.

19 lnF11 =  + 1A+ 1B+ 11AB=3,85 lnF12 =  + 1A- 1B- 11AB=3,97
Ricostruiamo la tab.2*2 con il modello additivo: le frequenze ricostruite (attese) sono uguali a quelle osservate. lnF11 =  + 1A+ 1B+ 11AB=3,85 lnF12 =  + 1A- 1B- 11AB=3,97 lnF21 =  - 1A+ 1B- 11AB=3,78 lnF22 =  - 1A- 1B+ 11AB=4,92

20 Modelli insaturi lnFij= +iA+jB + ijAB modello saturo
lnFij= +iA+jB modello insaturo, fissiamo l’effetto interazione pari a zero lnFij= +iA fissiamo l’effetto interazione e il marginale della var.b pari a zero lnFij=  fissiamo l’effetto interazione e gli effetti dei marginali della var.A e della var.B pari a zero

21 Come si calcolano gli errori standard delle stime dei parametri
R = numero di categorie della variabile di riga C = numero di categorie della variabile di colonna L’ipotesi nulla secondo la quale nella popolazione il valore di lambda è uguale a zero può essere verificata utilizzando un test t.

22 TEST DI SIGNIFICATIVITA’ DEI PARAMETRI
Rapportiamo i parametri stimati all’errore standard per calcolare i valori t da confrontare con quelli critici.

23 Non si può passare ad un modello insaturo.
Dal momento che i valori ottenuti sono superiori in valore assoluto a ±1,98 (il valore critico di t per alfa=0,05) possiamo concludere che i parametri sono significativamente diversi da zero per alfa=0,05. Non si può passare ad un modello insaturo. Soglia ,98 Soglia +1,98 0,95 0,025 0,025 T IPOTESI NULLA

24 INTERVALLI DI CONFIDENZA DEI PARAMETRI
Possiamo calcolare gli I.C. dei parametri aggiungendo il valore t all’errore standard: -0.351 -0.089 -0.441 -0.179 0.119 0.381 lim.inf. lim.sup. lim.inf. lim.sup. 1,61 lim.inf. lim.sup. 4,58

25 MODELLI TEORICI Notazione (AB) (A)(B) (A) (B)
MODELLO SATURO* MODELLO INDIPENDENZA MODELLO SOLO EFFETTO A MODELLO SOLO EFFETTO B EQUIPROBABILITA’ (AB) (A)(B) (A) (B) *Il modello saturo riproduce i dati osservati.

26 Test dei modelli I modelli con tutti i parametri che ci consentono di realizzare l’identità tra frequenze attese ed osservate si chiamano saturi (esso conterrà tanti parametri quante sono le celle). I modelli semplificati, nei quali uno o più parametri vengono fissati a zero vengono definiti insaturi Il modello insaturo genererà delle frequenze teoriche o frequenze attese che verranno confrontate con le frequenze osservate.

27 Se gli scarti tra frequenze attese e osservate sono di entità ridotta il modello semplificato (o insaturo) verrà accettato. Il confronto fra frequenze attese e frequenze osservate viene fatto sulla base del calcolo della statistica L2 Nota come statistica del chi-quadrato del rapporto di verosimiglianza. Si distribuisce come una variabile chi-quadrato con tanti gradi di libertà quanti sono i parametri lambda indipendenti posti a zero.

28 Probabilità che il modello sia vero !
Il modello teorico non deve scostarsi troppo dai dati osservati. L’H0 è che il modello si scosta troppo (contrariamente al test di indipendenza del Chi-quadrato!) g = gradi di libertà Non posso rifiutare H0 Rifiuto H0 P L2 L2p Probabilità che il modello sia vero ! DATI OSSERVATI MODELLO

29 Probabilità che il modello sia “vero” !
SEX*TITOLODISTUDIO Modello saturo (P=1) Probabilità che il modello sia “vero” !

30 SINTASSI SPSS data list free/ n sex titolo. begin data end data. weight by n. value labels sex 1'm' 2'f' /titolo 1 'licmedia' 2 'diploma'. HILOGLINEAR sex(0 1) titolo(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ESTIM /DESIGN .

31 L’obiettivo è trovare un modello con un basso valore di L2 ad esso associato e quindi con un’alta probabilità di rappresentare la struttura delle relazioni tra le variabili a livello di popolazione. Un modello viene corroborato quanto i dati osservati hanno un’elevata probabilità di essere generati dal modello ipotizzato. Il rapporto di verosimiglianza è utile per individuare gli scarti tra modello e dati quanto il campione non supera i 1500 casi. Quando il campione è molto ampio l’adozione della statistica L2 comporta il rifiuto di modelli “buoni”. Il valore della statistica L2 aumenta all’aumentare della dimensione del campione.

32 BIC Una statistica più appropriata per valutare la bontà di adattamento del modello ai dati è rappresentata dal Criterio bayesiano di informazione (BIC) LnN è il logaritmo naturale della dimensione del campione Il BIC rappresenta un buon compromesso tra capacità di riproduzione dei dati e parsimonia. Più negativo è il valore assunto dalla statistica BIC, migliore è l’adattamento ai dati di un certo modello.

33 MODELLO A TRE VIE Modelli gerarchici

34 Nei modelli gerarchici le relazioni multivariate di un certo livello includono tutte le relazioni più semplici di livello subordinato. Le frequenze attese vengono stimate sulla base del modello teorico attraverso algoritmi iterativi (ad esempio l’“adattamento proporzionale iterativo”)

35 Esempi di notazione dei modelli gerarchici
A=area S=sex E=educ (ASE) - modello saturo lnFijk=  + iA + jS + kE + ijAS + ikAE + jkSE + ijkASE (AS)(AE)(SE) – effetti a due lnFijk=  + iA + jS + kE + ijAS + ikAE + jkSE (AS)(SE) – effetti a due di sole due variabili lnFijk=  + iA + jS + kE + ijAS + jkSE (A)(S) – effetti marginali di sole due variabili lnFijk=  + iA + jS

36 ESEMPIO DI VALUTAZIONE DEI MODELLI Modello L2 g p
Probabilità che il modello sia “vero” ! Modello L2 g p (ABC) 0,0 1,00 (AB)(AC)(BC) 1,5 1 0,20 (AB)(C) 34,0 3 0,00 (A)(B)(C) 76,2 4

37 ELIMINAZIONE DEI PARAMETRI DAI MODELLI
CONFRONTO FRA MODELLI ELIMINAZIONE DEI PARAMETRI DAI MODELLI PROCEDURA BACKWARD Si parte dal modello saturo e si eliminano man mano i parametri che non tolgono verosimiglianza. Si aumenta la parsimonia lasciando il modello verosimile

38 PM (1=favorevole alla pena di morte 2=non favorevole)
*PM (1=favorevole alla pena di morte 2=non favorevole) *REL(1=non-praticante 2=praticante) *POL(1=centro-destra 2=centro-sinistra)

39 [PM*REL] [PM*POL] [REL*POL]
Il passaggio da un modello all’altro è valutato attraverso la differenza tra i valori L2 associati ai due modelli (+ PARSIMONIOSO -PARSIMONIOSO), e la differenza tra i rispettivi gradi di libertà. Delta L2 e Delta G hanno la distribuzione nota del Chi-quadrato, per cui è possibile effettuare un test di significatività. MODELLO 1 SATURO [PM*REL*POL] L2= 0 g=0 P=1,00 MODELLO 2 INSATURO [PM*REL] [PM*POL] [REL*POL] L2= 0,095 g=1 P=0.75 MODELLO 3 INSATURO [PM*REL] [PM*POL] L2= 126,926 g=2 P=0,00 VALUTAZIONE DEL PASSAGGIO DAL MODELLO SATURO AL MODELLO 2 L22 - L21= 0, g2 - g1 = ACCETTATO ! VALUTAZIONE DEL PASSAGGIO DAL MODELLO 2 AL MODELLO 3 L23 - L2 2=126, g3 - g2 =1 NON ACCETTATO!

40 *PM (1=favorevole alla pena di morte 2=non favorevole)
*REL(1=non-praticante 2=praticante) *POL(1=centro-destra 2=centro-sinistra) data list free/ PM REL POL PESO. begin data end data. weight by PESO. LOGLINEAR PM(1,2) REL(1,2) POL(1,2) /PRINT= ESTIM /DESIGN = PM REL POL PM BY REL PM BY POL REL BY POL.

41 Modello: area*sex*educ
SESSO EDUCAZIONE AREA Abbiamo una relazione tra genere (M/F) e educazione (D/ND). Vogliamo sapere se l’area geografica (sud/nord) influisce su questa relazione. Modello: area*sex*educ lnFijk=  + iA + jS + kE + ijAS + ikAE + jkSE + ijkASE Costruiamo un modello teorico di indipendenza e lo confrontiamo con le frequenze osservate. Si tratta di porre a zero i seguenti parametri: ijkASE

42 Modello saturo ASE Modello area*sex*educ
lnFijk=  + iA + jS + kE + ijAS + ikAE + jkSE + ijkASE

43 SINTASSI SPSS Modello saturo HILOGLINEAR
sex(0 1) titolo(0 1) area(0 1) /METHOD=BACKWARD /CRITERIA MAXSTEPS(10) P(.05) ITERATION(20) DELTA(.5) /PRINT=FREQ RESID ESTIM /DESIGN . Modello saturo

44 (A)(S)(E) lnFijk=  + iA + jS + jE

45 Altro esempio: SPSS SESSO*TITOLODISTUDIO*STATOCIVILE === STC
Modello più parsimonioso: (ST)(C)


Scaricare ppt "“Analisi di dati categoriali”"

Presentazioni simili


Annunci Google