1 “Analisi di dati categoriali” Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti.

Slides:



Advertisements
Presentazioni simili
Le distribuzioni di probabilità continue
Advertisements

2. Introduzione alla probabilità
Politica economica e crescita endogena
Variabili aleatorie discrete e continue
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
“Teoria e metodi della ricerca sociale e organizzativa”
“Teoria e metodi della ricerca sociale e organizzativa”
L’EPIDEMIOLOGIA CLINICA
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Lezione 4 IL MERCATO DEI BENI
Lezione 7 IL MERCATO DEL LAVORO
Progetto Pilota 2 Lettura e interpretazione dei risultati
Elementi di STATISTICA DESCRITTIVA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
VARIABILI ALEATORIE Sono presentate di seguito le nozioni di:
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
La regressione logistica binomiale
ALCUNI TERMINI: POPOLAZIONE CAMPIONE CAMPIONAMENTO INFERENZA STATISTICA PARAMETRI (ad es. ) STIMATORI (ad es. x) n: DIMENSIONE DEL CAMPIONE MISURE.
Modello di regressione lineare semplice
I numeri relativi by iprof.
SONDAGGIO SU POLITICA E DONNE. Il sondaggio si è svolto nei giorni compresi fra l8 e il 27 febbraio 2006, su un campione qualificato di 120 intervistati.
Analisi quantitativa della tecnica xrf prima parte
METODI E CONTROLLI STATISTICI DI PROCESSO
Mercati Azionari, Obbligazionari e Derivati A.A. 2006/ II semestre Docente: Massimo Pinna Università degli Studi di Cagliari Facoltà di Economia.
STATISTICA PER LE DECISIONI DI MARKETING
Regressione Logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Piano Triennale degli Obiettivi e delle Azioni Positive Pari Opportunità Obiettivo 1 Azione 1.3 Questionario Pari Opportunità RISULTATI.
In molti casi è utile assegnare a degli identificatori dei valori che restino costanti durante tutto il programma e che non possano essere cambiati nemmeno.
1 Gargano R., Avena G., Grasso F. UNIVERSITÀ DEGLI STUDI DI MESSINA IL PROCESSO DINTEGRAZIONE DEGLI IMMIGRATI IN UN CONTESTO URBANO DELLITALIA INSULARE.
MEDIE STATISTICHE.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Estrazione di radice.
Pippo.
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
DATA MINING PER IL MARKETING
N Come si può rappresentare un numero Naturale su una retta?
Intervalli di fiducia.
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Presentazione Principali aggregati e relativi indicatori Forze di lavoro e tasso di attività Occupati e tasso di occupazione Disoccupati e tasso di disoccupazione.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Metodi per l’integrazione tra la base dati Health Search e l’indagine Istat sulle condizioni di salute Marco Di Zio Di Consiglio L., Falorsi S., Solari.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13 Regressione Logistica: La stima e l’interpretazione del del modello.
Gli indici di dispersione
Capitolo III. Il mercato dei beni.
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
STATISTICHE DESCRITTIVE
Lezione 3 Elementi di teoria delle variabili casuali Insegnamento: Statistica Corso di Laurea Magistrale in Matematica Facoltà di Scienze, Università di.
1 “Analisi di dati categoriali” Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti.
Intervalli di confidenza
Esercizio 1. Quesiti esercizio 1 Distribuzione congiunta: dalla definizione di distribuzione condizionale.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
L’analisi bivariata L’analisi bivariata serve a studiare la relazione fra coppie di variabili. Le sue funzioni sono: Stabilire se date due variabili (x.
Modulo 4: Frazioni Equivalenti
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
analisi bidimensionale #2
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Statistica di Base per le Scienze Pediatriche luigi greco D.C.H, M.D., M.Sc.M.C.H., Ph.D. Dipartimento di Pediatria UniFEDERICOII.
Transcript della presentazione:

1 “Analisi di dati categoriali” Corso di Laurea in Sociologia Facoltà di Sociologia Università Milano-Bicocca Ottobre 2009 Simone Sarti

2 Gli odds ratio Le relazioni tra variabili possono essere analizzate in termini probabilistici. L’odds ratio è una misura dell’associazione tra due variabili. L’odds è un rapporto di probabilità. L’odds ratio è un rapporto di odds.

3 Odds Un odds è un rapporto di frequenze tra osservazioni che appartengono ad una data categoria e osservazioni che non appartengono ad una data categoria. Freq. Laureati471 Non laureati685 Tot.1156 Odd= 471/685 = 0,688(in decimali) Prob.= 471/1156 = 0,407 = 40,7% Le probabilità variano da 0 a 1 Gli odds variano da 0 a +inf. Esempio: distribuzione di freq. in base alla variabile “diploma di laurea”

4 Gli odds assumono valori inferiori ad 1 se la probabilità che si verifichi un dato evento è inferiore alla probabilità che non si verifichi Gli odds assumono valori superiori ad 1 se la probabilità che si verifichi un dato evento è superiore alla probabilità che non si verifichi Gli odds assumono valore 1 se la probabilità che un evento si verifichi è pari alla probabilità che non si verifichi.

5 La relazione tra odds e probabilità è la seguente:

6 Odds e Odds ratio

7 Odds marginali L’odds marginale di aver conseguito un’istruzione superiore piuttosto che inferiore è pari a 471/685=0.688 L’odds marginale inverso sarà 1/0.688= La propensione marginale che qualcuno abbia un livello di istruzione inferiore è circa 1.5 volte superiore rispetto a quella di avere un livello di istruzione superiore.

8 Odds condizionali La distribuzione condizionale del livello di istruzione mostra che per gli uomini gli odds di raggiungere un livello di istruzione superiore piuttosto che inferiore sono =237/271. Per le donne i corrispondenti odds si attestano a =234/414

9 Odds ratio Il modo in cui i due odds condizionali differiscono l’uno dall’altro può essere espresso dal loro rapporto: 0.875/0.565=(237/271)/(234/414)=1.547 L’odds ratio indica il rapporto fra il prodotto delle celle della diagonale principale e il prodotto delle celle della diagonale secondaria. L’odds di raggiungere un livello di istruzione superiore piuttosto che inferiore è 1.5 volte più favorevole per i maschi che le donne.

10 Relazione tra probabilità, odds ed odds ratio e in una tavola due X due: ab cd X Y

11 Age -sex- education Hagenaars model

12 Odds ratio di secondo ordine Calcoliamo gli odds ratio condizionali per ciascun gruppo di età Per il gruppo più giovane è pari a (100/83)/(91/101) Per il gruppo di mezzo è Per il gruppo più anziano è Il modo in cui questi tre odds ratio condizionali differiscono uno dall’altro può essere espresso dal odds ratio di secondo ordine che è ottenuto dal rapporto di odds ratio di primo ordine. L’odds ratio di secondo ordine esprime in che misura l’associazione tra due variabili varia in relazione alle categorie di una terza variabile.

13 Confrontiamo gli odds ratio condizionali dei giovani rispetto ai soggetti in età centrale e otteniamo 0.766=(1.337/1.745) Compariamo i giovani con gli anziani 1.039=(1.337/.1287) Ed infine l’età di mezzo con gli anziani 1.356=(1.745/1.287). Gli odds ratio condizionali ci indicano che in tutti i tre gruppi le probabilità di conseguire un alto livello di istruzione sono più sfavorevoli per le donne rispetto agli uomini. In più la discrepanza tra le opportunità di istruzione tra uomini e donne è massima nel gruppo di soggetti in età centrale

14 ODDS PARZIALI odds parziali Gli odds parziali sono medie di odds condizionali, dove la media geometrica è usata come misura di tendenza centrale Partial odds “high/low educ” tab.2.1 = Tale valore non è identico a ottenuto dagli odds marginali corrispondenti.

15 Odds ratios parziali I Gli odds ratio parziali sono definiti come una media geometrica dei corrispondenti odds ratio condizionali. Partial odds ratio “sex by educ” tab.2.2 = Tale valore non è identico a ottenuto dal corrispondente odds ratio marginale.

16 Il problema dell’asimmetria Quando interpretiamo la forza degli odds e degli odds ratio dobbiamo ricordare che i valori degli odds sono asimmetricamente situati attorno ad 1, che è il valore dell’assenza di differenza. Il limite massimo negativo è 0 mentre il limite massimo positivo è +infinito. L’asimmetria scompare quando lavoriamo con i logaritmi naturali degli odds e degli odds ratios. Il limite negativo diventa -infinito, quello positivo + infinito Il logaritmo naturale dell’odds riceve la denominazione di logit.

17

18 logit (-∞,+∞)odds (0,+∞) 1 0logit(π) Assenza di effetto 0 Effetto negativo Effetto positivo Assenza Effetto negativo Effetto positivo y=logit(π) 0<π <1y= π /(1- π) 0<π<1 π y y 10,5 Il problema dell’asimmetria

19 Effetti assoluti ed effetti relativi Le differenze percentuali (o di probabilità) danno una misura assoluta della relazione tra modalità di due variabili, mentre gli odds ratio danno una misura relativa. Ciò significa che anche in presenza di odds ratio elevati possiamo avere effetti, in termini assoluti, sostanzialmente deboli.

20 NoSitot M F tot Effetti assoluti ed effetti relativi: esempio Genere e soddisfazione per la democrazia NoSitot M 0,9450,055 1 F 0,9200,080 1 tot 0,9250,075 1 d yx = + 0,025 % condizionate

21

22 LOGICA TRIVARIATA CONTROLLO PER UNA TERZA VARIABILE

23 Logica trivariata Quando ad una relazione bivariata aggiungiamo una terza variabile operiamo un’analisi trivariata.

24 Perché considerare una terza variabile? Quando consideriamo un’ipotesi causale tra due fenomeni ed empiricamente corroboriamo l’esistenza di una relazione, non possiamo tuttavia escludere che i due fenomeni non siano dovuti ad un terzo che non abbiamo preso in considerazione.

25 La causa di un fenomeno in senso generico può essere definita come la somma totale delle condizioni, la totalità delle contingenze alla cui realizzazione segue invariabilmente il conseguente. (Campelli 1999) Tuttavia, “Nulla può meglio mostrare l’assenza di qualsiasi fondamento scientifico per la distinzione fra la causa d’un fenomeno e le sue condizioni della maniera capricciosa in cui scegliamo fra le condizioni quella che preferiamo chiamare causa “ (J.S.Mill)

26 1.Il numero di pompieri impegnati nello spegnere un incendio è correlato con la stima finale dei danni provocati dall’incendio stesso. 2.I bambini nelle cui case vi sono più finestre mostrano migliori rendimenti scolastici. Cause ed effetti ?

27 1. Considerando le dimensioni dell’incendio, la relazione tra numero di vigili del fuoco e stima dei danni sparisce. 2.Considerando la ricchezza patrimoniale dei genitori, la relazione tra numero di finestre e rendimento scolastico sparisce. Presenza di un effetto SPURIO, cioè di una terza variabile, antecedente alle due, che è la “vera” causa della relazione!

28 Posizione delle variabili Una volta ipotizzata una relazione tra due variabili X “indipendente” e Y “dipendente”, l’altra o le altre variabili considerate possono assumere quattro posizioni: variabili antecedenti, variabili intervenienti, variabili susseguenti, variabili concomitanti.

29 Variabili antecedenti Quelle variabili che nell’ordine causale precedono sia X che Y. XY A

30 LOGICA degli effetti EFFETTO SPURIO: l’inserimento di una variabile di controllo Z, annulla la relazione tra X e Y. XY Z XY

31 LOGICA degli effetti EFFETTO SOPPRESSO: l’inserimento di una variabile di controllo Z, rende palese la relazione tra X e Y. XY Z XY

32 SCOMPOSIZIONE degli effetti Variabili categoriali e differenze di probabilità

33 ESEMPIO 1. tra variabili dicotomiche. Incrocio tra titolo di studio e fiducia nel sistema giudiziario … XY X Titolo di studio (L – H) YFiducia nel sistema giudiziario (S – N) Esempio 1

34 … controllato per la variabile antecedente Z XY Z Z Coorte di nascita (G – A) Esempio 1

35 Effetto bivariato XY= Effetto causale netto + Effetto spurio d yx = d yx.z + d (yx)z Esempio 1 XY Z XY d yx.z d yx d (yx)z

36 Fonte: EB 60.1 Italia (30 e più anni) Esempio 1

37 d yx Effetto bivariato: educaz. e fiducia giustizia In un incrocio dicotomico l’effetto bivariato è misurabile attraverso una semplice differenza di probabilità (equivale al coefficiente di regressione quando le variabili sono 0 e 1). d yx equivale alla differenza di probabilità sull’avere fiducia nella giustizia dato l’avere un titolo di studio alto piuttosto che basso. Esempio 1

38 d yx Effetto bivariato: educaz. e fiducia giustizia Pr (Y=1 | X=2) – Pr (Y=1 | X=1) Equivale alla probabilità che la variabile Y assuma valore y, dato che la variabile X assume valore x: Pr (Y=y | X=x) La categoria di riferimento è la “SI” (Y=1). d yx = 0, ,436 = 0,145 Esempio 1

39 d yx = 0, ,436 = 0,145 La relazione tra possesso della laurea (piuttosto che un titolo di studio inferiore) e fiducia nella giustizia (“si” piuttosto che “no”) è positiva. Esempio 1

40 GIOVANI Z=1 ANZIANI Z=2 Esempio 1

41 Effetti condizionati di Z Considerando Z, troviamo diversi effetti di X su Y. d yx|z=1 = 0,593 -0,425 = 0,168 d yx|z=2 = 0,553 -0,448 = 0,105 Esempio 1

42 Effetto condizionato complessivo di Z Considerando che le numerosità in Z tra giovani ed anziani sono diverse, occorre ponderare gli effetti condizionati. Giovani= 388/685 = 0,567 quota di giovani (q g ) Anziani= 297/685 = 0,433 quota di anziani (1 - q g ) d yx.z = (0,168*0,567) + (0,105*0,433) = 0,141 Esempio 1

43 Effetto bivariato = Effetto causale + Effetto spurio d yx = d yx.z + d (yx)z d (yx)z =d yx – d yx.z = 0,145 – (0,141) = 0,004 d (yx)z Effetto spurio Esempio 1

44 L’effetto della variabile Z è sostanzialmente nullo, ossia la relazione tra titolo di studio e fiducia nella giustizia permane immutata anche a parità di fascia d’età. Non c’è effetto SPURIO. XY Z + ~ 0 Esempio 1

45

46 L’effetto di interazione

47 L’effetto di interazione Quando l’effetto causale esercitato dalla variabile indipendente X sulla variabile indipendente Y si manifesta in modi diversi a seconda del valore assunto dalla variabile di controllo Z. XY Z

Z=0Z=1 X=0 X=1 Y=0Y=1 Y=0Y=1Y=0Y=1 d yx = - 0,25 Pr (Y=0 | X=1) – Pr (Y=0 | X=0) d yx|z=0 = +0,54d yx|z=1 = -0,86

49 X Y X Y X Y Z=0Z=1 Effetto di interazione di Z (dicotomica) su X e Y (cardinali) β>0 β z=0 >0β z=1 <0

50 Esempi di effetti di interazione (titolo*età)

51

52 SCOMPOSIZIONE degli effetti Se le variabili sono dicotomiche ed attribuiamo i valori 0 e 1 alle modalità di ciascuna, la relazione tra le due può essere misurata con il coefficiente di correlazione di Pearson (r), che in una tavola 2x2 è equivalente al V di Cramer.

53 Ipotizziamo che la variabile Z influenzi la relazione tra Y e X. Come misurare l’effetto di X su Y al netto di Z ? XY Z XY

54 Correlazioni tra le variabili: XY Z XZY X Z Y Matrice di correlazione, r.. osservati

55 E’ possibile calcolare il coefficiente di correlazione parziale tra X e Y “tenendo costante” Z: NB: r xy.z non tiene conto degli effetti di interazione !

56 Coefficiente di correlazione parziale tra X e Y “tenendo costante” Z: Correlazione bivariataCorrelazione di Z su X e Y Residui di Z-X e Z-Y Più la Z spiega X eY, più grande è il denominatore Misura quanto Z spiega di X eY

57 XY Z XZY X Z Y Matrice di correlazione, r.. osservati E’ possibile calcolare il coefficiente di correlazione parziale tra X e Y “tenendo costante” Z:

58 XY Z La correlazione tra X e Y tenendo sotto controllo Z diventa molto piccola. C’è effetto spurio! Effetto bivariato = Effetto causale + Effetto spurio r yx = r yx.z + r (yx)z

59 Parziale effetto spurio Parziale effetto soppresso Effetto di Z quasi nullo

60 Correlazioni fra tre variabili (dicotomizzate 0/1) Calcolare la correlazione parziale tra anni di scolarità e reddito