La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

COMBINAZIONE DI TABELLE DI CONTINGENZA 2X2

Presentazioni simili


Presentazione sul tema: "COMBINAZIONE DI TABELLE DI CONTINGENZA 2X2"— Transcript della presentazione:

1 COMBINAZIONE DI TABELLE DI CONTINGENZA 2X2
La relazione tra una coppia di variabili casuali dicotomiche e, talvolta, analizzata in due o più popolazioni. [SESSO, ETA’, FUMO, CHD] Di conseguenza, i dati possono essere rappresentati da più tabelle di contingenza 2x2.

2 TABELLE MULTIPLE 2x2 In alcuni casi queste tabelle derivano da studi diversi; più spesso, esse sono il risultato di un singolo studio che e stato disaggregato, o stratificato, in relazione ad una determinata variabile che si ritiene possa influenzare il risultato. In entrambi i casi, e possibile fare inferenze sulla relazione tra le due variabili esaminando separatamente l'associazione in ciascuna tabella. In molti casi, tuttavia, e più utile poter combinare le informazioni tra le tabelle per giungere ad un'unica conclusione complessiva.

3 PARADOSSO DI SIMPSON Consideriamo i dati di uno studio della relazione tra fumo , sesso e stenosi aortica. Poiché il sesso è associato ad entrambe le variabili, sospettiamo che possa influenzare la relazione osservata tra di esse. Esaminiamo separatamente l'effetto negli uomini e nelle donne. Maschi Femmine Stenosi Fumatore Fumatrice Aortica Si No Totale 37 25 62 14 29 43 24 20 44 19 47 66 61 45 106 33 76 109 ODDS dei fumatori di sviluppare stenosi aortica ODDS delle fumatrici di sviluppare stenosi aortica ORM=(37)(20)/(25)(24) =1,23 ORF=(14)(47)/(29)(19) =1,19 RR=(37/61)/(25/45) =1.09 RR=(14/33)/(29/76)= 1.11 Maschi+femmine Fumatore Si No Totale 51 54 105 43 67 110 94 121 215 odds di sviluppare stenosi aortica OR= (51)(67)(54) (43)=1,47 RR=(51/94)/(54/121)= 1.21 Ignorando l'influenza del sesso, la forza dell'associazione tra fumo e stenosi aortica appare maggiore rispetto a quella ottenuta per i maschi e per le femmine. Questo fenomeno è un esempio del paradosso di Simpson che si verifica quando la grandezza o la direzione della relazione tra due variabili è influenzata da una terza variabile Si dice che: “Quando gli Oki’s si trasferirono in California, innalzarono il quoziente di intelligenza dei due stati”

4 PARADOSSO DI SIMPSON Maschi Femmine Stenosi Fumatore Fumatrice Aortica
Totale 37 25 62 14 29 43 24 20 44 19 47 66 61 45 106 33 76 109 ODDS dei fumatori di sviluppare stenosi aortica ODDS delle fumatrici di sviluppare stenosi aortica ORM=(37)(20)/(25)(24) =1,23 ORF=(14)(47)/(29)(19) =1,19 RR=(37/61)/(25/45) =1.09 RR=(14/33)/(29/76)= 1.11 Maschi+femmine Fumatore Si No Totale 51 54 105 43 67 110 94 121 215 odds di sviluppare stenosi aortica OR= (51)(67)(54) (43)=1,47 RR=(51/94)/(54/121)= 1.21

5 (fumo-stenosi-genere)
Conti per la tabella (fumo-stenosi-genere) sca ORM =(37)*(20) / ((25)*(24)) sca ORF =(14)*(47) / ((29)*(19)) sca ORT = (51)*(67) / ((54)*(43)) sca LORT= log(ORT) sca LORM= log(ORM) sca LORF= log(ORF) sca wF = ( (1/14)+(1/29)+(1/47)+(1/19) )^(-1) sca wM =( (1/37)+(1/25)+(1/20)+(1/24) )^(-1) sca Y = (wM*LORM+wF*LORF)/(wF+wM) sca ORMH=exp(Y) sca list ORM ORF LORT LORM wF wM Y ORMH ORM = ORF = LORT = LORM = wF = wM = Y = ORMH =

6 Per saperne di più , guardate i lucidi in internet oppure studiate il capitolo 16 di BIOSTATISTICA

7 PARADOSSO DI SIMPSON Osserviamo lo stesso andamento in entrambe le popolazioni; sia per i maschi che per le femmine, l'odds di sviluppare una stenosi aortica è maggiore tra i fumatori rispetto al non fumatori. E' possibile che queste due quantità stiano in realtà stimando il valore della stessa popolazione, e quindi si potrebbe tentare di combinare le tabelle per giungere ad un'unica conclusione che riassuma la relazione tra fumo e stenosi aortica.

8 PARADOSSO DI SIMPSON Totale: Maschi+femmine Ignorando l'influenza del sesso, la forza dell'associazione tra fumo e stenosi aortica appare maggiore rispetto a quella ottenuta per i maschi e per le femmine. Questo fenomeno è un esempio del paradosso di Simpson che si verifica quando la grandezza o la direzione della relazione tra due variabili è influenzata da una terza variabile. Stenosi Fumatore Aortica Si No Totale 51 54 105 43 67 110 94 121 215 l'odds di sviluppare stenosi aortica tra i fumatori è … OR= (51) (67) (54) (43) = 1,47 In questo caso, il sesso è una variabile di confondimento nella relazione tra esposizione e malattia; non controllando per il suo effetto, la grandezza dell'associazione appare maggiore di quanto sia in realtà.

9 Stima dell’ODDS RATIO “comune”
Consideriamo ora i seguenti dati di uno studio sulla relazione tra consumo di caffè con caffeina ed infarto del miocardio non letale nella popolazione maschile adulta al di sotto di 55 anni. Lo studio fornisce informazioni relative all'esposizione ed alla malattia per due gruppi di soggetti: fumatori ed 937 non fumatori. Fumatori Non Fumatori Totale Caffè I M A Si No SI 1011 81 1092 383 66 449 1394 147 1541 NO 390 77 467 365 123 488 755 200 955 1401 158 1559  748 189  937 2149  347 2496 ORF= (1.011)(77)/ (390)(81)=2,46 ORNF= (383)(123)/ (365)(66)=1.96 OR=(1.394)(200)/ (755) (147) = 2,51 l'OR d’infarto

10 Stima dell’ODDS RATIO “comune”
Osserviamo che, in entrambe le popolazioni l'odds di insorgenza d'infarto del miocardio e maggiore tra i consumatori di caffè. E possibile che i due OR stiano in realtà stimando il valore della stessa popolazione e differiscano solo a causa della variabilità campionaria. In questo caso, vorremmo essere in grado di combinare le informazioni delle due tabelle per giungere ad un'unica conclusione complessiva sulla relazione tra infarto del miocardio e caffè con caffeina. Abbiamo già notato che, se il fumo e una variabile di confondimento nella relazione tra consumo di caffè ed infarto del miocardio, non possiamo limitarci a sommare le osservazioni delle due tabelle di contingenza. In tal caso, otterremmo la tabella riportata nella colonna (ignorando il fumo). Questo OR è maggiore di quello dei due strati e suggerisce che il fumo è realmente una variabile di confondimento.

11 Stima dell’ODDS RATIO “comune”
E’ possibile adottare un'altra tecnica ‑ nota come metodo di Mantel ‑ Haenszel per combinare le informazioni di due o più tabelle 2x2. Test di omogeneità: Prima di tutto, si stabilisce se la forza dell'associazione è uniforme tra le tabelle. Quindi: Se è appropriato combinare i risultati delle tabelle, questo metodo fornisce gli strumenti per calcolare una stima puntuale ed un intervallo di confidenza per l'OR globale della popolazione ; inoltre, esso ci consente di saggiae l'ipotesi nulla di assenza di associazione tra esposizione e malattia.

12 Test di omogeneità Prima di combinare le tabelle di contingenza, dobbiamo verificare che gli OR della popolazione siano realmente uguali tra le tabelle. Altrimenti non e appropriato calcolare un singolo valore per l'OR globale. Invece, e preferibile trattare i dati delle diverse tabelle di contingenza come se fossero stati estratti da popolazioni diverse e, quindi, riportare i diversi OR per ciascun gruppo.  Determiniamo se la forza dell'associazione tra esposizione e malattia e uniforme in una serie di g tabelle 2x2 ‑dove g e un numero intero maggiore o uguale a 2 ‑ eseguendo un test di omogeneità. Il test di omogeneità testa l'ipotesi nulla: Ho: gli OR della popolazione per le g tabelle sono uguali, o, allo stesso modo: Ho:OR1 = OR2 = ... =ORi= ... = ORg. L'ipotesi alternativa e che non tutti gli OR sono uguali.

13 Per eseguire il test, calcoliamo:
Esposizione SI NO Totale Malattia ai bi N1i ci di N2i M1i M2i Ti Per eseguire il test, calcoliamo: In questa espressione, yi è il logaritmo dell'OR stimato per la i‑esima tabella, ŷ è una media ponderata dei singoli g logaritmi degli OR e wi è il fattore di ponderazione per la i‑esima tabella. La stima dell'OR per questa tabella è: il logaritmo dell'OR stimato è: La media ponderata è calcolata utilizzando la formula: i pesi sono : (per i =1, 2,…,g)

14 L'errore standard stimato di del “rischio combinato”
Intervallo di confidenza di OR “combinato” L'errore standard stimato di del “rischio combinato” La quantità ŷ che abbiamo calcolato per il test di omogeneità, è la media pesata dei diversi logaritmi degli OR e rappresenta uno stimatore di ln(OR). L'errore standard stimato di ŷ è: Pertanto, l'intervallo di confidenza al 95% per ln(OR) assume la forma: [ŷ ‑ 1,96 es(ŷ) , ŷ + 1,96 es(ŷ) ]   Se calcoliamo l'antilogaritmo di ciascun limite, l'intervallo di confidenza al 95% per l'OR globale è: (exp[ŷ ‑1,96 es(ŷ)] , exp[y es(ŷ) ]) .

15 Torniamo all’esempio del consumo di caffè
Test di omogeneità degli Odds ratio Sotto l'ipotesi nulla che l'OR sia costante tra le tabelle, la sommatoria: ha una distribuzione ~ chi‑quadrato con g‑1 gradi di libertà. Se il valore p associato a questo test statistico è minore del livello di significatività del test, rifiutiamo l'ipotesi nulla e riportiamo le stime separate. Se p è maggiore di a , non possiamo rifiutare Ho; pertanto, concludiamo che e possibile “combinare” le informazioni nelle g tabelle 2x2 utilizzando.

16 H0: OR1 = OR2 ed HA:OR1  OR2 e g=2
Eseguiamo un test di omogeneità bilaterale ad un livello a= 0, Si ricordi la stima degli OR: ORi = ai di / bi ci = (1. 011) (77) / (390) (81) = 2,46. per i fumatori: yi= ln(ORi) = ln(2,46) = 0,900. w1= [(1/1.011)+(1/390)+(1/81)+(1/77)]-1 = 34,62 OR2 = (a2 d2)/ (b2 c2)= (383) (123) / (365) (66) = 1,96, per i non fumatori: y2 = ln(OR2) = ln(1,96) = 0,673. w2= [(1/383)+(1/365)+(1/66)+(1/123)]-1 = 34,93. ŷ=(w1y1 + w2y2) / (w1+w2) = =[(34,62) (0,900)+(34,93) (0,673)] / (34,62+34,93)= 0,786. e comune:

17 Conti per la tabella (fumo-stenosi-genere)
sca a=37 sca b=25 sca c= 24 sca d=20 sca e=14 sca f=29 sca g=19 sca h=47 sca OR1 =(a)*(d)/(b)/(c) sca OR2 =(e)*(h)/(f)/(g) sca ORT = (51)*(67) / ((54)*(43)) sca LORT= log(ORT) sca LOR1= log(OR1) sca LOR2= log(OR2) sca W2 = ((1/a)+(1/b)+(1/c)+(1/d))^(-1) sca W1 = ((1/e)+(1/f)+(1/g)+(1/h))^(-1) sca Y = (W1*LOR1+W2*LOR2)/(W2+W1) sca ChiOmo= W1*(LOR1-Y)^2+W2*(LOR2-Y)^2 sca ORMH=exp(Y) sca list OR1 OR2 LORT LOR1 W2 W1 Y ORMH ChiOmo OR1 = OR2 = LORT = LOR1 = W2 = W1 = Y = ORMH =

18 Limiti nella stima dell’OR
Oltre a calcolare una stima puntuale dell'OR globale, possiamo anche voler calcolare un intervallo di confidenza che rappresenti un range di possibili valori per questa quantità. Nel calcolare un intervallo di confidenza per l'OR utilizzando i dati estratti da una singola popolazione, abbiamo notato che la distribuzione campionaria degli OR è asimmetrica a destra. Lo stesso si verifica per lo stimatore “combinato” dell'OR globale. Poiché la distribuzione del logaritmo naturale dell'OR e più simmetrica ed ~ normale, prima di tutto calcoliamo un intervallo di confidenza per ln(OR). Inoltre, per garantire che le dimensioni dei campioni negli strati siano sufficientemente grandi, consigliamo le seguenti restrizioni sul valori attesi delle osservazioni nelle g tabelle:

19 Limiti nella stima dell’OR
Prima di calcolare un intervallo di confidenza per l'OR globale che misura la forza dell'associazione tra consumo di caffè ed infarto del miocardio, verifi-chiamo le restrizioni sulle frequenze attese delle osservazioni; si noti che: Poiché ciascuna di queste somme è minore di 5, possiamo calcolare l'intervallo di confidenza

20 Test di omogeneità degli Odds ratio
Infine, il test statistico è : X2 = w1(y1 - ŷ)2 + w2(y2 – ŷ)2 = (34,62) (0, ,786)2 +(34,93) (0,673 ‑ 0,786)2 = 0,896. Osserviamo che per una distribuzione chi‑quadrato con 1 grado di libertà, p>0,10. Non possiamo rifiutare l'ipotesi nulla; i dati non indicano che l'OR della popolazione dei fumatori non è diverso da quello dei non fumatori. Pertanto, possiamo assumere che gli OR per i due strati stiano in effetti stimando la stessa quantità e quindi “combiniamo” le informazioni.

21 L'errore standard stimato di ŷ , “rischio combinato”
Ricordiamo che … L'errore standard stimato di ŷ , “rischio combinato” è: Pertanto, l'intervallo di confidenza al 95% per ln(OR) assume la forma: [ŷ ‑ 1,96 es(ŷ) , ŷ + 1,96 es(ŷ) ]   l'antilogaritmo di ciascun limite fornisce l'intervallo di confidenza per l'OR “combinato” (exp[ŷ ‑1,96 es(ŷ)] , exp[ŷ es(ŷ) ]) .

22 Intervallo di confidenza (calcoli)
Abbiamo prima trovato che: ŷ = 0,786. Notiamo che: w1 = 34,62 e w2 = 34,93, pertanto: es(ŷ)= = 0, 120. Pertanto, l'intervallo di confidenza al 95% per ln(OR) è: [(0,786 ‑ 1,96 (0,120) ; 0, ,96 (0,120) ] = (0,551 ; 1,021). L'intervallo di confidenza al 95% per l'OR globale è: (exp(0,55l) , exp(1,021)) = (1,73, 2,78). Siamo confidenti al 95% che, dopo aver corretto per gli effetti del fumo, i soggetti che bevono caffè con caffeina hanno un odds di insorgenza di infarto del miocardio non letale 1,73‑2,78 volte l'odds dei soggetti che non consumano caffè.

23 metodo di Mantel-Haenszel
ODDS RATIO globale metodo di Mantel-Haenszel

24 ODDS RATIO globale Fumatori Non Fumatori Rischio 1 i=1 i=2 Caffè Rischio 2 j=1 j=2 Si No Totale malattia si a1 b1 n1 a2 c2 n2 IMA SI 1011 81 1092 383 66 449 no c1 d1 T1-n1 d2 T2-n2 NO 390 77 467 365 123 488 m1 1-n1 T1  m2 1-m2 T2 1401 158 1559  748 189  937 Se gli OR sono uguali tra le tabelle calcoliamo la stima della forza dell'associazione. La stima è in realtà una media ponderata degli OR dei diversi strati separati; essa è calcolata utilizzando la formula: dove Ti e il numero totale delle osservazioni della i‑esima tabella.

25 = [(a1d1/T1)+( a2d2/T2)] / [ (b1c1/T1)+(b2c2 / T2)] =
ODDS RATIO globale Fumatori Non Fumatori Rischio 1 i=1 i=2 Caffè Rischio 2 j=1 j=2 Si No Totale malattia si a1 b1 N1 a2 c2 N2 IMA SI 1011 81 1092 383 66 449 no c1 d1 T1-N1 d2 T2-N2 NO 390 77 467 365 123 488 M1 T1  M2 T2-M2 T2 1401 158 1559  748 189  937 = [(a1d1/T1)+( a2d2/T2)] / [ (b1c1/T1)+(b2c2 / T2)] = Considerate le differenze nell'abitudine al fumo, i maschi sotto i 55 anni, consumatori di caffè, hanno un odds d’infarto del miocardio non letale 2,18 volte maggiore dell'odds dei maschi non consumatori di caffè.

26 METODO M-H Il momento finale nel metodo M-H per la combinazione delle informazioni delle tabelle di contingenza 2x2 consiste nel testare se l'OR globale e uguale a 1 ; un OR uguale a 1 implica che non c'è associazione tra esposizione e malattia. Un modo per eseguire questo test consiste nel considerare i limiti dell'intervallo di confidenza calcolati in precedenza. Poiché l'intervallo di confidenza al 95% non include il valore 1, questo campione ci porterebbe a rifiutare l'ipotesi nulla ad un livello di significatività di 0,05. Si ricordi, tuttavia, che l'intervallo di confidenza e stato calcolato assumendo che la distribuzione campionarla del logaritmo dell'OR sia ~normale.

27 Il termine mi (la frequenza attesa di ai ) è calcolato come:
STRATO i RISCHIO j=1 j=2 malattia si ai bi Ni no ci di Ti-Ni Mi Ti METODO M-H Per testare, in modo più diretto, l'ipotesi nulla: H0:OR= 1 possiamo utilizzare un metodo alternativo e calcolare il test statistico In questa espressione, ai è il numero osservato di soggetti esposti che sviluppano la malattia. Il termine mi (la frequenza attesa di ai ) è calcolato come: Infine, si è la deviazione standard di ai , dovè:

28 H0: ORMH=1 Come il test chi‑quadrato per un a singola tabella 2x2,
la quantità: confronta il totale delle frequenze osservate con il totale delle frequenze attese. Essa ha una distribuzione ~ chi‑quadrato con 1 grado di libertà. Se il valore p, associato a questo test statistico, è minore del livello di significatività a rifiutiamo l'ipotesi nulla che l'OR globale sia uguale a 1. Se p è maggiore di a , non rifiutiamo Ho.

29 Omogeneità del rischio tra le tabelle
Si calcola il contributo al chi-quadrato totale come somma dei chi quadrato di Pearson di tutte le g tabelle. Al chi quadrato ottenuto si sottrae il chi quadrato di M-H Il termine ottenuto viene interpretato come chi-quadrato dovuto alla eterogeneità con g-1 gradi di libertà.

30 H0: ORMH=1 Per i dati sulla relazione tra consumo di caffè ed infarto del miocardio non letale, vogliamo testare l'ipotesi nulla: Ho:OR=1, verso l'ipotesi alternativa è: HA:OR  1, eseguendo un test bilaterale, fissando il livello di significatività a=0,05. a1 = 1.011, a2 = 383, m1 = M11xN11/T1= 981, m2 = M12 N12 / T2 = 358,4 s1= 29, s2= 37,69. X2 =[(a1+a2) ‑ (m1+ m2)]2 / [s12 + s22] = [( )‑(981,3+358,4)]2 / [29,81+37,69] = 43,68. Osserviamo che il valore p(43,68) è minore di 0,001. Pertanto, rifiutiamo l'ipotesi nulla di assenza di associazione

31 concludendo e concludiamo che l'OR globale non è uguale a 1.
Dopo aver corretto per le differenze nell'abitudine al fumo, rileviamo che i soggetti al di sotto di 55 anni che bevono caffè con caffeina hanno un rischio di infarto del miocardio non letale significativamente più elevato rispetto al soggetti della stessa età che non consumano caffè. Questi dati rappresentano i risultati di un singolo studio sugli effetti del consumo di caffè sulla salute; altri studi hanno riportato risultati contrastanti.

32 Esercizio 1 Nelle tabelle di contingenza 2x2 di seguito riportate, sull'associazione tra fumo e cancro della cervice sono stati stratificati in base al numero di partner sessuali di una donna. 0‑1 partner Due o più partner TOT Fumatrice Cancro Si No SI NO 12 25 37 96 92 188 108 117 21 118 139 142 150 292 163 268 33 143 176 238 242 480 a. Stimare l'OR per le donne che hanno avuto non più di un partner sessuale. b. Stimare l'OR per le donne che hanno avuto due o piu partner.

33 Esercizio (continua) c. Se possibile, vorreste combinare le informazioni di questi due strati per giungere ad un'unica conclusione sulla relazione tra fumo e cancro della cervice. Che cosa accade se vi limitate a sommare i valori del­la tabella? d. Eseguire un test di omogeneità. È appropriato utilizzare il metodo di M­H per combinare le informazioni di queste due tabelle? e. Calcolare la stima dell'OR globale di M-H . f. Calcolare l'intervallo di confidenza al 99% per l'OR. g. Ad un livello di significatività di 0,01, te­stare l'ipotesi nulla di assenza di associazione tra fumo e cancro della cervice. h. Che cosa si può concludere sulla relazione tra fumo e cancro della cervice?

34 Esercizio 2 In uno studio sui fattori di rischio per le patologle cardiache, è stata esaminata la relazione tra ipertensione e patologie coronariche in soggetti di due diverse fasce di età 35 ‑ 49 anni > 65 anni TOT Patologie Ipertensione Coronariche SI NO Si 552 941 1493 1102 1018 2120 1654 1959 3613 No 212 495 707 87 106 193 299 601 900 764 1463 2200 1189 1124 2313 1953 2560 4513 a. In ciascuna fascia di età, gli odds di essere affetti da patologie coronari-che sono maggiori o minor nei soggetti ipertesi. b. E appropriato combinare le informazioni di queste due tabelle? Perche? Perche no?

35 in stata clear input f iper pat age 552 1 1 1 941 0 1 1 212 1 0 1
end poisson f pat iper age input r n iper age blogit r n iper age clear input f iper pat age end cc pat iper [fw=f], by(age) cc pat age [fw=f], by(iper) input pop ima caffe fumo cc ima caffe [fw=pop], by(fumo) cc ima fumo [fw=pop], by(caffe)

36 Esercizio (continua) c. Calcolare una stima puntuale globale del­la forza dell'associazione tra ipertensione e patologia coronarica. d. Calcolare l'intervallo di confidenza al 90% per l'OR globale. e. Ad un livello di significatività di 0,10, testare l'ipotesi nulla di assenza di associazione tra ipertensione e patologia coronarica.

37 Programma in STATA #delimit ;
sca a1= 37; sca b1=25; sca c1=24; sca d1=20; sca ORM=(a1*d1)/(b1*c1); sca a2= 14; sca b2=29; sca c2=19; sca d2=47; sca ORF =(a2*d2)/(b2*c2); sca a3=a1+a2; sca b3=b1+b2; sca c3=c1+c2; sca d3=d1+d2; sca ORT=(a3*d3)/(b3*c3); sca LORT= log(ORT); sca LORM= log(ORM); sca LORF= log(ORF); sca wF =( (1/a1)+(1/b1)+(1/c1)+(1/d1) )^(-1) ; sca wM =( (1/a2)+(1/b2)+(1/c2)+(1/d2) )^(-1) ; sca Y = (wM*LORM+wF*LORF)/(wF+wM) ; sca ORMH=exp(Y) ; sca list ORM ORF LORT LORM wF wM Y ORMH ; ORM = ORF = LORT = LORM = wF = wM = Y = ORMH =


Scaricare ppt "COMBINAZIONE DI TABELLE DI CONTINGENZA 2X2"

Presentazioni simili


Annunci Google