La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

TABELLE DI CONTINGENZA Frequenze di dati nominali raggruppati in categorie sono spesso organizzate in forma di tabella di contingenza. Il caso più semplice.

Presentazioni simili


Presentazione sul tema: "TABELLE DI CONTINGENZA Frequenze di dati nominali raggruppati in categorie sono spesso organizzate in forma di tabella di contingenza. Il caso più semplice."— Transcript della presentazione:

1 TABELLE DI CONTINGENZA Frequenze di dati nominali raggruppati in categorie sono spesso organizzate in forma di tabella di contingenza. Il caso più semplice implica due variabili casuali dicotomiche; le righe della tabella rappresentano i risultati di una variabile e le colonne i risultati dell'altra, i numeri all'interno della tabella sono le frequenze di una particolare combinazione di categorie.

2 Test Chi quadrato per Tabelle 2x2 Si consideri la tabella, che illustra i risultati di uno studio di validità del test da sforzo positivo (ST-2) nel predire eventi cardiovascolari CV nei 5 anni seguenti in soggetti non sintomatici(1). I dati si riferiscono ad un campione casuale di 514 soggetti sani arruolati in uno studio eseguito nel CPA di Milano. ST-2:Presenza di anomalie nel tratto ST dellECG eseguito sotto sforzo CV: (morte improvvisa,infarto mortale, infarto semplice, angina) SFORZO EsitoNegativoST-2Totale Eventi CV Nessuno Totale

3 514 soggetti sono stati arruolati nello studio 135 soggetti hanno avuto esito positivo; 379 soggetti hanno avuto esito negativo; Dei 379 con esito negativo, 13 svilupparono eventi CV e 366 no; Dei 135 con esito positivo, 21 svilupparono eventi CV e 114 no. I numeri all'interno della tabella e 114 sono le frequenze osservate SFORZO EsitoNegativoST-2Totale Eventi CV Nessuno Totale

4 IL TEST D'IPOTESI: Scopo: valutare capacità predittiva della risposta ST-2 al test da sforzo H0: la frazione di soggetti ST-2 allECG da sforzo che sviluppano eventi CV è uguale alla frazione di soggetti che sviluppano eventi CV essendo NEGATIVI allECG da sforzo H1: la frazione di soggetti ST-2 allECG da sforzo che sviluppano eventi CV è diversa dalla frazione di soggetti che sviluppano eventi CV essendo NEGATIVI allECG da sforzo Il livello di significatività è posto α=0,05

5 Si calcolano le frequenze attese sotto lipotesi nulla H 0 : La proporzione di soggetti con eventi CV = 34/514 = 6.61% Tra i 135 esiti positivi, ci aspettiamo che gli eventi CV Presenza di eventi CV nel 6.61% dei casi 135 (0.0661) = 8.93 Assenza di eventi CV nel 93.39% dei casi 135 (0.9339)= Tra i 379 esiti negativi, ci aspettia- mo Presenza di eventi CV nel 6.61% dei casi 379 (0.0661) = Assenza di eventi CV nel93.39% 379 (0.9339) =

6 LE FREQUENZE ATTESE La frequenza attesa per una della tabella è calcolata dal prodotto dei totali di riga e di colonna diviso dal totale di tabella. SFORZO EsitoNegativoST-2Totale Eventi CV 379 ( 34/514)= ( 34/514) = Nessuno 379 (480/514)= (480/514) = Totale I conteggi osservati erano e 114

7 IL TEST CHI QUADRATO Il test chi quadrato confronta le frequenze osservate in ciascuna categoria, rappresentate da O, con le frequenze attese sotto l'ipotesi nulla, indicate con E. dove rc è il numero di celle nella tabella. La distribuzione di probabilità di questa somma è approssimata una distribu-zione chi-quadrato con gradi di libertà (gdl)= (r 1)(c 1). Il test saggia se le differenze (O E) tra frequenze osservate e attese siano troppo grandi perché siano attribuite al caso. Il test controlla le differenze in tutte le celle. Per eseguire il test per una tabella di contingenza con (r) righe e (c) colonne, si calcola la somma:

8 Limitazioni Per garantire la validità di questa approssimazione, la dimensione del campione deve essere grande, nessuna cella deve avere frequenza attesa minore di 1, e non più del 20% delle celle deve avere frequenza attesa minore di 5. Una variabile casuale che segue una distribuzione chi quadrato deve essere positiva e assumere valori tra zero ed infinito. L'area totale sotto la curva della distribuzione è uguale ad uno.

9 LA DISTRIBUZIONE CHI QUADRATO La distribuzione chi quadrato è diversa per ogni possibile valore di gdl. Le distribuzioni con pochi gdl sono fortemente asimmetriche e tendo- no alla simmetria all'aumentare del numero di gdl, come illustrato in figura. La tabella A.6 mostra le aree della distribuzione chi- quadrato a destra di valori assegnati di X 2 e per diversi gdl. Esempio: X 2 =3,84 delimita il 5% superiore dell'area sotto la curva di una distribuzione con 1 gdl. 1 gdl 2 gdl 3 gdl 6 gdl 9 gdl 18 gdl 36 gdl 72 gdl99 gdl

10 Tabella A6 dei valori critici: La probabilità α che non venga superato il valore critico χ² α,g, nel caso di g gradi di libertà g\α

11 Calcolo della statistica Chi-quadrato Poiché le frequenze attese sono tutte E i >5, possiamo procedere con il test chi-quadrarto come sommatoria: SFORZO EsitoNegativoST-2 Eventi CV( ) 2 / 25.05( ) 2 / 8.93 Nessuno( ) 2 / ( ) 2 / = = Il test ha una distribuzione chi-quadrato con (2 1)(2 1)=1 gdl. Si noti che stiamo utilizzando osservazioni discrete per stimare, una distribuzione continua. Questa approssimazione è valida per tabelle con molti gdl, ma può non essere valida per tabelle 2x2 che hanno gdl=1.

12 Chi-quadrato e correzione per continuità Pertanto in questa situazione applichiamo un fattore di correzione. Con una tabella 2x2, lappropriato test statistico da utilizzare è: dove |O i -E i | è il valore assoluto della differenza (O i -E i ) ed il termine -0,5 nel numeratore è noto come la correzione per continuità (di Yates). La correzione di Yates rende il test molto conservativo ed induce a non rifiutare un'ipotesi nulla falsa. Sostituendo le frequenze osservate ed attese per i dati relativi al test da sforzo nellequazione corretta, troviamo che: SFORZO EsitoNegativoST-2 Eventi CV( ) 2 / ( ) 2 / 8.93 Nessuno( ) 2 /353.95( ) 2 / = = 21.77

13 Chi-quadrato e correzione per continuità Per una distribuzione chi-quadrato con gdl=1, il valore è p<0,001. La positività al test da sforzo predice significativamente una frequenza maggiore di eventi cardiovascolari. Variabile 2 Variabile 1SiNoTotale Siab a+b Nocd c+d Totale a+c b+d n = a+b+c+d il test è espresso come: La formula comporta l'esecuzione di calcoli più semplici, poiché non è necessario stimare le frequenze attese. In generale una tabella 2x2 ha il formato:

14 TABELLE r x c In questa situazione, i dati vengono organizzati in una tabella di contingenza r x c dove r e il numero di righe e c e il numero di colonne. Esempio: Uno studio valuta l'accuratezza dei certificati di morte. Scopo: Verificare se la compilazione dei certificati di morte in due Ospedali, indicati con A e B, è parimenti affidabile. Metodi: Le cause di morte, riportate nel certificato di decesso, in due Ospedali sono confrontate con il referto di 575 autopsie. La tabella di contingenza 2x3 mostra l'esito del confronto. Certificato di morte OspedaleAccuratoCarenteInesattoTotale A B Totale

15 TABELLE r x c Saggiamo l'ipotesi Ho: le proporzioni delle categorie di certificati di morte nell'ospedale A sono uguali a quelle nell'ospedale B, e l'ipotesi H 1: le proporzioni sono diverse. Utilizziamo il test chi quadrato con un livello di significatività = 0,05. Calcoliamo le frequenze attese; ….. ad esempio, ci aspettiamo che: 229 x 425 / 575 = 169,3 si riscontrino nell'ospedale A, 346 x 425 / 575 = 255,7 si riscontrino nell'ospedale B. AttesiCertificato di morte OspedaleAccuratoCarenteInesattoTotale A169,324,735,0229 B255,737,353,0346 Totale425,062,088,0575

16 TABELLE r x c Poiché stiamo operando con una tabella 2x3, non è necessario includere il fattore di correzione per la continuità. Pertanto: 0,89+1,82+10,31+0,59+6,81+1,20 = 21,62. Per una distribuzione X 2 con (2 1) (3 1) = 2 gdl, p< Poiché p è minore di, rifiutiamo lipotesi nulla e concludiamo che le proporzioni dei certificati di morte nellospedale A non sono uguali per le tre categorie. Conclusioni: L'Ospedale A presenta una proporzione maggiore di certificati che richiedono la riformulazione della causa di morte.

17 TEST di McNEMAR (Campioni appaiati) Le frequenze di variabili nominali, in campioni appaiati hanno una osservazione riferita al primo gruppo ed una osservazione riferita al secondo gruppo, come nel caso di dati continui. Il test di McNemar è adatto a testare le ipotesi in questa situazione. Uno studio ha stimato la prevalenza di IMA (infarto acuto del miocardio) e del diabete tra gli indiani Navajo. Nello studio, 144 soggetti con IMA sono stati appaiati per età e sesso con 144 soggetti non affetti IMA. Ai membri di ciascuna coppia (IMA, non IMA) è stato chiesto se gli fosse già stato diagnosticato il diabete. Infarto e diabete sono associati?

18 I risultati sono di seguito riportati: Tra i soggetti con IMA, a 46 era stato diagnosticato il diabete; tra i soggetti senza IMA, solo a 25. Vogliamo sapere se questo campione può provare che la proporzione di diabetici e uguale ne due gruppi. Nota bene: i campioni non sono indipendenti; Infatti il totale di 288 osservazioni deriva da 144 coppie. Ogni coppia appaiata nello studio fornisce due risposte: una del soggetto con IMA ed una del soggetto non affetto da IMA. Casi e Controlli DiabeteIMANon IMATotale Si No Totale Nell'analisi dobbiamo considerare questo appaiamento. IMA-Diabete nonIMA-Diabete IMA-nonDiabete nonIMA-nonDiabete

19 Supponiamo di osservare di nuovo i dati dello studio e questa volta li classifichiamo le coppie come di seguito riportato. Coppie formate da2) non infarto del Miocardio 1) Infarto del miocardioDiabeteNon Diabete Totale Diabete93746 Non diabete Totale Dei 46 soggetti con IMA e diabete, 9 sono stati appaiati a soggetti non affetti da IMA e diabete e 37 sono stati appaiati a non diabetici. Dei 98 soggetti con IMA non diabetici, 16 sono stati appaiati a diabetici e 82 no. E' necessario riformulare l'ipotesi H 0 per adattarla al nuovo forma dei dati: H 0 : il numero di coppie, non concordanti, in cui il soggetto affetto da IMA e da diabete è appaiato ad un soggetto non affetto da IMA e non affetto da diabete è uguale al numero di coppie in cui il soggetto affetto da IMA non è diabetico è appaiato con uno non affetto da IMA ma diabetico. H 1 : il numero di coppie disomogenee è diverso

20 TEST di McNEMAR (Campioni appaiati) Il livello di significatività a = 0,05. Le coppie concordanti (costituite da due diabetici o due non diabetici appaiati) non forniscono informazione circa Ho. Si tralasciano questi dati e si considerano solo sulle coppie discordanti, (coppie in cui un soggetto diabetico è appaiato ad un soggetto non diabetico). Sia r il numero di coppie in cui il soggetto (IMA,Diabete) è appaiato ad un soggetto (nonIMA,nonDiabete); Sia s, invece, il numero delle coppie in cui il soggetto è appaiato ad un soggetto. Se la differenza tra r e s e grande, rifiutiamo l'ipotesi nulla di assenza di associazione. Il test di McNemar calcola la statistica: Questo rapporto e una v.c. con distribuzione chi quadrato con 1 gdl.

21 infine Per i dati forniti, r = 37 e s=16. Pertanto: X 2 = [ |37 -16| 1 ] 2 / (37+16) = |21 – 1| 2 / (37+16) = 7,55 Per una distribuzione chi quadrato con 1 gdl si ha che 0.001

22 ODDS RATIO Cerchiamo di stimare l'intensità dell'associazione tra due variabili nominali. In una tabella 2x2, tale stima è l'odds ratio. Se un evento si verifica con probabilità p, l'odds in favore dell'evento è: p/(1 p) = p:(1 p).

23 Definizione di Odds(e) e di P(e) Se un evento (e) si verifica con probabilità P(e)=1/2, l'odds in favore dell'evento è: Odds(e) = (1/2)/(1-1/2) = (1/2)/(1/2)=1:1. Se un evento (e) ha un odds in favore Odds(e)=a:b, la probabilità che l'evento si verifichi è p(e) = a/(a + b). Esempio: Se due variabili casuali dicotomiche associate indicano malattia (m) ed esposizione (E) a fattore di rischio, allora l'odds ratio è il rapporto tra l'odds di malattia tra i soggetti esposti e l'odds di malattia tra i soggetti non esposti, ovvero:

24 ODDS RATIO Un campione generico di n soggetti (malati, non malati) (esposti, non esposti) può dare origine ad una tabella di contingenza 2x2 di seguito riportata. esposizione malattiaSiNoTotale Siab a+b Nocd c+d Totale a+c b+dn=a+b+c+d Con questi rapporti esprimiamo lo stimatore dellodds ratio: = [a/c] / [b/d] = ad / bc

25 RR verso OR Il rischio relativo (RR) è il rapporto della probabilità di malattia tra i soggetti esposti e la probabilità di malattia tra i soggetti non esposti. In presenza di eventi rari (i valori di a e b sono tali da rendere il prodotto ab 0 ) il rischio relativo è approssimato dall'odds ratio: In genere si preferisce utilizzare l'odds ratio, poiché la distribuzione campionarla di OR presenta minori difficoltà di quella di RR. L'odds ratio non è uguale al rischio relativo; ma … RR= (ab + ad) /( ba+bc ) ad / bc = OR

26 esempio Scopo: determinare se il monitoraggio elettronico fetale durante il parto faciliti la decisione di parto cesareo, Metodi: uno studio ha incluso neonati e di questi ne ha sottoposti a monitoraggio e no. Monitoraggio elettronico fetale Parto cesareoSiNoTotale Si No Totale L'odds ratio di parto cesareo nel gruppo sottoposto a monitoraggio fetale verso il gruppo non sottoposto è: OR =[(358) (2.745)]/ [(229) (2.492)]= 1,72.

27 intervallo di confidenza di OR Sembra esistere una moderata associazione tra lutilizzo del monitoraggio ed il tipo di parto. Nota: ciò non implica, tuttavia, che il monitoraggio elettronico causi un parto cesareo; E possibile che i feti a maggior rischio di parto cesareo siano quelli sottoposti a monitoraggio. L'incertezza di questa stima è riflessa dall'ampiezza del intervallo di confidenza (IC) di OR; Si ricordi che l'espressione per l'I.C. al 95% per una media si basa sulla assunzione che i valori della popolazione originaria siano normalmente distribuiti.

28 La distribuzione di probabilità dell'odds ratio e asimmetrica a destra; Infatti l'odds ratio assume solo valori positivi tra 0 ed infinito. Al contrario, la distribuzione di probabilità del logaritmo naturale dell'odds ratio e più simmetrica ed approssimativamente normale. Pertanto, per calcolare un intervallo di confidenza per ln(OR) prima di tutto dobbiamo conoscere lerrore standard (es) di questa quantità. Per una tabella 2x2 rappresentata nel mode seguente : Lerrore standard di log(OR) è stimato da es(log(OR)) = [(1/ a + 1/b + 1/c + 1/d) ] 1/2

29 intervallo di confidenza di OR Se uno dei valori della tabella è uguale a zero, l'errore standard non è definito. In questo caso, aggiungendo 0,5 ad ogni valore correggeremo la situazione. Pertanto, la stima modificata dell'errore standard è: La stima appropriata può essere sostituita nell'espressione precedente. Per trovare L'IC al 95% per l'odds ratio, calcoliamo l'anti-logaritmo dei limiti inferiore e superiore per ottenere: (e ln(OR) 1,96 es [ln(OR)] ; e ln(OR) + 1,96 es [In(OR)] ). Per la relazione tra monitoraggio elettronico fetale e tipo di parto, il logaritmo dell'odds ratio stimato e: L'espressione dell'I.C. al 95% per il logaritmo naturale dell'odds ratio

30 La stima dell'errore standard di ln(OR) è: es [ln(OR)] = [(1/a + 1/b + 1/c + 1/d) ] 1/2 = (1/ / / /2745) 1/2 = 0,089 L'IC al 95% per il logaritmo dell'odds ratio è: e l'IC al 95% per l'odds ratio è: [(exp(0, 368), exp(0,716)] = (1.44, 2.05). Siamo confidenti al 95% che l'odds di parto cesareo tra i feti sottoposti a monitoraggio durante il travaglio è da 1,44 a 2,05 volte maggiore dell'odds dei feti non sottoposti a monitoraggio. Si noti che questo intervallo non include il valore 1.


Scaricare ppt "TABELLE DI CONTINGENZA Frequenze di dati nominali raggruppati in categorie sono spesso organizzate in forma di tabella di contingenza. Il caso più semplice."

Presentazioni simili


Annunci Google