TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.

TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico (si-no, vivo-morto, ecc). In questo caso non ha senso presupporre che esso sia ‘distribuito’ in accordo con una curva statistica occorre elaborare dei metodi ‘non-parametrici’. Uno di questi è basato sulla tabelle di contingenza e la statistica del CHI-QUADRO

Esempio: Si vuole confrontare l’aspirina con un placebo per verificarne l’efficacia nel prevenire la formazione di trombi. In questo caso la variabile aleatoria è: SI (sviluppa trombi) NO (non sviluppa trombi) e i risultati si possono inserire in una tabella 2 x 2: SINO placebo187|25 aspirina613|19 ______ 2420|44

Calcoliamo le percentuali: su un totale di 44 pazienti, di cui 25 trattati con placebo e 19 con aspirina, 24 sviluppano trombi e 20 no: 24/44 = 55% ha sviluppato trombi IPOTESI NULLA: l’aspirina non è efficace, c’è per tutti la probabilità del 55% di sviluppare trombi. In questo caso posso elaborare una ‘tabella’ teorica SINO placebo25x55%=13.7525x45%=11.25|25 aspirina19x55%=10.2519x45%=8.75|19 ______ 242044

Occorre ora confrontare le due tabelle e vedere se la loro DIFFERENZA è statisticamente significativa. Per farlo si utilizza il test statistico del CHI-QUADRO: si calcola la variabile:  =  (O-A) 2 /A O=valori osservati, A=valori attesi nel nostro caso:  =(18-13.75) 2 /13.75 + (7-11.25) 2 /11.25 + (6-10.25) 2 /10.25 + (13-8.75) 2 /8.75 = 6.75 La variabile  è distribuita secondo una legge nota, che dipende dal numero di gradi di libertà

v=(num. Righe-1)(num. Colonne - 1) nel ns caso v=1 Confrontando con le tabelle e fissando un livello di confidenza pari a p=0.01 si trova un valore soglia  *=6.63 Poiché il valore da noi trovato è superiore, la probabilità che esso sia stato ottenuto per caso è inferiore all’1% Si rifiuta pertanto l’ipotesi nulla!

OSSERVAZIONI 1) La definizione del  data prima vale rigorosamente per il confronto di tabelline di dimensioni maggiori di 2 x 2. Nel caso delle tabelle 2 x 2 è stato dimostrato che esiste un BIAS molto pronunciato legato al fatto che si considerano dati discreti come se fossero continui. E’ stata pertanto suggerita una correzione (CORREZIONE DI CONTINUITA’ O DI YATES) consistente nell’assumere:  y =   (O-A) - 1/2 ) 2 /A O=valori osservati, A=valori attesi in generale questa correzione riduce leggermente il valore del  : nel caso precedente non si rifiuterebbe l’ipotesi nulla.

2) spesso le tabelle di contingenza si utilizzano per valutare i test diagnostici. In questo caso le due righe rappresentano gli esiti T+ e T- del test e le due colonne la presenza D+ o assenza D- della malattia. Es. Si studia la capacità di un test (basato sulla concentrazione serica di digossina) di predire la presenza di intossicazione del paziente. D+(intoss)D-(non intoss) test + T+2514|39 test - T-1878|96 ______ 4392135

Si definisce SENSIBILITA’ del test la probabilità che un pz malato presenti un test positivo: P(T+|D+) nel ns caso: SENS = 25/43=.58 Si definisce SPECIFICITA’ di un test la probabilità che un paziente sano presenti test negativo: P(T-|D-) nel ns caso: SPEC=78/92 =.85

Si definiscono poi i VALORI PREDITTIVI positivi e nagativi attraverso le altre probabilità condizionate: valore predittivo di un test positivo = probabilità che, dato un esito positivo del test, il pz sia malato: P(D+|T+) nel ns caso:VP+=25/39=.64 valore predittivo di un test negativo = probabilità che, dato un esito negativo del test, il pz sia sano: P(D-|T-) nel ns caso. VP- = 78/96 =.81

3) Negli studi di ‘cohorte’ si è interessati a valutare il rischio di malattia conseguente all’esposizione ad un certo agente. Si scelgono pertanto ‘a posteriori’ soggetti sottoposti o meno ad un dato fattore di rischio che hanno presentato una malattia (casi) e che non l’hanno presentata (controlli). Esempio: studio dell’influenza dell’uso di contraccettivi orali sull’insorgenza del cancro alla mammella casicontrolli esposti 537554|1091 non esposti639622|1261 __________ 11761176 2352

Si definiscono: i rischi di sviluppare la malattia per la popolazione esposta e non esposta: R( E o NE) = casi/(casi + controlli) e il RISCHIO RELATIVO: RR = R(E)/R(NE) Nel ns caso: R(E)= 537 /1091=.49 R(NE)=639/1261=.51 RR=.49/.51=.96

Si definiscono gli ‘odds’ di un evento come il rapporto tra la probabilità del verificarsi di un evento e la probabilità del non verificarsi dell’evento. Es: considerati i soli malati, l’odds di essere stato esposto è 537/639; considerati i soli sani l’odds di essere stato esposto è 554/622 quindi l’ODDS RATIO sarà OR=537x622/ 554x639 = 0.94 : c’è una leggera proba- bilità che i malati non siano stati esposti. N.B. OR = 1 significa che i casi hanno avuto la stessa probabilità di esposizione dei controlli

ANALISI MULTIVARIATA Immaginiamo ora di considerare una variabile dipendente Y dicotomica ma più variabili indipendenti (dicotomiche o continue). L’idea di eseguire una regressione multipla continua ad essere valida, ma per sua natura una retta di regressione, per ogni insieme di valori di x, è caratterizzata da un valore di Y che varia nell’insieme dei numeri reali. Se la ns Y assume soltanto i valori ‘0’ e ‘1’, occorre pertanto innanzitutto definire una nuova variabile che vari tra - e + inf. Se si considera l’ ‘odds’ di Y, ossia Y / (1-Y), avremo valori tra 0 e l’inf positivo. Se poi ne prendiamo il logaritmo, avremo esteso i valori a tutto l’asse reale...

Regressione logistica ln ( Y/(1-Y) )= a0 + a1x1 + a2x2 + …. NB. Si studia come varia l’ ODDS di Y al variare delle x ! Talvolta l’equazione viene scritta in forma esponenziale: Y = 1 / (1 + exp(-(a0 + a1 x1+…)) che è perfettamente equivalente.

Come interpretare i coefficienti del modello? Per semplicità consideriamo un caso di ‘ esposizione’ ( ‘0’ per non esposto, ‘1’ per esposto) e sia CI0 il rischio di malattia per i non esposti e CI1 quello per gli esposti. Allora: x=0 a0 = ln ( CI0/(1-CI0)) a0 rappresenta cioè il logaritmo dell’odds di malattia per i non esposti.

Vediamo adesso il significato di a1: se x=1 a1 = ln ( CI1/(1-CI1)) - ln (CI0 /(1-CI0)) = ln ( CI1/ (1-CI1) / CI0/(1-CI0))) è cioè il logaritmo dell’ ODDS RATIO. La semplice stima del coefficiente a1 permette dunque di ottenere informazioni utili in tutti i casi in cui si lavora con dati casicontrolli.

Come nel caso della regressione, si può dimostrare che, quando si utilizzano più variabili indipendenti, i coefficienti a esprimono il logaritmo della probabilità che si verifichi un evento al variare di una unità in x AL NETTO della variazione delle altre variabili indipendenti. Come esempi si possono considerare gli stessi di prima, immaginando per esempio che una data malattia possa essere correlata a più fattori di rischio indipendenti: es: cancro della bocca vs esposizione al fumo e all’alcool, ecc.

TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.

Presentazioni simili

Presentazione sul tema: "TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.

Presentazioni simili

Presentazione sul tema: "TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back