TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.

Slides:



Advertisements
Presentazioni simili
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
2. Introduzione alla probabilità
Come organizzare i dati per un'analisi statistica al computer?
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
Passo 1: trasformare tutte le percentuali in frequenze (senza sapere la numerosità sulla quale sono state calcolate, non si può fare il confronto tra %)
Variabili casuali a più dimensioni
L’EPIDEMIOLOGIA CLINICA
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
STATISTICA 6.0: REGRESSIONE LINEARE
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Obiettivi del corso di Statistica Medica.
La regressione logistica binomiale
Appunti di inferenza per farmacisti
Boscaro Gianni & Brugnaro Luca
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
Corso di biomatematica lezione 7: Test di significatività
STATISTICA a.a LA STATISTICA INFERENZIALE
Modello di regressione lineare semplice
STATISTICA PER LE DECISIONI DI MARKETING
Regressione Logistica
Le distribuzioni campionarie
Corso di biomatematica lezione 7-3: Test di significatività
Il test del Chi-quadrato
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Elementi di Statistica medica Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Copyright © 2007 – The McGraw-Hill Companies s.r.l. SIGNIFICATIVITÀ.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Strumenti statistici in Excell
redditività var. continua classi di redditività ( < 0 ; >= 0)
Calcolo delle probabilità a cura di Maurizio Brizzi
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Master in Neuropsicologia ClinicaElementi di Statistica I 24 maggio / 25 Variabile casuale: variabile i cui valori non possono essere esattamente.
Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Accenni di analisi monovariata e bivariata
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
Epidemiologia Studia lo stato di salute e di malattia della popolazione e dei relativi fattori di rischio (ambientali, comportamentali, genetici) che agiscono.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
ANALISI DELLA VARIANZA (ANOVA)
Correlazione e regressione lineare
La regressione statistica IL CASO UNIVARIATO Consideriamo due variabili continue proponendoci di INDAGARE se esiste una relazione tra loro. Normalmente.
Accademia europea dei pazienti sull'innovazione terapeutica Lo scopo e i fondamenti della statistica negli studi clinici.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Corso di Laurea Triennale in Biotecnologie Igiene (III anno, 5+1 CFU) Epidemiologia generale Valutazione del rischio.
1 VARIABILI CASUALI. 2 definizione Una variabile casuale è una variabile che assume determinati valori in modo casuale (non deterministico). Esempi l’esito.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Statistica di Base per le Scienze Pediatriche luigi greco D.C.H, M.D., M.Sc.M.C.H., Ph.D. Dipartimento di Pediatria UniFEDERICOII.
Transcript della presentazione:

TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico (si-no, vivo-morto, ecc). In questo caso non ha senso presupporre che esso sia ‘distribuito’ in accordo con una curva statistica occorre elaborare dei metodi ‘non-parametrici’. Uno di questi è basato sulla tabelle di contingenza e la statistica del CHI-QUADRO

Esempio: Si vuole confrontare l’aspirina con un placebo per verificarne l’efficacia nel prevenire la formazione di trombi. In questo caso la variabile aleatoria è: SI (sviluppa trombi) NO (non sviluppa trombi) e i risultati si possono inserire in una tabella 2 x 2: SINO placebo187|25 aspirina613|19 ______ 2420|44

Calcoliamo le percentuali: su un totale di 44 pazienti, di cui 25 trattati con placebo e 19 con aspirina, 24 sviluppano trombi e 20 no: 24/44 = 55% ha sviluppato trombi IPOTESI NULLA: l’aspirina non è efficace, c’è per tutti la probabilità del 55% di sviluppare trombi. In questo caso posso elaborare una ‘tabella’ teorica SINO placebo25x55%= x45%=11.25|25 aspirina19x55%= x45%=8.75|19 ______

Occorre ora confrontare le due tabelle e vedere se la loro DIFFERENZA è statisticamente significativa. Per farlo si utilizza il test statistico del CHI-QUADRO: si calcola la variabile:  =  (O-A) 2 /A O=valori osservati, A=valori attesi nel nostro caso:  =( ) 2 / ( ) 2 / ( ) 2 / ( ) 2 /8.75 = 6.75 La variabile  è distribuita secondo una legge nota, che dipende dal numero di gradi di libertà

v=(num. Righe-1)(num. Colonne - 1) nel ns caso v=1 Confrontando con le tabelle e fissando un livello di confidenza pari a p=0.01 si trova un valore soglia  *=6.63 Poiché il valore da noi trovato è superiore, la probabilità che esso sia stato ottenuto per caso è inferiore all’1% Si rifiuta pertanto l’ipotesi nulla!

OSSERVAZIONI 1) La definizione del  data prima vale rigorosamente per il confronto di tabelline di dimensioni maggiori di 2 x 2. Nel caso delle tabelle 2 x 2 è stato dimostrato che esiste un BIAS molto pronunciato legato al fatto che si considerano dati discreti come se fossero continui. E’ stata pertanto suggerita una correzione (CORREZIONE DI CONTINUITA’ O DI YATES) consistente nell’assumere:  y =   (O-A) - 1/2 ) 2 /A O=valori osservati, A=valori attesi in generale questa correzione riduce leggermente il valore del  : nel caso precedente non si rifiuterebbe l’ipotesi nulla.

2) spesso le tabelle di contingenza si utilizzano per valutare i test diagnostici. In questo caso le due righe rappresentano gli esiti T+ e T- del test e le due colonne la presenza D+ o assenza D- della malattia. Es. Si studia la capacità di un test (basato sulla concentrazione serica di digossina) di predire la presenza di intossicazione del paziente. D+(intoss)D-(non intoss) test + T+2514|39 test - T-1878|96 ______

Si definisce SENSIBILITA’ del test la probabilità che un pz malato presenti un test positivo: P(T+|D+) nel ns caso: SENS = 25/43=.58 Si definisce SPECIFICITA’ di un test la probabilità che un paziente sano presenti test negativo: P(T-|D-) nel ns caso: SPEC=78/92 =.85

Si definiscono poi i VALORI PREDITTIVI positivi e nagativi attraverso le altre probabilità condizionate: valore predittivo di un test positivo = probabilità che, dato un esito positivo del test, il pz sia malato: P(D+|T+) nel ns caso:VP+=25/39=.64 valore predittivo di un test negativo = probabilità che, dato un esito negativo del test, il pz sia sano: P(D-|T-) nel ns caso. VP- = 78/96 =.81

3) Negli studi di ‘cohorte’ si è interessati a valutare il rischio di malattia conseguente all’esposizione ad un certo agente. Si scelgono pertanto ‘a posteriori’ soggetti sottoposti o meno ad un dato fattore di rischio che hanno presentato una malattia (casi) e che non l’hanno presentata (controlli). Esempio: studio dell’influenza dell’uso di contraccettivi orali sull’insorgenza del cancro alla mammella casicontrolli esposti |1091 non esposti639622|1261 __________

Si definiscono: i rischi di sviluppare la malattia per la popolazione esposta e non esposta: R( E o NE) = casi/(casi + controlli) e il RISCHIO RELATIVO: RR = R(E)/R(NE) Nel ns caso: R(E)= 537 /1091=.49 R(NE)=639/1261=.51 RR=.49/.51=.96

Si definiscono gli ‘odds’ di un evento come il rapporto tra la probabilità del verificarsi di un evento e la probabilità del non verificarsi dell’evento. Es: considerati i soli malati, l’odds di essere stato esposto è 537/639; considerati i soli sani l’odds di essere stato esposto è 554/622 quindi l’ODDS RATIO sarà OR=537x622/ 554x639 = 0.94 : c’è una leggera proba- bilità che i malati non siano stati esposti. N.B. OR = 1 significa che i casi hanno avuto la stessa probabilità di esposizione dei controlli

ANALISI MULTIVARIATA Immaginiamo ora di considerare una variabile dipendente Y dicotomica ma più variabili indipendenti (dicotomiche o continue). L’idea di eseguire una regressione multipla continua ad essere valida, ma per sua natura una retta di regressione, per ogni insieme di valori di x, è caratterizzata da un valore di Y che varia nell’insieme dei numeri reali. Se la ns Y assume soltanto i valori ‘0’ e ‘1’, occorre pertanto innanzitutto definire una nuova variabile che vari tra - e + inf. Se si considera l’ ‘odds’ di Y, ossia Y / (1-Y), avremo valori tra 0 e l’inf positivo. Se poi ne prendiamo il logaritmo, avremo esteso i valori a tutto l’asse reale...

Regressione logistica ln ( Y/(1-Y) )= a0 + a1x1 + a2x2 + …. NB. Si studia come varia l’ ODDS di Y al variare delle x ! Talvolta l’equazione viene scritta in forma esponenziale: Y = 1 / (1 + exp(-(a0 + a1 x1+…)) che è perfettamente equivalente.

Come interpretare i coefficienti del modello? Per semplicità consideriamo un caso di ‘ esposizione’ ( ‘0’ per non esposto, ‘1’ per esposto) e sia CI0 il rischio di malattia per i non esposti e CI1 quello per gli esposti. Allora: x=0 a0 = ln ( CI0/(1-CI0)) a0 rappresenta cioè il logaritmo dell’odds di malattia per i non esposti.

Vediamo adesso il significato di a1: se x=1 a1 = ln ( CI1/(1-CI1)) - ln (CI0 /(1-CI0)) = ln ( CI1/ (1-CI1) / CI0/(1-CI0))) è cioè il logaritmo dell’ ODDS RATIO. La semplice stima del coefficiente a1 permette dunque di ottenere informazioni utili in tutti i casi in cui si lavora con dati casi- controlli.

Come nel caso della regressione, si può dimostrare che, quando si utilizzano più variabili indipendenti, i coefficienti a esprimono il logaritmo della probabilità che si verifichi un evento al variare di una unità in x AL NETTO della variazione delle altre variabili indipendenti. Come esempi si possono considerare gli stessi di prima, immaginando per esempio che una data malattia possa essere correlata a più fattori di rischio indipendenti: es: cancro della bocca vs esposizione al fumo e all’alcool, ecc.