METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
2. Introduzione alla probabilità
Intervalli di confidenza
Passo 1: trasformare tutte le percentuali in frequenze (senza sapere la numerosità sulla quale sono state calcolate, non si può fare il confronto tra %)
Confronto tra 2 campioni Nella pratica è utilissimo confrontare se 2 campioni provengono da popolazioni con la stessa media: Confronti tra produzioni di.
Il chi quadro indica la misura in cui le
Misure epidemiologiche di rischio Servono alla valutazione della associazione possibile (pericolo) o probabile (rischio) tra esposizione e malattia Occhio.
Variabili casuali a più dimensioni
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Lez. 3 - Gli Indici di VARIABILITA’
Analisi dei dati per i disegni ad un fattore
ANALISI DELLA COVARIANZA
Progetto Pilota 2 Lettura e interpretazione dei risultati
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA
Inferenza statistica per un singolo campione
Obiettivi del corso di Statistica Medica.
Analisi della varianza (a una via)
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
Appunti di inferenza per farmacisti
Boscaro Gianni & Brugnaro Luca
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 7-2: Test di significatività
Corso di biomatematica lezione 7: Test di significatività
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
EPIDEMIOLOGIA ANALITICA
MISURE EPIDEMIOLOGICHE
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Analisi della varianza
Verifica delle ipotesi su due campioni di osservazioni
Regressione Logistica
Un buon latinista è anche un bravo matematico? I.S. Artemisia Gentileschi - NAPOLI Convegno finale Progetto Lauree Scientifiche – Matematica Università
Le distribuzioni campionarie
LE MISURE EPIDEMIOLOGICHE DI ASSOCIAZIONE E IMPATTO
Come si imposta uno studio epidemiologico che cerca di trovare la causa di una malattia?
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
PROBABILITA’.
Corso di biomatematica lezione 7-3: Test di significatività
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Il test del Chi-quadrato
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Accenni di analisi monovariata e bivariata
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Test basati su due campioni Test Chi - quadro
UNIVERSITA’ DEGLI STUDI DI PERUGIA
EPIDEMIOLOGIA GENERALE DELLE MALATTIE MULTIFATTORIALI
Accenni di analisi monovariata e bivariata
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
Disegni ad un fattore tra i soggetti. Disegni ad un solo fattore between Quando i livelli del trattamento possono influenzarsi reciprocamente è necessario.
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
ANALISI DELLA VARIANZA (ANOVA)
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Corso di Laurea Triennale in Biotecnologie Igiene (III anno, 5+1 CFU) Epidemiologia generale Valutazione del rischio.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
Statistica di Base per le Scienze Pediatriche luigi greco D.C.H, M.D., M.Sc.M.C.H., Ph.D. Dipartimento di Pediatria UniFEDERICOII.
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI Le tabelle rxc

Si consideri una popolazione le cui N unità siano classificate secondo le r modalità di un carattere X (esempio sesso) e le c modalità di un carattere Y (classi di età)

Estraiamo da questa popolazione un campione di n unità e si ha Sulla base delle osservazioni campionarie vogliamo sapere se i due caratteri X ed Y sono indipendenti

Distribuzione marginale di colonna p.j Distribuzione marginale di riga Esempio:Verificare l’ipotesi nulla di indipendenza tra reflusso gastro-esofageo e peso corporeo al livello di significatività dell’1%. Distribuzione marginale di colonna p.j Distribuzione marginale di riga pi.

Test di indipendenza Per la legge del prodotto di due eventi indipendenti, la probabilità del prodotto pij è uguale al prodotto delle probabilità pi. per p.j Si utilizza una statistica test che è una sorta di distanza tra la tabella delle frequenze osservate nij e la tabella delle frequenze attese υij nell’ipotesi di indipendenza

Generalmente le probabilità marginali non sono note. Occorre stimarle: Sotto H0: Generalmente le probabilità marginali non sono note. Occorre stimarle: Allora:

P-value

Il chi quadro indica la misura in cui le frequenze osservate in ogni casella della tabella differiscono dalle frequenze che ci aspetteremmo se non ci fosse associazione fra i due caratteri. I gradi di libertà sono dati dal numero totale delle celle meno il numero di parametri stimati, ovvero 1 frequenza totale, r frequenze marginali di riga e c frequenze marginali di colonna: rc-1-r-c=r(c-1)-(c-1)=(r-1)(c-1)

Affinché si possa utilizzare il chi quadro e' indispensabile: che i dati siano indipendenti, cioe' nessun soggetto puo' apparire in più di una cella della tabella; b) che non più del 20 % delle frequenze attese nella tabella può essere < 5 (altrimenti si deve usare il test esatto di Fisher); c) nessuna cella deve avere una frequenza attesa < 1 (altrimenti si deve usare il test esatto di Fisher). d) Non c’è alcuna ipotesi di normalità sulla distribuzione della popolazione di provenienza del campione. Per questo fa parte della famiglia dei test non parametrici

Abbiamo detto che per una tabella rxc il test si distribuisce approssimativamente come un Chi-quadro. Questa approssimazione è valida purché vi siano un numero sufficiente di g.l. Per tabelle 2x2, con 1 solo g.l., è meglio utilizzare un fattore di correzione per la continuità: Correzione di Yates: consiste nel sottrarre 0.5 alla differenza tra frequenze osservate e attese in valore assoluto

Test esatto di Fisher Quando le dimensioni campionarie sono piccole, è possibile elencare tutte le possibili combinazioni delle osservazioni e quindi calcolare le probabilità esatte associate a ogni possibile combinazione di dati. La probabilità totale a una coda o a due code di ottenere la tabella osservata o una più estrema è il valore di P associato all’ipotesi che i due caratteri siano indipendenti

Si consideri il seguente esempio: Si deve usare il test esatto di Fisher

. tabi 1 8\10 4, exact | col row | 1 2 | Total -----------+----------------------+---------- 1 | 1 8 | 9 2 | 10 4 | 14 Total | 11 12 | 23 Fisher's exact = 0.009 1-sided Fisher's exact = 0.007

Misure di rischio

L'associazione e' il grado di dipendenza statistica tra 2 o piu' eventi variabili; Infatti l'associazione puo' essere: - causale o eziologica (il fumo di tabacco provoca il cancro); - secondaria o indiretta (la bronchite cronica, causata dal fumo, e' associata al cancro); - non causale o spuria o artificiale: e' determinata da una circostanza esterna: o un fattore di confon- dimento o una distorsione della metodologia statistica usata.

Misure di rischio Facciamo l'esempio di due gruppi di soggetti (ad es. quelli con colesterolo alto e quelli con colesterolo basso), inizialmente sani, che esposti ad un fattore di rischio (colesterolemia alta) dopo un certo tempo sviluppano una malattia (cardiopatia). Al termine del periodo di follow-up si avranno 4 categorie di soggetti: malati esposti (a), malati non esposti (c), non malati esposti (b) non malati non esposti (d):

Si consideri uno studio prospettico (1) Malato (M+) Non malato (M-) Totale Esposto (E+) a=50 b=450 500 Non esposto (E-) c=25 d=475 500 La probabilità che un soggetto esposto sia malato è detta Incidenza o rischio assoluto: a/a+b, cioe' 50/500

… oppure i risultati di un Trial (2) Morti Non Morti Totale Terapia tradizionale (TT) 35 41 76 Sperimentale (TS) 49 26 75

Rappresenta la quantita' di rischio supplementare Rischio attribuibile individuale (RA) o Riduzione del Rischio Assoluto (RRA) Rappresenta la quantita' di rischio supplementare attribuibile al fattore di rischio ( o alla terapia tradizio- nale): (1) RA = IE+ - IE- = 0.10 - 0.05 = 0.05 (il fattore di rischio aumenta il rischio del 5%) (2) RA = I(TT) - I(TS) = 0.46 - 0.65= -0.19 (la terapia sperimentale aumenta il rischio di morte del 19%: si noti il segno negativo di RA)

Rischio Relativo (RR o risk ratio) Rapporto fra incidenza negli esposti e incidenza nei non esposti, cioe': a/(a+b) 50/500 0.10 RR = ________ = _______ = ___ =2 (1) c/(c+d) 25/500 0.05 (cioe' gli esposti hanno un rischio doppio dei non esposti). Se il valore e' attorno a 1 indica che il fattore non ha influenza nello sviluppo della malattia; se e' <1 indica che il fattore ha un ruolo protettivo, se e' >1 indica che esiste un'associazione tra fattore e malattia.

Rischio Relativo (RR o risk ratio) Rapporto fra incidenza negli esposti e incidenza nei non esposti, cioe': a/(a+b) 35/76 0.46 RR = ________= _______ = ___ = 0.71 (2) c/(c+d) 49/75 0.65 (cioe' i pazienti trattati con terapia tradizionale hanno un rischio minore rispetto ai pazienti trattati con terapia sperimentale) Se il valore e' attorno a 1 indica che le due terapie sono equivalenti; se e' <1 indica che la terapia al numeratore è più efficace se e' >1 indica che è meno efficace

Riduzione del Rischio Relativo (RRR) Rapporto fra incidenza negli esposti e incidenza nei non esposti, cioe': RRR = 1-RR = 1- 0.71=0.29 (2) (cioe' i pazienti trattati con terapia sperimentale hanno un rischio del 29% più alto dei pazienti trattati con terapia tradizionale)

Rischio Relativo (RR o risk ratio) Gli intervalli di confidenza per RR possono essere ottenuti tramite una trasformazione logaritmica

Odds ratio o rapporto crociato (“Crude” OR) Il RR puo' essere calcolato correttamente solo negli studi longitudinali (insorgenza di una malattia nel tempo). Casi Controlli Totale Fattore di rischio presente 19 3 22 assente 17 11 28 Totale 36 14 50 Odds è il rapporto della probabilità di essere caso rispetto alla probabilità di essere controllo

Odds ratio o rapporto crociato (“Crude” OR) Negli studi caso-controllo si puo' ottenere una stima del rischio con il c.d. odds ratio: Odds (f.r.presente)=(19/22)/(3/22)=19/3=6.3 Odds (f.r.assente)=(17/28)/(11/28)=17/11=1.5 OR = Odds (f.r.presente)/Odds (f.r.assente)= (a/b) / (c/d) = a d/b c =6.3/1.5=4.2

Odds ratio o rapporto crociato (“Crude” OR)

Statistica di Mantel-Haenszel Quando nello studio osservazionale interviene una variabile di confondimento occorre stratificare casi e controlli in funzione delle sue categorie.

Tabella di contingenza relativa all’i-esima categoria della v Tabella di contingenza relativa all’i-esima categoria della v. di confounding Casi D+ Controlli D- Tot E+ ai bi ai+bi E- ci di ci+di ai+ci bi+di D E

Per ogni categoria della variabile di confondimento abbiamo un OR Test di omogeneità Per ogni categoria della variabile di confondimento abbiamo un OR Occorre verificare l’ipotesi nulla Si utilizza un test Chi-quadro: con pesi dati dall’inverso della varianza stimata del log dell’ORi:

Se il test risulta non significativo, possiamo calcolare un OR globale Test di associazione:

Procedura 1. Calcolare 2. Calcolare 3. Calcolare