Aspetti statistici nella scelta dell’esperimento 20 Ottobre 2009 Il web a supporto della ricerca biomedica Aspetti statistici nella scelta dell’esperimento Simona Iacobelli Centro Interdipartimentale di Biostatistica e Bioinformatica, Università Tor Vergata
Outline Obiettivi dell’esperimento ed endpoint Richiami: la stima mediante IC e il test di ipotesi Gli elementi determinanti il “successo” di un esperimento: I “requisiti statistici” Le conoscenze “strutturali” ovvero i target (o risultati “attesi”) La numerosità campionaria Elaborazione delle informazioni per il disegno dell’esperimento Vantaggi dell’implementazione via web Ulteriori spunti per lo sviluppo di un sistema integrato di pianificazione degli esperimenti e raccolta dati dalle esperienze fatte: Stopping rules, modelli dose-finding, … Metodi Bayesiani (?)
Obiettivi di un esperimento ed endpoints Coerentemente con gli obiettivi dello studio si considerano alcune grandezze caratterizzanti il fenomeno di interesse, la cui conoscenza permette di ricostruirlo: gli ENDPOINT. Si può: Fornire una quantificazione dell’endpoint stima (intervallare) Fare una verifica di ipotesi sull’endpoint test Es: Fenomeno (Popolazione): dati numerici continui Endpoint: media X VERIFICA di IPOTESI μ=? STIMA PUNTUALE Es: H0: μ = μ0 vs. H1: μ > μ0 X DATI STIMA INTERVALLARE
Intervalli di Confidenza es. IC per la media μ di una popolazione con varianza σ2 Per il teorema del limite centrale (sotto certe condizioni) la media estratta da un campione di valori continui da una popolazione con media μ e varianza σ2 segue una legge N(0,1) Ad es con livello di confidenza 1-α=95%: Questa “regola” per la costruzione di un intervallo di stima garantisce che, immaginando di estrarre infiniti campioni di dati e ripetere ogni volta la procedura di stima, in 95 casi su100 si ottiene un intervallo che contiene il parametro che si vuole stimare 2.5% 2.5%
Verifica delle ipotesi Si considerano due ipotesi sul parametro: L’ipotesi di base (H0) corrisponde ad uno stato di conoscenze “neutro”, ad es: l’efficacia del nuovo farmaco misurata da θ è pari a quella dei farmaci già noti non c’è differenza fra i gruppi L’ipotesi alternativa (H1) corrisponde a quanto si vorrebbe dimostrare; si può scegliere una ipotesi uni- o bi- direzionale (*), es: Pr(Risposta) π: H0: π= π0 vs H1: π>π0 δ=μ1-μ2 : H0: δ=0 vs H1: δ≠0 Il principio di base è di mantenere l’ipotesi di base a meno che i dati osservati non indichino una forte evidenza contraria I dati si considerano “significativi” ≈ contrari all’ipotesi di base se sono “estremi” rispetto ad H0, nel senso che se H0 è vera essi si presentano con probabilità molto bassa. Due approcci: Calcolo di questa probabilità: p-value = Pr(Dati osservati o più “estremi”| H0 vera) Individuazione della regione di rifiuto avendo fissato un limite α per definire quando tale probabilità è “bassa” (*) rispettivamente il test si dice “a una coda” o “a due code” – le formule si modificano di conseguenza, ripartendo α su una o due code
L’errore di I tipo es. test su una media, H0: μ=μ0 vs H1: μ>μ0 (*) test a una coda: per semplicità H0 statistica test distrib. sotto H0 es α=5% Regione di rifiuto R Questo consente di fissare pari a α la probabilità di commettere ERRORE di I TIPO: rifiutare H0 quando invece è vera (α è detto “livello di significatività” del test)
L’errore di II tipo e la potenza es. test su una media, H0: μ=μ0 vs H1: μ>μ0 ERRORE di I TIPO: rifiutare H0 quando invece è vera ERRORE di II TIPO: accettare H0 quando invece è falsa β è la probabilità di commettere questo errore. α = Pr(dati є R | μ=μ0) β = Pr(dati є R | μ=μ1>μ0) 1-β = Pr(Rifiutare H0 quando è falsa) è la potenza del test: esprime la “forza” del test di individuare la deviazione dall’ipotesi nulla quando questa sussiste.
Il test in uno studio sperimentale Rifiuto H0 Accetto H0 H0 vera Errore I tipo Prob = α (Insuccesso dello studio) H0 falsa (H1) Successo dello studio Prob = 1-β Errore II tipo Prob = β α deve essere molto piccolo, ad esempio =0.05, meglio 0.01 La potenza 1-β dovrebbe essere alta! Ad es 80% o 90% Questi sono i “requisiti statistici” dello studio α può essere fissato a priori definendo la forma della zona di Rifiuto La potenza dipende sia da elementi “strutturali” o “attesi” dell’esperimento, sia dalla numerosità campionaria
Controllo della potenza es. test su una media, H0: μ=μ0 vs H1: μ>μ0 H1: μ=μ1 = μ0+δ, δ>0 δ α= p(X є R | μ= μ0) area della coda destra della curva nera in corrispondenza di R Potenza = p(X є R | μ = μ1) area sotto la curva blu in corrispondenza di R Regione di rifiuto R δ ↑ δ La potenza cresce con la “distanza” fra ipotesi nulla e ipotesi alternativa (δ) e se diminuisce la variabilità δ var ↓
Elementi per controllare la potenza es. test su una media, H0: μ=μ0 vs H1: μ=μ0+δ, δ>0 Variabilità δ δ è l’oggetto dello studio - incognito Possiamo avere un’idea sul valore “atteso” di δ Possiamo mirare ad un target: δ pari alla minima differenza rilevante ai fini degli obiettivi dello studio Regione di rifiuto R La variabilità: è direttamente proporzionale alla variabilità nella popolazione σ2 diminuisce all’aumentare dell’ampiezza del campione n Può essere considerata fissata dalle caratteristiche dell’esperimento Può essere controllata: posta pari al minimo numero che garantisce una certa potenza
IC negli studi sperimentali es. IC per la media μ di una popolazione con varianza σ2 In uno studio finalizzato alla stima: il requisito è il livello di confidenza (1-α) l’obiettivo è di ottenere una certa precisione δ. Essa dipende dalla variabilità (Gli IC possono essere usati in alternativa ai test sempre ai fini della verifica delle ipotesi. In questo caso, valgono considerazioni analoghe (controllo della potenza, etc) e si giunge alle stesse formule)
Calcolo di n dati i requisiti e gli elementi strutturali / target es. test su una media, H0: μ=μ0 vs H1: μ=μ0+δ, δ>0 δ statistica test Regione di rifiuto R Controllo di α Controllo di β
Implementazione in pratica (1) Input: ENDPOINT PRIMARIO e obiettivo (stima o test – uni- o bi- laterale) Input: elementi strutturali e “attesi” (Alcuni requisiti: fissati di default) Output: es Input: δ atteso, variab attesa σ es Input: δ atteso, range di variab attesa (σ1,σ2) var σ 1-β = 90% 1-β n α=0.05 α=0.05 1-β = 80% α=0.01 n σ (questo output permette di valutare costi-benefici di un aumento di numerosità) (questo output permette di valutare i rischi dell’incertezza sulla variabilità)
Implementazione in pratica (2) Input: ENDPOINT PRIMARIO e obiettivo (stima o test – uni- o bi- laterale) Input: range numerosità utilizzabile (Alcuni requisiti: fissati di default) Output: n1 α=0.05 1-β=0.8 δ n2 σ (questo output conduce a valutare la plausibilità delle assunzioni su parametro δ “atteso” e variabilità necessarie a realizzare un esperimento con certi requisiti, se la numerosità è fissata)
Vantaggi dell’implementazione via web (con creazione nel tempo di una banca dati su esperimenti pianificati e risultati ottenuti – in termini di variabilità osservata, effetti misurati e significatività) Per esperimenti “semplici”: Il procedimento è rapido e “automatico”, e non richiede conoscenze approfondite di disegno degli esperimenti, ne’ capacità di calcolo L’applicazione sceglie il tipo di test, fornendo anche i riferimenti bibliografici (utili per la stesura del protocollo) Se possibile, l’applicazione evidenzia la possibilità di utilizzare disegni con stopping rules, per la potenziale riduzione di costi e durata La banca dati suggerisce all’utente come perfezionare gli input sulle grandezze attese La banca dati permette anche di aggiornare le procedure utilizzate per il calcolo – anche eventualmente mediante l’utilizzo di metodi Bayesiani Per esperimenti più “complessi”: può rendersi necessaria una consulenza individualizzata Il disegno proposto viene poi inserito nella banca dati delle “esperienze”, consultabile dagli utenti in fase di pianificazione, per comprendere problematiche e possibili soluzioni
Stopping rules e disegni sequenziali (spunti) Stopping rules e disegni sequenziali Conclusione anticipata dello studio (minore numerosità, minore durata) senza inflazionare l’errore di I tipo Obiettivo: fermare lo studio anticipatamente in caso di evidenza precocemente raggiunta A conferma dell’ipotesi nulla (stop for futility) In favore dell’ipotesi alternativa (stop for efficacy) Motivazioni: risparmio di costi, di tempo, e ragioni etiche Strumenti metodologici disponibili: Disegni con “spesa” frazionata o graduale della prob. di Errore di I Tipo α fissata (per ovviare al problema del multiple testing) Metodi bayesiani: si esce dalla logica del test frequentista; la conoscenza sugli elementi della sperimentazione - variabilità, effetti attesi, etc - viene formalizzata sotto forma di “distribuzione a priori“, e i dati acquisiti vengono utilizzati per “aggiornarla”, conducendo a una distribuzione “a posteriori”
Es: Disegno a 2 stadi di Simon per π (spunti) Es: Disegno a 2 stadi di Simon per π Test su una probabilità, H0: π<π0 vs H1: π> π1 Target: dimostrare che la probabilità π di “successo” è superiore a un valore di riferimento π1 In aggiunta: inserire una possibilità di early stop in caso di “bad treatment”: π<π0 (stop for futility) n1 osserv. x1 successi n=n1+n2 osservazioni x =x1+x2 successi Test 1 Test 2 x>r: good treatment x1≤r1: stop, bad treatement x≤r: bad treatment Esempio Stadio I Stadio II n n.ro successi Prob. Early Termination Disegno a 1 stadio 65 40 0.00 - Disegno a 2 stadi 27 15 0.78 80 48
Dose finding etc (spunti) (Es. di contesti o metodi basati sull’inclusione di informazione acquisita da esperienze nella conduzione degli studi sperimentali) Es: La tossicità (misurata su scala continua) è funzione della dose secondo f, regolata da un parametro θ incognito. Target: individuazione della dose d* tale che tox ≤ δ tox=f(dose;θ) tox dose Metodo CRM: dose d0 su n0 unità stima di θ: θ1 dose d1 tale che f(d1 ; θ1) ≤ δ Fare 1 slide dose d1 su n1 unità stima di θ: θ2 dose d2 tale che f(d2 ; θ2) ≤ δ … finchè la dose non si stabilizza, oppure si è raggiunta una numerosità complessiva n massima Questo genere di problemi viene risolto in maniera più “fluida” in ambito Bayesiano