STATISTICA DESCRITTIVA INFERENZA STATISTICA
Statistica inferenziale Probabilità Campione Popolazione Statistica inferenziale
Il campionamento statistico
Per campione statistico si intende quel gruppo di unità elementari (non necessariamente persone), sottoinsieme particolare della popolazione o universo, individuato in essa in modo da consentire, con un rischio definito di errore, la generalizzazione all’intera popolazione.
Parametro della popolazione Popolazione Campione rappresentativo Stima campionaria Popolazione
Il campione rappresentativo riproduce in miniatura la popolazione Procedimento casuale Campione rappresentativo Il campione casuale è estratto con procedimento tale che tutte le unità della popolazione hanno la stessa probabilità di essere estratte Con ricollocamento (estrazioni indipendenti) Senza ricollocamento o in blocco (estrazioni indipendenti se n/N<0.05)
Tavola dei numeri casuali 46072 97718 73189 59878 04588 69266 38434 40272 89771 00686 50496 39692 24085 71779 15687 66207 90331 35776 85413 15800 12600 63927 50359 37540 41359 11011 41613 65568 75066 27455 48616 57382 85689 27861 59135 38360 34711 60409 86253 71462 46642 76507 83543 17067 24598 99305 53754 26068 94233 65309 66476 03290 50341 38126 46627 58122 05830 88610 37392 49322 10911 58689 72799 85227 44187 07286 36816 96732 72213 56158 58369 19998 13711 36703 61578 71593 63712 44037 66954 50747 91136 89653 40289 30930 80642 32392 14276 79849 44117 93915 66983 44986 21176 13889 25913 95601 99590 38581 36491 29925 84659 22963 46657 93568 45189 15907 53529 32914 31407 74481 16370 15896 26540 63456 77955 19472 90187 18836 38374 50823 51962 18844 85961 66062 38212 55951 72211 39045 67240 30163 Se dobbiamo selezionare un campione di 100 unità da una popolazione di 1231 unità si sceglie a caso il primo numero di 4 cifre e si includono nel campione tutte le cifre <=1231 2758 è il seme scelto a caso, ma non fa parte del campione. Invece 1220 fa parte del campione E’ possibile utilizzare generatori di sequenze pseudocasuali
Problema: Da una popolazione composta da 5 unità statistiche si voglia estrarre un campione casuale di numerosità 2. Schema con ricollocamento o ripetizione Ciascuna unità campionata viene riposta nella popolazione e può essere estratta nuovamente Lo spazio campionario, ovvero l’insieme di tutti i possibili campioni è: AA AB AC AD AE BA BB BC BD BE CA CB CC CD CE DA DB DC DD DE EA EB EC ED EE Vi sono in tutto 52=25 campioni, dati dalle disposizioni con ripetizione di 5 elementi a 2 a 2. Schema senza ricollocamento o in blocco Ciascuna unità campionata viene tolta dalla popolazione e non può essere estratta nuovamente Lo spazio campionario, ovvero l’insieme di tutti i possibili campioni è: BA CA CB DA DB DC EA EB EC ED Vi sono in tutto =10 campioni, dati dalle combinazioni senza ripetizione di 5 elementi a 2 a 2.
Metodi di campionamento Campioni probabilistici Campione casuale semplice Campione sistematico Campione stratificato A due o più stadi Campione a grappoli Campioni non probabilistici Per quote Campioni di unità già disponibili Campioni di volontari
Qualora si disponga di elenchi degli elementi di una popolazione da campionare per individuare le n unità del campione tra gli N della Popolazione si sceglie dagli elenchi una unità ogni K (N/n) elementi, a partire da una qualunque unità scelta a caso fra le prime K. Campionamento sistematico Si voglia estrarre un campione di 10 unità da una popolazione di 1000. Si sceglie un passo di 1000/10=100. Supponiamo che il numero scelto a caso tra 1 e 100 sia 77. Le unità campionate sono le seguenti: 77; 177; 277;377;477;577;677;777;877;977
La popolazione è divisa in strati internamente omogenei e quindi si procede con campionamento casuale da ciascuno strato. Campionamento stratificato Supponiamo di avere una popolazione di 7448 unità stratificate per sesso e classe di età
53=0.11*500 126=0.25*500
La popolazione è divisa in grappoli (gruppi di unità statistiche elementari) si estrae un campione casuale di grappoli Campionamento a grappoli Campionamento a più stadi E’ una tecnica di campionamento che risulta molto vantaggiosa quando la popolazione da studiare è molto numerosa e gli elementi possono essere raggruppati in diversi sottoinsiemi. Essa consiste in una prima fase caratterizzata da uno o più campionamenti a grappolo, seguita da una seconda fase in cui, all’interno dei “clusters” selezionati, si procede al campionamento delle unità seguendo una delle metodiche precedentemente enunciate (es. campionamento casuale semplice e campionamento stratificato) Le indagini sulle famiglie dell’Istat seguono un piano di campionamento in cui i comuni (unità primarie) vengono stratificati e scelti a caso (I° stadio) e da ogni comune campionato viene scelto un campione di famiglie (2° stadio)
Classificazione degli studi biomedici Studi osservazionali e studi sperimentali
Obiettivo di uno studio biomedico Stabilire una relazione di causa-effetto tra caratteristica/trattamento e malattia. Occorre che lo studio sia opportunamente pianificato
Il protocollo di studio È un documento scientifico in quanto descrive tutti gli aspetti metodologici medici e statistici dello studio; È un manuale operativo in quanto descrive tutti i dettagli per la sua conduzione; È un documento legale in quanto vincola gli sperimentatori a seguire le procedure in esso contenute, ufficialmente approvate dagli autori e da autorità indipendenti competenti (comitato etico). In questo senso il protocollo ha lo scopo di proteggere i pazienti da procedure non adeguatamente valutate ed approvate e pertanto potenzialmente pericolose.
Il protocollo di studio Deve coprire le seguenti aree fondamentali: Razionale dello studio; Obiettivi, formulati in termini di ipotesi medico-statistiche; Disegno dello studio, incluso dimensionamento del campione; tecniche per ridurre gli errori sistematici e tecniche per il controllo della variabilità; Trattamenti in studio e concomitanti; Criteri di inclusione/ esclusione dei soggetti; Procedute di gestione, controllo qualità e analisi statistica dei dati; Aspetti logistici, amministrativi e legali
Approcci alla Ricerca in ambito clinico Due apporcci principali Studi sperimentali: Trials randomizzati Allocazione casuale dei soggetti ai diversi trattamenti e osservazione nel tempo per osservare l’outcome Operativamente complessi, analiticamente semplici Studi osservazionali Operativamente semplici, analiticamente complessi
Studi osservazionali Si propongono di studiare la relazione tra una caratteristica ed un evento, senza intervenire in alcun modo sulle condizioni in cui lo studio viene condotto, cioè limitandosi a selezionare il campione e poi “osservare” Il fine dell’osservazione è determinare l’entità e le circostanze dell’associazione tra caratteristica ed evento
Obiettivi di uno studio osservazionale Esempio:Studio dell’andamento della mortalità per ictus in un determinato paese Esempio: Studio della relazione tra mortalità per ictus e possibili fattori determinati
Studi analitici I Studi ecologici: Le unità di analisi sono le popolazioni o i gruppi di persone piuttosto che gli individui Ecological fallacy: In un paese fu dimostrata l’esistenza di una relazione tra la media delle vendite di un farmaco anti-asmatico e il verificarsi di un numero insolitamente alto di morti per asma (Pearce et al. 1998)
Studi trasversali o cross-sectional: Studi analitici II Studi trasversali o cross-sectional: Le unità di analisi sono gli individui Le misurazioni dell’esposizione e dell’effetto sono effettuate nello stesso tempo FATTORI DI CRITICITA’: L’esposizione precede o segue l’effetto?
Studi Cross Sectional Prospettico Retrospettivo OGGI si sceglie il campione in base alla caratteristica Si ricerca l’evento Retrospettivo OGGI si sceglie il campione in base all’evento Si ricerca la caratteristica
Basic Schematic for Cross-Sectional Study Data for analysis TIME Major Issues: Temporal Sequencing Selection Bias Confounding
Studi analitici III Studi caso-controllo
Studi caso-controllo: “Begin with the outcome and look for features of people who share that outcome, then compare characteristics with subjects who do not” (Stephen H., Gehlbach, Interpreting the Medical literature, 1993) Una volta selezionati, si studiano i gruppi a confronto retrospettivamente verificando se, nel passato e fino ad oggi, c’è stata o meno l’esposizione alla caratteristica in studio. Sono detti anche studi RETROSPETTIVI Il campione viene selezionato sulla base dell’evento e non della caratteristica di interesse
Studio caso-controllo E- a b a+b E+ c d c+d a+c b+d N
Basic Schematic for Case-Control Study Event Cases Time Period No Event Controls Time Period Major Issues: Selection Bias Confounding Only indirect estimates of time effects
SELEZIONE DEI CONTROLLI I controlli non devono essere selezionati in relazione alla condizione di esposizione alle possibili cause I controlli devono essere mediamente simili ai casi sotto ogni profilo tranne che per la condizione patologica e per i fattori eziologici associati: se lo studio riguarda le causa di malattia coronarica in donne in età post-menopausa di circa 50-75 anni, allora il gruppo controllo dovrà essere composto da donne di quella classe di età. In alcuni studi i controlli sono reclutati in modo da essere appaiati a ciuscun caso: per esempio, se una donna di 53 anni fosse un caso, il ricercatore dovrebbe reclutare un controllo di età similare (57 anni, ma non 74). Il MATCHING riduce il rischio di confondimento ( in questo caso dell’età) OVERMATCING: l’appaiamento su un numero eccessivo di caratteristiche può nascondere una relazione causale realmente esistente
Disegno case-crossover E’ un disegno particolare caso-controllo, in cui ogni soggetto deceduto (caso) è “matchato” con se stesso, dove i controlli sono giorni in cui l’evento di interesse non si è verificato. La selezione di tali giorni può essere effettuata utilizzando l’approccio “stratificato per tempo”, ovvero suddividendo il periodo di studio in finestre mensili e scegliendo all’interno di ogni mese gli stessi giorni della settimana del caso come giorni di controllo (ad esempio, se un soggetto è deceduto il 28 maggio 2001, lunedì, sono scelti come giorni di controllo tutti gli altri lunedì del maggio 2001). Tale approccio consente di controllare per disegno: i trend temporali di medio-lungo periodo, l’effetto “giorno della settimana” tutte le caratteristiche individuali costanti nel tempo, o variabili su una scala maggiore del mese. Altre variabili possono essere aggiustate in fase di modellizzazione, dove il modello usato è la regressione logistica condizionata, stratificata sul soggetto.
Basic Schematic for Case-Crossover Study Event Time Period A Time Period B Compare exposure in Time Period A vs. Time Period B only among patients with an event and exposure in either period Major Issues: Largely used for exposures with immediate effects Small number
Studi analitici IV Studi di coorte o di follow up (PROSPETTICI CONCORRENTI): Questi studi partono con un gruppo di persone libere da malattia che vengono classificate in sottogruppi a seconda dell’esposizione a una causa potenziale di malattia. Vengono specificate e misurate le variabili di interesse e l’intera coorte viene seguita per un periodo, detto follow-up, per osservare come il successivo sviluppo di nuovi casi di malattia sia diverso tra i gruppi con e senza esposizione Il campione viene selezionato sulla base della caratteristica di interesse
Studi di coorte o di follow up (PROSPETTICI CONCORRENTI): FATTORI DI CRITICITA’: Impegnativi e costosi perché richiedono spesso lunghi periodi di follow-up affinché la malattia si manifesti POSSIBILE SOLUZIONE: STUDIO DI COORTE RETROSPETTIVA O PROSPETTICO NON CONCORRENTE: la coorte storica è identificata sulla base di registrazioni di esposizioni precedenti. Esempio: per esaminare il possibile ruolo causale della pioggia radioattiva nello sviluppo del cancro negli ultimi 30 anni si utilizzano le registrazioni dell’esposizione di membri delle forze armate alla pioggia radioattiva nelle sedi di test di bombe nucleari
Studio di coorte Evento assente Evento presente E- a b a+b E+ c d c+d a+c b+d N
Index Entry Date for Exposure Basic Schematic for Cohort Study TIME Observation Window Look-back Window End of Follow-up Date Index Entry Date for Exposure Major Issues: Selection Bias Confounding
Passato Oggi Futuro Prospettico concorrente Ricapitolando: Si sceglie il campione in base alla caratteristica Si attende l’evento Prospettico non concorrente Si ricerca l’evento dal passato ad oggi Prospettico cross-sectional Si ricerca l’evento Retrospettivo Si ricerca la caratteristica Si sceglie il campione in base all’evento Retrospettivo cross-sectional Ricapitolando:
How Do I Know Which Study Design is Best? Level of Evidence Study Type Level 1 RCTs Level 2 Cohort Studies Level 3 Case-Control Studies Level 4 Case Series Level 5 Expert Opinion Oxford Centre for Evidence-Based Medicine, 2002
Randomized Clinical Trial: Design (Melot, CCM, 2009)
Validity and Biases in Clinical Trials (Melot, CCM, 2009)
La randomizzazione risolve tre categorie di Bias Distorsione da selezione Sbilanciamento non casuale tra i trattamenti nella distribuzione dei fattori capaci di influenzare l’end-point, cioè i fattori sub-sperimentali, compresi quelli prognostici Distorsione di valutazione Sbilanciamento non casuale tra i trattamenti nel modo in cui i soggetti sono seguiti e valutati nel corso dello studio Distorsione di analisi . Sbilanciamento che interviene in fase di analisi dei dati in favore di un trattamento
Studi sperimentali: esempi Sono pianificati esperimenti per confrontare gli effetti di vari trattamenti su alcuni tipi di unità sperimentali Sperimentazioni di interventi di profilassi per confrontare l’efficacia nei bambini di differenti vaccini contro il morbillo. Ogni bambino riceve un vaccino e può essere considerato unità sperimentale Studio dei benefici specifici a diversi programmi di educazione sanitaria. Ogni programma è applicato a un’area diversa e costituisce unità sperimentale
CARATTERISTICHE DEGLI STUDI SPERIMENTALI I gruppi di unità sperimentali cui applicare i trattamenti devono risultare simili rispetto ai fattori di possibile distorsione nella sperimentazione. La soluzione è la RANDOMIZZAZIONE Ogni trattamento deve essere assegnato a più di una unità sperimentale. Questo principio si chiama REPLICAZIONE. Possibili vantaggi: Garantisce una sufficiente precisione dei risultati. L’errore campionario della differenza tra due medie decresce aumentando il numero di repliche all’interno dei gruppi. La variabilità campionaria può essere stimata solo con un numero adeguato di ripetizioni La replica consente la verifica di ipotesi sugli effetti di una vasta gamma di fattori sperimentali Si deve cercare di ridurre la variabilità casuale tra unità sperimentali. La soluzione è ripartire le unità sperimentali in gruppi internamente omogenei (BLOCCHI)
Esperimenti che prevedono il confronto con un gruppo di controllo Esperimenti randomizzati controllati (RCT) (Randomized Controlled trials) Esperimenti che prevedono il confronto con un gruppo di controllo Studi di Fase I: studi preliminari sulla sicurezza e tollerabilità dei farmaci, spesso condotti su volontari sani Studi di Fase II: condotti su pz affetti dalla patologia in esame, destinati a selezionare la dose e la frequenza di somministrazione del farmaco da portare nei più ampi studi di Fase III. Studi di Fase III: hanno l’obiettivo di dimostrare 1) l’efficacia terapeutica e 2) la sicurezza e tollerabilità del farmaco in un campione rappresentativo della popolazione. Studi di Fase IV: riguardano il controllo dei modelli prescrittivi dei farmaci già in commercio e, normalmente, assumono la forma di indagini piuttosto che di esperimenti comparativi.
Esperimenti multicentrici Esperimenti randomizzati controllati (RCT) (Randomized Controlled trials) Esperimenti multicentrici Necessari nello studio di affezioni croniche, dove sono richiesti molti pazienti Nello studio di condizioni morbose rare
Definizione dei pazienti Esperimenti randomizzati controllati (RCT) (Randomized Controlled trials) Definizione dei pazienti Un congruo numero di pazienti consente di effettuare separatamente i confronti tra trattamenti per diverse categorie di pazienti. Tuttavia, i sottogruppi di pazienti non devono essere piccoli perché in tal caso diviene difficile far emergere differenze reali, non casuali tra effetti dei trattamenti. Quindi ogni sottogruppo considerato a priori per buoni motivi va definito nel protocollo e preso in considerazione nella pianificazione della numerosità campionaria
Definizione dei trattamenti Esperimenti randomizzati controllati (RCT) (Randomized Controlled trials) Definizione dei trattamenti Meglio regimi terapeutici flessibili, che possono essere modificati in base alle nuove condizioni del paziente Meglio prevedere sin dall’inizio le possibili varianti di un regime terapeutico generale, piuttosto che introdurre un grado di standardizzazione che non può essere accettato su vasta scala né durante l’esperimento né dopo
Valutazione delle risposte Esperimenti randomizzati controllati (RCT) (Randomized Controlled trials) Valutazione delle risposte L’efficacia di ogni trattamento viene valutata paragonando una o più risposte per ogni paziente a certi intervalli di tempo dall’inizio del trattamento. Tali risposte sono sintomi riferiti dal paziente, indizi evidenziati dal medico, esami biochimici. La conoscenza del trattamento da parte del paziente, medico, personale coinvolto nello studio può influenzare le risposte. Soluzioni: ESPERIMENTO CIECO e DOPPIO CIECO
Bibliografia consigliata Baccheri A., Della Cioppa G. 2004, Fondamenti di Ricerca clinica. Springer Pockock S., 1986.Trial Clinici. Centro Scientifico Editore Rothman KJ, 2002. Epidemiology An Introduction. Oxford University Press