La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006.

Presentazioni simili


Presentazione sul tema: "Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006."— Transcript della presentazione:

1 Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006

2 Programma del modulo Lapproccio allindagine Come riassumere i dati: * Misure di posizione e di variabilità * Distribuzioni di frequenza Come analizzare e confrontare i dati * Le distribuzioni di probabilità (Binomiale, di Poisson e Normale) * Il concetto di inferenza statistica, di test ad ipotesi ed alcuni esempi di utilizzo * I metodi di standardizzazione diretta e indiretta Come presentare i dati: * Tabelle * Istogrammi * Linee * Torte * Dispersione

3 Definizione dellobiettivo valutazione delle fonti di dati a disposizione individuazione degli standard di riferimento definizione della metodologia di analisi e di sintesi dei risultati pianificazione del razionale dellindagine (studio ad hoc, analisi di archivi standard) ? modalità comuni di approccio allindagine

4 Pianificazione del razionale dellindagine : alcune delle domande che dovremmo porci Si lavora a livello di popolazione? Conosco tutte le variabili che mi interessano?? Si lavora analizzando dei campioni? Come li estraggo??? Loutcome di interesse di che tipo è? Conosco la distribuzione di probabilità che più si avvicina alla realtà?? Quali fonti di dati posso utilizzare?? Qual è la loro affidabilità?? Esistono degli standard di riferimento? Quali strumenti di analisi ho a disposizione?? Che tipo di approccio statistico intendo seguire?? […..]

5 Alcuni concetti di statistica Variabile continua : può assumere qualsiasi valore allinterno di un ragionevole range (es. altezza, peso, pressione arteriosa Variabile discreta : può assumere soltanto alcuni valori fissi (es. n. figli, età al compleanno) Variabile dicotomica: può assumere solo due modalità (es. sesso, lancio di una moneta) Popolazione n1n1 n2n2 n3n3 n campioni popolazionecampione media varianza. Numeros. N n µ ŷ σ 2 s 2 σ s Dev. St

6 Distribuzione di frequenza assoluta Numero di donne che presentano ognuna delle modalità Distribuzione di frequenza relativa Proporzione di donne che presentano ognuna delle modalità, rapportata al numero totale di donne 0 figli 1figlio 2 figli N figli totale freq donne / / 100 freq relativa % 60 % 100 % fr cumulata Distribuzione di frequenza cumulativa Sommatoria delle singole percentuali relative ad ogni modalità

7 Visualizzazione dellandamento di dati Annonum. di aborticonf.% con 1982var assolutavar percent , , , , , , , , , , , , , , , , , , , , , , , , ,40

8 Distribuzioni di frequenza Numero di figli per donna (variabile discreta) Altezza degli uomini adulti (variabile continua approssimativamente simmetrica) Peso medio dei nati vivi alla nascita (variabile continua asimmetrica verso sinistra) Tempo di sopravvivenza (mesi) dopo diagnosi di un particolare tumore maligno (variabile continua con forma esponenziale) n. soggetti

9 Misure di posizione (o grandezza) Media: somma di tutti i valori / numero delle osservazioni Mediana: valore centrale quando le osservazioni sono ordinate in ordine crescente; la mediana è quel valore che divide la distribuzione di frequenza in due parti uguali Moda: valore che si presenta più frequentemente Supponiamo di avere questa serie di dati: MEDIA : ( ….+8)/ 15 = 146/15 = 9,7 MEDIANA: ordino i dati in modo crescente e individuo il valore centrale della serie MODA: non esiste una moda perchè ogni valore è presente una sola volta %

10 Diametro (val centr.int)frequenzadiam*freq freq % freq % cumulata 13,071 0,2 13,12452,480,81 13,17452,680,81,8 13, ,963,65,4 13, ,267,613 13, ,9211,224,2 13, ,5313,838 13, ,3219,257,2 13, ,8414,471,6 13, ,3613,685,2 13, ,378,293,4 13, ,163,697 13, ,042,499,4 13,72227,440,499,8 13,771 0,2100 totale ,2100 Media: 6713,2 / 500= 13,43 Mediana: 13,42 Moda: 13,42 Come calcolare le misure di posizione (o grandezza) in tabelle di frequenza

11 Misure di variabilità Range: differenza fra losservazione più grande e quella più piccola Percentili: valore che separa ln% delle osservazioni dal resto delle osservazioni in una distribuzione cumulativa delle frequenze relative (25% ovvero 25° percentile o quartile; 50% ovvero 50° percentile o mediana) Varianza: si basa sulla differenza fra ogni osservazione e la media varianza in una popolazione σ 2 =Σ(y-µ) 2 /N Varianza in un campione s 2 =Σ(y-ŷ) 2 /(n-1) Deviazione standard: radice quadrata della varianza; è una sorta di deviazione media delle osservazioni dalla media Coefficiente di variazione: 100 σ/µ misura la variabilità delle osservazioni relativamente alla loro grandezza totale

12 Supponiamo di avere questa serie di dati: RANGE : 24-2 = 22 MEDIA : 146/15 = 9,7 VARIANZA: [(10-9,7) 2 + (12-9,7) 2 + ……..+(8-9,6) 2 ] / (15-1)= 35,21 DEVIAZIONE STANDARD : Varianza = 5,93 COEFFICIENTE DI VARIAZIONE : 100* 5,93/9,7 = 61,13

13 Probabilità La probabilità di un evento è definita come la proporzione delle volte in cui si verifica levento sul totale delle prove realizzate in una lunga serie casuale. In una popolazione di uomini, il 10% è più alto di 2 metri. Se un uomo venisse selezionato a caso da questa popolazione si potrebbe dire che la probabilità che la sua altezza sia maggiore di 2 metri è 1/10 o 0.1 perché in media questo accade in un uomo su 10. Distribuzioni di probabilità E assimilabile ad una distribuzione di frequenza relativa calcolata però NON su un campione di osservazioni, ma su unintera popolazione. Ciò significa che se noi costruissimo un istogramma con le frequenze cumulative relative ad ogni valore di altezza rilevato sullintera popolazione mondiale otterremmo una distribuzione di densità di probabilità.

14 Le distribuzioni di probabilità più significative sono: Binomiale (che riguarda variabili di tipo dicotomico,per esempio testa o croce)Binomiale Pr(T) + PR(C) = = 1 questo è un esempio molto semplice di distr. Binomiale Supponiamo di effettuare 8 lanci (n) di una moneta, quindi con Pr(T)=Pr(C)= ½ K rappresenta il numero dei successi La funzione di probabilità sarà K P(K)qnqn n q n-1 p n 1….…..…. pnpn P(K)1/2568/25628/25656/25670/25656/25628/2568/2561/256 8* ½ 1 *½ 7 (8*7)/ (1*2)* ½ 2 *½ 6

15 Distribuzione binomiale Valore medioµ = n*p Varianzaσ 2 = n*p*q Deviazione standardσ = (n*p*q)

16 di Poissondi Poisson (che riguarda eventi che si verificano in un periodo di tempo definito:per esempio n° di chiamate al 118 in unora) Si supponga che il 2% dei pezzi prodotti da una fabbrica siano difettosi. Si determini la probabilità che in un campione di 100 pezzi ve ne siano 3 difettosi. La formula è la seguente : p(k;λ) = ( λ k * e – λ )/ K! c on K=0,1,2,3…. Quindi P (3;2) =( 2 3 *e -2 )/3! = Distribuzione di Poisson Valore medioµ = λ Varianzaσ 2 = λ Deviazione standardσ= λ

17 Applicazione della distribuzione di Poisson in Epidemiologia Per molte malattie croniche la distribuzione dei casi avviene in modo casuale nel tempo e se si considera un periodo non troppo lungo si può assumere un tasso costante di incidenza. Così il numero osservato di casi d in un periodo definito di tempo sarà una variabile poissoniana. Se n è il numero di persone osservate in un anno o il numero di anni-persona di esposizione al rischio, il tasso poissoniano è pari a d/n e la deviazione standard è uguale a d/n. Questi risultati vengono utilizzati per trarre conclusioni relativamente alla precisione dei tassi e per i test di siginificatività

18 normalenormale (o di Gauss-LaPlace) La normale è la distribuzione statistica più famosa ed utilizzata. Le tre ragioni principali sono: essa si adatta bene alla rappresentazione grafica di molti fenomeni fisici, biologi, sociali, ecc.; essa è fondamentale in inferenza statistica; La formula matematica che descrive la funzione della densità di probabilità normale è la seguente: dove µ e σ rappresentano la popolazione media e lo scarto quadratico medio (o deviazione standard). L'equazione della funzione di densità è costruita in modo tale che l'area sottesa alla curva rappresenti la probabilità. Perciò, l'area totale è uguale a 1. Distribuzione normale Valore medioµ Varianzaσ2σ2 Deviazione standardσ

19 diametrofrequenza Questi dati si riferiscono al diametro in millimetri della testa di n = 500 rivetti, classificati in k = 15 intervalli, ognuno dell'ampiezza di h = 0.05 mm. Le frequenze riportate nella tabella si riferiscono al numero di misurazioni che rientrano nell'intervallo indicato dal corrispondente valore nella prima colonna. Il lotto dei 500 rivetti può essere considerato un semplice campione casuale preso da una distribuzione di probabilità. Si presuppone che questa distribuzione sia una normale. In questo caso, questa scelta è fatta solamente basandosi sull'osservazione che un simile tipo di rilevazioni spesso si mostra in accordo con una distribuzione normale. Distribuzione di frequenza con media e deviazione standard DS Distribuzione di probabilità con la stessa media e deviazione standard della distribuzione di frequenza

20 Distr. Normale: Riguarda variabili continue Ha forma a campana È simmetrica intorno alla media µ É determinata da due quantità: la media ( µ ) e la deviazione standard (σ) Distr. Normale Standardizzata: Poiché le tavole della distribuzione normale non possono essere tabulate per tutti i possibili valori di µ e σ, si utilizza la normale standardizzata che ha media =0 e deviazione standard =1. Larea al di sotto della curva normale standardizzata corrisponde a 1 I valori relativi al campione in osservazione si standardizzano secondo la formula Z= (x-µ) / σ e si confrontano con la tavola della normale standardizzata per sapere a quale valore di probabilità coincidono µ 68% ( µ± σ ) 95% ( µ± 1.96σ ) 99% ( µ± 2.58σ )

21 Popolazione 1 µMEDIA pop DS popσ CAMPIONE 1 CAMPIONE 2 CAMPIONE 3 CAMPIONE n MEDIA camp DS camp ŷ1ŷ1 ŷ2ŷ2 ŷnŷn s1s1 s2s2 snsn ŷ3ŷ3 s3s3 Inferenza : stima di un parametro riguardante una popolazione attraverso luso di un campione

22 Inferenza : alcune fra le varie possibilità di procedere Popolazione 1 CAMPIONE 1 1) supponiamo di volere stimare la media µ di una popolazione utilizzando un campione con media ŷ 2) supponiamo di volere confrontare la media di un campione e la media di una popolazione Popolazione 1 CAMPIONE 1 3) supponiamo di volere confrontare la media di un DUE campioni dipendenti (prima/dopo) CAMPIONE 1 prima CAMPIONE 1 dopo 3) supponiamo di volere confrontare la media di un DUE campioni INdipendenti CAMPIONE 1CAMPIONE 2

23 Per esempio: supponiamo di volere stimare la media µ di una popolazione utilizzando un campione con media ŷ Ciò che ci interessa è sapere in che misura la media campionaria è una stima precisa della media sconosciuta della popolazione. Sappiamo che la distribuzione di tutte le possibile medie campionarie è una distribuzione normale con media µ e deviazione standard σ/n (ovvero uguale allerrore standard ES) [Teorema del limite centrale] 1) Quindi essendo la media campionaria ŷ un singolo valore della distribuzione di tutte le possibili medie campionarie, la probabilità che tale valore stia entro µ±1.96 ES è pari al 95% µ (media) 95% ( µ± 1.96ES ) Ciò significa che cè un 95% di possibilità che la media campionaria si trovi allinterno dellintervallo µ±1.96 ES(ŷ) Primo approccio: costruire lintervallo di confidenza per la media µ.

24 2) Se come di solito accade σ (deviazione standard nella popolazione) non si conosce e deve essere stimata attraverso un campione, cè bisogno di un piccolo aggiustamento. Se la varianza di y è stimata dal campione attraverso la formula s 2 =Σ(y-ŷ) 2 /(n-1) è necessario usare il valore critico della distribuzione t con n-1 gradi di libertà Allora lintervallo di confidenza diventa ŷ ±t (n-1) s/n Quindi la probabilità che lintervallo ŷ±1.96 ES(ŷ) contenga la media sconosciuta della popolazione (µ) è pari a 0.95 o 95%. Lintervallo ŷ±1.96 ES(ŷ) è chiamato Intervallo di confidenza al 95% di µ ed è una misura della precisione della media campionaria ŷ quale stima della media della popolazione

25 Problema n.3 Una popolazione di altezze di uomini ha una DS di 6.6 cm e la media dei campioni è pari a 180 cm. Qual è lerrore standard della media di un campione casuale di : a) 25 uomini b) 100 uomini ? Quale lintervallo di confidenza al 95% della media campionaria? DATI: Media dei campioni= 180 cm Deviazione standard della popolazione (σ)= 6.6 cm Numerosità campionaria: a) n=25 uomini b) n= 100 uomini SOLUZIONE: Errore Standard della media campionaria = σ/n a)ES ( ŷ ) = 6.6 / 25= 1.32 b)ES ( ŷ ) = 6.6 / 100= 0.66 Intervallo di confidenza al 95% = ŷ ±1.96*ES(ŷ) a)180±1.96*1.32 [177.4 – 182.6] b)180±1.96*0.66 [178.7 – 181.3]

26 Problema n.3 Una popolazione di altezze di uomini ha una DS sconosciuta e la media del campione è pari a 180 cm. Qual è lerrore standard della media di un campione casuale di 25 uomini ? Supponendo che il campione abbia un DS pari a 4.5 cm quale lintervallo di confidenza al 95% della media campionaria? DATI: Media del campione = 180 cm Deviazione standard della popolazione (σ) sconosciuta Numerosità campionaria: n=25 uomini Deviazione Standard del campione (s) =4.5 cm SOLUZIONE: Errore Standard della media campionaria ES(ŷ)= s/n = 4.5 /25 = 0.9 Intervallo di confidenza al 95% = ŷ ±t(n-1)*ES(ŷ) in cui n-1=25-1=24 e t(n-1) dalle tavole della distribuzione t è pari a quindi 180±1.711*0.9 [178.5 – 181.5]

27 Secondo approccio: confrontare la media di un campione e la media di una popolazione Per esempio: supponiamo di volere valutare il rischio per la salute legato ad una certa occupazione: la media di pressione sistolica misurata in un campione di 20 uomini ( anni) impiegati in quel tipo di occupazione è pari a mmHg mentre in uomini della stessa età nella popolazione generale la media della pressione sistolica è pari a mmHg con una deviazione standard σ di 15.1 mmHg. La nostra ipotesi nulla è che non ci sia un cambiamento nella pressione sistolica dovuto a quel tipo di occupazione e che i 20 lavoratori rappresentino un campione random selezionato dalla popolazione generale. Se lipotesi fosse vera la media del campione sarebbe distribuita normalmente intorno alla media della popolazione (133.2) con una deviazione standard pari a 15.1/20= 3.38mmHg (errore standard) ovvero la media del campione dovrebbe stare entro lintervallo ± 1.96*3.38 [126.6 – 139.8] In realtà la media del campione (141.4) stà al di fuori di questo IC 95%, ovvero cade in quel 5% di probabilità che ci fà dire che esiste una differenza significativa fra la pressione sistolica del campione e quella della popolazione generale maschile della stessa età. Questo approccio è tecnicamnte noto come TEST DI SIGNIFICATIVITA O TEST AD IPOTESI

28 popolazione µ=µ 0 µµ 0 corretto β α corretto accetto H 0 rifiuto H 0 H 0 : µ=µ 0 α: probabilità di rifiutare H 0 quando questa è vera β: probabilità di accettare H 0 quando questa è falsa Popolazione 1Popolazione 2 µ µ 0 1- β: potenza del test ovvero la probabilità di rifiutare H 0 quando questa è falsa realtà risultato del test Test ad ipotesi Supponiamo di voler valutare se la media della popolazione (µ) è uguale ad un valore prefissato µ 0 Ipotesi nulla H A : µµ 0 Ipotesi alternativa

29 Test t su campioni dipendenti A 5 soggetti è stata somministrata una dose di ipotensivo e si sono registrati i valori di pressione arteriosa sistolica prima e dopo la somministrazione ottenendo i seguenti risultati in mmHg: Prima Dopo Soggetto Soggetto Soggetto Soggetto Soggetto Esiste differenza tra i valori medi della pressione prima e dopo la somministrazione (α= 0.05)? Si procede calcolando la differenza fra i valori pressori prima del trattamento e dopo lo stesso

30 Prima Dopo differenza (d) d 2 Soggetto Soggetto Soggetto Soggetto Soggetto Fissiamo anche lipotesi nulla H 0 : µ prima = µ dopo e lipotesi alternativa H a : µ prima µ dopo La formula del test t per dati appaiati è la seguente t = d media /ES (d media ) Per applicare questa formula dobbiamo calcolare la DS della differenza sapendo che Σd= 75 d media = 75/5=15 Σ (d- d media ) 2 = Σd 2 - (Σd) 2 /n=( /5)=1000 S 2 (d)= Σ (d- d media ) 2 / (n-1)=1000/4=250 e ES(d media )= s 2 (d)/n=250/5=7.07 Quindi t = d media /ES (d media )= 15 /7.07=2.12

31 I gradi di libertà da considerare sono: numero delle osservazioni meno 1, ovvero 5-1=4 e dalle tavole t (0.05) sulle due code è = Rifiuto H Rifiuto H 0 Accetto H Poiché il valore che risulta dal test t cade nella zona di accettazione dellipotesi nulla, posso affermare che non cè differenza fra i valori di pressione prima e dopo il trattamento, sapendo di avere una percentuale di errore nellaffermare ciò pari al 5%

32 Test t su campioni INdipendenti E stata misurata la velocità di eritrosedimentazione in un gruppo di pazienti (gruppo A) che avevano una certa infezione. Per controllo le stesse misurazioni sono state condotte in un gruppo di controllo (gruppo B). I dati ottenuti sono i seguenti: gruppo A gruppo B Esiste una differenza significativa nella velocità media di sedimentazione tra il gruppo A e il gruppo B ? H 0 : µ A = µ B H A : µ A µ B gruppo A Σx 2 = 578 gruppo B Σx 2 = 809 media gruppo A= 87/ 10=8.7 media gruppo B= 78/12= 6.5 Per applicare il test t su dati indipendenti devo valutate lomogeneità delle varianze dei due gruppi Σ(x-x medioA ) 2 = Σx A 2 -(Σx A ) 2 /n A =809- (87) 2 /10=52.1 ovvero DEVIANZA nel gruppo A e Σ(x-x medioB ) 2 = 71 ovvero DEVIANZA nel gruppo B

33 Calcolo allora le Devianze: Σ(x-x medioA ) 2 = Σx A 2 -(Σx A ) 2 /n A =809- (87) 2 /10=52.1 ovvero DEVIANZA nel gruppo A e Σ(x-x medioB ) 2 = 71 ovvero DEVIANZA nel gruppo B E successivamente le varianze = devianza/ n-1 Varianza di A 71/(12-1)= 6.45 Varianza di B 52.1/(10-1)= 5.78 Verifico ora lomogeneità attraverso un test F sue varianze F=Varianza più grande / varianza più piccola = 6.45/5.78= 1.11 H 0 σ A =σ B H 0 σ Aσ B Gradi di libertà del numeratore= 12-1=11 Gradi di libertà del denominatore= 10-1=9 Dalle tavole della distribuzione F si rileva che F (11;9; 0.05) = Rifiuto H 0 Accetto H Accettiamo lipotesi nulla di omogeneità delle varianze, allora posso applicare il test t

34 Calcoliamo la varianza combinata S 2 (combinata) = dev A+ dev B/( n A +n B -2)= /20= 6.16 X medioB -X medioA t= = 2.08 S 2 (combinata) /n A + S 2 (combinata) /n B Rifiuto H Rifiuto H 0 Accetto H Accetto lipotesi nulla, ovvero non cè differenza fra i due gruppi Dalle tavole t (20;0.050) = 2.086

35 Come confrontare due tassi MFTOT > TOT Deceduti per età e sesso – USL22 MFTOT 1, , , Tassi grezzi per sesso *10.000ab – USL22 MFTOT > TOT popolazione per età e sesso – USL22 (POP in esame) Tassi specifici per età e sesso *10.000ab– USL22 Supponiamo di dover confrontare i livelli di mortalità dellUSL22 rispetto al livello medio regionale del Veneto. Questi sono i dati a disposizione: MFTOT , ,800320, , , , >8080, , ,90561 tot1, , ,630206

36 MFTOT ? TOT popolazione per età e sesso – Veneto (POP standard) MFTOT , , , , , ,3199 >80417, , ,54 TOT457, , ,45 Decessi attesi utilizzando la popolazione del Veneto MFTOT 2, , , Tasso standardizzato diretto di mortalità per USL22 = 457,8483/ MFTOT 1, , , Tassi grezzi per sesso – USL22 Metodo diretto Tassi specifici per età e sesso*10.000ab – USL22 MFTOT , ,800320, , , , >8080, , ,90561

37 MFTOT > TOT popolazione per età e sesso – USL22 (POP in esame) Tassi specifici per età e sesso – Veneto (POP standard) MFTOT ,750,820, ,53,72,4 >8080,359,263,9 Casi attesi per USL 22 MFTOT ,88471,024592, ,097853,824694,23744 >8021, , ,29583 tot23, , ,6223 MFTOT , ,9760, , , , ?800, , , tot0,999431, , SMR (osservati/ attesi) Metodo INdiretto MFTOT > TOT Deceduti per età e sesso – USL22

38 SessoRicoveri per ernia Maschio35 Femmina43 totale78 Tabella ad una entrata Sesso/età65anni>65 annitotale Maschio Femmina totale Frequenza assoluta dei ricoveri per ernia disaggregati per sesso Tabella a doppia entrata Frequenza assoluta dei ricoveri per ernia disaggregati per sesso e classi di età Come presentare i propri dati

39 Rappresentazioni grafiche Le frequenze o numeri assoluti possono essere visualizzate attraverso dei grafici a linee quando vogliono evidenziare una tendenza nel tempo (età, singoli anni di un periodo di osservazione, ecc.) Quando invece si vuole visualizzare la differenza in numero assoluto fra diversi livelli di aggregazione del dato (sesso, comuni, ecc.) che non hanno un riferimento temporale, si possono usare gli istogrammi (o grafici a barre)

40 Le frequenze percentuali di una sola variabile (tipo di ricovero) distribuita in base alle sue modalità (neonati, ricoveri programmati non urgenti, urgenti, ecc.) possono essere visualizzate attraverso dei grafici a torta nei quali è immediato rilevare il contributo delle singole modalità sulla variabile in osservazione Se la distribuzione percentuale che si sta graficando prevede una stratificazione della variabile in più livelli di altre due caratteristiche (età e comune di residenza) è necessario utilizzare una forma grafica che visualizzi contestualmente tutte le informazioni previste.

41 Se si vuole visualizzare landamento contestuale di due variabili che si suppone siano correlate si utilizza il grafico a dispersione. Questo grafico evidenzia la possibile relazione esistente fra le due variabili: se i punti di dispersione sono distribuiti lungo unipotetica retta la relazione si definisce lineare.

42 I miei recapiti: Dott. Michela Franchini Coordinatore Epidemiologia – ASL 11 Empoli Telefono ufficio: Cellulare aziendale : 335/ Testi di consultazione consigliati: Glantz Statistica per discipline biomediche Ed. McGraw-Hill Pagano – Gauvreau Biostatistica Ed. Idelson-Gnocchi


Scaricare ppt "Statistica per la ricerca sperimentale (II anno) Dott.ssa Michela Franchini Coordinatrice Epidemiologia AUSL 11 Empoli MARZO/ APRILE 2006."

Presentazioni simili


Annunci Google