La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Presentazioni simili


Presentazione sul tema: "L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione."— Transcript della presentazione:

1 L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione. Due forme di inferenza statistica sono:  la stima  il test di ipotesi

2 La popolazione statistica è definita come l’insieme di tutte le possibili unità statistiche, sulle quali possiamo eseguire delle misure. Essa può perciò essere infinita.

3 Concetto (frequentista) di probabilità Se un esperimento casuale è ripetuto un numero infinito di volte, la frequenza relativa di un certo risultato converge, con probabilità = 1, ad un unico limite fisso. (Legge dei grandi numeri) Si potrebbe allora dire che la probabilità di quel certo risultato è tale limite, se questa definizione non fosse circolare.

4 Legge dei grandi numeri : in generale stabilisce che più il campione è grande, più è probabile che la media aritmetica campionaria approssimi la media della popolazione.

5 Concetto (Bayesiano) di probabilità Secondo alcuni statistici, è possibile assegnare una probabilità ad un evento, anche quando non si dispone di una frequenza relativa che ce ne possa suggerire il valore. In questo caso la probabilità è desunta dall’esperienza di chi l’assegna, anche se tale esperienza non è formalmente costituita da una sequenza di esperimenti casuali.

6 Assiomi di probabilità Legge della somma Legge del prodotto

7 Infezione da H.pylori Madre affetta Sì No Sì No Totale22841 Prevalenza di infezione da Helicobacter pylori in bambini di età pre-scolare, a seconda della presenza di ulcera nella madre Brenner H, Rothenbacher D, Bode G, Adler G, Parental history of gastric or duodenal ulcer and prevalence of Helycobacter pylori infection in preschool children: population based study.BMJ 1998; 316:665.

8 P(HB) = P( HB  madre affetta) + P( HB  madre non affetta) P (HB  madre affetta) = P( HB | madre affetta) P(madre affetta) 118/863 = 6/ /863 6/863 = 6/22 22/ 863 Verifica della validità degli assiomi, sui dati di Brenner et al. Legge della somma Legge del prodotto

9 Le variabili casuali (o stocastiche o aleatorie) sono variabili numeriche, che assumono valori diversi a caso. Variabili casuali

10 Variabili casuali discrete Non possono assumere tutti i valori in alcun intervallo. Per esempio, il numero di " teste " osservato dopo il lancio di due monete, assumerà valore 0, 1, o 2 ma non 1,75.

11 Variabili casuali continue Possono assumere tutti i valori in un certo intervallo. Perciò, hanno un’infinità di valori possibili tra due valori qualunque.

12 prova di Bernouilli Una prova di Bernouilli è un esperimento casuale con due soli esiti possibili, denominati “successo” e “insuccesso”. Non è importante quale di questi esiti sia considerato "successo "- questo è arbitrario – ma, una volta fatta la scelta, essa deve essere mantenuta per tutto il corso dei calcoli. La probabilità di successo è costante

13 variabile casuale binomiale Il numero totale di successi X osservato in una serie di n prove di Bernouilli indipendenti è una variabile casuale binomiale.

14 Le probabilità associate con tutti i possibili valori di una variabile casuale binomiale formano una distribuzione binomiale. Distribuzione Binomiale

15 distribuzione binomiale La distribuzione binomiale descrive una famiglia di variabili casuali, ogni membro della quale è identificato dai valori dei parametri della distribuzione stessa: n n il numero di prove indipendenti π π la probabilità di successo in ciacuna prova La notazione usata per indicare che una variabile casuale X è binomiale è la seguente: X ~ B(n, π) (si legge: " X è una variabile casuale binomiale con parametri n e π“).

16 valore atteso Il valore atteso di una variabile binomiale casuale è la media d’infinite sue realizzazioni. Può essere calcolato con la formula: E(X)  nπ varianza La varianza (  ²) di una variabile binomiale casuale quantifica la dispersione d’infinite sue realizzazioni. La formula per la varianza di una variabili binomiale è:  2  nπ(1-π)

17 Diagramma a barre della distribuzione binomiale di probabilità con parametri n = 4 e  = 0,75

18 Diagramma della funzione F X (x) = P(X  x), X è una variabile binomiale con parametri n = 4 e  = 0,75. F X (x) si chiama funzione di distribuzione di probabilità cumulata.

19 Distribuzione di campionamento della media aritmetica: È la distribuzione di frequenza delle medie campionarie, che si otterrebbero da ripetuti campioni indipendenti ciascuno di dimensione n, estratti a caso dalla popolazione.

20 Stimatore non distorto Produce una stima, il cui valore atteso è uguale al parametro che si vuole stimare. Per esempio,  x (media campionaria) è uno stimatore non distorto di  (media dell’intera popolazione), perché il valore atteso della media campionaria è uguale alla media della popolazione.

21 Aumentando la dimensione del campione, la distribuzione di campionamento tende a restringersi intorno alla media della popolazione. Questo è un aspetto della legge dei grandi numeri, che afferma che la media campionaria tende con probabilità 1 al valore atteso della variabile casuale (media della popolazione), quando la dimensione campionaria tende ad infinito.

22 L’errore standard della media L’errore standard della media (ESM o ES o   x ) è:  rappresenta la deviazione standard della popolazione e n la dimensione campionaria. ESM tende a 0 al crescere di n, perciò  x è una stima consistente di .

23 La media aritmetica campionaria è una stima non distorta consistente la più efficiente (con la minore varianza, a parità di n) della media aritmetica della popolazione

24 Intervallo di confidenza : è un intervallo, all’interno del quale si trova il parametro, che si desidera stimare, con probabilità uguale al livello di confidenza dell’intervallo stesso.

25 IV.A.6.c. Statistics Describe statistical methods with enough detail to enable a knowledgeable reader with access to the original data to verify the reported results. When possible, quantify findings and present them with appropriate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing, such as the use of P values, which fails to convey important information about effect size. References for the design of the study and statistical methods should be to standard works when possible (with pages stated). Define statistical terms, abbreviations, and most symbols. Specify the computer software used.

26

27 Problemi respirarori gruppo di trattamento Terbinafine placebo presenti assenti Totale5629 Numero di pazienti con problemi respiratori tra i trattati con Terbinafine o placebo Goodfield MJD,Andrew L,Evans EGV Short-term treatment of dermatophyte onchomyosis with terbinafine,.BMJ 1992; 304:

28 95% Intervallo di confidenza al 95% per la differenza fra le proporzioni di disturbi respiratori fra i pazienti trattati con terbinafine e placebo -0,012 ; 0,190 Nota bene: la stima puntuale della differnza di proporzioni vale 0,09 (Calcolo eseguito con )

29 I più semplici intervalli di confidenza sono simmetrici intorno alla stima puntuale del parametro da stimare

30 Caso particolare: Intervallo di confidenza per  quando  è conosciuto  1.96 P[  x  ESM < µ <  x  1.96  ESM] = 0,95 L’origine dei valori  1,96 diventerà chiara, dopo avere fatto conoscenza con il modello gaussiano

31 distribuzione gaussiana La distribuzione gaussiana (chiamata anche normale) è una distribuzione di probabilità continua, simmetrica, unimodale e caratterizzata da una forma a campana. Si indica con X  N(  ) una qualunque variabile casuale, che segue la distribuzione gaussiana con media  e deviazione standard .

32 Questa particolare gaussiana (denominata standard) ha media = 0 e deviazione standard = 1

33 Le curve di densità di probabilità hanno le proprietà seguenti: L’area totale L’area totale sotto la curva di densità è uguale a 1 L’area sotto la curva (AUC) L’area sotto la curva (AUC) tra 2 punti qualunque, x 1 ed x 2, è la probabilità che la variabile casuale assuma un valore nell’intervallo tra essi compreso. Da questo si deduce che la probabilità di un intervallo di larghezza 0, coincidente con un singolo valore, è uguale a 0

34 Densità gaussiana standard Area = 0,025 Area = 0,025 -1,961,96 Area = 0,95 Origine dei valori  1,96 usati per il calcolo dell’intervallo di confidenza

35 Quando la deviazione standard della popolazione non è conosciuta una stima dell’errore standard della media (SESM) è: Dove s rappresenta la deviazione standard campionaria e n la dimensione campionaria

36 Un altro caso particolare: Intervallo di confidenza per  quando  è sconosciuto si utilizza la deviazione standard campionaria, s, come stima di  e si calcola un intervallo di confidenza al (1  )  100% per  con:  x  t n-1, 1-  /2  SESM dove t n-1, 1-  /2 è il quantile, definito dalla frazione (1 –  ), della distribuzione t con n -1 gradi di libertà; SESM vale: s /  n.

37 Origine del valore t n-1, 1-  /2 (in questo esempio n-1= 3 e  -t 3, 1-  /2 = Area 0.95 Area 0,025 Area 0,025 t 3, 1-  /2 = 3.18

38 Alcuni possibili usi degli intervalli di confidenza: Stima di Medie e loro differenze Proporzioni e loro differenze Indici “non parametrici” (mediane, quantili, ecc.) Rischi relativi, rischi attribuibili e odds ratio Tassi di incidenza e tassi standardizzati Parametri di modelli lineari e regressione logistica Azzardi e rapporti di azzardi (studi di sopravvivenza)

39 A : Ipotesi nulle ed alternative H 0 H 1 Utilizziamo la notazione H 0 per indicare l’ipotesi nulla ed H 1 (o H a ) per indicare l’ipotesi alternativa. H 0 corrisponde a “nessuna differenza” diversa da quella che sarebbe ottenuta per puro caso. È l’ipotesi che il ricercatore spera di poter rifiutare. H 1 è l’ipotesi che il ricercatore spera di poter dimostrare, solitamente è l’esatto contrario di H 0.

40 statistica test La statistica test è una quantità che rispecchia i dati campionari, che, quando H 0 è vera, ha una distribuzione (o densità) di probabilità completamente nota. Essa è perciò lo strumento per determinare il P-value.

41 P-value E’ la probabilità di ottenere dati campionari altrettanto o meno probabili di quelli ottenuti, allorché H 0 è vera.

42 P-value può perciò essere considerato una misura delle prove fornite dai dati contro l’ipotesi nulla, infatti esso risponde alla domanda seguente: “Se l’ipotesi nulla fosse vera, quale sarebbe la probabilità di osservare questo campione od uno ancora più improbabile?” Più P-value è piccolo, migliore è l’evidenza contro H 0

43 Livello di significatività Prima di fare il test, stabiliamo il valore massimo accettabile della probabilità di rifiutare erroneamente H 0, indicato con alfa (  ).  è solitamente posto uguale a 0,05 o 0,01.

44 Conclusione della procedura di test Per trarre delle conclusioni si calcola, tramite la statistica test, il P-value. Se P è inferiore o uguale a α, H 0 è rifiutata Se P è superiore a , H 0 non è rifiutata per mancanza di prove contrarie Questa procedura assicura che la probabilità di rifiutare erroneamente H 0 sia .

45 P-value Il P-value può essere interpretato come il valore minimo di α che si deve scegliere per potere rifiutare H 0, in presenza dei dati campionari ottenuti.

46 Ipotesi nulla Condizioni dei dati Test statistico consigliato Uguaglianza della media di una popolazione ad un valore prefissato  Osservazioni indipendenti  Variabili approssimativamente gaussiane Test “t” per un solo campione Uguaglianza delle medie di due variabili misurate sugli stessi soggetti o ciascuna su uno dei due elementi di una coppia  I soggetti misurati due volte oppure le coppie di osservazioni sono indipendenti fra loro  Differenza fra le due variabili approssimativamente gaussiana Test “t” per dati appaiati Uguaglianza delle medie di due popolazioni  Tutte le osservazioni sono indipendenti  Le due popolazioni hanno la stessa varianza  Variabili approssimativamente gaussiane Test “t” per campioni indipendenti Uguaglianza delle medie di due popolazioni  Tutte le osservazioni sono indipendenti  Le due popolazioni non hanno la stessa varianza  Variabili approssimativa- mente gaussiane Test “t” per campioni indipendenti con correzione dei gradi di libertà (Attenzione: se le popolazioni non hanno la stessa varianza, può non essere sensato testare se le medie sono uguali)

47 Ipotesi nulla Condizioni dei dati Test statistico consigliato La distribuzione delle differenze fra le osservazioni rilevate sul medesimo soggetto o su soggetti appartenenti alla stessa coppia, è simmetrica. - I soggetti misurati due volte, o le coppie di osservazioni sono indipendenti fra loro - I soggetti misurati due volte, o le coppie di osservazioni sono indipendenti fra loro - Differenza fra le due variabili molto lontana dalla distribuzione gaussiana Test non parametrico per dati appaiati (wilcox.test) Uguaglianza delle distribuzioni di probabilità di due popolazioni  Tutte le osservazioni sono indipendenti  Le due popolazioni hanno distribuzioni approssimativamente sovrapponibili salvo per la posizione.  Variabili molto lontane dalla distribuzione gaussiana Test non parametrico per campioni indipendenti. (wilcox.test) Uguaglianza di una proporzione ad un valore prefissato  Osservazioni indipendenti Test esatto per una proporzione basato su modello binomiale (binom.test) Uguaglianza di due proporzioni rilevate in campioni provenienti da due popolazioni, od indipendenza di due variabili categoriche   Osservazioni indipendenti Test chi quadrato

48 l’ipotesi nulla e l’ipotesi alternativa possono prendere una di queste 3 forme: “una coda a destra”, “una coda a sinistra, e “due code”. H 0 :    0 contro H 1 :  >  0 H 0 :    0 contro H 1 :  <  0 H 0 :  =  0 contro H 1 :   0 Test a una e a due code

49 Errori di tipo I (rifiuto di una ipotesi nulla vera) Errori di tipo II (non rifiuto di una ipotesi nulla falsa) Le conseguenze dell’esecuzione di un test statistico d’ipotesi possono essere riassunte come segue: VERITA’ H 0 veraH 0 falsa DECISIONE Non rifiutare H 0 Corretta accettazione di H 0 Rifiutare H 0 Errore di tipo II Errore di tipo I Corretto rifiuto di H 0

50 P (errore di tipo I) =  P (errore di tipo II) =  Pr (evitare un errore di tipo I) = 1-  Pr (evitare un errore di tipo II)= 1-  “potenza” Probabilità di errori di I e II tipo

51

52

53

54

55 p 1 e p 2

56 Diagramma di pressione diastolica e sistolica in una popolazione Pressione diastolica (mmHg) Pressione sistolica (mmHg)

57 Modello di regressione lineare di pressione sistolica rispetto alla pressione diastolica

58 Stima e bande di confidenza (in blu scuro) della retta di regressione

59 Banda di “tolleranza” stimata del modello di regressione (in fucsia)

60 Fattore studiato Variabile dipendente confondente

61 y = a + bx + e Modello di regressione lineare semplice: Modello di regressione lineare multipla: y = a + b 1 x 1 + b 2 x 2 + e Il modello permette di studiare l’effetto della variabile x 1 sulla y, al netto dell’azione di x 2 y – b 2 x 2 = a+ b 1 x 1 + e

62 Se desideriamo aggiungere alla previsione di y (per esempio la glicemia delle nostre pazienti), una quantità b solo per le obese, ma non per le altre pazienti, possiamo aggiungere alla formula della previsione un termine bx, dove x vale 1 quando la formula si applica alle obese, e vale 0 per le altre pazienti. Questo equivale ad inserire la variabile x nel data-base e nel modello di previsione

63 Per rendere una variabile qualitativa in un modello lineare, possiamo usare tante variabili indicatore quante sono le classi della variabile meno una. Per esempio per codificare il gruppo ematico di classi 0, A, B, AB, possiamo usare tre variabili x A, x B, x AB, che hanno le seguenti caratteristiche: x A =1 per i soggetti con gruppo ematico A, e x A = 0 per tutti gli altri x B =1 per i soggetti con gruppo ematico B, e x B = 0 per tutti gli altri x AB =1 per i soggetti con gruppo ematico AB, e x AB = 0 per tutti gli altri Le variabili indicatore sono quantitative: forniscono il conteggio (0 od 1) dei rispettivi gruppi ematici in ogni soggetto

64 Visti i valori delle variabili indicatore, per i soggetti appartenenti ai quattro gruppi ematici, l’equazione si riduce alle seguenti quattro espressioni: La parte sistematica del modello è data dalla seguente equazione E(y | gruppo ematico ) = a + b A x A + b B x B + b AB x AB E(y | gruppo A ) = a + b A E(y | gruppo B ) = a + b B E(y | gruppo AB ) = a + b AB E(y | gruppo 0 ) = a

65 Dalle equazioni precedenti risulta chiaro il significato dei parametri b A, b B e b AB : b A = E(y | gruppo A ) - E(y | gruppo 0 ) b B = E(y | gruppo B ) - E(y | gruppo 0 ) b AB = E(y | gruppo AB ) - E(y | gruppo 0 )

66 religione sesso got musul mana cristia na altro F M Modello di analisi della varianza per la “got” con variabili esplicative religione e sesso 40 65

67 Scatterplot e retta di regressione e banda di confidenza Pulsazioni 1 Pulsazioni 2

68 Rappresentazione grafica di un modello di analisi della covarianza, comprensivo delle bande di confidenza delle rette di regressione Pulsazioni (seconda rilevazione) Pulsazioni (prima rilevazione) Riposo Corsa

69 dose frazione di batteri uccisi Diagramma della frazione di batteri uccisi in relazione alla dose usata di farmaco, osservata in numerosi esperimenti

70 Curva logistica di equazione y=exp(a+bx)/[1+exp(a+bx)] (ascissa del flesso = -1, pendenza nel flesso= 0,5)

71 anni sopravvivenza Stima di Kaplan-Meyer della curva di sopravvivenza


Scaricare ppt "L’ inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione."

Presentazioni simili


Annunci Google