L’inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

L’inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione. Due forme di inferenza statistica sono: · la stima · il test di ipotesi

La popolazione statistica è definita come l’insieme di tutte le possibili unità statistiche, sulle quali possiamo eseguire delle misure. Essa può perciò essere infinita.

Concetto (frequentista) di probabilità
Se un esperimento casuale è ripetuto un numero infinito di volte, la frequenza relativa di un certo risultato converge, con probabilità = 1, ad un unico limite fisso. (Legge dei grandi numeri) Si potrebbe allora dire che la probabilità di quel certo risultato è tale limite, se questa definizione non fosse circolare.

Legge dei grandi numeri: in generale stabilisce che più il campione è grande, più è probabile che la media aritmetica campionaria approssimi la media della popolazione.

Concetto (Bayesiano) di probabilità
Secondo alcuni statistici, è possibile assegnare una probabilità ad un evento, anche quando non si dispone di una frequenza relativa che ce ne possa suggerire il valore. In questo caso la probabilità è desunta dall’esperienza di chi l’assegna, anche se tale esperienza non è formalmente costituita da una sequenza di esperimenti casuali.

Assiomi di probabilità
1. 2. Legge della somma 3. Legge del prodotto

Infezione da H.pylori Madre affetta Sì No Sì No 6 16 112 729 Totale 22
Prevalenza di infezione da Helicobacter pylori in bambini di età pre-scolare, a seconda della presenza di ulcera nella madre Infezione da H.pylori Madre affetta Sì No Sì No 6 16 112 729 Totale 22 841 Brenner H, Rothenbacher D, Bode G, Adler G, Parental history of gastric or duodenal ulcer and prevalence of Helycobacter pylori infection in preschool children: population based study.BMJ 1998; 316:665.

Verifica della validità degli assiomi, sui dati di Brenner et al.
P(HB) = P( HB  madre affetta) + P( HB  madre non affetta) 118/863 = 6/ /863 Legge della somma P (HB  madre affetta) = P( HB | madre affetta) • P(madre affetta) 6/863 = 6/22 • 22/ 863 Legge del prodotto

Variabili casuali Le variabili casuali (o stocastiche o aleatorie) sono variabili numeriche, che assumono valori diversi a caso.

Variabili casuali discrete
Non possono assumere tutti i valori in alcun intervallo. Per esempio, il numero di " teste " osservato dopo il lancio di due monete, assumerà valore 0, 1, o 2 ma non 1,75.

Variabili casuali continue
Possono assumere tutti i valori in un certo intervallo. Perciò, hanno un’infinità di valori possibili tra due valori qualunque.

Una prova di Bernouilli è un esperimento casuale con due soli esiti possibili, denominati “successo” e “insuccesso”. Non è importante quale di questi esiti sia considerato "successo "- questo è arbitrario – ma, una volta fatta la scelta, essa deve essere mantenuta per tutto il corso dei calcoli. La probabilità di successo è costante

Il numero totale di successi X osservato in una serie di n prove di Bernouilli indipendenti è una variabile casuale binomiale.

Distribuzione Binomiale
Le probabilità associate con tutti i possibili valori di una variabile casuale binomiale formano una distribuzione binomiale.

n il numero di prove indipendenti
La distribuzione binomiale descrive una famiglia di variabili casuali, ogni membro della quale è identificato dai valori dei parametri della distribuzione stessa: n il numero di prove indipendenti π la probabilità di successo in ciacuna prova La notazione usata per indicare che una variabile casuale X è binomiale è la seguente: X ~ B(n, π) (si legge: " X è una variabile casuale binomiale con parametri n e π“).

Il valore atteso di una variabile binomiale casuale è la media d’infinite sue realizzazioni. Può essere calcolato con la formula: E(X) = nπ La varianza (s²) di una variabile binomiale casuale quantifica la dispersione d’infinite sue realizzazioni . La formula per la varianza di una variabili binomiale è: s 2 = nπ(1-π)

Diagramma a barre della distribuzione binomiale di probabilità con parametri n = 4 e  = 0,75

Diagramma della funzione FX(x) = P(X  x),
X è una variabile binomiale con parametri n = 4 e  = 0,75. FX(x) si chiama funzione di distribuzione di probabilità cumulata.

Distribuzione di campionamento della media aritmetica:
È la distribuzione di frequenza delle medie campionarie, che si otterrebbero da ripetuti campioni indipendenti ciascuno di dimensione n, estratti a caso dalla popolazione .

Stimatore non distorto
Produce una stima, il cui valore atteso è uguale al parametro che si vuole stimare. Per esempio,x (media campionaria) è uno stimatore non distorto di m (media dell’intera popolazione), perché il valore atteso della media campionaria è uguale alla media della popolazione.

Aumentando la dimensione del campione, la distribuzione di campionamento tende a restringersi intorno alla media della popolazione. Questo è un aspetto della legge dei grandi numeri, che afferma che la media campionaria tende con probabilità 1 al valore atteso della variabile casuale (media della popolazione), quando la dimensione campionaria tende ad infinito.

L’errore standard della media (ESM o ES o sx) è:
 rappresenta la deviazione standard della popolazione e n la dimensione campionaria. ESM tende a 0 al crescere di n, perciòx è una stima consistente di .

La media aritmetica campionaria è una stima
non distorta consistente la più efficiente (con la minore varianza, a parità di n) della media aritmetica della popolazione

Intervallo di confidenza:
è un intervallo, all’interno del quale si trova il parametro, che si desidera stimare, con probabilità uguale al livello di confidenza dell’intervallo stesso.

IV.A.6.c. Statistics Describe statistical methods with enough detail to enable a knowledgeable reader with access to the original data to verify the reported results. When possible, quantify findings and present them with appropriate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing, such as the use of P values, which fails to convey important information about effect size. References for the design of the study and statistical methods should be to standard works when possible (with pages stated). Define statistical terms, abbreviations, and most symbols. Specify the computer software used.

Numero di pazienti con problemi respiratori tra i trattati con Terbinafine o placebo
Problemi respirarori gruppo di trattamento Terbinafine placebo presenti assenti 5 51 29 Totale 56 Goodfield MJD,Andrew L,Evans EGV Short-term treatment of dermatophyte onchomyosis with terbinafine,.BMJ 1992; 304:

-0,012 ; 0,190 Intervallo di confidenza al 95% per la differenza
fra le proporzioni di disturbi respiratori fra i pazienti trattati con terbinafine e placebo -0,012 ; 0,190 Nota bene: la stima puntuale della differnza di proporzioni vale 0,09 (Calcolo eseguito con )

I più semplici intervalli di confidenza sono simmetrici
intorno alla stima puntuale del parametro da stimare

P[x - 1.96  ESM < µ < x + 1.96  ESM] = 0,95
Caso particolare: Intervallo di confidenza per m quando s è conosciuto P[x  ESM < µ < x  ESM] = 0,95 L’origine dei valori 1,96 diventerà chiara, dopo avere fatto conoscenza con il modello gaussiano

La distribuzione gaussiana (chiamata anche normale) è una distribuzione di probabilità continua, simmetrica, unimodale e caratterizzata da una forma a campana. Si indica con X  N(m, s) una qualunque variabile casuale, che segue la distribuzione gaussiana con media m e deviazione standard s.

Questa particolare gaussiana (denominata standard)
ha media = 0 e deviazione standard = 1

Le curve di densità di probabilità hanno le proprietà seguenti:
L’area totale sotto la curva di densità è uguale a 1 L’area sotto la curva (AUC) tra 2 punti qualunque, x1 ed x2, è la probabilità che la variabile casuale assuma un valore nell’intervallo tra essi compreso. Da questo si deduce che la probabilità di un intervallo di larghezza 0, coincidente con un singolo valore, è uguale a 0

Origine dei valori 1,96 usati per il calcolo dell’intervallo di confidenza
0.4 0.3 0.2 Area = 0,95 Area = 0,025 Area = 0,025 0.1 0.0 -1,96 1,96 -3 -2 -1 1 2 3 Densità gaussiana standard

Quando la deviazione standard della popolazione non è conosciuta una stima dell’errore standard della media (SESM) è: Dove s rappresenta la deviazione standard campionaria e n la dimensione campionaria

Intervallo di confidenza per m quando s è sconosciuto
Un altro caso particolare: Intervallo di confidenza per m quando s è sconosciuto si utilizza la deviazione standard campionaria, s, come stima di s e si calcola un intervallo di confidenza al (1 - a) 100% per m con: x ± tn-1, 1-a/2  SESM dove tn-1, 1-a/2 è il quantile, definito dalla frazione (1 – a/2), della distribuzione t con n -1 gradi di libertà; SESM vale: s /n.

Origine del valore tn-1, 1-a/2 (in questo esempio n-1= 3 e a=0,05)
0.3 0.2 Area 0.95 Area 0,025 Area 0,025 0.1 0.0 -6 -4 -2 2 4 6 -t3, /2= -3.18 t3, /2= 3.18

Alcuni possibili usi degli intervalli di confidenza:
Stima di Medie e loro differenze Proporzioni e loro differenze Indici “non parametrici” (mediane, quantili, ecc.) Rischi relativi, rischi attribuibili e odds ratio Tassi di incidenza e tassi standardizzati Parametri di modelli lineari e regressione logistica Azzardi e rapporti di azzardi (studi di sopravvivenza)

A : Ipotesi nulle ed alternative
Utilizziamo la notazione H0 per indicare l’ipotesi nulla ed H1 (o Ha) per indicare l’ipotesi alternativa. H0 corrisponde a “nessuna differenza” diversa da quella che sarebbe ottenuta per puro caso. È l’ipotesi che il ricercatore spera di poter rifiutare. H1 è l’ipotesi che il ricercatore spera di poter dimostrare, solitamente è l’esatto contrario di H0.

La statistica test è una quantità che rispecchia i dati campionari, che, quando H0 è vera, ha una distribuzione (o densità) di probabilità completamente nota. Essa è perciò lo strumento per determinare il P-value.

P-value E’ la probabilità di ottenere dati campionari altrettanto o meno probabili di quelli ottenuti, allorché H0 è vera.

Più P-value è piccolo, migliore è l’evidenza contro H0
P-value può perciò essere considerato una misura delle prove fornite dai dati contro l’ipotesi nulla, infatti esso risponde alla domanda seguente: “Se l’ipotesi nulla fosse vera, quale sarebbe la probabilità di osservare questo campione od uno ancora più improbabile?” Più P-value è piccolo, migliore è l’evidenza contro H0

Livello di significatività
Prima di fare il test, stabiliamo il valore massimo accettabile della probabilità di rifiutare erroneamente H0, indicato con alfa (a). a è solitamente posto uguale a 0,05 o 0,01.

Conclusione della procedura di test
Per trarre delle conclusioni si calcola, tramite la statistica test, il P-value. Se P è inferiore o uguale a α, H0 è rifiutata Se P è superiore a a, H0 non è rifiutata per mancanza di prove contrarie Questa procedura assicura che la probabilità di rifiutare erroneamente H0 sia a.

Il P-value può essere interpretato come il valore minimo di α che si deve scegliere per potere rifiutare H0, in presenza dei dati campionari ottenuti.

Test statistico consigliato
Ipotesi nulla Condizioni dei dati Test statistico consigliato Uguaglianza della media di una popolazione ad un valore prefissato - Osservazioni indipendenti - Variabili approssimativamente gaussiane Test “t” per un solo campione Uguaglianza delle medie di due variabili misurate sugli stessi soggetti o ciascuna su uno dei due elementi di una coppia - I soggetti misurati due volte oppure le coppie di osservazioni sono indipendenti fra loro -Differenza fra le due variabili approssimativamente gaussiana Test “t” per dati appaiati Uguaglianza delle medie di due popolazioni - Tutte le osservazioni sono indipendenti - Le due popolazioni hanno la stessa varianza -Variabili approssimativamente gaussiane Test “t” per campioni indipendenti - Tutte le osservazioni sono indipendenti - Le due popolazioni non hanno la stessa varianza - Variabili approssimativa-mente gaussiane Test “t” per campioni indipendenti con correzione dei gradi di libertà (Attenzione: se le popolazioni non hanno la stessa varianza, può non essere sensato testare se le medie sono uguali)

Test statistico consigliato
Ipotesi nulla Condizioni dei dati Test statistico consigliato La distribuzione delle differenze fra le osservazioni rilevate sul medesimo soggetto o su soggetti appartenenti alla stessa coppia, è simmetrica. - I soggetti misurati due volte, o le coppie di osservazioni sono indipendenti fra loro - Differenza fra le due variabili molto lontana dalla distribuzione gaussiana Test non parametrico per dati appaiati (wilcox.test) Uguaglianza delle distribuzioni di probabilità di due popolazioni - Tutte le osservazioni sono indipendenti - Le due popolazioni hanno distribuzioni approssimativamente sovrapponibili salvo per la posizione. - Variabili molto lontane dalla distribuzione gaussiana Test non parametrico per campioni indipendenti. (wilcox.test) Uguaglianza di una proporzione ad un valore prefissato - Osservazioni indipendenti Test esatto per una proporzione basato su modello binomiale (binom.test) Uguaglianza di due proporzioni rilevate in campioni provenienti da due popolazioni, od indipendenza di due variabili categoriche Test chi quadrato

Test a una e a due code l’ipotesi nulla e l’ipotesi alternativa possono prendere una di queste 3 forme: “una coda a destra”, “una coda a sinistra, e “due code”. H0: m  m0 contro H1: m >m0 H0: m  m0 contro H1: m < m0 H0: m = m0 contro H1: m m0

Corretta accettazione di H0
Errori di tipo I (rifiuto di una ipotesi nulla vera) Errori di tipo II (non rifiuto di una ipotesi nulla falsa) Le conseguenze dell’esecuzione di un test statistico d’ipotesi possono essere riassunte come segue: VERITA’ H0 vera H0 falsa DECISIONE Non rifiutare H0 Corretta accettazione di H0 Rifiutare H0 Errore di tipo II Errore di tipo I Corretto rifiuto di H0

Probabilità di errori di I e II tipo
P (errore di tipo I) = a P (errore di tipo II) = b Pr (evitare un errore di tipo I) = 1-a Pr (evitare un errore di tipo II)= 1-b = “potenza”

p1 e p2

Diagramma di pressione diastolica e sistolica in una popolazione
Pressione sistolica (mmHg) Pressione diastolica (mmHg)

Modello di regressione lineare di pressione sistolica rispetto alla pressione diastolica

Stima e bande di confidenza (in blu scuro) della retta di regressione

Banda di “tolleranza” stimata del modello di regressione (in fucsia)

Fattore studiato Variabile dipendente confondente

y = a + bx + e y = a + b1x1+ b2x2 + e y – b2x2= a+ b1x1 + e
Modello di regressione lineare semplice: y = a + bx + e Modello di regressione lineare multipla: y = a + b1x1+ b2x2 + e Il modello permette di studiare l’effetto della variabile x1 sulla y, al netto dell’azione di x2 y – b2x2= a+ b1x1 + e

Se desideriamo aggiungere alla previsione di y
(per esempio la glicemia delle nostre pazienti), una quantità b solo per le obese, ma non per le altre pazienti, possiamo aggiungere alla formula della previsione un termine bx, dove x vale 1 quando la formula si applica alle obese, e vale 0 per le altre pazienti. Questo equivale ad inserire la variabile x nel data-base e nel modello di previsione

xA=1 per i soggetti con gruppo ematico A, e xA= 0 per tutti gli altri
Per rendere una variabile qualitativa in un modello lineare, possiamo usare tante variabili indicatore quante sono le classi della variabile meno una. Per esempio per codificare il gruppo ematico di classi 0, A, B, AB, possiamo usare tre variabili xA, xB, xAB, che hanno le seguenti caratteristiche: xA=1 per i soggetti con gruppo ematico A, e xA= 0 per tutti gli altri xB=1 per i soggetti con gruppo ematico B, e xB= 0 per tutti gli altri xAB=1 per i soggetti con gruppo ematico AB, e xAB= 0 per tutti gli altri Le variabili indicatore sono quantitative: forniscono il conteggio (0 od 1) dei rispettivi gruppi ematici in ogni soggetto

E(y | gruppo ematico) = a + bA xA+ bB xB + bAB xAB
La parte sistematica del modello è data dalla seguente equazione E(y | gruppo ematico) = a + bA xA+ bB xB + bAB xAB Visti i valori delle variabili indicatore, per i soggetti appartenenti ai quattro gruppi ematici, l’equazione si riduce alle seguenti quattro espressioni: E(y | gruppo A) = a + bA E(y | gruppo B) = a + bB E(y | gruppo AB) = a + bAB E(y | gruppo 0) = a

Modello di analisi della varianza per la “got” con variabili esplicative religione e sesso
65 cristiana got musulmana 40 altro M religione F sesso

Scatterplot e retta di regressione e banda di confidenza
Pulsazioni 2 Pulsazioni 1

Rappresentazione grafica di un modello di analisi della covarianza, comprensivo delle bande di confidenza delle rette di regressione Corsa Pulsazioni (seconda rilevazione) Riposo Pulsazioni (prima rilevazione)

Diagramma della frazione di batteri uccisi in relazione alla dose usata di farmaco, osservata in numerosi esperimenti 1.0 0.8 0.6 frazione di batteri uccisi 0.4 0.2 0.0 1000 2000 3000 4000 5000 6000 dose

Curva logistica di equazione y=exp(a+bx)/[1+exp(a+bx)] (ascissa del flesso = -1, pendenza nel flesso= 0,5)

Stima di Kaplan-Meyer della curva di sopravvivenza
1.0 0.8 0.6 sopravvivenza 0.4 0.2 0.0 5 10 15 anni

L’inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Presentazioni simili

Presentazione sul tema: "L’inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

L’inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione.

Presentazioni simili

Presentazione sul tema: "L’inferenza statistica consiste nello attribuire all’intera popolazione, con un grado di incertezza calcolato, caratteristiche desunte da un campione."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back