La distribuzione campionaria: principi generali Corso di Statistica Medica La distribuzione campionaria: principi generali Lezione 4 Dr.ssa Sara Balduzzi
Argomenti Il concetto di popolazione e di campione Il comportamento dei campioni
La popolazione, il campione e l’inferenza Lo scopo della statistica inferenziale è di ottenere, attraverso lo studio di un campione, conoscenze sulla popolazione oggetto di studio da cui il campione è stato estratto Popolazione Estrazione di un campione rappresentativo Campione Processo inferenziale
Le caratteristiche della popolazione Le caratteristiche della popolazione oggetto di studio sono di solito espresse attraverso: Medie Percentuali Tassi Deviazione standard (varianza) Rapporti Differenze Confronto tra due o più popolazioni
Esempi di caratteristiche Il livello medio di bilirubina nel sangue nei pazienti affetti da cirrosi epatica primaria () La percentuale di pazienti affetti da una determinata neoplasia che muore dopo un anno dall’inizio del trattamento ()
Le statistiche campionarie Le caratteristiche della popolazione di interesse (parametri) possono essere stimate nel campione attraverso le statistiche campionarie, o stimatori
Pazienti affetti da cirrosi biliare primaria Sconosciuta Popolazione Esempio1: Qual è il livello medio di albumina nel sangue nei pazienti affetti da cirrosi biliare primaria? Pazienti affetti da cirrosi biliare primaria Sconosciuta Popolazione Parametro Media Incognito Estrazione di un campione rappresentativo della popolazione Campione Esempio: Vengono misurati i livelli di albumina nel sangue di n=100 pazienti affetti da cirrosi biliare primaria. La media campionaria è 34.5 Stimatore x=media campionaria
… un po' di domande Possiamo dire con certezza che: 34.5 è il livello medio di albumina nel sangue nella popolazione di pazienti affetti da cirrosi biliare primaria ? Otterremmo le stesse stime se utilizzassimo altri campioni ?
Il comportamento dei campioni Esempio Una popolazione è composta da 5 valori 2, 3, 4, 5, 6. Considerando tutti i campioni di ampiezza 2 che possono essere estratti con ripetizione dalla popolazione, determinare: la media dei valori della popolazione la deviazione standard la media della distribuzione della media campionaria la deviazione standard della distribuzione della media campionaria
I valori della popolazione: 2, 3, 4, 5, 6 a) Media =(2+3+4+5+6)/5=20/5=4.0 b) Deviazione standard SD=[(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2]/5= = 4+1+0+1+4/5= 2=1,41 c) Campioni di dimensione 2 (2,2) (2,3) (2,4) (2,5) (2,6) (3,2) (3,3) (3,4) (3,5) (3,6) (4,2) (4,3) (4,4) (4,5) (4,6) (5,2) (5,3) (5,4) (5,5) (5,6) (6,2) (6,3) (6,4) (6,5) (6,6)
I valori della popolazione: 2, 3, 4, 5, 6 c) Le medie corrispondenti (2.0) (2.5) (3.0) (3.5) (4.0) (2.5) (3.0) (3.5) (4.0) (4.5) (3.0) (3.5) (4.0) (4.5) (5.0) (3.5) (4.0) (4.5) (5.0) (5.5) (4.0) (4.5) (5.0) (5.5) (6.0) La media della distribuzione della media campionaria= 4.0 (2.0+2.5+3.0+3.5+4.0+2.5+3.0+3.5+4.0+4.5+3.0+3.5+4.0+4.5+5.0+3.5+4.0+4.5+5.0+5.5+4.0+4.5+5.0+5.5+6.0)/25=4.0 La deviazione standard della distribuzione della media campionaria, chiamata standard error (SE)= 1 [(2.0-4.0)2+(2.5-4.0)2+(3.0-4.0)2+(3.5-4.0)2+(4.0-4.0)2+(2.5-4.0)2+(3.0-4.0)2+(3.5-4.0)2+(4.0-4.0)2+ (4.5-4.0)2+(3.0-4.0)2+(3.5-4.0)2+(4.0-4.0)2+(4.5-4.0)2+(5.0-4.0)2+(3.5-4.0)2+(4.0-4.0)2+(4.5-4.0)2+ (5.0-4.0)2+(5.5-4.0)2+(4.0-4.0)2+(4.5-4.0)2+(5.0-4.0)2+(5.5-4.0)2+(6.0-4.0)2]/25= 1
Si dimostra che estraendo tutti i possibili campioni di dimensione sufficientemente grande da una popolazione (normale e non): a) la distribuzione delle medie campionarie si distribuirà normalmente b) la media delle medie campionarie sarà uguale alla media della popolazione c) la deviazione standard delle medie (errore standard) sarà pari a:
L’errore standard (ES) E’ una misura della variabilità delle stime intorno al valore del parametro. Ovvero, è una misura dell’imprecisione della stima del parametro. L’ES dipende da due fattori: Dalla deviazione standard (ovvero dalla variabilità delle singole osservazioni nella popolazione intorno al parametro) Dalla dimensione del campione
Campioni (n=3) (2,2,2) (2,2,3) (2,2,4) (2,2,5) (2,2,6) (2,2,2) (2,2,3) (2,2,4) (2,2,5) (2,2,6) (2,3,2) (2,3,3) (2,3,4) (2,3,5) (2,3,6) (2,4,2) (2,4,3) (2,4,4) (2,4,5) (2,4,6) (2,5,2) (2,5,3) (2,5,4) (2,5,5) (2,5,6) (2,6,2) (2,6,3) (2,6,4) (2,6,5) (2,6,6) (3,2,2) (3,2,3) (3,2,4) (3,2,5) (3,2,6) (3,3,2) (3,3,3) (3,3,4) (3,3,5) (3,3,6) (3,4,2) (3,4,3) (3,4,4) (3,4,5) (3,4,6) (3,5,2) (3,5,3) (3,5,4) (3,5,5) (3,5,6) (3,6,2) (3,6,3) (3,6,4) (3,6,5) (3,6,6) (4,2,2) (4,2,3) (4,2,4) (4,2,5) (4,2,6) (4,3,2) (4,3,3) (4,3,4) (4,3,5) (4,3,6) (4,4,2) (4,4,3) (4,4,4) (4,4,5) (4,4,6) (4,5,2) (4,5,3) (4,5,4) (4,5,5) (4,5,6) (4,6,2) (4,6,3) (4,6,4) (4,6,5) (4,6,6) (5,2,2) (5,2,3) (5,2,4) (5,2,5) (5,2,6) (5,3,2) (5,3,3) (5,3,4) (5,3,5) (5,3,6) (5,4,2) (5,4,3) (5,4,4) (5,4,5) (5,4,6) (5,5,2) (5,5,3) (5,5,4) (5,5,5) (5,5,6) (5,6,2) (5,6,3) (5,6,4) (5,6,5) (5,6,6) (6,2,2) (6,2,3) (6,2,4) (6,2,5) (6,2,6) (6,3,2) (6,3,3) (6,3,4) (6,3,5) (6,3,6) (6,4,2) (6,4,3) (6,4,4) (6,4,5) (6,4,6) (6,5,2) (6,5,3) (6,5,4) (6,5,5) (6,5,6) (6,6,2) (6,6,3) (6,6,4) (6,6,5) (6,6,6)
Medie corrispondenti
Aumentando la dimensione del campione da 2 a 3 l’ES passa da 1 ad 0.81 La media della distribuzione della media campionaria= 4.0 Media=(2.0+2.3+2.7+…+5.3+5.7+6)/125=4.0 La deviazione standard della distribuzione della media campionaria, chiamata standard error (SE)= 0.81 SE=[(2.0-4.0)2+(2.3-4.0)2+(2.7-4.0)2+…2+(5.3-4.0)2+(5.7-4.0)2+(6.0-4.0)2]/125=0.81 Aumentando la dimensione del campione da 2 a 3 l’ES passa da 1 ad 0.81 Aumentando la dimensione del campione si riduce l’errore campionario
Il comportamento dei campioni Punti essenziali I valori stimati variano intorno il valore del parametro (popolazione) Per n grande i valori campionari hanno un andamento campanulare Tale variabilità può essere ridotta aumentando la dimensione del campione
… le risposte NO NO Possiamo dire con certezza che: 34.5 è il livello medio di albumina nel sangue nella popolazione di pazienti affetti da cirrosi biliare primaria ? NO Otterremmo le stesse stime se utilizzassimo altri campioni ? NO