STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12 Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 5 21 Ottobre 2011
Esempio(Contenuto di cloro nell’acqua) Qual è la probabilità che, da un pozzo con un contenuto medio di cloro pari a 1 meq (milli-equivalente ) l-1, eseguendo l’analisi con uno strumento caratterizzato da un coefficiente di variabilità pari al 4%, si ottenga una misura pari o superiore a 1.1 meq l-1? E’ possibile che questa misura sia stata ottenuta casualmente, oppure è successo qualcosa di strano (errore nell’analisi o inquinamento del pozzo)? Questo problema può essere risolto immaginando che se è vero che il pozzo ha un contenuto medio di 1 meq l-1 i contenuti di cloro dei campioni estratti da questo pozzo dovrebbero essere distribuiti normalmente, con media pari ad 1 e deviazione standard pari a 0.04 (si ricordi la definizione di coefficiente di variabilità). Qual è la probabilità di estrarre da questa popolazione una misura pari superiore a 1.1 meq l-1?
Esempio(Distribuzione Normale) Nello stesso strumento dell’esercizio precedente e considerando lo stesso tipo di analisi, calcolare: 1 - la probabilità di ottenere una misura inferiore a 0.75 2 - la probabilità di ottenere una misura superiore a 1.5 3 - la probabilità di ottenere una misura compresa tra 0.95 e 1.05 Stabilire inoltre: 1 - la misura che è superiore al 90% di quelle possibili 2 - la misura che è inferiore al 70% di quelle possibili 3 - le misure entro le quali si trova il 95% delle misure possibili
Esempio : Indagine su neonati(Distribuzione Normale) Da un’indagine svolta su un campione di neonati ,il peso alla nascita è risultato avere media pari a 3.2 kg con σ di 0.6 kg. Ciò significa che nella popolazione il 68% circa dei neonati ha un peso tra 2.6 e 3.8 kg ,il 95% ha un peso tra 2 e 4.4 kg e meno dell’1% ha peso maggiore di 5 o minore di 1.4 kg. Ci si chiede: In un campione di 1000 nati ,quanti sono attesi avere un peso compreso tra 3.5 e 3.7 kg? Considerando i pesi medi rilevati su 20 nati in 1000 ospedali ,in quanti casi è attesa una media compresa tra 3.5 e 3.7?
Altre distribuzioni collegate alla normale Le distribuzione dei quadrati di variabili casuali Normali Standard è detta distribuzione χ2 (chi-quadrato) con 1 grado di libertà. z2~χ21 La somma dei quadrati di n VC normali standard indipendenti è distribuita come una χ2 con n gradi di libertà. Questa distribuzione è continua e può assumere valori soltanto positivi: se il numero dei gradi di libertà è piccolo la distribuzione è molto asimmetrica mentre tende alla simmetria in modo proporzionale all’aumento dei gradi di libertà. La media e la varianza della VC di χ2 sono rispettivamente pari al numero dei gradi di libertà ν e al doppio dello stesso numero 2 ν.
Distribuzione χ2 con v gdl Per un campione di v osservazioni :
Distribuzione χ2 con v gdl(2) Allora : Essendo E(zizj)=0 per l’indipendenza degli xi,segue che :
Distribuzione χ2 con v gdl(3) Per lo stesso motivo :
Distribuzione χ2
Distribuzione di Fisher Rapporto di 2 funzioni determinate su campioni indipendenti La funzione è asimmetrica ,al tendere di v2 all’infinito la distribuzione converge a
Distribuzione Fisher gdl=(3,4) red line gdl=(10,20) blue line
Distribuzione t di student (Fisher con v1=1)
t-student (gdl 2(red),10(blue),40(green))
Distribuzione degli scarti standardizzati
Intervalli di confidenza Introduzione Intervalli di confidenza di una media nota la varianza di popolazione Intervallo di confidenza di una media con varianza di popolazione incognita Intervallo di confidenza di una proporzione Intervalli di confidenza della varianza ,nel caso in cui si assume che la popolazione è distribuita normalmente Intervalli di confidenza ed ampiezza campionaria
Introduzione La media campionaria è una stima puntuale di μ(la media campionaria è inoltre uno stimatore corretto della media di popolazione );essa è funzione dei dati campionari ed è quindi una variabile casuale e può quindi variare a seconda del campione estratto ,ovvero è affetta da errore La stima puntuale(es:media campionaria ) non dà una valutazione probabilistica su quanto il valore stimato sia più o meno vicino al vero valore del parametro incognito (es:media di popolazione ) La stima intervallare ci informa non solo sul valore numerico del parametro incognito (media campionaria) ,ma anche sulla sua attendibilità ,in termini di probabilità.
Intervallo di confidenza della media nota la varianza(1) Si assume nota la varianza di popolazione σ2 . Si fissa il grado di fiducia (o di confidenza ) (1-α) con 0<α<1 da dare all’intervallo di comprendere il valore vero μ.(Esempio : (1- α)=0.95 ; α=0.05 vuol dire che su un gran numero di prove ci si attende che la stima risulti corretta il 95% delle volte; dove per corretta si intende che l’intervallo contenga davvero il parametro μ. Si considera un campione estratto da una popolazione Normale di cui si conosce la varianza ma non la media e si calcola la media campionaria . La media campionaria si distribuisce come una Normale di media pari a μ e varianza σ2 /n.
Intervallo di confidenza della media nota la varianza(2) E(media camp)=μ (1-α)=0.95 α/2=0.025 α/2=0.025
Intervallo di confidenza della media nota la varianza(3)
Intervalli di confidenza di una media con varianza incognita Se σ è incognita ,oltre a stimare μ tramite la media campionaria , è necessario stimare σ2 tramite s2(la varianza campionaria corretta) In questo caso si adotta come distribuzione di riferimento la t-Student con (n-1) gradi di libertà.
Esempio:Int. Conf. 95% per la media con varianza incognita Altezze in centimetri di 5 piantine di mais:24,26,30,28,32.
Esempio:IC per media di variabili di conteggio(Poisson) Una sospensione batterica viene trattata con un mutageno ;un ugual volume di sospensione viene poi seminato su 10 piastre contenenti un terreno selettivo adatto ad evidenziare la presenza di mutanti;si procede al conteggio del numero di colonie mutanti presenti su ogni piastra. Numero Piastre Numero Mutanti 1 2 3 4 5 6 7 8 9 10
Esempio:IC per media di variabili di conteggio(Poisson)(2) Il numero medio di mutanti è 32/10=3.2. I livelli di confidenza della media di un conteggio possono essere calcolati tramite la distribuzione di Poisson. Si approssima la distribuzione di Poisson a quella Normale ricordando che per la Poisson media = varianza :
Intervalli di confidenza di una proporzione Si estrae un campione per conoscere il vero valore della proporzione di una popolazione dicotomica. Se si assume la normalità della distribuzione (anche se il processo è di tipo binomiale e la distribuzione potrebbe essere asimmetrica ) si può sostituire alla varianza la stima binomiale della varianza Se n è grande l’asimmetria e la discontinuità dovuta al processo binomiale discreto di fondo sono trascurabili.
Caso 1 :Int. Conf. Proporzione La numerosità campionaria n è grande,con proporzione di popolazione π=0.5. Si può assumere la normalità e ottenere gli intervalli di confidenza per il numero di successi e la proporzione degli stessi rispettivamente dalle formule seguenti:
Esempio(Caso 1) In un campione di 100 piantine,20 hanno il fiore bianco. n=100 ; p=0.2 ; (1-p)=0.8 ; α=0.05 . L’intervallo di confidenza per il numero di piantine con fiore bianco e per la sua proporzione può essere così ottenuto:
Caso 2 :Int. Conf. Proporzione La numerosità campionaria n non è grande,con proporzione di popolazione π≠0.5.Non si può assumere la normalità ,ma resta vero il processo binomiale di fondo. Il problema si risolve considerando π come incognita dell’equazione da risolvere:gli intervalli non sono simmetrici.
Esempio:Grandi Magazzini Su 20 persone a caso in un grande magazzino ,4 dichiarano di preferire una certa marca di prodotti rispetto alle altre.La precisione della stima puntuale della proporzione 4/20=0.20 può essere valutata mediante l’intervallo di confidenza( 95%) ;poiché n non è grande e p≠0.5 ,la procedura adatta è la seguente:
Caso 3: n piccolo e π≠0.5 (IC 95% proporzione ) Esempi in biologia : incidenza di una malattia rara,la frequenza di mutazione indotta ,la mortalità dopo un certo tipo di intervento chirurgico. Bisogna adottare la distribuzione esatta ed applicare direttamente il criterio di stima dell’intervallo di confidenza :un valore di π è accettabile se la proporzione osservata fa parte dei valori che possono essere ottenuti con un scostamento casuale pari al livelli di significatività scelto. Procedura 1) si considera una proporzione teorica π 2) si calcola la distribuzione binomiale definita da n e π teorico 3) si isolano le code della stessa distribuzione che comprendono il livello di significatività scelto(es. alfa=0.05) 4)si verifica se la combinazione osservata cade nelle code oppure nella regione centrale
Intervallo di confidenza di una varianza(per popolazione distribuita normalmente) Esempio:precisione di uno strumento di misura,la variabilità di una caratteristica nella popolazione . Se la popolazione è distribuita normalmente il calcolo dell’intervallo di confidenza per la varianza avviene tramite la distribuzione χ2.
Esempio(IC per la varianza ) Si desidera conoscere l’IC della varianza relativo al livello di amilasi serica,disponendo delle determinazioni effettuate su 15 pazienti.
IC e dimensione campionaria In un campione di 10 individui sani è stata misurata la glicemia .La media è risultata pari a 80 mg di glucosio/100 ml di sangue. Essendo s=15 Volendo ottenere un grdo di precisione maggiore,ad esempio la metà di quello ottenuto in precedenza ,quante osservazioni si rendono necessarie? (escursione=5 invece di 10.9; t=2)
Grazie per l’attenzione