DISTIBUZIONE BINOMIALE Probabilità di un numero limitato di successi
variabile casuale di Bernoulli Supponiamo di fare un esperimento con appena 2 risultati possibili. Gli esempi comuni sono: passare/fallire un esame vincere/perdere al gioco Osservare testa/croce lanciando una moneta includere una persona in una lista [fumatori | non fumatori] vivere/morire a causa di un ricovero in ospedale Si consideri una variabile casuale dicotomica. La variabile deve assumere uno di due possibili valori; questi risultati mutuamente esclusivi possono essere, ad esempio: [maschio o femmina], [salute o malattia]. Per semplicità, vengono spesso indicati come [“insuccesso” e “successo”]. Una variabile di questo tipo è nota come variabile casuale di Bernoulli.
La distribuzione binomiale La distribuzione binomiale {x} è la distribuzione di probabilità di una variabile casuale discreta… tale che … Il valore della variabile casuale sia il “numero di successi in una serie di esperimenti identici ed indipendenti”, Se, per esempio,l’esperimento consiste nel lancio di una moneta. Sia X = il numero di teste che deriva da una serie di n=10 lanci. Allora la variabile casuale X segue una distribuzione binomiale. La distribuzione binomiale più semplice deriva da un singola lancio di una moneta. Un tale esperimento è denominato una “prova di Bernoulli” e la variabile casuale che corrisponde al numero di successi è denominata una variabile di Bernoulli.
Le prove di Bernoulli e la distribuzione binomiale Un esperimento che consiste di singolo lancio di una moneta, o una singola classificazione è denominato una prova di Bernoulli. Se l'esperimento (o prova) è ripetuto piò volte e le ripetizioni sono indipendenti tra loro, allora la distribuzione di probabilità della variabile casuale X= # dei successi in n prove indipendenti di Bernoulli è denominata “distribuzione binomiale”.
Una distribuzione è binomiale quando: Il risultato di ogni prova è uno di 2 risultati, riferito spesso come un successo|fallimento. La probabilità p di successo è la stessa in ogni prova. Le prove sono indipendenti: il risultato di una prova non ha influenza sul risultato di un'altra prova.
Studiamo la distribuzione binomiale La distribuzione binomiale è semplicemente una distribuzione discreta di probabilità. Possiamo studiare la distribuzione scrivendo i risultati possibili nello spazio dei campioni e determinando la loro probabilità. Cominciamo con un esempio semplice nel quale una moneta è gettata due volte. Poi studiamo la possibilità di gettare la moneta n=3 volte. Ciò induce a provare a generalizzare la probabilità di quale risultato avremmo se la moneta fosse lanciata n=4 volte, o persino di più volte.
che i lanci siano indipendenti. la moneta non sia viziata, Esempio 1 Assumiamo … di eseguire un esperimento che consiste nel lancio una moneta n=2 volte e contare le teste {H}, che i lanci siano indipendenti. la moneta non sia viziata, che P(H)=0.5 = probabilità di una testa in un lancio. Rappresentiamo il risultato di 2 lanci come {esito 1°lancio esito 2°lancio}. lo Spazio dei Campioni: ({ HH }, { HT }, { TH }, { TT }). Per l’indipendenza: P({HH})=P(H nel 1°lancio)P(H nel 2°lancio) =0.25. Definiamo la variabile casuale X pari al numero di teste osservate. Allora: X risultati P(X=x) P(X¡<=x) somma {TT} 0,25 1 {HT, TH} 0,50 0,75. 2 {HH} 1,00. Questa è una distribuzione binomiale con n=2, P=0.5. L'ultima colonna detta distribuzione cumulativa.
Determiniamo la distribuzione binomiale per il numero di A ?. Esempio 2: Un esperimento consiste nel selezionare due allievi di una classe (n=2) ed osservare quanti di loro hanno ricevuto A in un esame. Sia che il secondo allievo selezionato abbia o non abbia ricevuto A questo evento non dipende dal risultato del il primo allievo (i risultati sono indipendenti). Inoltre si supponga che la probabilità di ricevere A sia P(A)=0.2. Determiniamo la distribuzione binomiale per il numero di A ?. Rappresentiamo il risultato delle due selezioni come {1° alunno, 2° alunno }. Rappresentiamo il grado A con la lettera A ed il “not A” con la lettera B
Esempio 2 . Spazio dei campioni: ({AA}, {AB}, {BA}, {BB}). Poichè i lanci sono indipendenti : P({AA}) = P(A 1° alunno ) P(A 2° alunno) = 0.04. P({AB}) = P(A 1° alunno ) P(B 2° alunno) = 0.16. P({BA}) = P(B 1° alunno ) P(A 2° alunno) = 0.16. P({BB}) = P(B 1° alunno ) P(B 2° alunno) = 0.64. Definiamo una variabile casuale X pari alllo score A osservato. Allora: Evento. x Risultati P(X=x) P(X¡x). 0 {BB} 0.64 0.64. 1 {AB, BA} 0.32 0.96. 2 {AA} 0.04 1.00.
Y= il paziente con polizza di assicurazione. Esempio 3 Un esperimento consiste nel selezionare a caso n=3 annotazioni in un pronto soccorso d'ospedale e vedere se il paziente ha una polizza di assicurazione contro le malattie. Poniamo che le selezioni siano prove di Bernoulli con la probabilità P=0.6 di avere una polizza di assicurazione contro le malattie. Q=0.4 = probabilità che un paziente non abbia assicurazione contro le malattie. Rappresentiamo il risultato delle tre selezioni come {1° risultato di selezione, 2° risultato di selezione, 3°risultato di selezione }. In fine, sia: X= numero di pazienti con polizza di assicurazione, e rappresentiamo gli eventi: Y= il paziente con polizza di assicurazione. N= il paziente senza polizza di assicurazione.
Distribuzione Binomiale di X Poiché le prove sono indipendenti : P(YYY)=P(Y) P(Y) P(Y) =PPP=(0.6)(0.6)(0.6)=0.216 P(YYN)=P(Y) P(Y) P(N) =PPQ=(0.6)(0.6)(0.4)=0.144 P(YNY)=P(Y) P(N) P(Y) =PQP=(0.6)(0.4)(0.6)=0.144 P(NYY)=P(N) P(Y) P(Y) =QPP=(0.4)(0.6)(0.6)=0.144 P(YNN)=P(Y) P(N) P(N) =PQQ=(0.6)(0.4)(0.4)=0.096 etc. Lista di tutti i possibli pz , e, Prob(#pz con polizza). x Risultato P(X=x) 0 {NNN} 0.064 1 {YNN} 0.096 1 {NYN} 0.096 1 {NNY} 0.096 2 {YYN} 0.144 2 {YNY} 0.144 2 {NYY} 0.144 3 {YYY} 0.216 x Risultato P(X=x) P(X¡x) 0 {NNN} 0.064 0.064 1 {YNN},{NYN},{NNY} 3(0.096)=0.288 0.352 2 {YYN},{YNY},{NYY} 3(0.144)=0.432 0.784 3 {YYY} 0.216 1.000
Esempio 4a. Supponiamo che una “NEVICATA” capiti prima del 10 settembre circa una volta ogni 10 anni. Durante i prossimi 5 anni, quante volte si verifi- cherà una NEVICATA prima del 10 settembre ? Sia X = # di annate con una NEVICATA durante prossimi 5 anni. Assumiamo per X una Distribuzione Binomiale, con n=5, P=0.10, Q=0.9. Qual è la distribuzione di X? Possiamo generalizzare i risultati? (Sia Y= NEVICATA, N= NEVICATA assente.). Ci sono due fattori che agiscono sulle probabilità. A. Un fattore è la probabilità del risultato. B. L'altro fattore è il numero di possibili risultati differenti.
Esempio 4a. A. La probabilità dei risultati : {YNYNN} allora X=2, P(YNYNN)=PQPQQ=(PP)(QQQ)= P2Q3 {NNYYN} allora X=2, P(NNYYN)=QQPPQ=(PP)(QQQ))= P2Q3 In generale, con n prove, la probabilità di un risultato è : Px Q(n-x)=Px (1-P)(n-x) B. Quanti risultati differenti possono verificarsi? Ogni tipo di evento x può accadere … un numero di volte = nCx Combinando queste idee, la distribuzione binomiale è data da
Teminologia Permutazione: Il numero di modi differenti nei quali n oggetti di un gruppo possono essere ordinati. Questo numero è uguale a “n fattoriale”, n!. Notazione Fattoriale: N! si legge: N fattoriale ed è uguale a: N! = N(N-1)(N-2)(N-3)…(4)(3)(2)(1). Ad esempio, 3!=3(2)(1)=6. Nota: Per definizione 0!=1. Combinazioni: Il numero di modi differenti nei quali gli oggetti di un gruppo possono essere ordinati, ignorando l'ordinamento degli oggetti nel gruppo. Notazione per la Combinazione: Il numero di combinazioni costituite da due gruppi di oggetti è rappresentato come: , dove ci sono x oggetti di un tipo fra gli n oggetti del gruppo.
Permutazioni: 4! = 4 3 2 1 = 24 Sedie: 1 2 3 4 Esempio 1a: Supponiamo che ci siano 4 sedie nella prima fila in un'aula. Quattro allievi entrano nell’aula e ciascuno si siede in una delle sedie. In quanti modi differenti possono sedere gli allievi nelle sedie? Questo numero è il numero di permutazioni. Riferiamo gli allievi come: A, B, C e D ed elencano tutte le permutazioni. numero 1 2 3 4 # A B C D 9 17 10 18 11 19 12 20 5 13 21 6 14 22 7 15 23 8 16 24 Ci sono 24 permutazioni, o ordinamenti. Per vedere come arrivare a questo numero si consideri il numero di persone differenti che possono sedere nella prima sedia, dopo avere eliminato quella persona, il numero di persone differenti che possono sedere nella sedia seguente, ecc. Così. Permutazioni: 4! = 4 3 2 1 = 24 Sedie: 1 2 3 4
Sia X = # di annate con una NEVICATA durante prossimi 5 anni. Esempio 4a. Si suppone che una NEVICATA si presenti circa una volta prima del 10 settembre ogni 10 anni. Durante i 5 anni futuri, quante volte si verificherà una NEVICATA prima del 10 settembre? Sia X = # di annate con una NEVICATA durante prossimi 5 anni. Assumiamo per X una Distribuzione Binomiale, con n=5, P=0.10, Q=0.9. Qual è la distribuzione di X? (Sia Y= NEVICA , N= NON NEVICA.). Le probabilità binomiali sono date da …
la fluttuazione casuale in un campione e la distribuzione binomiale CAMPIONAMENTO DA UNA POPOLAZIONE CON DISTRIBUZIONE BINOMIALE
la fluttuazione casuale in un campione e la distribuzione binomiale 1- Quale caratteristica di una popolazione “in un campionamento” ci farà ipotizzare un modello binomiale? 2- Che cosa si può indurre in merito alla popolazione di origine ? Supponiamo di avere una popolazione con un numero infinitamente grande di individui, di cui una certa proporzione presenta un certo carattere (A) Indicheremo con P la proporzione della popolazione di origine Se si estraggono a caso un campione contenente n individui, indicheremo con p la proporzione osservata nel campione.
la fluttuazione casuale in un campione e la distribuzione binomiale Ora ci poniamo la domanda: conoscendo P, cioè la proporzione effettiva della popolazione di origi-ne, che cosa possiamo prevedere circa la proporzione p che incontre-remo in un campione estratto a caso? Supponiamo una popolazione nella quale la proporzione P degli individui portatori di un certo carattere sia pari al 30% (PA = 0,30) e supponiamo di estrarre a caso da questa popolazione un campione di 10 individui. Indichiamo con A gli individui portatori del carattere e con B (Non A) gli altri individui
In un’estrazione di 10 individui sono possibili 11 risultati: A B (non A) 10 0 9 1 8 2 7 3 6 4 5 5 4 6 3 7 2 8 1 9 0 10 non sappiamo quale tra questi risultati effettivamente si presenterà tutte i risultati sono possibili, ma non tutti sono egualmente probabili
Binom(x,p=0.3;n=10) La probabilità che un risultato ha di presentarsi può essere calcolata La probabilità px di una risultato nel quale il carattere A si presenti x volte su un totale di n è data dall’espressione: px= n! Px * Qn-x x! (n - x)! dove: P è la proporzione della popolazione di origine e Q = 1 - P
Binom(x,p=0.3;n=10) Nel caso utilizzato da esempio: P = 0,3; abbiamo un campione di 10 individui La probabilità p0 di incontrare un campione che non contenga individui del tipo A (cioè x = 0) è pari a: 10! (0,30) (0,710) = 0,0282 0! * 10! cioè a 2,82% La probabilità p1 di incontrare un campione che contenga un individuo di tipo A {cioè x=1} è pari a: 10! (0,31) (0,79) = 0,1211 1! 9! e così di seguito per le altre 9 combinazioni
Binom(x,p=0.3;n=10) Probabilità di incontrare individui di tipo A in un campione di 10 individui, estratto da una popolazione in cui la proporzione di individui di tipo A sia P = 0,3
Somma[Binom(x,p=0.3;n=10)] per {7 x 10} Potremo ragionevolmente tener conto di escludere l’ipotesi di estrarre un campione contenente più di 6 individui di tipo A In effetti la probabilità di più di 6 individui è la somma delle probabilità di ottenere 7, 8, 9 e 10 individui, cioè: 0,9 + 0,145 + 0,014 + 0,0006 = 1,06% Questi 4 valori costituiscono quello che si chiama una regione critica o regione di significatività o regione di respinta. La probabilità di 1,06%, che è quella di ottenere un valore qualunque nella regione di significatività, è chiamata il livello di significatività o livello critico I valori situati al di fuori della regione critica sono la regione di accettazione o regione di non significatività
Somma[Binom(x,p=0.3;n=10)] per {0 x 6} E’ chiaro che nel caso presente avremo una probabilità di: 100,00 - 1,06 = 98.94 % che una estrazione fornisca un campione comprendente fra 0 e 6 individui A Si dice che “i valori 0 - 6 sono la regione di non significatività per il livello critico dell’ 1,06 %” Negli esperimenti biologici si utilizzano in genere 2 livelli critici: - il livello del 5 % considerato come frontiera della regione “significativa” - il livello dell’ 1 % considerato come frontiera della regione “altamente significativa”
Distribuzione delle probabilità di estrarre, da una popolazione contenente il 30 % di individui A, un campione di 10 individui comprendente 0, 1, …, 9, 10 individui A Sono state indicate in giallo e tratteggiate le regioni di rifiuto, per il livello critico massimo del 5 %
Regione critica di rifiuto Nell’esempio citato abbiamo stabilito la regione critica al livello di probabilità di 1,06%. Se accettiamo qualche rischio supplementare, possiamo include-re nella regione di rifiuto il campione contenente 0 individui di tipo A, campione che ha 2,82% probabilità di presentarsi. In questo caso, la regione di “non significatività” sarà rappresen-tata dai campioni comprendenti fra 1 e 6 individui di tipo A. La regione di “significatività” sarà rappresentata dalle 2 “code” della distribuzione, l’una a sinistra (0 di tipo A) e l’altra a destra (da 7 a 10 di tipo A).
=1.8/6=0.3 Stima dei parametri A ciascuno dei 50 polli di un allevamento furono somministrate sei uova infettate da heterakis gallinarum. La tabella mostra i dati dell’esperimento dopo che i polli furono sacrificati. num vermi num polli con x vermi x osservati attesi f*xi f*xi2 9 50*Bin(0,6,) 1 12 50*Bin(1,6,) 2 14 50*Bin(2,6,) 28 56 3 11 50*Bin(3,6,) 33 99 4 50*Bin(4,6,) 48 5 50*Bin(5,6,) 25 6 50*Bin(6,6,) totale 50 90 240 Media(x)=Somma(f*xi)/50=N* var(X)=(240 - 902/50) / 49=1,59 =1.8/6=0.3
Bontà di adattamento 3.11755 -3.1263 -2.20675 1.739 .02325 .4897 num vermi num polli con x vermi x osservati attesi scarto 9 50*0,117649 5.88245 3.11755 1 12 50*0,302526 15.1263 -3.1263 2 14 50*0,324135 16.20675 -2.20675 3 11 50*0,185220 9.261 1.739 4 50*0,059535 2.97675 .02325 5 50*0,010206 .5103 .4897 6 50*0,000729 .03645 -.03645 totale 50