Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Postulati del calcolo della probabilità 2.Definizioni di probabilità (classica, frequentista) 3.Legge dei grandi numeri e dimostrazione Excel della definizione frequentista della probabilità 4.Probabilità di eventi multipli compatibili 5.Verifica dell’ Indipendenza di eventi 6.Probabilità condizionata 7.Variabile aleatoria come funzionale 8.Variabile aleatoria Bernoulliana 9.Media e Varianza di un processo Bernoulliano 10.Variabile aleatoria Binomiale 11.Media e Varianza di una distribuzione binomiale 12.Inferenza statistica: test di ipotesi 13.Ipotesi statistiche ed errori statistici
combinazioni nella prova del lancio di un dado Ω= {1,2,3,4,5,6} eventi: A= numeri pari, B= numeri dispari, C= {1,2,3} A ∩ B = A ∩ C= A U C= B U C= B’= C’= {Ø} {2} {1,2,3,4,6} {1,2,3,5} {2,4,6} {4,5,6}
pesca dall’urna Ω= {(R;R),(R;V),(R;B),(V;R),(V;V),(V;B),(B;R),(B;V),(B;B)} prova: palline R, V e B nell’urna: pescane una e pescane un’altra dopo aver reinserito la prima nell’urna Evento 1: “prima pallina estratta V”= {(V;R),(V;V),(V;B)} Evento 2: “2 volte lo stesso colore”= {(R;R),(V;V),(B;B)} la teoria della probabilità associa a ciascun evento un valore? Numero elementi dello spazio campione → Disposizioni semplici con ripetizione di 3 oggetti a gruppi di 2: D 3,2 = 3 2 = 9
postulati del calcololo della probabilità Le probabilità sono numeri assegnati agli eventi P(E) sulla base di postulati che non si dimostrano, in quanto sono dei principi di base universalmente accettati 1.Positività: P(E) > 0 2.Certezza: P(Ω) = 1 3.Unione: P(E i U E j ) = P(E i ) + P(E j ) se Ei ∩ Ej = Ø Andrej Nikolaevič Kolmogorov
due definizioni di probabilità
definizioni classica la probabilità che un evento (A) si verifichi è data dal rapporto tra il numero degli esiti possibili che determinano il varificarsi dell’evento (Ne) e il numero totale (Ntot) degli esiti possibili, purchè ugualmente possibili e mutuamente esclusivi
esempio classico nel lancio di un dado (non truccato) a 6 facce la probabilità di avere un risultato dispari è: eventi mutuamente esclusivi o indipendenti Ω=Ω= e=e=
calcoliamo P(E) Ω= {1,2,3,4,5,6} eventi: A= numeri pari, B= numeri dispari, C= {1,2,3} A ∩ B = {Ø} A ∩ C= {2} A U C= {1,2,3,4,6} B U C= {1,2,3,5} B’= {2,4,6} C’= {4,5,6} P = 0/6= 0.00 P = 1/6= 0.16 P = 5/6= 0.83 P = 4/6= 0.66 P = 3/6= 0.50
limiti viola i 3 requisiti alla base degli esperimenti casuali incertezza ≠ equiprobabilità (l’esito generalmente non noto) ripetibilità ≠ cardinalità (rapporto tra cardinalità infinite non ammesso) equiprobabilità = a-priori (tautologia)
definizione frequentista P ≈ fr limite a cui tende la frequenza relativa dell’evento, al tendere all'infito del numero delle prove (esperimenti) ettuate.
esempio frequentista Nel lancio ripetuto di una dado (non truccato), la frequenza relativa con cui si ottiene un puneggio minore di 4 ha mostrato il seguente andamento all’aumentare di N
simulazione frequentista in Excel Verifichiamo con il metodo simulativo: esperimento casuale la definizione frequentista della probabilità legge dei Grandi Numeri (cap. 8 Paganoni e Pontiggia)
Legge dei Grandi Numeri Come cambia il risultato di un esperimento ripetendolo molte volte con modalità identiche? All’aumentare delle prove il risultato medio tende sempre di più al valore atteso: media campionaria tende a per N che tende ad infinito Applicato alla teoria della probabilità questo teorema consente di definire la previsione probabilistica della proporzione di successi in una sequenza di n realizzazioni indipendenti di un evento E: per n che tende a infinito, la proporzione di successi converge alla probabilità di E Cap. 8 Paganoni e Pontiggia
Grandi Numeri in Excel prima pagina: impostazione parametri seconda pagina: visualizzazione esito di un esperimento (prova: 1 lancio) RANDBETWEEN(a,b) Se il Valore osservato è minore del valore critico allora restituisce un valore non visualizzabile nel grafico altrimenti restituisce Valore osservato,IF(A8<Titolo!$C$9;A8;1E+22) Grandi_Numeri_e_Probabilità_discreta.xls
seconda pagina: visualizzazione esito di una esperimento (prova: lancio) Grandi Numeri in Excel Grafico a dispersione con due serie di punti: “maggiore” con valore X la cella del valore osservato e “minore” con valore in X la cella sotto Minore/Maggiore. Si assegnano quindi due colori diversi alle due serie di punti Grandi_Numeri_e_Probabilità_discreta.xls
Grandi Numeri in Excel terza pagina: 1000 prove 1. grafico che visualizza Ω: 6 strisce ciascuna con P= 1/6 2. Strisce rosse= eventi favorevoli = 3 P attesa = 1/6*3= 0.5 (G11) 3. Corrisponde alla frequenza relativa degli eventi favorevoli (E11) IF(A2<Titolo!$C$9;1;0)Barra rossa e barra viola non differiscono Grandi_Numeri_e_Probabilità_discreta.xls
Grandi Numeri in Excel terza pagina: 1000 prove $ Proporzioni di successi dopo 4 lanci: AVERAGE($C$2:C4) Grandi_Numeri_e_Probabilità_discreta.xls
Grandi Numeri in Excel terza pagina: 1000 prove Grafico a dispersione e linee con in Y i valori in S e in X i valori in T all’aumentare delle prove la proporzione dei successi si avvicina sempre più al valore atteso (linea rossa) stabilizzandosi attorno ad esso Grandi_Numeri_e_Probabilità_discreta.xls
attenzione alla probabilità di eventi multipli
Qual è la probabilità che estratto a caso un animale, questo sia un elefante (indipendentemente dal fatto che sia maschio o femmina) o una femmina (indipendentemente dal fatto che sia elefante o cammello o armadillo, etc.)? Ω
Se consideriamo l’insieme degli elefanti (E) e quello delle femmine (F) come insiemi disgiunti allora potremo pensare che per avere un successo sarà sufficiente che l’animale estratto appartenga a uno di questi due insiemi ma anche a entrambi e quindi scriveremo disgiunti o compatibili ? dove è l’errore ? abbiamo contato due volte gli elefanti femmina: una volta dall’insieme degli elefanti e una da quello delle femmine gli eventi sono compatibili e quindi si deve sottrarre E∩F
unione di eventi compatibili dato che il verificarsi di E non modifica il verificarsi di F allora I due eventi possono dirsi indipendenti e la probabilità congiunta sarà
calcoliamo Il nostro zoo contiene 100 animali di cui 50 femmine e 10 elefanti. Oggi piove. Quale è la probabilità che la prima goccia di pioggia cada o su un elefante o su un’ animale femmina dello zoo ? = 0.55
lancio due dadi: eventi indipendenti probabilità che 1 o 2 al primo lancio o la somma del secondo lancio sia 7 Ω è rappresentato da 6 2 eventi semplici N. numeri 1 o 2 = 12 casi N. somma uguale a 7 = 6 casi N. intersezioni = 2 caso verifica dell’indipendenza
lancio due dadi: eventi dipendenti probabilità che escano due numeri uguali o la somma = 6 Ω è rappresentato da 6 2 eventi semplici N. numeri uguali = 6 casi N. somma uguale a 6 = 5 casi N. intersezioni = 1 caso verifica dell’indipendenza
Esercizio probabilità che non esca 1 al primo lancio o la somma = 6 Ω è rappresentato da 6 2 eventi semplici N. non sia 1 = 25 casi N. somma uguale a 6 = 5 casi N. intersezioni = 3 caso verifica l’ indipendenza
il primo lancio è 4 quale è la probabilità che la somma fra primo e secondo lancio sia 10? P(B|A) o probabilità condizionata A= N. primo lancio 4 = 6 casi B= N. somma uguale a 10 = 3 casi A∩B= N. intersezioni = 1 caso
problema degli assi: probabilità congiunta di eventi non indipendenti Quale è la probabilità di estrarre a caso due assi da un mazzo di 52 carte? pensiero intuitivo: la probabilità di estrarre un asso dal mazzo è 4/52 quindi: P(A ∩ B)= (4/52) (4/52) Attenzione: I due eventi non sono indipendenti: infatti una volta che nella prima estrazione è stato scelto l’asso la probabilità del secondo asso sarà condizionata e corrisponderà alla probabilità di selezionare un asso a condizione che nel mazzo ci sia un asso in meno (3/51)
variabile casuale/aleatoria funzione che assegna un numero a ciascun evento definito sullo spazio campionario di un esperimento casuale: Ω e1e1 e2e2 e3e3 x1x1 x2x2 x3x3 x X X X
variabile aleatoria Bernoulliana modellizza la probabilità di ottenere x successi in n prove ad esempio quale è la probabilità che 45 su 300 guidatori indossino la cintura al blocco stradale? ci sono solo 2 eventi mutuamente esclusivi, per ogni osservazione (prova): indossa (1) vs. non indossa (0) per cui: P(X= 1)= p; P(X= 0)= 1 – p Se gli eventi sono indipendenti e p non cambia da prova a prova allora media, o valore atteso di X E (X), e varianza di tale distribuzione sono facilmente calcolabili
media e varianza di un processo Bernoulliano Evento Presenza/ass enza, XFrequenzaProbabilità indossa14545/300 non indossa /300 margine di errore nella stima puntuale di X
generazione di una variabile aleatoria Bernoulliana in Excel aumentando le prove, p si approssima al valore atteso (vedi Grandi_Numeri_e_Probabilità_discreta.xls) l’unico parametro della distribuzione di Bernoulli è p
generalizziamo il processo bernoulliana a casi in cui si contano il numero di successi in n prove ognuna con una certa probabilità di successo p che rimane costante da prova a prova in questo caso di parla di variabile aleatoria binomiale di parametri n e p vediamo perchè generalizzazione
esempio: lancio di 2 monete Ω 0 TT TC CT CC Regola X: numero di lanci che hanno ottenuto testa 12 la variabile casuale X assume i valori x {2, 1, 1, 0} in corrispondenza degli eventi elementari {TT, TC, CT, CC} x numero lanci, n= 2; probabilità di successo, p= 0.5
Evento Numero di Teste, XFrequenzaProbabilità TT2 TC1 CT1 CC0 probabilità e rappresentazione numero lanci, n= 2; probabilità di successo, p= 0.5
Evento Numero di Teste, XFrequenzaProbabilità TT211/4 = 0.25 TC1 CT1 CC0 probabilità e rappresentazione numero lanci, n= 2; probabilità di successo, p= 0.5
Evento Numero di Teste, XFrequenzaProbabilità TT211/4 = 0.25 TC122/4 = 0.50 CT1 CC0 probabilità e rappresentazione numero lanci, n= 2; probabilità di successo, p= 0.5
Evento Numero di Teste, XFrequenzaProbabilità TT211/4 = 0.25 TC122/4 = 0.50 CT122/4 = 0.50 CC0 probabilità e rappresentazione numero lanci, n= 2; probabilità di successo, p= 0.5
Evento Numero di Teste, XFrequenzaProbabilità TT211/4 = 0.25 TC122/4 = 0.50 CT122/4 = 0.50 CC011/4 = 0.25 probabilità e rappresentazione Funzione di ripartizione numero lanci, n= 2; probabilità di successo, p= 0.5 nota che
Evento Numero di Teste, XFrequenzaProbabilità TT211/4 = 0.25 TC122/4 = 0.50 CT122/4 = 0.50 CC011/4 = 0.25 probabilità e rappresentazione Funzione di ripartizione numero lanci, n= 2; probabilità di successo, p= 0.5 nota che
3 lanci
10 lanci
20 lanci all’aumentare del numero di prove si definisce la forma sottostante dell’evento: campanulare la media e la varianza sono deducibili possiamo inferire se un evento dicotomico (lancio della moneta) è più o meno improbabile cosa osserviamo?
20 lanci è una nota distribuzione di variabili causali discrete: distribuzione binomiale
proprietà ottenuta ripetendo per n volte e nelle medesime condizioni la variabile casuale di Bernoulli: variabile dicotomica (ammette solo x= 1 o x= 0) schema di estrazione con ripetizione: numero di successi che si verificano in una sequenza di n prove indipendenti nelle quali rimane costante la probabilità di successo/insuccesso probabilità che in n prove si verifichi x volte l’evento
proprietà probabilità che in n prove si verifichi x volte l’evento conta le combinazioni di risultati che determinano x successi ed n - x insuccessi ad essi si associa la probabilità di ottenere x successi, p p … p x e la probabilità di ottenere n-x insuccessi, (1- p) (1-p) … (1-p) n-x
proprietà probabilità che in n prove si verifichi x volte l’evento 2 parametri ne definiscono la forma: 1.Il numero di prove n ne definisce la precisione (maggiore è n più si approssima alla normale) 2.la probabilità associata all’evento, p ne definisce la simmetria
P= 0.5 probabilità di successo = probabilità di insuccesso simmetrica
P< 0.5 probabilità di successo < probabilità di insuccesso asimmetrica a sinistra
P> 0.5 probabilità di successo > probabilità di insuccesso asimmetrica a destra
inferenza statistica Mr Bond, risolve 8 casi su 10 è questione di fortuna o è perché è James Bond? verifica di ipotesi Le ipotesi vengono testate in maniera probabilistica mediante l’applicazione della logica falsificazionista
generazione di ipotesi H0: osservazione dovuta al caso: P (S) = P(I) = 1/2 H1: Mr. Bond è più bravo del normale: P (S) > P(I) > 1/2 Si definisce un livello di significatività (p-valore= ) al di sotto del quale la H0 può essere rifiutata Se p < rifiuto H0 Se p > accetto H0 rifiuto Ho accetto Ho distribuzione campionaria di x quando H0 è vera distribuzione campionaria di x quando H0 è falsa
generazione di ipotesi H0: osservazione dovuta al caso: P (S) = P(I) = 1/2 H1: Mr. Bond è più bravo del normale: P (S) > P(I) > 1/2 Nota che la definizione del criterio ripartisce lo spazio sotto le curve in 4 regioni 2 delle quali identificano i possibili tipi di errori statistici Se p < rifiuto H0 Se p > accetto H0 I Tipo: probabilità di accettare H1 quando H0 è vera II Tipo: probabilità di accettare H0 quando H1 è vera rifiuto Ho accetto Ho
identifica la probabilità di aver accettato l’ipotesi sostantiva quando l’ipotesi nulla è vera Scelta corretta P = 1- I tipo P = II tipo P= Scelta corretta P= 1- H0 H1 H1 veraH0 vera stato delle cose scelta identifica la probabilità di aver accettato (o meglio “non rifiutare”) l’ipotesi nulla quando l’ipotesi nulla è falsa tipi di errori statistici
generazione di ipotesi H0: osservazione dovuta al caso: P (S) = P(I) = 1/2 H1: Mr. Bond è più bravo del normale: P (S) > P(I) > 1/2 poiche in genere il test e costruito in modo tale che l'ipotesi di ricerca sia H1, è piu grave commettere l'errore di tipo I, anche per questo si usa come livello di signicativita del test e no . Se p < rifiuto H0 Se p > accetto H0 I Tipo: probabilità di accettare H1 quando H0 è vera II Tipo: probabilità di accettare H0 quando H1 è vera rifiuto Ho accetto Ho
generazione di ipotesi H0: osservazione dovuta al caso: P (S) = P(I) = 1/2 H1: Mr. Bond è più bravo del normale: P (S) > P(I) > 1/2 quando [P(errore del I tipo)] diminuisce aumenta [P(errore del II tipo)]: diventa quindi più difficile rifiutare H0 -potrebbe essere troppo – Si può calcolare la capacità di un test statistico di riconoscere la falsità di H0 quando questa è effettivamente falsa (1- ) Se p < rifiuto H0 Se p > accetto H0 1- = potenza del test: rifiuto Ho accetto Ho
Ipotesi bidirezionale o a due code H0: osservazione dovuta al caso: P (S) = P(I) = 1/2 H1: Mr. Bond è più o meno bravo del normale: P (S) ≠ P(I) ≠ 1/2 l’incertezza è maggiore e la probabilità di commettere un errore di tipo I aumenta: → per questo si dice che il test a due code è più conservativo, mentre quello ad una coda è più potente.