La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Matematica e statistica Versione didascalica: parte 5 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste.

Presentazioni simili


Presentazione sul tema: "Matematica e statistica Versione didascalica: parte 5 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste."— Transcript della presentazione:

1

2 Matematica e statistica Versione didascalica: parte 5 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste

3 1. Dati, frequenze, probabilità

4 1.1. Dati sperimentali Scale di misura Scala nominale: sesso (M, F), fattore Rh (+, -),... (0, 1) Scala ordinale: Mercalli (1-11), Mohs (1-10), Beaufort (0-12), Welzenbach (I-VI), voti positivi (18-30), scale psicofisiche, temperatura °C, temperatura °F,... Scala rapportale: grandezze del SI,...

5 1.2. Dati simulati: numeri casuali 0 X 1 Dato un sottointervallo [a, b] di [0, 1], si ha che la probabilità Prob{a X b} = b – a

6 Distribuzioni uniformi 0 X 1 Numero reale casuale 0 X 1 su R: runif(1,0,1) su molte calcolatrici: rand Su R: 12 numeri reali casuali fra 0 e 1 > runif(12,0,1) [1] [5] [9]

7 Distribuzioni uniformi a X b Numero reale casuale a X b X <- runif(1,a,b) X = a + rand (b – a) Numero intero casuale n X m X <- floor(runif(1,n,m + 1)) X = int (n + rand (m – n + 1)) Dado: 1 X 6 X <- floor(runif(1,1,7)) X = int (1 + rand 6) Lotto/Tombola con R: 1 X 90 > floor(runif(15,1,91)) [1] [6] [11]

8 Attenzione! Due dadi: 2 X 12 (non uniforme), 30 lanci: Il dado rosso Il dado verde > floor(runif(30,1,7)) + floor(runif(30,1,7)) [1] [15] [29] lanci di un dado a 11 facce numerate da 2 a 12: > floor(runif(30,2,13)) [1] [15] [29] 2 4

9 250 dati interi da 1 a 12 {4, 7, 4, 8, 6, 4, 3, 7, 3, 1, 6, 2, 9, 6, 6, 8, 12, 1, 1, 10, 11, 5, 8, 1, 8, 11, 5, 6, 3, 7, 2, 11, 12, 7, 9, 10, 3, 1, 3, 2, 4, 12, 3, 5, 5, 8, 7, 4, 10, 10, 3, 10, 8,..., 6, 11, 7, 9, 6, 11, 4, 1, 6, 7, 10, 1, 11, 5, 8, 9, 3, 4, 3, 7, 7, 5, 7, 6, 2, 7, 12, 10, 8, 8, 9, 9, 3, 1, 11, 8} Dati simulati con la ruota della fortuna a 12 spicchi uguali:

10 250 dati interi da 1 a 12 {6, 6, 5, 6, 3, 4, 8, 7, 7, 6, 9, 5, 10, 6, 6, 7, 10, 10, 3, 3, 8, 5, 7, 6, 10, 7, 6, 7, 9, 4, 7, 2, 5, 11, 6, 6, 8, 6, 4, 7, 7, 9, 7, 7, 8, 10, 9, 5, 8, 6, 6, 7, 5, 5, 11,..., 4, 10, 7, 9, 9, 7, 4, 9, 5, 10, 8, 5, 6, 9, 7, 6, 4, 7, 7, 6, 3, 2, 8, 9, 4, 8, 11, 2, 8, 9, 7, 11, 6, 9, 4, 8, 7, 6, 3, 6, 7, 4, 2, 6, 3, 4, 6, 3} Dati simulati con il lancio di due dadi:

11 1.3 Frequenze assolute e relative dati = {217, 250, 297, 212, 380, 344, 259, 269, 303, 327, 285, 341, 326, 233,..., 258, 357, 238, 300, 298, 321, 202, 368, 371, 422, 212, 349, 306, 344, 303, 328, 339, 363, 264, 305}; Un esempio di istogramma di frequenze assolute. Consideriamo il peso x di n = 300 giovani trote (dati di assoluta fantasia): Stabiliamo il minimo ed il massimo dei dati: {158, 448} Fissiamo i cutoff in modo da dare frequenza zero alla prima e all'ultima classe: cut = {150, 200, 250, 300, 350, 400, 450} Determiniamo i centri delle 6 classi limitate (escludendo cioè le due semirette x 450): class = {175, 225, 275, 325, 375, 425}

12 Calcoliamo le frequenze assolute di tutte le 8 classi: {0, 4, 41, 98, 108, 43, 6, 0} Scartiamo le frequenza della prima e dell'ultima classe: (n k ) k=1,6 = {4, 41, 98, 108, 43, 6} Istogramma delle frequenze assolute n k Istogrammi

13 L'istogramma delle frequenza relative f k = n k / n { , , , 0.36, , 0.02} comporta solo un cambio di scala sull'asse Y. Se vi e' aggiustamento automatico di scala i due istogrammi (delle frequenze assolute e delle relative) appaiono identici. Istogramma delle frequenze relative f k = n k / n (continua)

14 Vediamo l'areogramma delle stesse frequenze relative f k = n k / n. Le 6 classi considerate hanno tutte la stessa ampiezza w = 50. Per determinare l'areogramma delle frequenze relative, l'altezza delle barre deve essere: f k / w = { , , , , , } Posizioniamo le barre al centro delle classi: Areogramma delle frequenze relative f k = n k / n Areogrammi

15 Raffinando la suddivisione... Proviamo a suddividere in modo piu' fine una delle classi, per esempio la [300, 350), aggiungendo dei cutoff a x = 315 ed x = 335: cut = {150, 200, 250, 300, 315, 335, 350, 400, 450} Calcoliamo le frequenze relative e tracciamone l'istogramma:

16 L'istogramma è stato "rovinato" dalla suddivisione più fine di una delle classi, invece l'areogramma ha mantenuto la forma corretta! Ricorrere sempre ad areogrammi di frequenze (non ad istogrammi) quando la ampiezza delle classi -- quelle limitate -- non è costante! (continua)

17 Esempio: DNA dna=" GTCGACTCATCATTTCCTCTTGGTTGTAAAAGCTAAGAAGGGTTTGACTGTT CGTCAATTAAAATGTTACGTGAGTTGGGTTAAATACGATGTGAATCAGTATGGTTCC TATCTGCTGAAGGAAATATTATCAAATTAAATCTCATTATTAGTACGCAAGGACCATA ATGAATCAACCCATGGTGTATCTATTGATAATAATATAATATATTTAATAAAAATAATA CTTTATTAATATATTATCTATATTAGTTTATATTTTAATTATATATTATCATAGTAGATAAG CTAAGTTGATAATAAATAAATATTGAATACATATTAAATATGAAGTTGTTTTAATAAGA TAATTAATCTGATAATTTTATACTAAAATTAATAATTATAGGTTTTATATATTATTTATAA ATAAATATATTATAATAATAATAATTATTATTATTAATAAAAAATATTAATTATAATATTAA TAAAATACTAATTTATCAGTTATCTATATAATATCTAATCTAATCTATTATTCTATATACT TATTACTCCTTATGGGGTCCCGGTTGGACCGAGACTCCTCCCTTGCGGGATTGGTT CACACCTTTATAAATAAATAATAAATAATAAATAAAGGTGTTCACTAATAAATATATAT ATATATATATATATATTATATTATAATATTATTTAATACTTAATATATTATATATTTTATATTT AATAAATAAAAAAAATATTAATAAATAATAATATTAATAATAAAGAAATTATAATTAATA CCCTTTATATATAATTCTAATTAATTAAATTAAATATTTATATATAATAATCAATATATTAT TAATTTAATAATTATTATAATAGTTTATAAAAGTATATTTTATATTATATTATATTATATTTA ATAAGTCATTTTNTCTTCACCCACCTTTTTTTTAATAATATATTATATTAAAAATATAAT AATTTATATGATTTATTAATACTTTTTATATAATTATATTATTAT"

18 Esempio: litaliano statistico

19 La legge empirica del caso Esperimento E = lancio due dadi. Evento A = esce 8 In n =10000 prove si osservano k = 1386 successi di A k/n = = 13.86% Prob(A) 13.86%

20 Un caso non banale: halting Esperimento E = una macchina lancia ripetutamente una moneta; se escono dieci teste consecutive la macchina si ferma. Evento A = la macchina si ferma (ossia prima o dopo escono 10 teste consecutive) In n = 2500 prove si osservano k = 2500 successi Prob(A) 1 Su 2500 prove, il tempo medio di attesa delle 10 teste consecutive è di lanci: istogramma dei tempi di attesa osservati (in 20 classi): Lattesa più lunga è stata di lanci (prima che escano 10 teste consecutive)

21 Paradosso della scimmia Una scimmia battendo a caso su una macchina da scrivere, scriverebbe prima o poi la frase Millumino dimmenso. La scimmia prima o poi scriverebbe tutto I Promessi Sposi La scimmia prima o poi scriverebbe Il Nome della Rosa, seguita dalla Critica della Ragion Pura in tedesco e dalla Divina Commedia. Prima o poi.

22 1.4. Spazio campionario Esperimento E Eventi A, B, C,... Elementari Composti La totalità degli eventi elementari associati ad un esperimento E spazio campionario costituisce lo spazio campionario dellesperimento E Esempio: E = lancio di due dadi = { (1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6) }

23 Eventi composti Lo spazio campionario del lancio di due dadi e levento A = esce 8 selezionato.

24 Regole di calcolo P(A) = frequenza relativa (asintotica) di successo = oppure = e ~ = non In generale: P(A B) = P(A) + P(B) – P(A B) A, B incompatibili A B impossibile P(A B) = 0 A, B incompatibili: P(A B) = P(A) + P(B) In generale: P(~A) = 1 – P(A) Sistema completo di eventi: A 1, A 2, A 3, A 4,.... in ogni ripetizione di E se ne osserva uno e uno solo. Sistema completo di eventi: A 1, A 2, A 3, A 4,.... P(A j A i ) = 0 (j i) Sistema completo di eventi P(A 1 ) + P(A 2 ) + P(A 3 ) = 1

25 (continua) Sistema completo di L eventi: A 1, A 2, A 3,..., A L equiprobabili P(A 1 ) + P(A 2 ) P(A L ) = 1 P(A j ) = 1/L (j = 1,..., L) Sistema completo di L eventi: A 1, A 2, A 3,..., A L equiprobabili, Un evento A composto da k di essi (casi favorevoli [ad A] ) P(A) = E = scelta di un individuo in una popolazione {u 1, u 2,..., u L } Levento A n = viene scelto u n {A 1, A 2,..., A L } è un sistema completo di eventi Se gli A n sono equiprobabili, si dice che la scelta è casuale.

26 1.5.2 Probabilità condizionata Popolazione P di L = individui L A = mancini (di ambo i sessi) L H = donne L AH = donne mancine evento A = un individuo scelto a caso in tutta la P è mancino evento H = un individuo scelto a caso in tutta la P è donna per definizione di scelta a caso P(A) = L A / L P(H) = L H / L Sottopopolazione F delle L H donne : P(una donna scelta a caso è mancina) = L AH / L H A|H (leggasi: A dato H)

27 Regola di Bayes Sottopopolazione F delle L H donne : P(una donna scelta a caso è mancina) = L AH / L H A|H (leggasi: A dato H) P(A|H) = L AH / L H = {L AH / L} / {L H / L} = P(A H) / P(H) La probabilità condizionata di A sotto lipotesi H (dato H) P(A H) = P(A|H) P(H) P(H A) = P(H|A) P(A) P(A|H) P(H) = P(A H) = P(H A) = P(H|A) P(A) P(A|H) = P(H|A) P(A) / P(H) Regola di Bayes

28 Indipendenza P(A H) = P(A|H) P(H) A indipendente da H P(A) = P(A|H) P(A H) = P(A) P(H) P(H A) = P(A) P(H) H indipendente da A A, B indipendenti P(A B) = P(A) P(B) Eventi A, B incompatibili non sono indipendenti, anzi sono tanto dipendenti che quando si verifica luno non si può verificare laltro: P(A|B) = P(B|A) = 0

29 Esercizio: taxi Un taxi in servizio notturno provoca un incidente e fugge. In città operano due compagnie, la Taxi Blu e la Taxi Verdi. Si sa che 85% dei taxi in città sono Verdi e per il 15% sono Blu. Un testimone della scena ha identificato il taxi coinvolto come un Taxi Blu. Il testimone viene sottoposto ad un test visivo in analoghe condizioni di visibilità, e mostra di distinguere correttamente fra i due colori nell 80% delle prove. Qualè la probabilità che sia stato uno taxi Blu a provocare lincidente piuttosto che uno Verde?

30 > n < > cab <- c(1:n) > taxi <- function(x) if (runif(1)<0.15) 1 else 0 > for(i in 1:n) cab[i] <- taxi(i) > vedo <- function(x) if (runif(1)<0.80) x else 1-x > cabvistoblu <- c(1:n) > for(i in 1:n) cabvistoblu[i] <- vedo(cab[i]) > sum(cab*cabvistoblu)/sum(cabvistoblu) [1] Simulazione

31 Soluzione: taxi A = il taxi che ha causato lincidente è un taxi blu B = il testimone riferisce correttamente il colore H = il testimone riferisce di aver visto un taxi blu P(A) = 0.15 P(B) = 0.80 P(H) = = = 0.29 P(H|A) = 0.80 (in quanto H|A è logicamente equivalente a B) P(A|H) = P(H|A) P(A) / P(H) = / % Nota sul calcolo di P(H): H è logicamente equivalente allevento (A B) (~ A ~ B); i due eventi (A B), (~ A ~ B) sono incompatibili; A, B (come ~ A, ~ B) sono indipendenti

32 Esercizio: diagnosi medica La prevalenza una certa malattia è 1/1000. In un test utilizzato per diagnosticarla, la probabilità di un falso positivo è del 5%. Si chiede la probabilità che un paziente positivo al test abbia effettivamente contratto la malattia, assumendo di non saper nulla sui sintomi presentati dal paziente stesso.

33 Grafica approssimata

34 Soluzione: diagnosi medica A = il paziente è ammalato H = il test dà esito positivo al paziente P(H ~ A) = 0.05 (falsi positivi = positivi e anche non ammalati) P(A) = P(H) = = P(H|A) = 1 (è sottointeso che il test è sempre positivo sugli ammalati) P(A|H) = P(H|A) P(A) / P(H) = / % Nota sul calcolo di P(H): H = (H A) (H ~ A), gli eventi (H A) e (H ~ A) sono incompatibili; (H A) è logicamente equivalente ad A


Scaricare ppt "Matematica e statistica Versione didascalica: parte 5 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste."

Presentazioni simili


Annunci Google