Libreria Passaparola, Roma Roma, 11 Aprile 2014 Analisi di situazioni casuali: apparenti paradossi e auto-inganni Fabio Spizzichino Associazione Civica XIX Libreria Passaparola, Roma Roma, 11 Aprile 2014
“Ci sono tre tipi di bugie: le bugie normali, le bugie spudorate e le statistiche” Leader politico inglese del XIX secolo
Tre livelli di errore statistico Escludendo vere e proprie bugie, possiamo parlare di errori o distorsioni (“bias”) Tre livelli di errore Esempi: A) Secchielli e palette? B) Tempi d'attesa autobus C) Paradosso di Simpson
A1) Ovvi errori di campionamento Dobbiamo stimare la proporzione di persone nate e viventi in Italia che, d’estate, si dedicano a costruire castelli di sabbia sulla spiaggia Andrebbe bene fare un censimento raccogliendo i dati presso gli stabilimenti balneari della riviera romagnola? Andrebbe bene fare un censimento fra i clienti dei night-club della Versilia?
A2) Servirebbe un campionamento casuale Servirebbe piuttosto un campionamento casuale: Ciascun elemento della popolazione (nati e viventi in Italia) dovrebbe avere la stessa probabilità di essere selezionato per il campione La probabilità per un elemento di essere selezionato per il campione non dovrebbe essere influenzata dalla proprietà da rilevare
A3) Campionamento casuale e equiprobabilità La nozione di campione casuale ci porta al concetto di equiprobabilità su una popolazione La condizione di equiprobabilità è (o sembra) chiara. Può non essere semplice metterla in pratica
B1) Un secondo livello di errore: tempi di attesa autobus Vogliamo fare una statistica sui ritardi della linea 913, nella fascia oraria 16-19
In giorni diversi, e in orari scelti a caso, andiamo alla fermata di V In giorni diversi, e in orari scelti a caso, andiamo alla fermata di V.le Medaglie D’Oro e prendiamo nota del tempo d’attesa fra l’ultimo passaggio del 913 riscontrato e il successivo
B2) Non dobbiamo essere così malevoli Il 913 fa già abbastanza ritardo per conto suo! Non c’è bisogno di dare un quadro ancora più pessimistico!
B3) Perché più pessimistico? Il campionamento dei ritardi non è casuale! Gli intervalli “lunghi” pesano di più
Scegliamo un giorno a caso 0 ___①______② ___③ ___④______⑥ ___⑦______⑧ ___ ⑨ 180 min ___ = 15 min ______ = 30 min P(___ ) ∙15 min + P(______) ∙30 min = 1/2 ∙15 min + 1/2 ∙30 min = 22.5 min > 180 min : 9 = 20 min
il Paradosso di Simpson C1) Un terzo livello: il Paradosso di Simpson Vengono confrontati due nuovi medicinali A e B, studiati per la cura di una stessa patologia Viene svolta una sperimentazione su 200 pazienti, suddivisi fra 150 gravi e 50 lievi A viene somministrato a 90 pazienti gravi e a 10 pazienti lievi B viene somministrato a 60 pazienti gravi e a 40 pazienti lievi
Quale farmaco è migliore? Le proporzioni di guarigione sono A: 50% e 100% B: 40% e 90% Dunque A dà risultati migliori di B
Ma se considerassimo i dati aggregati … … fra lievi e gravi A guarisce il 55% dei pazienti e B guarisce il 60% dei pazienti Niente di sorprendente: la distribuzione fra A e B dei lievi e gravi non è stata casuale
Ma se non ci accorgessimo della non-casualità? Ad esempio quando i pazienti si suddividono fra due categorie non riconoscibili?
Fraintendimenti nella probabilità Prima di analizzare in quali modi i dati statistici possano essere letti in modo ingannevole …. … dovremmo evitare tranelli logici insiti nell’analisi dei fenomeni casuali Equivoci circa l'indipendenza stocastica Equivoci circa l'equiprobabilità
1. Equivoci circa l'indipendenza stocastica Il concetto di indipendenza ha un ruolo basilare nella probabilità Ma si possono creare diversi fraintendimenti ….
1A. Ritardi nel lotto Su ciascuna ruota, si presenta, ad ogni turno, una cinquina indipendente da quelle dei turni precedenti La probabilità che il numero 48 si presenti al prossimo turno resta sempre la stessa (p= 1- 89∕90 ∙ 88∕89 ∙ 87∕88∙ 86∕87∙ 85∕86 = 1∕18) indipendentemente dalla “storia” precedente
Quindi “puntare” sul 48, ritenendo che il forte “ritardo” accumulato faccia aumentare le probabilità di una sua uscita, equivale a contraddire l’ipotesi di indipendenza dalla “storia” precedente
1B. lanci di una moneta Una moneta viene lanciata 99 volte e 95 volte ha dato risultato testa. Supponiamo che ciò ci porti a scommettere su testa al prossimo lancio più di quanto fatto per il primo lancio
Tale atteggiamento potrebbe essere ragionevole Tale atteggiamento potrebbe essere ragionevole! Ma dobbiamo riconoscere che sarebbe in contraddizione con un iniziale giudizio di indipendenza fra i risultati dei lanci
1C. Indipendenza condizionata Effettuiamo due estrazioni (casuali e con reinserimento) da un’urna che contiene 5 palline: tre blu e due rosse
In ciascuna estrazione la probabilità di estrarre una pallina rossa è uguale a 2/5 (le due estrazioni sono indipendenti) Ma se non sappiamo quante siano le palline rosse allora P(rossa all’estraz. 2| rossa all’estraz. 1) > P(rossa all’estraz. 1)
2. Equivoci circa l'equiprobabilità Anche il concetto di equiprobabilità (“distribuzione uniforme”) è fondamentale nell’analisi di fenomeni aleatori. Ma anche esso è passibile di vari errori logici e fraintendimenti
2A. Gioco del Lotto: Osservazione di cinquine Su ogni “ruota” i risultati elementari possibili sono le cinquine di numeri compresi fra 1 e 90 (tutti diversi fra loro) Esempio: 18- 25- 49 - 54 - 82 E sono tutte equiprobabili
Gioco del Lotto: Osservazione di cinquine “speciali” Alcune cinquine potrebbero sembrare “speciali” Esempio: 5-6-7-8-9 Qual è la probabilità di questo evento?
Ma tante cinquine … possono essere speciali Per un matematico 5- 7- 11 - 13- 17 può essere “speciale” tanto quanto 5-6-7-8-9 (serie numerica +2, +4 o 5 numeri primi consecutivi) Per un chimico 9- 17- 35 - 53- 85 (tutti e solo gli elementi del VII gruppo, gli alogeni) Numeri atomici di tutti e soli gli atomi del settimo gruppo (gli alogeni)
E tutte le cinquine … possono essere speciali ! … 18- 25- 49 - 54 - 82 sulla ruota di Venezia per chi può essere speciale? Comunque sono tutte equiprobabili!
Una parentesi Ma ci occupiamo soltanto di Lotto, Lanci di dadi, Testa o Croce, Totocalcio, Corse dei Cavalli, etc...? Problematiche più “serie” ?
Che cos’è la probabilità? Analizzare casi favorevoli e casi possibili è comunque fondamentale
Spazio dei risultati elementari Ω={ω₁,ω₂,...,ω} Spazio dei risultati elementari La probabilità è una misura che si attribuisce ai possibili sottoinsiemi di Ω P(E), E⊂Ω con P(Ω) = 1, P(∅) = 0
P(E₁ oppure E₂) = P(E₁) + P(E₂) se E₁, E₂ "incompatibili“ Si deve anche avere: P(ω₁)+P(ω₂)+...+ P(ωN)=1 P(E) = ΣiP(ωi), dove ωi è un costituente di E
La formula ben nota Spesso è ragionevole assegnare P(ω₁) = P(ω₂) =... = P(ωN) e allora deve essere P( ω₁) = P(ω₂) =... = P(ωN) = 1/N e P(E) = |E|/N = ( # casi favorevoli ) / (# casi possibili)
Accezioni più generali della “Probabilità”? La formula P(E) = |E|/N non fornisce una “definizione” di probabilità non è applicabile a tutte le situazioni (assicurazioni, finanza, scommesse su eventi sportivi…) Comunque è importante e utilissima
Ma dove è messa l'equiprobabilità? 52 puntate su una roulette Risultati elementari: RRNNNRRNRNRNRRR …. NRN Tutte le stringhe di 52 simboli sono possibili (e tutte equiprobabili)
52 successive estrazioni delle carte di un mazzo Risultati elementari : … Ancora: RRNNNRRNRNRNRRR …. NRN Ma sono possibili soltanto le stringhe di 52 simboli contenenti 26 R e 26 N (e sono tutte equiprobabili)
Torniamo al tema dell’indipendenza e della dipendenza… Confrontiamo le tre diverse situazioni: a) Puntate su Rosso o Nero alla Roulette b) Puntate su Rosso o Nero sfogliando le carte da un mazzo c) Estrazioni casuali con reinserimento da un’urna contenenti palle Rosse e Nere (con proporzioni incognite)
Abbiamo osservato la sequenza RRNNRRNRNRNRRRNRNRRRNRRRRRNRR La probabilità del risultato R è maggiore o minore rispetto alla valutazione iniziale? Risposta: uguale in a), minore in b), maggiore in c)
Un equivoco frequente Nelle puntate alla roulette: È più probabile la stringa RRRRRRRRRRRRR Oppure RRNRNNNRRNNRN ? Sono equiprobabili! Ma …
Dove sta la differenza? Poniamo Q(R) = # R nella stringa Cosicchè Q(N) = # N nella stringa = 13 - Q(R) Nella prima stringa : Q(R) = 13 Nella seconda stringa : Q(R) = 6
Ma al Casinò non possiamo scommettere sul risultato {Q(R) = 6}! P(Q(R) = 13) = 18/37 ∙ 18/37∙ … ∙ 18/37 Mentre P(Q(R) = 6) = (13!/6!7!) ∙ 18/37 ∙ 18/37∙ … ∙ 18/37 Ma al Casinò non possiamo scommettere sul risultato {Q(R) = 6}!
Il giudizio dipende da che cosa “notiamo” Nel caso RRRRRRRRRRRRR “notiamo” che si è verificato un fatto particolarmente improbabile RRNRNNNRRNNRN potremmo non notare niente di speciale
Un tale meccanismo (con quale livello di precisione “notiamo” Un tale meccanismo (con quale livello di precisione “notiamo”?) può essere alla base dell’osservazione di coincidenze “significative” (sincronicità)
Modelli di occupazione Modelli probabilistici interessanti e connessi con il tema della “scala di osservazione”
Modelli di occupazione Punto di partenza: n siti (celle, cassetti, posizioni, tipi di risultati) e r oggetti (particelle, soggetti, prove) Gli oggetti si dispongono “in modo aleatorio" nei cassetti
Modelli di occupazione 1 7 9 8 6 2 5 4 3 10 11 12 13
Esempi 1 Partite di calcio nella schedina (r=14) Risultati (n = 3) Elettroni di un atomo (r = ?) Livelli di energia (n = ?) Persone in attesa di un ascensore in un grattacielo (r =??) Piani del grattacielo (n = ?)
Esempi 2 Domande ad un formulario (r = ?) Risposte alle domande (n = ?) Carte di cuori (r = 13) Giocatori in una partita di Bridge (n = 4) Persone in un gruppo (r = ?? ) Giorni di compleanno (n = 365)
Le modalità di casualità con cui gli oggetti si dispongono nelle celle si traduce nel tipo di distribuzione di probabilità dei numeri di occupazione: X₁ = oggetti nella cella 1 X₂ = oggetti nella cella 2 …… P{X₁ = x₁,..., XN= xN} = ???
P{X₁ = x₁,. , XN= xN} può dipendere dal livello di osservazione P{X₁ = x₁,..., XN= xN} può dipendere dal livello di osservazione! Confrontiamo due situazione: Simmetria tra i siti, particelle distinguibili Simmetria tra i siti, particelle non distinguibili
Modello di Maxwell-Boltzmann Simmetria tra i siti, particelle distinguibili: le particelle sono “numerate” e ognuna sceglie un sito in modo casuale e indipendentemente dalle altre Quale evento elementare osserviamo?
1 7 9 8 6 2 5 4 3 10 11 12 13
Ciascuna particella sceglie il “suo” sito in modo casuale e indipendentemente dalle altre L’evento elementare descrive non solo quante ma anche quali particelle occupino ciascun sito
Modello di Bose-Einstein Non si vede più quali ma soltanto quante particelle occupano ciascun sito Tutti gli eventi elementari (del modello M.-B.), con stessi numeri di occupazione, portano ad uno stesso eventi elementari nel modello B.-E.
Modello di Bose-Einstein Nel nuovo modello l’equiprobabilità viene messa sui “nuovi” eventi elementari (descrizione più grossolana) … Ma allora cambiano tutte le valutazioni di probabilità In base a stessi eventi osservati, potremmo essere portati a valutazioni diverse a seconda del “dettaglio” con cui osserviamo
M.-B. oppure B.-E.? La valutazione basata sul modello M.-B. potrebbe sembrare molto più naturale … … e questo portò a diversi equivoci e apparenti paradossi nella Fisica delle particelle… … in quanto spesso è valido il modello B.-E. Analoghi equivoci potrebbero crearsi nei fenomeni della vita di tutti i giorni?
Anche gli esperti possono cadere nei tranelli In una sequenza di lettere casuali si presenta prima ABRACADABRA o PASSAPAROLA?
Il rilevamento di errori, i conseguenti dibattiti e tentativi di superare gli errori stessi si rivelano fondamentali nel progresso scientifico In caso di conclusioni inesatte … … non dobbiamo colpevolizzare o colpevolizzarci… … ma dobbiamo cercare di avere un atteggiamento critico
Grazie dell’attenzione