Informazioni “Moduli di MATEMATICA E STATISTICA”, S. INVERNIZZI, M. RINALDI, A, SGARRO, Ed. Zanichelli, Bologna Testo di riferimento da cui sono tratte queste slide
2 “il profitto di questa classe è in media sufficiente” “quest’anno sono di moda le vacanze in sardegna” La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di fenomeni collettivi. Cosa vuol dire fare statistica ? Affermazioni di tipo statistico Usualmente con il termine “statistica” si indicano anche i risultati numerici (le come ad esempio PIL, inflazione, disoccupazione etc.) di un processo di sintesi dei dati osservati. Tale studio avviene mediante la RACCOLTA, CLASSIFICAZIONE e ANALISI dei dati che esprimono tali fenomeni I dati devono essere organizzati, riassunti, presentati, analizzati e infine interpretati, trarne conclusioni appropriate.
3 Statistica descrittiva e inferenziale Statistica descrittiva: SCOPO: descrivere la massa dei dati sperimentali con pochi numeri o grafici significativi, ovvero “fotografare” una data situazione e sintetizzarne le caratteristiche salienti. METODI: indicatori statistici, indicatori di centralità, di dispersione (varianza, media, moda, quartili, percentili, coefficienti di correlazione, covarianza, etc) rappresentazioni grafiche come tecnica di presentazione dei dati che affianca la presentazione in forma tabellare, con lo scopo di aiutare l'analisi (diagrammi a barre, a torta, istogrammi, boxplot)
4 Statistica descrittiva e inferenziale Statistica inferenziale: SCOPO: utilizza i dati statistici, anche opportunamente sintetizzati dalla statistica descrittiva, per fare previsioni di tipo probabilistico su situazioni future o comunque incerte: ad esempio esaminando un piccolo campione estratto da una grande popolazione si cerca di valutare la frazione della popolazione che possiede una certa caratteristica. METODI: variabili aleatorie, test statistici, intervalli confidenza, significatività, stimatori, etc
5 Definizione del Problema Qual è il problema che voglio risolvere? Quanta gente conosce la mia pagina web? Quanta gente guarda un programma TV? Il cioccolato aumenta il colesterolo? Ci sono differenze fra maschi e femmine nell’atteggiamento verso il calcio? C’è una differenza fra la personalità e lo stile di abbigliamento? Il grado di istruzione influenza l’atteggiamento politico?... Schema Generale: problema
Definizione del Problema Popolazioni e campioni Schema Generale: popolazioni e campioni Popolazione: oggetto dei cui caratteri (uno o più) si vuol ottenere una descrizione complessiva. Esempi: Popolazione Carattere Esseri umani Altezza Europei peso Abitanti Napoli Reddito Trote di un dato lago Peso 6 Campione: informazione parziale su cui si basa l’analisi Il campione è un sottoinsieme proprio della popolazione
7 Tipo continuo (età, reddito, peso,…) Tipo discreto (colore capelli, nazionalità,…) Tipo dicotomico (sesso: M-F; risposte: SI-NO;…) Tipo di dati e Scale di misura Definizione del Problema Popolazioni e campioni Che tipo di dati ottengo dagli esperimenti? Ovvero quali sono le tipologie di valori ottenuti per i caratteri del campione? Schema Generale: tipo di dati
8 Scala NOMINALE : il risultato della misura è un nome (sesso, capelli, nazionalità, … ) Scala RAPPORTALE: il risultato della misura è un numero reale e sono significativi i rapporti tra i risultati (peso, altezza, … ) Scala ORDINALE: il risultato della misura è un numero che da indicazioni sul fatto che una certa unità statistica sia piu’ o meno dotata di una certa proprietà (scala Mercalli, Voto di maturità, …) Scala INTERVALLARE: il risultato della misura è un numero reale e sono significative le differenze tra i risultati (Temperatura, … ) Tipo di dati e Scale di misura Definizione del Problema Popolazioni e campioni Schema Generale: Scale di misura
Rappresentazione dei dati mediante grafici, perché con l’immagine si riesce a dare un quadro generale della situazione indagata riuscendo a dare informazioni facilmente, e rapidamente comprensibili. Che tipo di grafici? Istogrammi, diagrammi a torta, grafici, cartesiani, cartogrammi, ecc. 9 Elaborazione dei Dati
10 Cartogramma Elaborazione dei Dati Rappresentazione dei dati mediante grafici, perché con l’immagine si riesce a dare un quadro generale della situazione indagata riuscendo a dare informazioni facilmente, e rapidamente comprensibili. Che tipo di grafici? Istogrammi, diagrammi a torta, grafici, cartesiani, cartogrammi, ecc.
Tipo di Conclusioni Metodi statistici appropriati Tipo di dati e ralazione tra essi Definizione del Problema Significatività dei risultati Che senso hanno i risultati ottenuti? Quanto sono attendibili? scelta del campione Per effettuare una corretta analisi statistica dei dati è necessario avere delle competenze di tipo TEORICO. calcolo delle probabilità. Tali competenze si ottengono studiando la teoria del calcolo delle probabilità. Elementi di PROBABILITA’
Se il comportamento è prevedibile deterministico Se il comportamento non è prevedibile non deterministico casuale / aleatorio gli EFFETTI MEDI sono prevedibili Supponiamo di voler studiare il risultato (esito) di un ESPERIMENTO Esempio (esperimenti con esito prevedibile) La temperatura di ebollizione a una data pressione dell’acqua distillata esito prevedibile: 100 °C
Elementi di PROBABILITA’ Esempio (esperimenti con esito non prevedibile) lancio di un dado a sei facce più esiti possibili: una qualunque delle sei facce estrazione di una carta da un mazzo più esiti possibili : una qualunque carta tra 52 lancio di una moneta più esiti possibili: testa o croce peso di una trota in grammi più esiti possibili: un numero reale positivo Se il comportamento non è prevedibile non deterministico casuale / aleatorio gli EFFETTI MEDI sono prevedibili
Elementi di PROBABILITA’ Il calcolo delle PROBABILITA’ tratta di esperimenti i cui esiti individuali sono imprevedibili, ma in cui è invece “prevedibile” la media degli esiti probabilità DISCRETA probabilità CONTINUA I possibili esiti dell’esperimento hanno la cardinalità del continuo I possibili esiti dell’esperimento sono in numero finito o numerabile (facce del dado, carte del mazzo,…) (peso di una trota, temperatura di questa aula,…)
15 Legge empirica del caso Come assegnare la probabilità? Assumiamo valida la Legge empirica del caso Legge empirica del caso (una formulazione) In una serie sufficientemente grande di prove ripetute (nelle stesse condizioni) di un dato esperimento, la frequenza relativa di successo di un dato esito tende approssimativamente alla probabilità dell’evento stesso
16 Legge empirica del caso prove n Frequenza k/n Legge empirica del caso In una serie sufficientemente grande di prove ripetute (nelle stesse condizioni) di un dato esperimento, la frequenza relativa di successo di un dato esito tende approssimativamente alla probabilità dell’evento stesso
17 Legge empirica del caso In una serie sufficientemente grande di prove ripetute (nelle stesse condizioni) di un dato esperimento, la frequenza relativa di successo di un dato esito tende approssimativamente alla probabilità dell’evento stesso Legge empirica del caso
Teoria assiomatica della PROBABILITA’ Dato un esperimento E Ogni sottoinsieme di con più di un punto è detto EVENTO COMPOSTO I possibili esiti dell’esperimento sono detti EVENTI ELEMENTARI I possibili esiti sono detti anche punti di L’insieme costituito da tutti i possibili esiti è detto SPAZIO CAMPIONARIO o SPAZIO CAMPIONE Esempio E “lancio di un dado a sei facce” “esce la faccia 1” EVENTI ELEMENTARI “esce la faccia 2” “esce la faccia 3” “esce la faccia 6” … SPAZIO CAMPIONARIO EVENTO COMPOSTO “esce una faccia PARI”
Teoria assiomatica della PROBABILITA’ A B è l’evento unione che si verifica quando si verifica almeno uno dei due A B evento che si ha quando si verificano entrambi E=S è detto evento certo E= è detto evento impossibile Se A ed B sono due eventi allora: A B = allora A, B eventi mutuamente esclusivi (o incompatibili o disgiunti) Se A è un evento allora A=S-A è l’evento complementare che si verifica se e solo se non si verifica A {A i } è detto sistema completo di alternative (eventi) se è una partizione dello spazio campionario
20 - S C - E 1, E 2 C implica E 1 E 2 C Sia S uno spazio e C una collezione di eventi {E i } allora: - E C implica E C C è ALGEBRA di EVENTI se valgono le proprietà (collezione = insieme di sottoinsiemi di S) Teoria assiomatica della PROBABILITA’
21 Teoria assiomatica delle probabilità Secondo dado 1 Primo dado 3 ESEMPIO E S
22 Teoria assiomatica delle probabilità E esempio di evento composto E = “ la somma delle facce è 8” E S
23 Sia S uno spazio e C un’algebra di eventi Definizione formale di probabilità: Per ogni evento E C si chiama probabilità di E, e si indica con P(E) un numero reale per cui si ha: 1. 0≤P(E)≤1 3. Se {E i } S: E i E j = ,con i≠j e i E i S allora: P( i E i )= i P(E i ) 2. P(S)=1 Teoria assiomatica della PROBABILITA’
24 Osservazioni: Conseguenze degli assiomi Teorema delle probabilità totali B. P( ) = 0 P(E 1 E 2 ) = P(E 1 )+P(E 2 )-P(E 1 E 2 ) A. 1=P(S) =P(E E)=P(E)+P(E) P(E)=1-P(E) Siano E 1 e E 2 due eventi. La probabilità che si verifichi almeno uno dei due eventi è data da: Teoria assiomatica della PROBABILITA’ C.
25 Esempio: lancio di un dado E 1 ={1,2}, E 2 ={2,3} P(E 1 )=|E 1 |/|S|=2/6=1/3 e P(E 2 )=|E 2 |/|S|=2/6=1/3 E 1 E 2 = {1,2,3}, E 1 E 2 = {2} S={1,2,3,4,5,6} P(E 1 E 2 )=1/3+1/3-1/6=1/2 E1E1 E2E2 E1E2E1E2 Teorema delle probabilità totali
26 Se ho tre eventi A, B, C In generale (2 o più eventi) P(A B C)= P(A)+P(B)+P(C)-P(A B)-P(A C)-P(B C)+P(A B C) A B C Teorema delle probabilità totali
Teoria assiomatica delle probabilità “intersezione” “unione” “complementare” Riepilogo delle regole per assegnare le probabilità
28 Teoria assiomatica delle probabilità Riepilogo delle regole per assegnare le probabilità
Dati due eventi A e B, sapere che è accaduto B può influenzare la probabilità (a posteriori) che accada A. Si definisce probabilità condizionata di A dato B la probabilità P(A|B) dell’evento A sapendo che è accaduto l’evento B. Il valore di P(A|B) è dato da P(E 1 ), P(E 2 |E 1 ) P(E 2 E 1 )= P(E 1 E 2 ) P(E 2 )∙P(E 1 |E 2 )=P(E 1 )P(E 2 |E 1 ) == Probabilità condizionata
30 Si supponga che: la probabilità della fioritura algale aumenta se la temperatura è > 25 ° C: Esempio: si vuole conoscere la quantità di fioritura algale rispetto alla temperatura media dell’acqua evento A fioritura algale evento B la temperatura media giornaliera è maggiore di 25 o C Probabilità congiunta P(A)=0.01 P(B)=0.15 P(A B)=0.005 Probabilità condizionata
31 Regola di Bayes A partire dalla definizione di probabilità condizionata si ottiene una legge fondamentale nel campo applicativo della teoria del calcolo delle probabilità ( STATISTICA ) Dati due eventi A, B vale la seguente relazione: Dim. Probabilità condizionata Probabilità a priori Probabilità a posteriori
32 Teorema di Bayes Dati n eventi H 1, H 2,…, H n ed un evento A si ha la seguente relazione: Probabilità condizionata Dato un insieme completo di alternative (partizione dello spazio degli eventi) si dimostra inoltre che
33 Esempio: In una data popolazione una malattia M ha un' incidenza pari a 1/1000 (una persona su mille contrae la malattia) Per diagnosticare la malattia si usa un test clinico - i falsi (sani) positivi al test (analisi errata) sono l'1% - i falsi (malati) negativi al test (analisi errata) sono lo 0,01%. Prendendo una persona a caso dalla popolazione questa risulta positiva al test. Qual è la probabilità che la persona sia effettivamente malata? Teorema di Bayes
34 Esempio: In una data popolazione una malattia M ha un' incidenza pari a 1/1000 (una persona su mille contrae la malattia) Formuliamo meglio il problema eventi: M malato, S sano, Pos positivo al test, Neg negativo al test Dati: Qual è la probabilità che la persona sia effettivamente malata? Teorema di Bayes
35 Esempio: M malato, S sano, Pos positivo al test, Neg negativo al test Dati: Qual è la probabilità che la persona sia effettivamente malata? La soluzione al problema ci viene fornita dal teorema di Bayes: Teorema di Bayes
36 Esempio: M malato, S sano, Pos positivo al test, Neg negativo al test Dati: La soluzione al problema ci viene fornita dal teorema di Bayes: Teorema di Bayes Qual è la probabilità che la persona sia effettivamente malata?
37 Esempio: M malato, S sano, Pos positivo al test, Neg negativo al test Dati: Proprietà della probabilità condizionata: Teorema di Bayes
Esempio: M malato, S sano, Pos positivo al test, Neg negativo al test Dati: La soluzione al problema ci viene fornita dal teorema di Bayes: Teorema di Bayes Qual è la probabilità che la persona sia effettivamente malata?
39 Altro esempio Ancora sulla probabilità condizionata …
40 Ancora sulla probabilità condizionata …
41 Ancora sulla probabilità condizionata …
42 Ancora sulla probabilità condizionata …
43 ATTENZIONE! Eventi indipendenti Due esperimenti sono indipendenti se l’esito di un esperimento non influenza l’esito dell’altro esperimento
44 Eventi indipendenti
45 Eventi indipendenti
46 Esercizio: taxi Un taxi in servizio notturno provoca un incidente e fugge. In città operano due compagnie, la Taxi Blu e la Taxi Verdi. Si sa che 85% dei taxi in città sono Verdi e per il 15% sono Blu. Un testimone della scena ha identificato il taxi coinvolto come un Taxi Blu. Il testimone viene sottoposto ad un test visivo in analoghe condizioni di visibilità, e mostra di distinguere correttamente fra i due colori nell’ 80% delle prove. Qual è la probabilità che sia stato uno taxi Blu a provocare l’incidente piuttosto che uno verde? Probabilità condizionata
47 Probabilità condizionata
48 Probabilità condizionata
49 Probabilità condizionata
50 Probabilità condizionata
51 Esercizio: diagnosi medica La prevalenza una certa malattia è 1/1000. In un test utilizzato per diagnosticarla, la probabilità di un falso positivo è del 5%. Si chiede la probabilità che un paziente positivo al test abbia effettivamente contratto la malattia, assumendo di non saper nulla sui sintomi presentati dal paziente stesso. Probabilità condizionata
52 Probabilità condizionata
Una variabile aleatoria (o casuale ) è un’etichetta di tipo numerico che si assegna al risultato di un esperimento. Sia E un esperimento ideale e S lo spazio campionario dei possibili esiti . Una variabile aleatoria è una funzione: : S , ( ) Definizione: Variabili aleatorie V.a. discrete v.a. che assumono un numero finito o numerabile di valori v. a. continue v.a. che assumono un insieme di valori “ha la potenza del continuo” che “ha la potenza del continuo”
54 Variabili aleatorie discrete E’ assegnata una variabile aleatoria discreta (finita) X quando sono assegnati i suoi possibili valori e le corrispondenti probabilità cioè Definizione: Nel caso di variabili aleatorie discrete si ha un’altra possibile definizione.
55 Variabili aleatorie discrete
56 Variabili aleatorie
57 Valore atteso e varianza
58 Valore atteso
59 Valore atteso Inoltre non è detto che il valore atteso sia uno dei valori che la v.a. puo’ assumere
60 Varianza
61 che devono essere stimati
62 Stimatori
63 Numero di prove n Valori osservati x 1, x 2, …, x n di X n Non confondere x 1, x 2, …, x n confondere con i valori possibili di X e X n Campione aleatorio X 1, X 2, …,X n X k variabile aleatoria distribuita come X Media Campionaria Popolazione X X X è una variabile aleatoria con media μ e varianza σ 2 Stimatori: media campionaria
64 ( dopo la dimostrazione) Stimatori: media campionaria Teorema cioè La media campionaria è uno stimatore corretto e coerente della media vera corretto coerente
65 Stimatori: varianza campionaria Varianza Campionaria Numero di prove n Valori osservati x 1, x 2, …, x n di X n Non confondere x 1, x 2, …, x n confondere con i valori possibili di X e X n Campione aleatorio X 1, X 2, …,X n X k variabile aleatoria distribuita come X Popolazione X X X è una variabile aleatoria con media μ e varianza σ 2
66 (dopo la dimostrazione) cioè La varianza campionaria è uno stimatore corretto e coerente della varianza vera Stimatori: varianza campionaria corretto coerente Teorema osservazione
67 Esempio stimatori: Lancio di due dadi Varianza σ = 2.415… σ 2 = 210/36= Deviazione standard Valore atteso (media) μ μ p 1 =1/36, p 2 =1/18,…, p 11 =1/36 Probabilità corrispondenti x 1 =2,x 2 =3,…, x 11 =12 Eventi possibili Lancio di due dadi
68 >> n=10000; % dimensione del campione >> x=(1+floor(6*rand(n,1)))+(1+floor(6*rand(n,1))); Esempio stimatori: Lancio di due dadi Simulando i risultati in un ambiente di calcolo … (nell’esempio si usa MATLAB) >> std(x) % deviazione standard campionaria ans = σ = 2.415… >> std(x)^2 % varianza campionaria ans = σ 2 = >> mean(x) % media campionaria ans = μ = 7
69 media …
70 Formule per media e varianza
71 Formule per media e varianza
72 Formule per media e varianza
73 Formule per media e varianza
74 Formule per media e varianza p kj probabilità congiunte
75 Formule per media e varianza
76 Esempio
77 Esempio
78 Esempio La media della somma di due v.a. coincide con la somma delle medie anche se le variabili non sono indipendenti
79 Esempio La media del prodotto di due v.a. NON SEMPRE coincide con il prodotto delle medie (si nel caso di indipendenza)
80 Covarianza e indipendenza
81 Covarianza e indipendenza
82 Covarianza e indipendenza
83 Covarianza e indipendenza Indipendenza implica covarianza nulla ma non è vero il viceversa RIASSUMENDO
84 Covarianza e indipendenza
85 Standardizzazione E definiamo la nuova variabile aleatoria standardizzata Z Supponiamo di avere una variabile aleatoria X Allora risulta X Caratteristiche di una v.a. X standard media μ=0 varianza σ 2 =1
86 Standardizzazione della media
87 Disuguaglianza di Chebyshev la probabilità che si osservi un valore di X che dista dal valore atteso µ per più di t volte la deviazione standard σ non supera 1/t 2
88 Disuguaglianza di Chebyshev
89 Applicazioni della disuguaglianza di Chebyshev
90 Cioè Quanti test devo fare per avere buona probabilità di avere una stima affidabile della probabilità dell’evento A? Applicazioni della disuguaglianza di Chebyshev
91 p+q=1 Applicazioni della disuguaglianza di Chebyshev
92 Applicazioni della disuguaglianza di Chebyshev cioè
93 In statistica non si possono fare affermazioni VERE conclusioni In statistica si possono fare solo affermazioni probabili, con una certa probabilità (ad esempio 95%)