Corso di Laboratorio di Informatica Probabilità, statistica ed Excel
Probabilità e statistica (definizioni semplificate) La fondazione matematica della teoria degli eventi casuali Studia il comportamento di un sistema in termini di Eventi Probabilità degli eventi Relazioni tra probabilità Profonde basi matematiche Significative differenze a seconda delle ipotesi iniziali Ad esempio: approccio frequentista Statistica: “ci sono tre tipi di bugie: bugie, maledette bugie e statistica” (Mark Twain che cita Benjamin Disraeli) Lo studio del comportamento di collezioni di dati reali tramite l’uso di tecniche specifiche Permette la riduzione di dati reali a modelli probabilistici Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Definizione di probabilità (discreta) Approccio “frequentista” La probabilità di un evento è uguale alla sua frequenza Esistono altre definizioni di probabilità Per semplicità ci limitiamo alla definizione frequentista Supponiamo di fare N misure di un determinato fenomeno, i cui possibili risultati sono {E1, E2, E3, ..., Ek}, eventi “discreti” Supponiamo che l’evento E1 venga osservato m1 volte Si definisce probabilità di E1 rispetto alla popolazione {E1, E2, E3, ..., Ek} il rapporto: Per la probabilità definita in questo modo vale la seguenti relazione: Proprietà di normalizzazione della probabilità Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Definizione di probabilità (continua) Nel caso in cui lo spazio dei risultati sia continuo (ad esempio l’intervallo [a,b]) è possibile estendere la precedente definizione di probabilità Per fare questo: Supponiamo di avere una funzione f(x) per cui valga la seguente proprietà: La funzione f(x) prende il nome di densità di probabilità La probabilità che una variabile casuale X sia contenuta in [a,b] è: Questa definizione è semplicemente l’estensione al caso continuo della probabilità nel caso discreto. In questo caso si dice che X è una variabile casuale che segue la distribuzione f(x). Intuitivamente una variabile casuale è una entità che prende valori in accordo ad una distribuzione data Ad esempio, possiamo dire che X è una variabile normale o Gaussiana se è distribuita secondo una funzione di densità normale o Gaussiana La probabilità di un valore di X è data dalla sua funzione di distribuzione Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Funzioni di distribuzione Sia data f(x) tale che: In aggiunta ad f(x) si può definire la funzione cumulativa F(x): F(x) rappresenta la probabilità complessiva di tutti gli eventi X<x. Usando la F(x), abbiamo che la probabilità dell’evento è: In completo accordo con la definizione di probabilità continua Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Una nota matematica: eventi singoli Nel caso di distribuzioni discrete, ha perfettamente senso definire la probabilità di un singolo evento Ei come: In generale questo limite esiste e tende al valore di probabilità dell’evento Ei mi(N) indica semplicemente che mi dipende da N La P{Ei=a} nel caso continuo invece è sempre nulla: Che è nullo per definizione Per distribuzioni continue la probabilità del singolo evento è sempre nulla Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Probabilità Statistica Supponiamo di avere un campione di dati misurati. Vogliamo: Scoprire le caratteristiche statistiche del campione (“popolazione”) Ovvero costruire un modello per La descrizione dei dati Come sono distribuiti i dati? Come possiamo filtrare misure evidentemente sbagliate? L’estrapolazione di parametri importanti Possiamo prevedere comportamenti “di tendenza”? Possiamo estrapolare valori possibili dei parametri a partire da un modello? Possiamo separare segnale e rumore? Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Probabilità Statistica (2) La costruzione di un modello richiede la descrizione dei dati in termini di una funzione di distribuzione. Ne esistono moltissime a seconda del modello che si vuole descrivere Ne vedremo solo quattro Uniforme, binomiale, Poisson, Gauss/normale La nostra conoscenza del fenomeno in studio condiziona la scelta di un determinato modello. Ad esempio: il comportamento di un sistema caratterizzato da eventi scorrelati tra loro è descritto da una statistica di Poisson Esempio: decadimento radioattivo, chiamate in un call center Una volta noto il modello, vogliamo stimarne i parametri La probabilità definisce le funzioni di distribuzione a partire da parametri astratti (valore aspettato, varianza, ...) La statistica offre tecniche per generare delle grandezze che sono stimatori dei parametri astratti (ne riparliamo dopo...) Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Parametri importanti Valore aspettato Varianza Rappresenta il valore medio che un esperimento tende a produrre se ripetuto un gran numero di volte Definito come: Varianza Misura la dispersione di una variabile casuale intorno al suo valore aspettato Definita come: Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Distribuzione uniforme discreta Descrive una variabile casuale che può assumere N valori equiprobabili Popolazione: {a, a+1, a+2, ..., b} Valore aspettato: Varianza: Esempio: dado a sei facce non truccato Spazio dei risultati: {1, 2, 3, 4, 5, 6} Probabilità: pi = 1/6 Valore aspettato: 3.5 Varianza: 35/12 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Uniforme continua Con questa distribuzione, tutti gli intervalli di stessa lunghezza sono equiprobabili X distribuita uniformemente in [a,b] implica: Pdf (probability density function): Valore aspettato: Varianza: Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Binomiale È una distribuzione discreta che descrive una sequenza di esperimenti: La risposta dell’esperimento è successo/insuccesso Ogni esperimento ha probabilità p di successo E quindi probabilità (1-p) di fallimento Gli esperimenti sono indipendenti Ad esempio, la probabilità che il primo esperimento abbia successo, mentre il secondo fallisca è: p(1-p) I parametri sono N (numero di esperimenti) e p Il valore aspettato è Np La varianza è np(1-p) La funzione di distribuzione è: Rappresenta la probabilità di avere k successi su n esperimenti con probabilità p dove Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Poisson Descrive la probabilità che un determinato evento avvenga in un intervallo di tempo prefissato a condizione che: Gli eventi siano indipendenti Gli eventi avvengano con una frequenza media nota Il parametro principale della distribuzione è Un numero reale positivo che rappresenta il numero di eventi aspettato nell’intervallo dato Ad esempio supponiamo di avere un evento ogni due minuti, ma di essere interessati ad un intervallo di 5 minuti. In questo caso: = 5 / 2 = 2.5 La funzione di distribuzione è: Valore aspettato: Varianza: E rappresenta la probabilità di avere esattamente k eventi nell’intervallo di tempo considerato La distribuzione di Poisson è il limite della distribuzione binomiale per p che tende a zero. Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Normale o Gaussiana È la distribuzione usata più comunemente nella statistica La funzione di distribuzione dipende da due parametri, chiamati e 2 La forma della funzione di distribuzione è Il valore aspettato è La varianza è 2, la sua radice quadrata si chiama deviazione standard Alcune proprietà interessanti: La funzione di distribuzione è simmetrica rispetto al suo valore aspettato Il 68.268949% dell’area della curva è contenuto entro una deviazione standard dal valore atteso Il 95.449974% entro due deviazioni standard dal valore atteso Il 99.730020% entro tre deviazioni standard dal valore atteso Il 99.993666% entro quattro deviazioni standard dal valore atteso I flessi della curva si trovano ad una deviazione standard dal valore atteso Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Curve Gaussiane con vari parametri © Wikipedia Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Distribuzione normale standard Un caso speciale di distribuzione Gaussiana che si usa spesso nella pratica è quello con Valore aspettato = 0 Varianza 2 = 1 In questo caso la forma funzionale si riduce a: Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Teorema del limite centrale La distribuzione normale è di enorme importanza anche a causa dell’esistenza del “Teorema del Limite Centrale” L’enunciato di questo teorema è: Si consideri una successione di variabili casuali indipendenti e identicamente distribuite, e in particolare tali che: Definita allora la nuova variabile casuale: si ha che Sn converge in distribuzione a una variabile casuale normale avente valore atteso 0 e varianza 1, ossia la distribuzione di Sn al limite per n che tende a infinito, coincide con quella di una tale variabile casuale normale Ovvero, sotto condizioni ragionevolmente comuni, una somma di variabili casuali segue una distribuzione normale, indipendentemente dalla natura delle variabili che vengono sommate. Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Esempio: Generiamo N variabili con distribuzione uniforme in [-1, 1] e vediamo che succede: Con una sola variabile: Somma di 12 variabili: Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Relazione tra distribuzione normale e ... Binomiale Una binomiale con n grande e p non troppo vicino a 0 o 1 ha comportamento approssimativamente normale La distribuzione approssimante ha: Valore aspettato = np Varianza 2 = np(1-p) Poisson Una distribuzione di Poisson in ha comportamento pressoché normale con grande Valore aspettato = Varianza 2 = Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Trattamento di dati normali Supponiamo di avere un campione di dati, misure di una popolazione distribuita normalmente: Vogliamo stimare i parametri della distribuzione che descrive la il campione Valore aspettato Varianza Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Stimatore del valore aspettato La definizione del valore aspettato è: Nel caso di una distribuzione normale, un semplice stimatore del valore aspettato è dato dalla media aritmetica: In ambito statistico, esiste un teorema noto come “Legge dei grandi numeri” La media di un campione sufficientemente grande di una popolazione casuale converge al valore aspettato della popolazione Quindi per dare una stima del valore aspettato di una distribuzione è sufficiente misurare un campione Notate che esiste anche una legge dei grandi numeri nel Calcolo delle Probabilità: La media di una sequenza di variabili casuali con la stessa distribuzione converge al loro comune valore aspettato Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Stimatore della varianza La definizione di varianza è: La varianza “pesa” l’allargamento di una distribuzione rispetto al suo valore aspettato Per una distribuzione normale uno stimatore possibile per la varianza è: Notate che lo stimatore è espresso in funzione del valore aspettato e non della stima del valore aspettato, In una situazione reale dovremo stimare il valore aspettato usando la media aritmetica Questo introduce un vincolo tra gli elementi del campione che stiamo usando, che riduce il contenuto di informazione Gradi di libertà In tal caso lo stimatore della varianza diventa: Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Caratteristiche di uno stimatore Uno stimatore è tale se nel limite di n che tende all’infinito approssima la quantità stimata in maniera Efficiente Un parametro che dipende dalla varianza del campione rispetto alla varianza dello stimatore Senza introdurre distorsioni (bias) Stimatore “unbiased” Esistono stimatori convenzionalmente utilizzati che hanno tutte le proprietà “giuste” Dimostrabili matematicamente Per una distribuzione normale, sono quelli visti nelle trasparenze precedenti Usare uno stimatore sbagliato introduce una distorsione delle misure che può alterare completamente la significatività statistica dei risultati Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Le distribuzioni in Excel Uniforme: CASUALE() Estrae un numero uniforme tra [0,1] Nel pacchetto Analisi Dati, c’è: CASUALE.TRA(a,b) Restituisce valori interi tra a e b Binomiale: DISTRIB.BINOM(num_successi; prove; probabilità_s; cumulativo) Poisson POISSON(x; media; cumulativo) Normale DIST.NORM(x; media; dev_standard; cumulativo) In tutte le distribuzioni il parametro “cumulativo” è un parametro logico (VERO/FALSO) che dice se la chiamata deve restituire un valore cumulativo o no Valore cumulativo è la probabilità P(X<x) per la distribuzione data Altrimenti il valore è semplicemente l’ordinata della curva di distribuzione Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Gli stimatori per la distribuzione normale in Excel Valore aspettato MEDIA (AVERAGE) Esempio: MEDIA(B1:B250) Varianza VAR Esempio: VAR(B1:B250) Deviazione standard DEV.ST (STDEV) Esempio: DEV.ST(B1:B250) Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
Costruzione di un istogramma Un istogramma è un tipo di grafico che ordina i dati in classi di ampiezza data Le classi sono chiamate bin o canali I bin contengono le frequenze relative delle misure Supponiamo che i bin siano di ampiezza due Supponiamo di avere i dati 1.3, 2.1, 2.3, 4.7, 5.7, 5.2 L’istogramma contiene tre canali: [0,2], [2,4], [4,6] I canali contengono rispettivamente 1, 2 3, Per un istogramma i valori specifici non sono importanti Conta solo che un valore sia compreso tra gli estremi del bin Per generare un istogramma si può usare L’istogramma dello strumento Analisi Dati La funzione FREQUENZA di Excel Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006
La funzione FREQUENZA FREQUENZA(array_dati, array_bin) Il primo argomento sono i dati da manipolare Il secondo argomento è una serie i cui elementi sono gli estremi dei bin Nell’esempio precedente sarebbe semplice 0 2 4 6 Il primo bin va dal primo al secondo elemento Il secondo dal secondo al terzo ... Per usare FREQUENZA è necessario introdurla come ARRAY: Selezione le celle in cui si vuole inserire l’array Inserire la formula: = FREQUENZA(A1:A500;B1:B20) NON premere enter Premere Shift+Ctrl+Enter Se è tutto corretto dovreste vedere la formula come: {FREQUENZA(A1:A500;B1:B20)} E le celle riempite con le frequenze relative in accordo ai vostri bin Ora potete fare il grafico usando l’istogramma di “Crea Grafico” Un istogramma è una distribuzione di probabilità? Se si, come si fa a normalizzarlo? Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006