La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Corso di Laboratorio di Informatica Probabilità, statistica ed Excel.

Presentazioni simili


Presentazione sul tema: "Corso di Laboratorio di Informatica Probabilità, statistica ed Excel."— Transcript della presentazione:

1 Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

2 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/20062 Probabilità e statistica (definizioni semplificate) Probabilità:Probabilità: –La fondazione matematica della teoria degli eventi casuali –Studia il comportamento di un sistema in termini di Eventi Probabilità degli eventi Relazioni tra probabilità –Profonde basi matematiche –Significative differenze a seconda delle ipotesi iniziali Ad esempio: approccio frequentista Statistica:Statistica: –“ci sono tre tipi di bugie: bugie, maledette bugie e statistica” (Mark Twain che cita Benjamin Disraeli) –Lo studio del comportamento di collezioni di dati reali tramite l’uso di tecniche specifiche –Permette la riduzione di dati reali a modelli probabilistici

3 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/20063 Definizione di probabilità (discreta) Approccio “frequentista”Approccio “frequentista” –La probabilità di un evento è uguale alla sua frequenza –Esistono altre definizioni di probabilità Per semplicità ci limitiamo alla definizione frequentista Supponiamo di fare N misure di un determinato fenomeno, i cui possibili risultati sono {E 1, E 2, E 3,..., E k }, eventi “discreti”Supponiamo di fare N misure di un determinato fenomeno, i cui possibili risultati sono {E 1, E 2, E 3,..., E k }, eventi “discreti” Supponiamo che l’evento E 1 venga osservato m 1 volteSupponiamo che l’evento E 1 venga osservato m 1 volte Si definisce probabilità di E 1 rispetto alla popolazione {E 1, E 2, E 3,..., E k } il rapporto:Si definisce probabilità di E 1 rispetto alla popolazione {E 1, E 2, E 3,..., E k } il rapporto: Per la probabilità definita in questo modo vale la seguenti relazione:Per la probabilità definita in questo modo vale la seguenti relazione: Proprietà di normalizzazione della probabilità Proprietà di normalizzazione della probabilità

4 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/20064 Definizione di probabilità (continua) Nel caso in cui lo spazio dei risultati sia continuo (ad esempio l’intervallo [a,b]) è possibile estendere la precedente definizione di probabilitàNel caso in cui lo spazio dei risultati sia continuo (ad esempio l’intervallo [a,b]) è possibile estendere la precedente definizione di probabilità Per fare questo:Per fare questo: –Supponiamo di avere una funzione f(x) per cui valga la seguente proprietà: –La funzione f(x) prende il nome di densità di probabilità La probabilità che una variabile casuale X sia contenuta in [a,b] è:La probabilità che una variabile casuale X sia contenuta in [a,b] è: Questa definizione è semplicemente l’estensione al caso continuo della probabilità nel caso discreto.Questa definizione è semplicemente l’estensione al caso continuo della probabilità nel caso discreto. In questo caso si dice che X è una variabile casuale che segue la distribuzione f(x).In questo caso si dice che X è una variabile casuale che segue la distribuzione f(x). –Intuitivamente una variabile casuale è una entità che prende valori in accordo ad una distribuzione data Ad esempio, possiamo dire che X è una variabile normale o Gaussiana se è distribuita secondo una funzione di densità normale o Gaussiana La probabilità di un valore di X è data dalla sua funzione di distribuzione

5 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/20065 Funzioni di distribuzione Sia data f(x) tale che:Sia data f(x) tale che: In aggiunta ad f(x) si può definire la funzione cumulativa F(x):In aggiunta ad f(x) si può definire la funzione cumulativa F(x): F(x) rappresenta la probabilità complessiva di tutti gli eventi X

6 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/20066 Una nota matematica: eventi singoli Nel caso di distribuzioni discrete, ha perfettamente senso definire la probabilità di un singolo evento E i come:Nel caso di distribuzioni discrete, ha perfettamente senso definire la probabilità di un singolo evento E i come: In generale questo limite esiste e tende al valore di probabilità dell’evento E iIn generale questo limite esiste e tende al valore di probabilità dell’evento E i m i (N) indica semplicemente che m i dipende da Nm i (N) indica semplicemente che m i dipende da N La P{E i =a} nel caso continuo invece è sempre nulla:La P{E i =a} nel caso continuo invece è sempre nulla: Che è nullo per definizioneChe è nullo per definizione –Per distribuzioni continue la probabilità del singolo evento è sempre nulla

7 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/20067 Probabilità  Statistica Supponiamo di avere un campione di dati misurati. Vogliamo:Vogliamo: –Scoprire le caratteristiche statistiche del campione (“popolazione”) –Ovvero costruire un modello per La descrizione dei dati –Come sono distribuiti i dati? –Come possiamo filtrare misure evidentemente sbagliate? L’estrapolazione di parametri importanti –Possiamo prevedere comportamenti “di tendenza”? –Possiamo estrapolare valori possibili dei parametri a partire da un modello? –Possiamo separare segnale e rumore?

8 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/20068 Probabilità  Statistica (2) La costruzione di un modello richiede la descrizione dei dati in termini di una funzione di distribuzione.La costruzione di un modello richiede la descrizione dei dati in termini di una funzione di distribuzione. –Ne esistono moltissime a seconda del modello che si vuole descrivere –Ne vedremo solo quattro Uniforme, binomiale, Poisson, Gauss/normale La nostra conoscenza del fenomeno in studio condiziona la scelta di un determinato modello.La nostra conoscenza del fenomeno in studio condiziona la scelta di un determinato modello. –Ad esempio: il comportamento di un sistema caratterizzato da eventi scorrelati tra loro è descritto da una statistica di Poisson Esempio: decadimento radioattivo, chiamate in un call center Una volta noto il modello, vogliamo stimarne i parametriUna volta noto il modello, vogliamo stimarne i parametri –La probabilità definisce le funzioni di distribuzione a partire da parametri astratti (valore aspettato, varianza,...) –La statistica offre tecniche per generare delle grandezze che sono stimatori dei parametri astratti (ne riparliamo dopo...)

9 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/20069 Parametri importanti Valore aspettatoValore aspettato –Rappresenta il valore medio che un esperimento tende a produrre se ripetuto un gran numero di volte –Definito come: VarianzaVarianza –Misura la dispersione di una variabile casuale intorno al suo valore aspettato –Definita come:

10 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Distribuzione uniforme discreta Descrive una variabile casuale che può assumere N valori equiprobabiliDescrive una variabile casuale che può assumere N valori equiprobabili –Popolazione: {a, a+1, a+2,..., b} –Valore aspettato: –Varianza: –Esempio: dado a sei facce non truccato Spazio dei risultati: {1, 2, 3, 4, 5, 6} Probabilità: p i = 1/6 Valore aspettato: 3.5 Varianza: 35/12

11 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Uniforme continua Con questa distribuzione, tutti gli intervalli di stessa lunghezza sono equiprobabiliCon questa distribuzione, tutti gli intervalli di stessa lunghezza sono equiprobabili X distribuita uniformemente in [a,b] implica:X distribuita uniformemente in [a,b] implica: –Pdf (probability density function): –Valore aspettato: –Varianza:

12 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Binomiale È una distribuzione discreta che descrive una sequenza di esperimenti:È una distribuzione discreta che descrive una sequenza di esperimenti: –La risposta dell’esperimento è successo/insuccesso Ogni esperimento ha probabilità p di successo E quindi probabilità (1-p) di fallimento –Gli esperimenti sono indipendenti Ad esempio, la probabilità che il primo esperimento abbia successo, mentre il secondo fallisca è: p(1-p) –I parametri sono N (numero di esperimenti) e p Il valore aspettato è Np La varianza è np(1-p) La funzione di distribuzione è: –Rappresenta la probabilità di avere k successi su n esperimenti con probabilità p dove

13 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Poisson Descrive la probabilità che un determinato evento avvenga in un intervallo di tempo prefissato a condizione che:Descrive la probabilità che un determinato evento avvenga in un intervallo di tempo prefissato a condizione che: –Gli eventi siano indipendenti –Gli eventi avvengano con una frequenza media nota Il parametro principale della distribuzione èIl parametro principale della distribuzione è –Un numero reale positivo che rappresenta il numero di eventi aspettato nell’intervallo dato Ad esempio supponiamo di avere un evento ogni due minuti, ma di essere interessati ad un intervallo di 5 minuti. In questo caso: = 5 / 2 = 2.5 La funzione di distribuzione è:La funzione di distribuzione è: –Valore aspettato: –Varianza: E rappresenta la probabilità di avere esattamente k eventi nell’intervallo di tempo consideratoE rappresenta la probabilità di avere esattamente k eventi nell’intervallo di tempo considerato La distribuzione di Poisson è il limite della distribuzione binomiale per p che tende a zero.La distribuzione di Poisson è il limite della distribuzione binomiale per p che tende a zero.

14 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Normale o Gaussiana È la distribuzione usata più comunemente nella statisticaÈ la distribuzione usata più comunemente nella statistica La funzione di distribuzione dipende da due parametri, chiamati  e  2La funzione di distribuzione dipende da due parametri, chiamati  e  2 –La forma della funzione di distribuzione è –Il valore aspettato è  –La varianza è  2, la sua radice quadrata si chiama deviazione standard  Alcune proprietà interessanti:Alcune proprietà interessanti: –La funzione di distribuzione è simmetrica rispetto al suo valore aspettato –Il % dell’area della curva è contenuto entro una deviazione standard dal valore atteso –Il % entro due deviazioni standard dal valore atteso –Il % entro tre deviazioni standard dal valore atteso –Il % entro quattro deviazioni standard dal valore atteso –I flessi della curva si trovano ad una deviazione standard dal valore atteso

15 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Curve Gaussiane con vari parametri © Wikipedia

16 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Distribuzione normale standard Un caso speciale di distribuzione Gaussiana che si usa spesso nella pratica è quello conUn caso speciale di distribuzione Gaussiana che si usa spesso nella pratica è quello con –Valore aspettato  = 0 –Varianza  2 = 1 In questo caso la forma funzionale si riduce a:In questo caso la forma funzionale si riduce a:

17 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Teorema del limite centrale La distribuzione normale è di enorme importanza anche a causa dell’esistenza del “Teorema del Limite Centrale”La distribuzione normale è di enorme importanza anche a causa dell’esistenza del “Teorema del Limite Centrale” L’enunciato di questo teorema è:L’enunciato di questo teorema è: –Si consideri una successione di variabili casuali indipendenti e identicamente distribuite, e in particolare tali che: –Definita allora la nuova variabile casuale: –si ha che S n converge in distribuzione a una variabile casuale normale avente valore atteso 0 e varianza 1, ossia la distribuzione di S n al limite per n che tende a infinito, coincide con quella di una tale variabile casuale normale Ovvero, sotto condizioni ragionevolmente comuni, una somma di variabili casuali segue una distribuzione normale, indipendentemente dalla natura delle variabili che vengono sommate.Ovvero, sotto condizioni ragionevolmente comuni, una somma di variabili casuali segue una distribuzione normale, indipendentemente dalla natura delle variabili che vengono sommate.

18 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Esempio: Generiamo N variabili con distribuzione uniforme in [-1, 1] e vediamo che succede:Generiamo N variabili con distribuzione uniforme in [-1, 1] e vediamo che succede: Con una sola variabile: Somma di 12 variabili:

19 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Relazione tra distribuzione normale e... BinomialeBinomiale –Una binomiale con n grande e p non troppo vicino a 0 o 1 ha comportamento approssimativamente normale La distribuzione approssimante ha: –Valore aspettato  = np –Varianza  2 = np(1-p) PoissonPoisson –Una distribuzione di Poisson in ha comportamento pressoché normale con grande La distribuzione approssimante ha: –Valore aspettato  = –Varianza  2 =

20 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Trattamento di dati normali Supponiamo di avere un campione di dati, misure di una popolazione distribuita normalmente:Supponiamo di avere un campione di dati, misure di una popolazione distribuita normalmente: Vogliamo stimare i parametri della distribuzione che descrive la il campioneVogliamo stimare i parametri della distribuzione che descrive la il campione –Valore aspettato –Varianza

21 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Stimatore del valore aspettato La definizione del valore aspettato è:La definizione del valore aspettato è: Nel caso di una distribuzione normale, un semplice stimatore del valore aspettato è dato dalla media aritmetica:Nel caso di una distribuzione normale, un semplice stimatore del valore aspettato è dato dalla media aritmetica: In ambito statistico, esiste un teorema noto come “Legge dei grandi numeri”In ambito statistico, esiste un teorema noto come “Legge dei grandi numeri” –La media di un campione sufficientemente grande di una popolazione casuale converge al valore aspettato della popolazione –Quindi per dare una stima del valore aspettato di una distribuzione è sufficiente misurare un campione Notate che esiste anche una legge dei grandi numeri nel Calcolo delle Probabilità:Notate che esiste anche una legge dei grandi numeri nel Calcolo delle Probabilità: –La media di una sequenza di variabili casuali con la stessa distribuzione converge al loro comune valore aspettato

22 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Stimatore della varianza La definizione di varianza è:La definizione di varianza è: La varianza “pesa” l’allargamento di una distribuzione rispetto al suo valore aspettatoLa varianza “pesa” l’allargamento di una distribuzione rispetto al suo valore aspettato Per una distribuzione normale uno stimatore possibile per la varianza è:Per una distribuzione normale uno stimatore possibile per la varianza è: –Notate che lo stimatore è espresso in funzione del valore aspettato  e non della stima del valore aspettato, –In una situazione reale dovremo stimare il valore aspettato usando la media aritmetica Questo introduce un vincolo tra gli elementi del campione che stiamo usando, che riduce il contenuto di informazione –Gradi di libertà –In tal caso lo stimatore della varianza diventa:

23 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Caratteristiche di uno stimatore Uno stimatore è tale se nel limite di n che tende all’infinito approssima la quantità stimata in manieraUno stimatore è tale se nel limite di n che tende all’infinito approssima la quantità stimata in maniera –Efficiente Un parametro che dipende dalla varianza del campione rispetto alla varianza dello stimatore –Senza introdurre distorsioni (bias) Stimatore “unbiased” Esistono stimatori convenzionalmente utilizzati che hanno tutte le proprietà “giuste”Esistono stimatori convenzionalmente utilizzati che hanno tutte le proprietà “giuste” –Dimostrabili matematicamente –Per una distribuzione normale, sono quelli visti nelle trasparenze precedenti –Usare uno stimatore sbagliato introduce una distorsione delle misure che può alterare completamente la significatività statistica dei risultati

24 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Le distribuzioni in Excel Uniforme:Uniforme: –CASUALE() Estrae un numero uniforme tra [0,1] –Nel pacchetto Analisi Dati, c’è: CASUALE.TRA(a,b) Restituisce valori interi tra a e b Binomiale:Binomiale: –DISTRIB.BINOM(num_successi; prove; probabilità_s; cumulativo) PoissonPoisson –POISSON(x; media; cumulativo) NormaleNormale –DIST.NORM(x; media; dev_standard; cumulativo) In tutte le distribuzioni il parametro “cumulativo” è un parametro logico (VERO/FALSO) che dice se la chiamata deve restituire un valore cumulativo o noIn tutte le distribuzioni il parametro “cumulativo” è un parametro logico (VERO/FALSO) che dice se la chiamata deve restituire un valore cumulativo o no –Valore cumulativo è la probabilità P(X

25 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Gli stimatori per la distribuzione normale in Excel Valore aspettatoValore aspettato – MEDIA (AVERAGE) Esempio: MEDIA(B1:B250) VarianzaVarianza –VAR Esempio: VAR(B1:B250) Deviazione standardDeviazione standard –DEV.ST (STDEV) Esempio: DEV.ST(B1:B250)

26 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ Costruzione di un istogramma Un istogramma è un tipo di grafico che ordina i dati in classi di ampiezza dataUn istogramma è un tipo di grafico che ordina i dati in classi di ampiezza data –Le classi sono chiamate bin o canali I bin contengono le frequenze relative delle misureI bin contengono le frequenze relative delle misure –Supponiamo che i bin siano di ampiezza due –Supponiamo di avere i dati 1.3, 2.1, 2.3, 4.7, 5.7, 5.2 –L’istogramma contiene tre canali: [0,2], [2,4], [4,6] –I canali contengono rispettivamente 1, 2 3, Per un istogramma i valori specifici non sono importantiPer un istogramma i valori specifici non sono importanti –Conta solo che un valore sia compreso tra gli estremi del bin Per generare un istogramma si può usarePer generare un istogramma si può usare –L’istogramma dello strumento Analisi Dati –La funzione FREQUENZA di Excel

27 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/ La funzione FREQUENZA FREQUENZA(array_dati, array_bin)FREQUENZA(array_dati, array_bin) –Il primo argomento sono i dati da manipolare –Il secondo argomento è una serie i cui elementi sono gli estremi dei bin Nell’esempio precedente sarebbe semplice –Il primo bin va dal primo al secondo elemento –Il secondo dal secondo al terzo... Per usare FREQUENZA è necessario introdurla come ARRAY:Per usare FREQUENZA è necessario introdurla come ARRAY: –Selezione le celle in cui si vuole inserire l’array –Inserire la formula: = FREQUENZA(A1:A500;B1:B20) NON premere enter –Premere Shift+Ctrl+Enter –Se è tutto corretto dovreste vedere la formula come: {FREQUENZA(A1:A500;B1:B20)} –E le celle riempite con le frequenze relative in accordo ai vostri bin Ora potete fare il grafico usando l’istogramma di “Crea Grafico”Ora potete fare il grafico usando l’istogramma di “Crea Grafico” Un istogramma è una distribuzione di probabilità?Un istogramma è una distribuzione di probabilità? –Se si, come si fa a normalizzarlo?


Scaricare ppt "Corso di Laboratorio di Informatica Probabilità, statistica ed Excel."

Presentazioni simili


Annunci Google