Corso di Laboratorio di Informatica

Slides:

Advertisements

Presentazioni simili

Elementi di calcolo delle probabilità

Advertisements

Le distribuzioni di probabilità continue

ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica

2. Introduzione alla probabilità

La probabilità.

Matematica I: Calcolo differenziale, Algebra lineare, Probabilità e statistica Giovanni Naldi, Lorenzo Pareschi, Giacomo Aletti Copyright © The.

Matematica I: Calcolo differenziale, Algebra lineare, Probabilità e statistica Giovanni Naldi, Lorenzo Pareschi, Giacomo Aletti Copyright © The.

5) IL CAMPIONE CASUALE SEMPLICE CON RIPETIZIONE

2.VARIABILI CONTINUE A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.

Variabili casuali a più dimensioni

Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.

Funzione di distribuzione (detta anche cumulativa o di ripartizione)

Gli errori nell’analisi statistica

Progetto Pilota 2 Lettura e interpretazione dei risultati

Analisi dei Dati Università Carlo Cattaneo Emanuele Borgonovo

Le Variabili Casuali Corso di Teoria dell’Inferenza Statistica 1

UN ESEMPIO DI ESPERIMENTO CASUALE

Processi Aleatori : Introduzione – Parte I

Metodi di ricerca in Psicologia

Metodi della ricerca in Psicologia

Corso di biomatematica Lezione 3: Distribuzioni di probabilità continue Davide Grandi.

Funzioni di densità (o di probabilità) congiunte.

Laboratorio di El&Tel Elaborazione numerica dei segnali: analisi delle caratteristiche dei segnali ed operazioni su di essi Mauro Biagi.

Corso di Laboratorio di Informatica

Lezioni per Insegnanti mod 4 Prof. Giovanni Raho 1 I metodi della ricerca sociale Corso S. I. S. S Mod. 4.

Esperimentazioni di fisica 3 AA 2010 – 2011 M. De Vincenzi

Lezione 4 Probabilità.

Popolazione campione Y - variabile casuale y - valori argomentali Frequenza relativa: Estrazione Densità della classe i-esima: Lezione 1.

Lezione 4 Probabilità.

Teoria degli errori.

Analisi della varianza

Un buon latinista è anche un bravo matematico? I.S. Artemisia Gentileschi - NAPOLI Convegno finale Progetto Lauree Scientifiche – Matematica Università

Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,

Statistica economica (6 CFU) Corso di Laurea in Economia e Commercio a.a Docente: Lucia Buzzigoli Lezione 5 1.

Le distribuzioni campionarie

Statistica Che cos’è?.

Teorie e Tecniche di Psicometria

PROBABILITA : se un EVENTO si verifica in h modi diversi su n possibili (POPOLAZIONE) p = h/n Questa definizione è talvolta applicabile a priori (es. lancio.

Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.

Introduzione alla FISICA

STATISTICA La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di un "collettivo". Studia i modi (descritti attraverso formule.

Corso di Laboratorio di Informatica

Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.

è … lo studio delle caratteristiche di regolarità dei fenomeni casuali

Statistica La statistica è

Nucleo: Dati e previsioni

La verifica d’ipotesi Docente Dott. Nappo Daniela

Martina Serafini Martina Prandi

Calcolo delle probabilità a cura di Maurizio Brizzi

“Teoria e metodi della ricerca sociale e organizzativa”

Lezione 3 Elementi di teoria delle variabili casuali Insegnamento: Statistica Corso di Laurea Magistrale in Matematica Facoltà di Scienze, Università di.

Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:

Modelli di variabili casuali

Intervalli di confidenza

La curva di Gauss Prof. Marco Lombardi.

Eventi aleatori Un evento è aleatorio (casuale) quando non si può prevedere con certezza se avverrà o meno I fenomeni (eventi) aleatori sono studiati.

Elaborazione statistica di dati

1 A.A STATISTICA E CALCOLO DELLE PROBABILITA’ Docenti: Stefania Mignani Maurizio Brizzi.

Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale

Studio fenomeni collettivi

TRATTAMENTO STATISTICO DEI DATI ANALITICI

Elementi di teoria delle probabilità

Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)

In alcuni casi gli esiti di un esperimento possono essere considerati numeri naturali in modo naturale. Esempio: lancio di un dado In atri casi si definisce.

Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Rosoluzione.

Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.

1 TEORIA DELLA PROBABILITÁ. 2 Cenni storici i primi approcci alla teoria della probabilità sono della metà del XVII secolo (Pascal, Fermat, Bernoulli)

La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.

Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.

Transcript della presentazione:

Corso di Laboratorio di Informatica Probabilità, statistica ed Excel

Probabilità e statistica (definizioni semplificate) La fondazione matematica della teoria degli eventi casuali Studia il comportamento di un sistema in termini di Eventi Probabilità degli eventi Relazioni tra probabilità Profonde basi matematiche Significative differenze a seconda delle ipotesi iniziali Ad esempio: approccio frequentista Statistica: “ci sono tre tipi di bugie: bugie, maledette bugie e statistica” (Mark Twain che cita Benjamin Disraeli) Lo studio del comportamento di collezioni di dati reali tramite l’uso di tecniche specifiche Permette la riduzione di dati reali a modelli probabilistici Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Definizione di probabilità (discreta) Approccio “frequentista” La probabilità di un evento è uguale alla sua frequenza Esistono altre definizioni di probabilità Per semplicità ci limitiamo alla definizione frequentista Supponiamo di fare N misure di un determinato fenomeno, i cui possibili risultati sono {E1, E2, E3, ..., Ek}, eventi “discreti” Supponiamo che l’evento E1 venga osservato m1 volte Si definisce probabilità di E1 rispetto alla popolazione {E1, E2, E3, ..., Ek} il rapporto: Per la probabilità definita in questo modo vale la seguenti relazione: Proprietà di normalizzazione della probabilità Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Definizione di probabilità (continua) Nel caso in cui lo spazio dei risultati sia continuo (ad esempio l’intervallo [a,b]) è possibile estendere la precedente definizione di probabilità Per fare questo: Supponiamo di avere una funzione f(x) per cui valga la seguente proprietà: La funzione f(x) prende il nome di densità di probabilità La probabilità che una variabile casuale X sia contenuta in [a,b] è: Questa definizione è semplicemente l’estensione al caso continuo della probabilità nel caso discreto. In questo caso si dice che X è una variabile casuale che segue la distribuzione f(x). Intuitivamente una variabile casuale è una entità che prende valori in accordo ad una distribuzione data Ad esempio, possiamo dire che X è una variabile normale o Gaussiana se è distribuita secondo una funzione di densità normale o Gaussiana La probabilità di un valore di X è data dalla sua funzione di distribuzione Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Funzioni di distribuzione Sia data f(x) tale che: In aggiunta ad f(x) si può definire la funzione cumulativa F(x): F(x) rappresenta la probabilità complessiva di tutti gli eventi X<x. Usando la F(x), abbiamo che la probabilità dell’evento è: In completo accordo con la definizione di probabilità continua Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Una nota matematica: eventi singoli Nel caso di distribuzioni discrete, ha perfettamente senso definire la probabilità di un singolo evento Ei come: In generale questo limite esiste e tende al valore di probabilità dell’evento Ei mi(N) indica semplicemente che mi dipende da N La P{Ei=a} nel caso continuo invece è sempre nulla: Che è nullo per definizione Per distribuzioni continue la probabilità del singolo evento è sempre nulla Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Probabilità  Statistica Supponiamo di avere un campione di dati misurati. Vogliamo: Scoprire le caratteristiche statistiche del campione (“popolazione”) Ovvero costruire un modello per La descrizione dei dati Come sono distribuiti i dati? Come possiamo filtrare misure evidentemente sbagliate? L’estrapolazione di parametri importanti Possiamo prevedere comportamenti “di tendenza”? Possiamo estrapolare valori possibili dei parametri a partire da un modello? Possiamo separare segnale e rumore? Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Probabilità  Statistica (2) La costruzione di un modello richiede la descrizione dei dati in termini di una funzione di distribuzione. Ne esistono moltissime a seconda del modello che si vuole descrivere Ne vedremo solo quattro Uniforme, binomiale, Poisson, Gauss/normale La nostra conoscenza del fenomeno in studio condiziona la scelta di un determinato modello. Ad esempio: il comportamento di un sistema caratterizzato da eventi scorrelati tra loro è descritto da una statistica di Poisson Esempio: decadimento radioattivo, chiamate in un call center Una volta noto il modello, vogliamo stimarne i parametri La probabilità definisce le funzioni di distribuzione a partire da parametri astratti (valore aspettato, varianza, ...) La statistica offre tecniche per generare delle grandezze che sono stimatori dei parametri astratti (ne riparliamo dopo...) Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Parametri importanti Valore aspettato Varianza Rappresenta il valore medio che un esperimento tende a produrre se ripetuto un gran numero di volte Definito come: Varianza Misura la dispersione di una variabile casuale intorno al suo valore aspettato Definita come: Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Distribuzione uniforme discreta Descrive una variabile casuale che può assumere N valori equiprobabili Popolazione: {a, a+1, a+2, ..., b} Valore aspettato: Varianza: Esempio: dado a sei facce non truccato Spazio dei risultati: {1, 2, 3, 4, 5, 6} Probabilità: pi = 1/6 Valore aspettato: 3.5 Varianza: 35/12 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Uniforme continua Con questa distribuzione, tutti gli intervalli di stessa lunghezza sono equiprobabili X distribuita uniformemente in [a,b] implica: Pdf (probability density function): Valore aspettato: Varianza: Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Binomiale È una distribuzione discreta che descrive una sequenza di esperimenti: La risposta dell’esperimento è successo/insuccesso Ogni esperimento ha probabilità p di successo E quindi probabilità (1-p) di fallimento Gli esperimenti sono indipendenti Ad esempio, la probabilità che il primo esperimento abbia successo, mentre il secondo fallisca è: p(1-p) I parametri sono N (numero di esperimenti) e p Il valore aspettato è Np La varianza è np(1-p) La funzione di distribuzione è: Rappresenta la probabilità di avere k successi su n esperimenti con probabilità p dove Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Poisson Descrive la probabilità che un determinato evento avvenga in un intervallo di tempo prefissato a condizione che: Gli eventi siano indipendenti Gli eventi avvengano con una frequenza media nota Il parametro principale della distribuzione è  Un numero reale positivo che rappresenta il numero di eventi aspettato nell’intervallo dato Ad esempio supponiamo di avere un evento ogni due minuti, ma di essere interessati ad un intervallo di 5 minuti. In questo caso:  = 5 / 2 = 2.5 La funzione di distribuzione è: Valore aspettato:  Varianza:  E rappresenta la probabilità di avere esattamente k eventi nell’intervallo di tempo considerato La distribuzione di Poisson è il limite della distribuzione binomiale per p che tende a zero. Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Normale o Gaussiana È la distribuzione usata più comunemente nella statistica La funzione di distribuzione dipende da due parametri, chiamati  e 2 La forma della funzione di distribuzione è Il valore aspettato è  La varianza è 2, la sua radice quadrata si chiama deviazione standard  Alcune proprietà interessanti: La funzione di distribuzione è simmetrica rispetto al suo valore aspettato Il 68.268949% dell’area della curva è contenuto entro una deviazione standard dal valore atteso Il 95.449974% entro due deviazioni standard dal valore atteso Il 99.730020% entro tre deviazioni standard dal valore atteso Il 99.993666% entro quattro deviazioni standard dal valore atteso I flessi della curva si trovano ad una deviazione standard dal valore atteso Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Curve Gaussiane con vari parametri © Wikipedia Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Distribuzione normale standard Un caso speciale di distribuzione Gaussiana che si usa spesso nella pratica è quello con Valore aspettato  = 0 Varianza 2 = 1 In questo caso la forma funzionale si riduce a: Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Teorema del limite centrale La distribuzione normale è di enorme importanza anche a causa dell’esistenza del “Teorema del Limite Centrale” L’enunciato di questo teorema è: Si consideri una successione di variabili casuali indipendenti e identicamente distribuite, e in particolare tali che: Definita allora la nuova variabile casuale: si ha che Sn converge in distribuzione a una variabile casuale normale avente valore atteso 0 e varianza 1, ossia la distribuzione di Sn al limite per n che tende a infinito, coincide con quella di una tale variabile casuale normale Ovvero, sotto condizioni ragionevolmente comuni, una somma di variabili casuali segue una distribuzione normale, indipendentemente dalla natura delle variabili che vengono sommate. Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Esempio: Generiamo N variabili con distribuzione uniforme in [-1, 1] e vediamo che succede: Con una sola variabile: Somma di 12 variabili: Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Relazione tra distribuzione normale e ... Binomiale Una binomiale con n grande e p non troppo vicino a 0 o 1 ha comportamento approssimativamente normale La distribuzione approssimante ha: Valore aspettato  = np Varianza 2 = np(1-p) Poisson Una distribuzione di Poisson in  ha comportamento pressoché normale con  grande Valore aspettato  =  Varianza 2 =  Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Trattamento di dati normali Supponiamo di avere un campione di dati, misure di una popolazione distribuita normalmente: Vogliamo stimare i parametri della distribuzione che descrive la il campione Valore aspettato Varianza Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Stimatore del valore aspettato La definizione del valore aspettato è: Nel caso di una distribuzione normale, un semplice stimatore del valore aspettato è dato dalla media aritmetica: In ambito statistico, esiste un teorema noto come “Legge dei grandi numeri” La media di un campione sufficientemente grande di una popolazione casuale converge al valore aspettato della popolazione Quindi per dare una stima del valore aspettato di una distribuzione è sufficiente misurare un campione Notate che esiste anche una legge dei grandi numeri nel Calcolo delle Probabilità: La media di una sequenza di variabili casuali con la stessa distribuzione converge al loro comune valore aspettato Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Stimatore della varianza La definizione di varianza è: La varianza “pesa” l’allargamento di una distribuzione rispetto al suo valore aspettato Per una distribuzione normale uno stimatore possibile per la varianza è: Notate che lo stimatore è espresso in funzione del valore aspettato  e non della stima del valore aspettato, In una situazione reale dovremo stimare il valore aspettato usando la media aritmetica Questo introduce un vincolo tra gli elementi del campione che stiamo usando, che riduce il contenuto di informazione Gradi di libertà In tal caso lo stimatore della varianza diventa: Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Caratteristiche di uno stimatore Uno stimatore è tale se nel limite di n che tende all’infinito approssima la quantità stimata in maniera Efficiente Un parametro che dipende dalla varianza del campione rispetto alla varianza dello stimatore Senza introdurre distorsioni (bias) Stimatore “unbiased” Esistono stimatori convenzionalmente utilizzati che hanno tutte le proprietà “giuste” Dimostrabili matematicamente Per una distribuzione normale, sono quelli visti nelle trasparenze precedenti Usare uno stimatore sbagliato introduce una distorsione delle misure che può alterare completamente la significatività statistica dei risultati Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Le distribuzioni in Excel Uniforme: CASUALE() Estrae un numero uniforme tra [0,1] Nel pacchetto Analisi Dati, c’è: CASUALE.TRA(a,b) Restituisce valori interi tra a e b Binomiale: DISTRIB.BINOM(num_successi; prove; probabilità_s; cumulativo) Poisson POISSON(x; media; cumulativo) Normale DIST.NORM(x; media; dev_standard; cumulativo) In tutte le distribuzioni il parametro “cumulativo” è un parametro logico (VERO/FALSO) che dice se la chiamata deve restituire un valore cumulativo o no Valore cumulativo è la probabilità P(X<x) per la distribuzione data Altrimenti il valore è semplicemente l’ordinata della curva di distribuzione Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Gli stimatori per la distribuzione normale in Excel Valore aspettato MEDIA (AVERAGE) Esempio: MEDIA(B1:B250) Varianza VAR Esempio: VAR(B1:B250) Deviazione standard DEV.ST (STDEV) Esempio: DEV.ST(B1:B250) Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

Costruzione di un istogramma Un istogramma è un tipo di grafico che ordina i dati in classi di ampiezza data Le classi sono chiamate bin o canali I bin contengono le frequenze relative delle misure Supponiamo che i bin siano di ampiezza due Supponiamo di avere i dati 1.3, 2.1, 2.3, 4.7, 5.7, 5.2 L’istogramma contiene tre canali: [0,2], [2,4], [4,6] I canali contengono rispettivamente 1, 2 3, Per un istogramma i valori specifici non sono importanti Conta solo che un valore sia compreso tra gli estremi del bin Per generare un istogramma si può usare L’istogramma dello strumento Analisi Dati La funzione FREQUENZA di Excel Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

La funzione FREQUENZA FREQUENZA(array_dati, array_bin) Il primo argomento sono i dati da manipolare Il secondo argomento è una serie i cui elementi sono gli estremi dei bin Nell’esempio precedente sarebbe semplice 0 2 4 6 Il primo bin va dal primo al secondo elemento Il secondo dal secondo al terzo ... Per usare FREQUENZA è necessario introdurla come ARRAY: Selezione le celle in cui si vuole inserire l’array Inserire la formula: = FREQUENZA(A1:A500;B1:B20) NON premere enter Premere Shift+Ctrl+Enter Se è tutto corretto dovreste vedere la formula come: {FREQUENZA(A1:A500;B1:B20)} E le celle riempite con le frequenze relative in accordo ai vostri bin Ora potete fare il grafico usando l’istogramma di “Crea Grafico” Un istogramma è una distribuzione di probabilità? Se si, come si fa a normalizzarlo? Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006