Modelli di variabili casuali

Slides:



Advertisements
Presentazioni simili
8) GLI INTERVALLI DI CONFIDENZA
Advertisements

Le distribuzioni di probabilità continue
2. Introduzione alla probabilità
Variabili aleatorie discrete e continue
LA VARIABILITA’ IV lezione di Statistica Medica.
Distribuzione Normale o Curva di Gauss
Intervalli di confidenza
1 2. Introduzione alla probabilità Definizioni preliminari: Prova: è un esperimento il cui esito è aleatorio Spazio degli eventi elementari : è linsieme.
LA DISTRIBUZIONE NORMALE
2.VARIABILI CONTINUE A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
3. Processi Stocastici Un processo stocastico è una funzione del tempo i cui valori x(t) ad ogni istante di tempo t sono v.a. Notazione: X : insieme di.
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Le Variabili Casuali Corso di Teoria dell’Inferenza Statistica 1
Introduzione alla statistica per la ricerca Lezione I
DISTRIBUZIONI TEORICHE DI PROBABILITA’
Distribuzioni di probabilità
Corso di biomatematica Lezione 2: Probabilità e distribuzioni di probabilità Davide Grandi.
Lezione 4 Probabilità.
Parte I (introduzione) Taratura degli strumenti (cfr: UNI 4546) Si parla di taratura in regime statico se lo strumento verrà utilizzato soltanto per misurare.
METODI E CONTROLLI STATISTICI DI PROCESSO
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Le distribuzioni campionarie
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Lezione B.10 Regressione e inferenza: il modello lineare
Strumenti statistici in Excell
IL CAMPIONE.
Calcolo delle probabilità a cura di Maurizio Brizzi
“Teoria e metodi della ricerca sociale e organizzativa”
Le distribuzioni campionarie
Test basati su due campioni Test Chi - quadro
1 Lezione 2 Probabilità Riferimenti bibliografici: Insegnamento: Statistica Corso di Laurea Magistrale in Matematica Facoltà di Scienze, Università di.
Lezione 3 Elementi di teoria delle variabili casuali Insegnamento: Statistica Corso di Laurea Magistrale in Matematica Facoltà di Scienze, Università di.
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
La variabile casuale (v.c.) è un modello matematico in grado di interpretare gli esperimenti casuali. Infatti gli eventi elementari  che compongono lo.
Intervalli di confidenza
Distribuzioni di probabilità di uso frequente
Metodologia della ricerca e analisi dei dati in (psico)linguistica 23 Giugno 2015 Statistica descrittiva
Eventi aleatori Un evento è aleatorio (casuale) quando non si può prevedere con certezza se avverrà o meno I fenomeni (eventi) aleatori sono studiati.
La distribuzione campionaria della media
Elaborazione statistica di dati
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
1 Statistica Scienza dell’incertezza PROBABILITÀ ALLA BASE DELL’INFERENZA Ipotesi VERA o FALSA? Campionamento Analisi statistica Scelta di una delle due.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
Il Moto. Partendo da una quesito assegnato nei test di ingresso alla facoltà di medicina, si analizza il moto di un oggetto.
In alcuni casi gli esiti di un esperimento possono essere considerati numeri naturali in modo naturale. Esempio: lancio di un dado In atri casi si definisce.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Rosoluzione.
1 Statistica descrittiva 2. Sintetizzare i dati con degli indici Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
1 VARIABILI CASUALI. 2 definizione Una variabile casuale è una variabile che assume determinati valori in modo casuale (non deterministico). Esempi l’esito.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
Introduzione alle distribuzioni di probabilità di Gauss o normale di Bernoulli o binomiale di Poisson o dei casi rari.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Scienze tecniche e psicologiche
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Implementazione.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
Gli Indici di VARIABILITA’
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza.
Transcript della presentazione:

Modelli di variabili casuali Riferimento bibliografici: Levine, Krehbiel, Berenson (2006): Statistica, II ed., Apogeo. Piccolo D., (2000): Statistica, il Mulino, Bologna. Lezione 4 Modelli di variabili casuali Insegnamento: Statistica Corso di Laurea Magistrale in Matematica Facoltà di Scienze, Università di Ferrara E-mail: susanna.ragazzi@unife.it

Argomenti Modelli Continui: La variabile casuale uniforme continua, la variabile casuale Normale, la variabile casuale Chi – quadrato, la variabile casuale di Student Modelli discreti: La variabile Binomiale, la variabile di Poisson

Introduzione Anche se gli schemi probabilistici sono in numero illimitato è opportuna una loro classificazione ricercando elementi di omogeneità tra le diverse prove mediante la formalizzazione di modelli standard. In pratica una famiglia parametrica di v.c. è una collezione di v.c. caratterizzate dalla stessa forma funzionale della funzione di ripartizione; e quindi della stessa distribuzione di probabilità (se discrete) o della stessa densità (se continue). I membri della famiglia parametrica di v.c. si distinguono esclusivamente per lo specifico valore numerico del parametro.

Alcuni tipici fenomeni continui sono l’altezza, il peso, le variazioni giornaliere nei prezzi di chiusura di un’azione, il tempo che intercorre fra gli arrivi di aerei presso un aeroporto, il tempo necessario per servire un cliente in un negozio La figura rappresenta graficamente tre funzioni di densità di probabilità: normale, uniforme ed esponenziale

Modelli continui: La variabile casuale uniforme continua Il modello probabilistico che genera la v.c. uniforme continua è utilizzato per la semplicità della sua forma funzionale ma in pratica esso si riscontra quasi esclusivamente in situazioni artificiali come ad es. giochi, esperimenti geometrici etc. Definizione:

Modelli continui: La variabile casuale uniforme continua

Modelli continui: La variabile casuale uniforme continua La formulazione standard per tale v.c. è la v.c. Uniforme standardizzata, cioè la v.c. Uniforme continua definita sul supporto (0,1). Si osserva che: La trasformazione lineare di una v.c. genera un’altra v.c. uniforme. La combinazione lineare di v.c. uniformi indipendenti generano una v.c. la cui funzione di densità è molto diversa.

Modelli continui: La variabile casuale uniforme continua

La variabile casuale normale La distribuzione normale (o distribuzione Gaussiana in onore del matematico Carl Friedrich Gauss (1777-1855)) è la distribuzione continua più utilizzata in statistica. La distribuzione normale è importante in statistica per tre motivi fondamentali: Diversi fenomeni continui sembrano seguire, almeno approssimativamente, una distribuzione normale. La distribuzione normale può essere utilizzata per approssimare numerose distribuzioni di probabilità discrete. La distribuzione normale è alla base dell’inferenza statistica classica in virtù del teorema del limite centrale. Tale distribuzione è anche nota come legge degli errori in quanto descrive la distribuzione degli errori casuali relativi a successive misurazioni di una quantità fisica.

La variabile casuale normale La distribuzione normale ha alcune importanti caratteristiche: La distribuzione normale ha una forma campanulare e simmetrica Le sue misure di posizione centrale (valore atteso, mediana) coincidono Il suo range interquartile è pari a 1.33 volte lo scarto quadratico medio, cioè copre un intervallo compreso tra  – 2/3σ e  + 2/3σ La variabile aleatoria con distribuzione normale assume valori compresi tra - e + 

La variabile casuale normale Molte variabili statistiche che osserviamo nella realtà hanno una distribuzione con caratteristiche simili a quelle della distribuzione normale. Consideriamo ad esempio lo spessore misurato in centimetri di 10 000 rondelle di ottone prodotte da una grande società metallurgica. Il fenomeno aleatorio continuo di interesse, lo spessore delle rondelle, si distribuisce approssimativamente come una normale.

La variabile casuale normale Definizione Dallo studio analitico della densità normale si osserva che: La funzione è sempre non negativa ed il suo integrale sull’asse reale vale 1. E’ simmetrica rispetto al punto di ascissa x=µ, in corrispondenza del quale si ha un massimo.

La variabile casuale normale Notiamo che, essendo e e  delle costanti, le probabilità di una distribuzione normale dipendono soltanto dai valori assunti dai due parametri µ e σ. Specificando particolari combinazioni di µ e σ, otteniamo differenti distribuzioni di probabilità normali.

La variabile casuale normale Poiché esiste un numero infinito di combinazioni dei parametri µ e σ, per poter rispondere a quesiti relativi a una qualsiasi distribuzione normale avremmo bisogno di in numero infinito di tavole. Introduciamo ora una formula di trasformazione delle osservazioni, chiamata standardizzazione, che consente appunto di trasformare una generica variabile aleatoria normale in una variabile aleatoria normale standardizzata. La standardizzazione Z è la variabile ottenuta sottraendo ad X il suo valore atteso µ e rapportando il risultato allo scarto quadratico medio, σ.

La variabile casuale normale standardizzata

La variabile casuale normale standardizzata Quindi è sempre possibile trasformare qualsiasi insieme di valori distribuiti normalmente nel corrispondente insieme di valori standardizzati e ricavare le probabilità desiderate dalle tavole della distribuzione normale standardizzata. Infatti: Supponiamo che il tempo necessario per caricare la home page del sitoOnCampus! sia distribuito normalmente con µ=7 secondi e scarto quadratico medio pari σ=2 secondi.

La variabile casuale normale standardizzata Nella figura si osserva come a ciascun valore della variabile X (tempo di caricamento) è associato il corrispondente valore della variabile standardizzata Z, ottenuto applicando la standardizzazione. Supponiamo di voler determinare la probabilità che il tempo di caricamento della home page in una generica sessione sia inferiore ai 9 secondi.

La variabile casuale normale standardizzata Applicando l’equazione si ottiene che a X=9 corrisponde il valore della variabile standardizzata Z=(9-7)/2=+1.

Dopodiché si utilizza la Tavola della funzione di ripartizione della v Dopodiché si utilizza la Tavola della funzione di ripartizione della v.c. normale standardizzata per determinare l’area cumulata fino al valore 1.

Esempio 1 Tempo di caricamento della home page del sito OnCampus Esempio 1 Tempo di caricamento della home page del sito OnCampus!: calcolo di P(X<7 o X>9) Esempio 2 Tempo di caricamento della home page del sito OnCampus!: calcolo di P(5<X<9)

La distribuzione normale Esempio 3 Tempo di caricamento della home page del sito OnCampus!: calcolo di P(X>9) Esempio 4 Tempo di caricamento della home page del sito OnCampus!: calcolo di P(5<X<9)

La variabile casuale normale Il risultato dell’esempio 4 può essere generalizzato, infatti per un insieme di dati con distribuzione normale: approssimativamente il 68.26% apparterrà all’intervallo (µ – σ, µ + σ) approssimativamente il 95.44% apparterrà all’intervallo (µ – 2 σ, µ + 2 σ) approssimativamente il 99.73% apparterrà all’intervallo (µ – 3 σ, µ + 3 σ) È quindi evidente il motivo per cui un intervallo di ampiezza 6 σ centrato su µ, vale a dire l’intervallo (µ – 3 σ, µ + 3 σ), può essere considerato come un’approssimazione pratica del range per dati distribuiti normalmente.

Negli esempi 1 - 4 la tavola della distribuzione normale standardizzata viene utilizzata per calcolare l’area fino ad un certo valore X. In molte applicazioni si è però interessati al procedimento opposto, cioè determinare il valore di X cui corrisponde una certa area cumulata. Esempio 6. Tempo di caricamento della home page del sito OnCampus!: calcolo del tempo massimo di caricamento per almeno il 10% delle sessioni

Esempio 6 Tempo di caricamento della home page del sito OnCampus Esempio 6 Tempo di caricamento della home page del sito OnCampus!: calcolo del tempo massimo di caricamento di almeno il 10% delle sessioni Determinare il valore X associato a una probabilità (cumulata) (6.4) il valore X è dato dalla media µ, cui va sommato il prodotto tra Z e lo scarto quadratico medio, σ. X = 7 + (-1.28)(2) = 4.44 secondi

Esempio 7 Tempo di caricamento della home page del sito OnCampus Esempio 7 Tempo di caricamento della home page del sito OnCampus!: determinazione dell’intervallo centrato sulla media in cui appartiene il 95% dei tempi di caricamento

Esempio 7 Tempo di caricamento della home page del sito OnCampus Esempio 7 Tempo di caricamento della home page del sito OnCampus!: determinazione dell’intervallo centrato sulla media in cui appartiene il 95% dei tempi di caricamento X = 7 + (-1.96)(2) = 3.08 secondi X = 7 + (+1.96)(2) = 10.92 secondi

Valutazione dell’ipotesi di normalità Non tutti i fenomeni continui sono distribuiti normalmente e non tutti seguono una distribuzione che può essere approssimata adeguatamente con una normale. È quindi importante verificare la plausibilità dell’ipotesi di normalità, cioè di accertare se in effetti un insieme di dati può provenire da una distribuzione normale. Dal punto di vista pratico il problema è di valutare la bontà di adattamento del modello normale a un insieme di dati, problema che deve essere affrontato ancora prima di applicare le metodologie descritte nel precedente paragrafo. Due sono gli approcci esplorativi di carattere descrittivo che possono essere adottati: Il confronto fra le caratteristiche dei dati e le proprietà di un’eventuale distribuzione normale sottostante La costruzione di un normal probability plot

Valutazione dell’ipotesi di normalità La distribuzione normale ha alcune importanti proprietà teoriche: è simmetrica: la media e la mediana coincidono ha forma campanulate, di modo che può essere applicata la regola empirica il suo range interquartile è pari a 1.33 volte lo scarto quadratico medio il range è infinito Per un dato insieme di dati, per valutare l’adeguatezza dell’ipotesi di normalità si può procedere con la costruzione di grafici per analizzare la forma della distribuzione il calcolo delle misure di sintesi e il confronto con le proprietà teoriche il confronto fra le caratteristiche dei dati e le proprietà di un’eventuale distribuzione normale sottostante

Valutazione dell’ipotesi di normalità Un normal probability plot è un grafico a due dimensioni in cui le osservazioni sono riportate sull’asse verticale e a ciascuna di esse viene fatto corrispondere sull’asse orizzontale il relativo quantile di una distribuzione normale standardizzata. Se i punti del grafico si trovano approssimativamente su una linea retta immaginaria inclinata positivamente, allora possiamo affermare che i dati osservati si distribuiscono approssimativamente secondo la legge normale.

Valutazione dell’ipotesi di normalità Esempio: Normal Probability Plot per il rendimento 2003 dei fondi comuni di investimento ottenuto con Microsoft Excel

Proprietà riproduttiva della v.c. normale

La variabile casuale Chi - Quadrato

La funzione di densità di una v. c La funzione di densità di una v .c. chi – quadrato per alcuni gradi di libertà k = g La funzione di ripartizione di una v .c. chi – quadrato per alcuni gradi di libertà k = g

La variabile casuale t di Student La forma della distribuzione t di Student è simile alla normale, entrambe sono a campana e simmetriche attorno alla media. Come la normale ha media in µ=0 e la sua varianza dipende dal grado di libertà (g.d.l.) g; la varianza è maggiore di 1 e tende a 1 al crescere di g. Si può dimostrare che la distribuzione t con g.d.l. g tende alla distribuzione normale standardizzata al crescere di g. Sono disponibili delle tavole, in cui sono tabulati alcuni valori scelti di tα per vari valori di g dove tα è tale che l’area alla destra di tα è uguale ad α .

La funzione di densità di una v. c La funzione di densità di una v .c. t di Student per alcuni gradi di libertà (df) La funzione di ripartizione di una v .c. t di Student per alcuni gradi di libertà (df)

Modelli discreti: la distribuzione binomiale Uno dei modelli probabilistici più utilizzati è la distribuzione binomiale che caratterizzata da quattro essenziali proprietà: Si considera un numero prefissato di n osservazioni Ciascuna osservazione può essere classificata in due categorie incompatibili ed esaustive, chiamate per convenzione successo e insuccesso La probabilità di ottenere un successo, p, è costante per ogni osservazione, così come la probabilità che si verifichi un insuccesso, (1 – p). Il risultato di un’osservazione, successo o insuccesso, è indipendente dal risultato di qualsiasi altra. …

La distribuzione binomiale Per assicurare l’indipendenza, le osservazioni possono essere ottenute con due diversi metodi di campionamento: un campionamento da una popolazione infinita senza reimmissione oppure un campionamento da una popolazione finita con reimmissione La variabile casuale X che conta il numero di successi in una sequenza di n sottoprove indipendenti nelle quali è costante la probabilità p di un successo si dice variabile binomiale di parametri n e p. X può assumere come valori gli interi compresi tra 0 e n.

La distribuzione binomiale dove x = 0,1,2,...,n è il numero di successi nel campione n = ampiezza campionaria p = probabilità di successo 1−p = probabilità di insuccesso La ripartizione della binomiale dove [x] è il massimo intero non superiore al reale x.

La distribuzione binomiale Caratteristiche della distribuzione binomiale Forma: una distribuzione binomiale può essere simmetrica o asimmetrica in base ai valori assunti dai parametri. Per qualsiasi valore di n la distribuzione binomiale è simmetrica se p = 0.5 e asimmetrica per valori di p diversi da 0.5. L’asimmetria diminuisce all’avvicinarsi di p a 0.5 e all’aumentare del numero di osservazioni n. Il valore atteso: si ottiene moltiplicando fra loro i due parametri n e p.

La distribuzione binomiale Lo scarto quadratico medio: Si osserva che anche la v.c. binomiale possiede la proprietà riproduttiva:

La distribuzione binomiale Distribuzione binomiale per n=4 e p=0.1 realizzata utilizzando Microsoft Excel

La distribuzione di Poisson In molte applicazioni si è interessati a contare il numero di volte in cui si osserva la realizzazione di un evento in una certa area di opportunità. Un’area di opportunità è un intervallo continuo quale un tempo, una lunghezza, una superficie, o in generale un’area nella quale un certo evento può verificarsi più volte. Esempi possono essere il numero di difetti su uno sportello di un frigorifero, il numero di telefonate che arrivano in un centralino in un certo periodo di tempo o ancora il numero di persone che entrano in un grande magazzino in un pomeriggio.

La distribuzione di Poisson Quando si considerano aree di opportunità si può ricorrere alla distribuzione di Poisson se sono soddisfatte quattro condizioni: si è interessati a contare il numero di volte in cui un certo evento si realizza in una certa area di opportunità la probabilità che in una certa area di opportunità si osservi un certo evento è la stessa in tutte le aree di opportunità il numero di volte in cui un evento si realizza in una certa area di opportunità è indipendente dal numero di volte in cui un l’evento si è verificato in un’altra area la probabilità che in una certa area di opportunità l’evento di interesse si verifichi più di una volta diminuisce al diminuire dell’area di opportunità

La distribuzione di Poisson Sia E un evento da studiare nell’intervallo [0,T]. Allora un processo di Poisson è caratterizzato dalle seguenti condizioni: Il verificarsi di E in (t1,t2) è indipendente dal verificarsi di E in qualsiasi altro (t3,t4) se gli intervalli non si sovrappongono. La probabilità che si verifichi E nell’intervallo infinitesimo (t0,t0+dt) è proporzionale al parametro λ che caratterizza la prova. La probabilità che due eventi si verifichino nello stesso intervallo di tempo è un infinitesimo di ordine superiore rispetto la probabilità che se ne verifichi uno solo.

Esempio Supponiamo di esaminare il numero di clienti che raggiungono una banca in un minuto. L’arrivo di un cliente è l’evento di interesse e l’area di opportunità è l’intervallo temporale di un minuto. Dato che le quattro condizioni sono soddisfatte possiamo ricorrere alla distribuzione di Poisson per determinare la probabilità con cui in un certo intervallo di tempo si presenti in banca un certo numero di clienti. La distribuzione di Poisson è caratterizza dal parametro λ, che rappresenta il numero atteso di volte (che varia da zero ad infinito) in cui l’evento si verifica nell’area di opportunità considerata. Il numero di volte in cui si verifica un evento X in un certo intervallo temporale varia da zero a infinito (per numeri interi).

La distribuzione di Poisson L’espressione matematica della distribuzione di Poisson per il numero di eventi X, dato che il numero atteso di eventi è pari a λ è dato da Distribuzione di Poisson dove λ = numero atteso di successi nell’area di opportunità x = numero di successi per area di opportunità (x=0,1,2,…) Il valore atteso di tale v.c. coincide con la varianza ed è pari al parametro λ. Tale v.c. gode della proprietà riproduttiva:

La distribuzione di Poisson Riprendiamo l’esempio dell’arrivo di clienti presso una banca e supponiamo che in un minuto arrivano in media tre clienti. Qual è la probabilità che in un certo minuto arrivino esattamente due clienti? Qual è la probabilità che arrivino più di due clienti?

La distribuzione di Poisson Per evitare molti conti, le probabilità relative alla distribuzione di Poisson possono essere ottenute a partire dalle Tavole. Probabilità per una variabile aleatoria di Poisson Calcolo di P(X=2) con λ=3