Stima dei parametri di una distribuzione

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

8) GLI INTERVALLI DI CONFIDENZA
Le distribuzioni di probabilità discrete
Le distribuzioni di probabilità continue
2. Introduzione alla probabilità
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
____________________
Intervalli di confidenza
Proprietà degli stimatori
Confronto tra 2 campioni Nella pratica è utilissimo confrontare se 2 campioni provengono da popolazioni con la stessa media: Confronti tra produzioni di.
Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento.
COORDINATE POLARI Sia P ha coordinate cartesiane
Frontespizio Economia Monetaria Anno Accademico
I sistemi di riferimento
2.VARIABILI CONTINUE A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Lez. 3 - Gli Indici di VARIABILITA’
Elementi di statistica Elementi di statistica M. Dreucci Masterclasses LNF Elementi di statistica M. Dreucci.
3. Processi Stocastici Un processo stocastico è una funzione del tempo i cui valori x(t) ad ogni istante di tempo t sono v.a. Notazione: X : insieme di.
Progetto Pilota 2 Lettura e interpretazione dei risultati
Inferenza statistica per un singolo campione
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
Le Variabili Casuali Corso di Teoria dell’Inferenza Statistica 1
Valutazione delle ipotesi
Capitolo 9 I numeri indici
Obiettivi del corso di Statistica Medica.
Processi Aleatori : Introduzione – Parte I
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
Matematica e statistica Versione didascalica: parte 7 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste.
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
Appunti di inferenza per farmacisti
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 4: La funzione di Gauss
Corso di biomatematica lezione 6: la funzione c2
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a DISTRIBUZIONE BINOMIALE (cenni)
STATISTICA a.a LA STATISTICA INFERENZIALE
Esercizi x1=m-ts x2=m+ts
Valutazione della stima: gli intervalli di confidenza
Il Teorema del Limite Centrale
Misure di dispersione Giovanni Filatrella
Lezione 8 Numerosità del campione
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
METODI E CONTROLLI STATISTICI DI PROCESSO
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
Le distribuzioni campionarie
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Laurea Ing EO/IN/BIO;TLC D.U. Ing EO 10 PROBABILITA’ E VARIABILI ALEATORIE.
Metodi matematici per economia e finanza. Prof. F. Gozzi
TRASFORMATA DI FOURIER
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Lezione B.10 Regressione e inferenza: il modello lineare
IL CAMPIONE.
Def : uno stimatore è una statistica T n le cui determinazioni servono a fornire delle stime del parametro ignoto  della v.c. X in cui sono state effettuate.
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
Intervalli di confidenza
Elaborazione statistica di dati
TRATTAMENTO STATISTICO DEI DATI ANALITICI
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Stima dei parametri di una distribuzione Giovanni Filatrella (
Transcript della presentazione:

Stima dei parametri di una distribuzione Elaborazione Statistica dei Dati Sperimentali Facoltà di Scienze MM FF e NN, Università Sannio Stima dei parametri di una distribuzione Giovanni Filatrella (filatrella@unisannio.it) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Legame fra statistica e probabilità Statistics: Given the information in your hand, what is the box? Probability: Given the information in the box, what is in your hand? from: Statistics, Norma Gilbert, W.B. Saunders Co., 1976 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Cos’è la statistica inferenziale? Tratta i metodi per fare delle valutazioni sulla popolazione basate sulle proprietà del campione estratto dalla popolazione Terminologia: – Stima: valutazione di un parametro della popolazione – Test delle ipotesi: controllare un’ipotesi fatta su una caratteristica ignota della popolazione Esempi: – Stima: Qual è il diametro di una lotto di pezzi prodotto? – Test delle ipotesi: i pezzi sono conformi alle specifiche? Ci sono due livelli di stime o test delle ipotesi: – Qualitativo: usando i metodi della statistica descrittiva dare una valutazione della correttezza delle affermazioni. -Quantitativo: usando i metodi del calcolo delle probabilità asserire in maniera riproducibile la ragionevolezza della stima (o delle ipotesi) fatte. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Stima puntuale dei parametri Si sono fatte delle misure sperimentali: x1, x2,…,xN Che si suppone derivino da una distribuzione di probabilità dipendenti da M parametri f(x,l1,l2,...,lM): Si definisce “Stimatore” T, una funzione vettoriale che permette di valutare (stimare) i parametri, cioè che colleghi i parametri ai dati sperimentali. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Le funzioni con le quali si stimano i parametri sono definite a prescindere dagli esperimenti effettuati, ma dipendono dalla distribuzione che si suppone abbia generato i dati. I dati degli esperimenti dipendono dalle misure effettivamente svolte La stima dei parametri. I valori trovati dipendono dai dati specifici. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Proprietà degli stimatori Ovviamente , altrimenti conosceremmo la distribuzione da cui sono generati i dati sperimentali. è una quantità fluttuante – cioè una variabile casuale di cui dobbiamo scoprire le caratteristiche. Importante: La distribuzione delle differenze non è la stessa delle distribuzioni dei dati sperimentali xi. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Terminologia degli stimatori Stima: il valore numerico calcolato a partire dagli esperimenti effettuati Stimatore: una funzione dei dati = Tl(x1,x2,…,xn) sperimentali osservati. Poiché i dati osservati sono una variabile casuale, lo stimatore è una variabile casuale. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

La funzione di verosimiglianza Definizione: Supponendo di conoscere i parametri della distribuzione, potremmo calcolare la probabilità di ottenere i dati sperimentali che abbiamo ottenuto. Questa probabilità (o qualsiasi grandezza ad essa proporzionale con costante di proporzionalità positiva) si chiama verosimiglianza. La verosimiglianza è una funzione, perché in effetti non conosciamo i parametri, e quindi non conosciamo neanche la probabilità di ottenere una determinata sequenza di dati sperimentali. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Interpretazione della verosimiglianza Per interpretare cosa intende quantitativamente per verosimiglianza, si può immaginare il seguente ragionamento: Supponendo di conoscere il valore dei parametri, qual è la probabilità che quei parametri abbiano generato i dati che sono stati trovati? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Metodo per ricavare gli stimatori: Il principio di massima verosimiglianza Per trovare un metodo generale che colleghi i dati sperimentali ai parametri della distribuzione di probabilità che li ha generati si ragiona come segue: La migliore stima che possiamo attribuire ai valori dei parametri è quella che, se fosse esatta, renderebbe massima la probabilità di ottenere i dati sperimentali che abbiamo ottenuto. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Perché viene definito un principio e non un teorema Non è possibile dimostrare che il valore del parametro della distribuzione che massimizza la probabilità di realizzare i dati sperimentali sia davvero il miglior valore della stima. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Un problema concettuale connesso al principio di massima verosimiglianza In questo approccio si scambia il ruolo dei dati sperimentali e delle stime: le stime diventano dei dati “certi” del problema. Fatto questo ai dati sperimentali già ottenuti si attribuisce una probabilità di verificarsi. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

La logica del principio di massima verosimiglianza Modello Esperimenti La realizzazione del modello teorico è avvenuta secondo la più semplice delle traiettorie, ovvero la più probabile G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Un errore molto comune: I valori ottenuti con il principio di massima verosimiglianza sono i più probabili. Non è vero perché sarebbe un’asserzione sulla realtà, come se la realtà avesse una certa probabilità di verificarsi, il che non è il caso. Concettualmente si ragiona come se fosse: Realtà 1 Realtà 2 Esperimenti G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Definizioni per il principio di massima verosimiglianza o Maximum Likelihood Estimation (MLE) Data una distribuzione di probabilità, dipendente da M parametri f(x, l1,l2,.., lM), si introduce una funzione di verosimiglianza che è la probabilità di ottenere N misure, in funzione dei valori assunti dai parametri, che è detta funzione di verosimiglianza L: variabili parametri G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Formulazione matematica del principio Per interpretare la L come la probabilità di ottenere i dati, dobbiamo valutare la funzione di massima verosimiglianza in corrispondenza delle N misure effettivamente svolte, così per questa specifica serie di misure la funzione di verosimiglianza diviene: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Formulazione matematica del principio A questo punto la L è comunque indeterminata perché non si conoscono i valori dei parametri. Il principio di massima verosimiglianza asserisce che: Assunto un modello (la f(x, l1,l2,.., lM)) i più ragionevoli valori che si possono assegnare ai parametri l, date le N misure, sono quelli che rendono più plausibile il risultato delle misure: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

In un grafico, per un solo parametro: L(x1,x2,...xN,l) Risultato più ragionevole per la stima del parametro l lbest l G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Proprietà della verosimiglianza: L1(x,l) L2(x,l) l1best l2best l l Sembra ovvio che uno stimatore costruito a partire da L1 sia migliore di uno costruito a partire da L2. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

La distribuzione di probabilità dei parametri di Max Verosimiglianza Dim. 1: supponendo di aver trovato la formula, se questa è una combinazione di variabili casuali si può applicare il Teorema del Limite Centrale, e quindi sarà Gaussiana Dim. 2: senza entrare nei dettagli, sia P(l) la distribuzione (ignota) di probabilità di l, allora: Termine nullo per definizione di Max Ver. Gaussiano G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Stima dei parametri di una distribuzione binomiale Si supponga di fare N misure di una variabile casuale che può assumere solo due valori (“successo” ed “insuccesso”). Fra queste misure, n corrispondono ad un successo. Come posso stimare la probabilità di successo p? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Stima diretta applicando la “legge dei grandi numeri” La frequenza delle osservazioni positive è L’approssimare le frequenze alle probabilità avviene per valori sufficientemente alti del numero di osservazioni. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Stima di p di una binomiale utilizzando il principio di max verosimiglianza La “~” ricorda che è una stima In questo caso dunque il principio fornisce la stessa formula, però non è basato sull’ipotesi di infinite misure. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Valutazione della bontà della stima di p di una binomiale Se il valore stimato è quello trovato come il valore che massimizza la probabilità, è naturale valutare la bontà della stima dalla distribuzione delle probabilità attorno a questo valore più probabile. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

La bontà di una stima di max verosimiglianza: lbest L1(x,l) L2(x,l) La dispersione dei valori attorno al più probabile, cioè un suo indice (s2), è una valutazione della bontà della stima. Ex.: Var[L1]<Var[L2] => L1 è migliore di L2. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Valutazione della bontà della stima con il metodo di Max Verosimiglianza Nella “formula”per la stima: Gli N tentativi sono in realtà N variabili casuali, con una probabilità incognita p di successo ( è una stima!). La stima è una somma di variabili casuali, e come tale avrà una distribuzione circa gaussiana. La varianza della gaussiana viene assunta come una misura quantitativa della bontà della stima. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

La varianza della stima con il metodo di Max Verosimiglianza Ricapitoliamo il teorema del limite centrale, la somma delle variabili casuali X=Si Xi tende ad essere Gaussiana per N , qualunque sia la distribuzione delle Xi, con valore medio: E[X]=Si E[ Xi] e varianza Var[X]=Si Var[ Xi] Per utilizzarlo in questo contesto occorre dunque stimare la varianza di ogni variabile casuale G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Applicazione del teorema del limite centrale alla stima Avendo effettuato N misure, la stima: E’ dunque la somma delle N variabili casuali ni. Ogni variabile casuale (ogni singola misura) ha probabilità di successo p (ignota), valore medio p (vedi distribuzione binomiale) e varianza p(1-p) (sempre della distribuzione binomiale). G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Calcolo esplicito della varianza della stima della probabilità binomiale: La varianza della stima è dunque: Anche se p non è nota (se fosse conosciuta sapremmo già tutto della distribuzione incognita) si può approssimare con la sua migliore stima: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Problema Perché compare N2? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Esempio numerico di stima di una variabile binomiale Supponiamo di voler stimare il numero di parole che una persona conosce in una lingua. Per fare questo apriamo un dizionario di 20000 voci a caso su 100 termini e controlliamo quante ne riconosce. La stima è dunque: Ed il numero di parole note viene stimato essere: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Esempio numerico di valutazione della bontà della stima di una variabile binomiale A questo punto ci si potrebbe porre il problema: è corretto controllare solo 100 termini? Per fare questo è necessario valutare la deviazione standard: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Osservazioni sulla valutazione della bontà della stima: 1) La migliore stima della probabilità di verificarsi di un evento di tipo binomiale è: 2) La stima così ottenuta è affetta da un’incertezza che è inversamente proporzionale alla radice del numero di misure: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Esercizi **Supponiamo che la stima di parole conosciute sia fatta per una lingua straniera e che su 100 termini se ne conoscano solo 12. Cosa si può dire sul numero di parole note e l’incertezza su questa valutazione? *Cosa succede se si trovano 24 termini noti su 200? **Scrivere le formule generali per questo problema. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Stima dei parametri di una distribuzione poissoniana G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Valutazione della bontà della stima della media poissoniana La varianza della stima è dunque: Anche se m non è nota anche in questo caso si può approssimare con la sua migliore stima: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Esercizi **Ripetere l’esercizio della stima di termini sconosciuti approssimando la distribuzione con una poissoniana. **Nello scegliere i termini a caso nel dizionario, si deve evitare di scegliere due volte lo stesso termine? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Stima dei parametri di una distribuzione gaussiana: m G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Stima dei parametri di una distribuzione gaussiana: s2 Nota bene: la s2 viene stimata supponendo di conoscere il valore aspettato m, e non di stimarlo. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Stima del parametro di una distribuzione gaussiana s2 senza conoscere a priori m In questo caso la stima differisce per aver diviso per N-1 e non N come direbbe la legge dei grandi numeri. Ovviamente per N   le formule coincidono. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Valutazione della bontà della stima del valore aspettato di una gaussiana: La varianza della stima è dunque: Anche s2 non è nota, e anche in questo caso si può approssimare con la sua migliore stima: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

Perché conviene fare più misure La deviazione standard della stima è circa: Poiché S2 tende ad s2 è un valore che rimane all’incirca costante durante le misure. Quindi l’incertezza della media diminuisce come la radice quadrata di N. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali