Valutazione della stima: gli intervalli di confidenza Elaborazione Statistica dei Dati Sperimentali Facoltà di Scienze MM FF e NN, Università del Sannio Valutazione della stima: gli intervalli di confidenza Giovanni Filatrella (filatrella@unisannio.it) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Stima degli intervalli di confidenza Dati due valori del parametro incognito l , l1 e l2, supponendo di conoscere la distribuzione di probabilità dello stimatore di l, dipendente da N esperimenti xi, trovare l1 e l2 significa trovare i loro valori in modo che : P(T l(x)|l1 l l2)=1-a Importante: Gli estremi dell’intervallo sono valori casuali e non fissati. La procedura è generale ed indipendente dai dati xi effettivamente ottenuti, ma i valori da attribuire a l1 e l2 dipendono dagli specifici dati sperimentali. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Esempio di applicazione dell’intervallo di confidenza “La percentuale x di fumatori in una scuola superiore è compresa fra il 10% ed il 30% ad un livello di significatività del 95%.” densità di probabilità di Tx 95% x1 x2 x G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Livello di significatività degli intervalli di confidenza è detto livello di significatività dell’intervallo [l1,l2]. 1-a è detto coefficiente o livello di confidenza dell’intervallo [l1,l2]. Ex: per una variabile gaussiana a media 0, trovare l’intervallo di confidenza al 68% del valore medio significa stabilire che tale intervallo è: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Scelta degli estremi degli intervalli di confidenza Pur avendo scelto un determinato livello di significatività l’intervallo [l1,l2] potrebbe essere diverso, ad esempio non simmetrico attorno a 0: La scelta più opportuna dipende dallo specifico problema. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Esempi di intervalli di confidenza non simmetrici Un fertilizzante si suppone che migliori la produttività media del frumento. Se è nota la produttività senza fertilizzante potrebbe essere interessante chiedersi a che livello di confidenza l’uso del fertilizzante migliori la produttività abbastanza da ripagarne il costo: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Esempi di intervalli di confidenza non simmetrici Un fertilizzante si suppone che migliori la produttività media del frumento. Se è nota la produttività senza fertilizzante xo potrebbe essere interessante chiedersi a che livello di confidenza l’uso del fertilizzante migliori la produttività abbastanza da ripagarne il costo: densità di probabilità di Tx 70% x2= x0 x1 x G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Interpretazione degli intervalli di confidenza Se si ripetessero le misure sullo stesso sistema con un determinato valore del parametro incognito, allora 1-a delle serie di misure indicherebbero degli intervalli che effettivamente contengono il parametro “vero”. Se si utilizzasse lo stesso metodo per la costruzione degli intervalli su sistemi diversi, allora nella frazione 1-a dei casi si indicherebbero intervalli contenenti il valore corretto. Non è corretto però dire che il valore vero del parametro è contenuto nell’intervallo di confidenza con probabilità a G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Applicazione degli intervalli di confidenza Supponiamo di misurare la lunghezza di una scrivania con un metodo soggetto ad errore casuale, quindi ripetendo le misure i valori trovati non sono sempre uguali. Ad esempio si è ottenuto, in cm: 203 201 201 202 204 Fra quali valori è compresa la lunghezza della porta al livello di significatività a=5%? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Passo 1: stima puntuale Poiché supponiamo che le misure siano distribuite gaussianamente, determinare il valore vero della lunghezza della scrivania corrisponde a stimare il valore aspettato della distribuzione delle misure: La migliore stima della lunghezza della scrivania è 202,2 cm G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Passo 2: stima dell’incertezza La stima che abbiamo effettuato è una valutazione, cioè a sua volta una variabile casuale distribuita gaussianamente la cui deviazione standard può essere stimata essere: Il valore vero del parametro incognito è distribuito gaussianamente con valore aspettato E[x] 202.2 cm deviazione standard s0.7 cm G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Rappresentazione grafica dei risultati ottenuti: E[x]=202.2cm s=0.7cm densità di probabilità 201.5 202.2 202.9 L(cm) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Passo 3: intervallo di confidenza Poiché ora conosciamo “tutto” della distribuzione di probabilità del valore stimato, possiamo rispondere alla domanda “quali sono le lunghezze nelle quali le mie misure, al livello di significatività del 5%, possono essere generate dalla lunghezza vera della scrivania”? : Il problema viene così ricondotto a trovare gli estremi di una distribuzione gaussiana tali da racchiudere una probabilità del 95%. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Un possibile intervallo di confidenza: Una scelta possibile è di chiedere che la probabilità sia racchiusa in un intervallo simmetrico attorno al valore di massima verosimiglianza: Stimando s e conoscendo la stima si trova m2: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Esercizi Trovare m1 nell’esercizio precedente. Se la scrivania deve essere inserita in una rientranza, quale intervallo di confidenza è più opportuno scegliere? **Ad un livello di significatività dell’1% l’intervallo di confidenza è più ampio? Perché? Ripetere l’esercizio ad un livello di significatività dell’1%. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali