La verifica d’ipotesi Docente Dott. Nappo Daniela

La verifica d’ipotesi Docente Dott. Nappo Daniela daniela.nappo@unina.it

Il lemma di Neymann-Pearson Nella maggior parte dei casi, il test delle ipotesi viene costruito in modo che l’ipotesi nulla giochi un ruolo più importante dell’ipotesi alternativa nel problema di decisione che si intende affrontare. Questo significa che i due tipi di errore in cui è possibile incorrere non vengono considerati ugualmente importanti, poiché l’errore di I tipo si suppone avere conseguenze più gravi di quelle legate all’errore di II tipo. Neyman e Pearson propongono allora di prefissare un livello α di probabilità di commettere l’errore di I tipo e successivamente, condizionatamente al valore di α fissato, scegliere il test che minimizza la probabilità β di commettere l’errore di II tipo. In base al principio di Neyman-Pearson è quindi possibile definire una regione critica ottimale, scegliendo, tra i possibili test alternativi caratterizzati dallo stesso livello di significatività α, quello per il quale la probabilità β risulta minima. Una regione critica con potenza superiore a qualunque altra regione per un test di livello α viene definita regione critica ottimale e il test ad essa associato viene indicato come il test più potente.

Lega la teoria del test alla teoria della stima attraverso la funzione di verosimiglianza. Sia X = (X 1, X 2, …, X n ) un campione casuale generato da X~ f(x;θ), e si voglia verificare l’ipotesi H 0 : θ = θ 0 contro l’ipotesi H 1 : θ = θ 1. Se L (θ ; X) è la funzione di verosimiglianza di X, allora la Regione critica ottimale di ampiezza α, RCO (α), per rifiutare H 0 contro H 1 è quella regione C 0 dello spazio campionario R n che soddisfa le condizioni: Il lemma di Neymann-Pearson

Supponendo che il rapporto di verosimiglianza, RV, sia una v.c. continua sotto H 0, nel senso che per ogni 0<α<1 esista un unico valore c α tale che: allora la regione critica C sarà l’insieme dei valori per i quali risulta: In questo modo, i risultati campionari vengono ordinati secondo il valore del RV, e quelli per i quali tale rapporto è superiore a c entrano a far parte di C. Costruendo regioni critiche per tutti i valori sufficientemente elevati del RV, ad ogni a si può associare un’unica regione critica. L’insieme dei valori RV tali che costituisce la regione critica del rapporto di verosimiglianza, e il lemma di Neyman-Pearson stabilisce che, per ogni a fissato, la regione critica del RV è la migliore regione critica, definendo così un criterio per la scelta di un test ottimale. Il lemma di Neymann-Pearson

La determinazione della regione critica del RV, e quindi del test più potente di livello α, avviene in due tappe: 1.Si calcola il RV: 2.Si determina la distribuzione campionaria della v.c. sotto H 0 Il lemma di Neymann-Pearson

Il lemma individua la RCO(α) per un’ipotesi nulla H 0 semplice contro un’ipotesi alternativa H 1 anch’essa semplice, ma rimane valido anche per la verifica di un’ipotesi nulla H 0 semplice contro un’ipotesi alternativa H 1 unidirezionale. Se la statistica-test è una v.c. continua, è sempre possibile individuare una costante c tale che la probabilità di commettere un errore di primo tipo, considerato l’errore più grave, sia pari al livello a prefissato. Il lemma risponde al principio di verosimiglianza. Infatti, la condizione (1) indica la regione C 0 come l’insieme dei valori dello spazio campionario per i quali la verosimiglianza calcolata sotto H 1 risulta c volte più plausibile, in termini di verosimiglianza, di quella calcolata sotto H 0. Il lemma di Neymann-Pearson

La funzione di verosimiglianza di un campione casuale generato da una v.c. Normale con varianza σ 2 nota è:

Il lemma di Neymann-Pearson

Quindi, la RC ricavata dalla condizione (1) del lemma è:, con k costante e determinata in modo tale da rispettare la condizione (2), e cioè che la RC risulti di ampiezza α. Sotto H 0 : μ = μ 0 X~ N(μ 0, σ 2 ) Il lemma di Neymann-Pearson

Nessun’altra suddivisione dello spazio campionario di dimensione n potrà produrre una RC di ampiezza α che abbia una potenza superiore a quella determinata. La RC così definita consente di dire che l’ipotesi H 0 : μ=μ 0, viene rifiutata a favore dell’ipotesi alternativa H 1 : μ=μ 1 >μ 0, quando la media campionaria supera μ 0 di una quantità che: 1. Cresce con la varianza; 2. Diminuisce con la numerosità del campione; 3. Cresce con z α, cioè con il diminuire del valore α La RCO è stata individuata considerando il segno di (μ 1 -μ 0 ). Tale segno è risultato determinante per stabilire la direzione della RC. Invece, la conoscenza del valore numerico μ 1, specificato nell’ipotesi alternativa H 1, è risultato irrilevante. Questo significa che si sarebbe giunti alla medesima soluzione (e quindi alla stesa RCO) per qualunque valore μ 1 specificato in H 1, purché superiore a quello specificato in H 0. Quindi, la RC così trovata è una RCO, con α prefissato, per tutte le ipotesi alternative semplici tali che μ 1 >μ 0. In altre parole, la RCO è ottimale per la verifica delle ipotesi sopra specificate. Il lemma di Neymann-Pearson

Test sulla varianza La verifica d’ipotesi sulla varianza di una popolazione segue le stesse regole del test sulla media di una popolazione, ottenendo che la statistica Test si distribuirà secondo una distribuzione chi quadro con g gradi di libertà. In particolare se il valore μ e σ 2 della popolazione è non noto allora il test sarà: H 0 : σ 2 = σ 0 2 contro H 1 : σ 2 ≠ σ 0 2 e la statistica test sarà: Dove S è la varianza campionaria. La quale sotto H 0 si distribuisce come una chi quadro con n-1 gradi di libertà e sotto H 1 come una ci quadro con n-1 g.l. moltiplicata per il fattore (σ 0 / σ) 2 Se μ fosse nota la varianza campionaria diventa la somma degli scarti dalla media della popolazione al quadrato rapportata ad n In tal caso la statistica diventa:

Test sul rapporto tra le varianze di due popolazioni Nel caso in cui non si conosce nulla sulle varianze di due popolazioni è necessario effettuare un test per verificar se esse sono uguali o differenti per poi applicare il test sul confronto tra medie più appropriato. Si considerino due campioni casuali (X 11, X 12, ….,X 1n ) e (X 21, X 22,….,X 2m ) estratti rispettivamente da X 1 ~ N(μ 1, σ 2 1 ) e X 2 ~ N(μ 2, σ 2 2 ). Il caso più frequente è che le medie delle due popolazioni sono incognite, per cui è necessario verificare l’uguaglianza delle due varianze: H 0 : σ 1 2 = σ 2 2 contro H 1 : σ 1 2 ≠ σ 2 2

Test sul rapporto tra le varianze di due popolazioni Il test statistico per la verifica dell’ipotesi nulla è: Tale rapporto si distribuisce come una F di Snedecor-Fisher con n-1 e m-1 g.l. La regola di decisione sarà la seguente: Se le medie delle due popolazioni sono note, la F di Snedecor-Fisher si distribuirà con n e m g.l Osservazione Lo stesso test statistico può essere usato per l’ipotesi statistica unidirezionale, ovvero σ 1 2 > σ 2 2 In tal caso l’ipotesi nulla si rifiuta a livello α se

Il test del coefficiente di correlazione Il coefficiente di correlazione è un indice simmetrico che consente di misurare la forza del legame di interdipendenza lineare tra due variabili. Il coefficiente di correlazione è dato pertanto dal rapporto tra la covarianza (x,y), dove x e y sono due variabili quantitative, rapportata alla radice quadrata del prodotto delle varianze delle due variabili. È limitato tra -1 e 1: Assume valore -1 quando vi è perfetta correlazione negativa tra le due variabili (aumenta x e diminuisce y); Assume valore 0 quando vi è assenza di relazione tra le due variabili; Assume valore 1 quando vi è perfetta interdipendenza positiva tra le due variabili (aumenta x ed aumenta y)

Graficamente abbiamo le seguenti tre situazioni: Il test del coefficiente di correlazione y y y x x x

Il coefficiente di correlazione ha lo stesso numeratore del coefficiente di regressione ed è legato ad esso da formule di transizione. Tuttavia mentre il coefficiente di correlazione è un indice simmetrico (valuta l’interdipendenza, per cui sia x dipende da y che viceversa), il coefficiente di regressione è un indice asimmetrico, in quanto misura la dipendenza lineare di una variabile da un’altra. Ciò comporta la necessità di fare inferenza sulla correlazione tra due variabili, al fine di verificare se esiste o meno una interdipendenza tra i due caratteri. Il test del coefficiente di correlazione

Pertanto nel momento in cui il test sulla significatività del coefficiente di regressione dovesse essere rifiutato, si può procedere cn la verifica di una relazione di tipo lineare tra le due variabili. Indichiamo con R n il coefficiente di correlazione campionario, e assumendo che (X,Y) sia una v.c. Normale Bivariata, il test della significatività del coefficiente di correlazione sarà: H 0 : ρ = ρ 0 contro l’ipotesi alternativa che H 1 : ρ > ρ 0 La RC(α) è T n ≥ t α;n-2 Il test del coefficiente di correlazione

H 0 : ρ = 0 contro l’ipotesi alternativa che H 1 : ρ ≠ 0 La statistica test ottenuta da Fisher sarà: Se è vera H 0, T n ~ F g con g= n-2. Il test del coefficiente di correlazione

La verifica d’ipotesi Docente Dott. Nappo Daniela

Presentazioni simili

Presentazione sul tema: "La verifica d’ipotesi Docente Dott. Nappo Daniela"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

La verifica d’ipotesi Docente Dott. Nappo Daniela

Presentazioni simili

Presentazione sul tema: "La verifica d’ipotesi Docente Dott. Nappo Daniela"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back