La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Test dIpotesi Corso di Teoria dellInferenza Statistica a.a. 2007/2008 Secondo Periodo Prof. Filippo DOMMA Corso di Laurea in MQEGA (Metodi Quantitativi.

Presentazioni simili


Presentazione sul tema: "Test dIpotesi Corso di Teoria dellInferenza Statistica a.a. 2007/2008 Secondo Periodo Prof. Filippo DOMMA Corso di Laurea in MQEGA (Metodi Quantitativi."— Transcript della presentazione:

1 Test dIpotesi Corso di Teoria dellInferenza Statistica a.a. 2007/2008 Secondo Periodo Prof. Filippo DOMMA Corso di Laurea in MQEGA (Metodi Quantitativi per lEconomia e la Gestione delle Aziende) Facoltà di Economia – UniCal

2 Test d'IpotesiF. Domma2 Il test statistico è una decisione operativa presa sulla base di risultati sperimentali, tenendo conto di considerazioni probabilistiche. La problematica del test può essere suddivisa in tre fasi: a. formulare una ipotesi sulla v.c. X; b. osservare il campione casuale; c. in base ai risultati campionari decidere se accettare o rifiutare lipotesi fatta.

3 Test d'IpotesiF. Domma3 Definizione. Unipotesi statistica è una affermazione sulla distribuzione di una o più variabili casuali. Se lipotesi statistica specifica completamente la distribuzione della v.c. allora lipotesi è detta semplice; in caso contrario, viene chiamata ipotesi statistica composta. Le ipotesi verranno indicate con la lettera H. Esempi. Data una v.c. X~N(,9) a. lipotesi H: =15 è semplice perché specifica completamente la distribuzione della v.c. X; b. lipotesi H: >15 è composta.

4 Test d'IpotesiF. Domma4 Dato un modello parametrico M={ X, P }, sia 0 un sottoinsieme dello spazio parametrico. Si vuole verificare dove e Ipotesi NULLA Ipotesi ALTERNATIVA Lipotesi statistica riguardante la v.c. X e, quindi, il parametro, implica una bipartizione dello spazio parametrico in due regioni, 0 e 1, di cui una rappresenta lipotesi nulla H 0 e la complementare rappresenta lalternativa H 1. Prima Fase. contro

5 Test d'IpotesiF. Domma5 Seconda Fase: consiste nellestrazione dallo spazio campionario del campione x=(x 1,…,x n ). Terza Fase (prendere una decisione su H): viene condotta sullo spazio campionario. Più precisamente, si suddivide lo spazio campionario in due regioni, C 0 e C 1 tali che e SeAllora si accetta H 0 SeAllora si rifiuta H 0

6 Test d'IpotesiF. Domma6 Definizione. Sia C 0 quel sottoinsieme dello spazio campionario che in accordo con un prefissato test, conduce al rifiuto dellipotesi H 0, se il campione osservato x appartiene a C 0. Allora C 0 è detta regione critica ( o di rifiuto) del test.

7 Test d'IpotesiF. Domma7 In sintesi, le fasi di un test possono essere così rappresentate: Da ciò deriva che la regola di decisione se accettare o rifiutare H 0 è una bipartizione dello spazio campionario. Spazio parametrico Spazio campionario C0C0 C1C1 Regione Critica Regione di Accettazione Se x appartiene a C 1 allora accetto H 0 Se x appartiene a C 0 allora rifiutoH 0

8 Test d'IpotesiF. Domma8 Possiamo concludere affermando che: il test è una corrispondenza tra lo spazio campionario e lo spazio parametrico, dove il primo è suddiviso in due regioni (C 0 e C 1 ) secondo la regola di decisione ( è il fulcro del test ), mentre lo spazio parametrico è diviso in due regioni ( 0 e 1 ) a seconda delle ipotesi da verificare. Naturalmente, la corrispondenza tra X e ha senso solo se valutata in termini probabilistici. Quindi, dobbiamo chiederci qual è la probabilità che il campione appartenga, ad esempio, alla regione critica, cioè: i=0,1, la quale può essere calcolata assumendo vera una delle ipotesi.

9 Test d'IpotesiF. Domma9 In tale contesto, si possono avere quattro situazioni possibili, ottenute dalla combinazione dei due stati di natura (H 0 vera, H 0 falsa) con le due azioni possibili (accetto H 0, rifiuto H 0 ), cioè

10 Test d'IpotesiF. Domma10 Descrizione degli eventi: G 1 : in base al campione decido di accettare H 0 e H 0 è vera; G 2 : in base al campione decido di rifiutare H 0 e H 0 è falsa; E 1 : in base al campione decido di rifiutare H 0 e H 0 è vera; E 2 : in base al campione decido di accettare H 0 e H 0 è falsa; Probabilità degli eventi:

11 Test d'IpotesiF. Domma11 Spesso E 1 viene definito come errore di primo tipo ed E 2 errore di secondo tipo. Concludendo si ha:

12 Test d'IpotesiF. Domma12 Definizione. Funzione di Potenza. La funzione di potenza di un test di unipotesi statistica H 0 contro unipotesi alternativa H 1, è quella funzione, definita per tutte le distribuzioni sotto considerazione (le ipotesi), che fornisce la probabilità che il campione cada nella regione critica C 0 del test, cioè una funzione che fornisce la probabilità di rifiutare lipotesi sotto considerazione. Il valore della funzione di potenza in corrispondenza di un punto dello spazio parametrico è detta potenza del test. Formalizzando abbiamo:

13 Test d'IpotesiF. Domma13 Definizione. Livello di significatività. Il livello di significatività del test (o ampiezza della regione critica C 0 ) è il valore massimo della funzione di potenza del test quando H 0 è vera. Cioè: Se H 0 è definita come : H 0 : = 0 Se H 0 è definita come : H 0 : 0

14 Test d'IpotesiF. Domma14 Si può osservare che lipotesi H 0 riflette, in generale, la situazione precedente allesperimento campionario, nel senso che accettando H 0 la situazione non cambia. E dal rifiuto di H 0 che bisogna cautelarsi in quanto tale rifiuto implica una modifica delle condizioni e delle acquisizioni ritenute valide in precedenza, il che implica per lo più costi, rischi, modifiche tecniche, nuove procedure operative, …ecc.. In tal modo si ritiene preferibile commettere un errore non modificando la realtà (errore di secondo tipo) piuttosto che correre il rischio di errare modificando la realtà (errore di primo tipo). Esempio. In un giudizio penale, limputato è innocente fino a prova contraria. E fondamentale che per il giudice sia H 0 lipotesi che egli sia innocente. Secondo questa logica si ritiene ben più grave condannare un innocente (errore di I tipo) che assolvere un colpevole (errore di II tipo).

15 Test d'IpotesiF. Domma15 Nel tentativo di definire un buon test, la ricerca va orientata verso il contenimento probabilistico degli errori, dando maggiore rilevanza allerrore di I tipo, senza ovviamente trascurare quello di II tipo. Un metodo per definire un test ottimale consiste nel fissare lampiezza derrore di I tipo e minimizzare lampiezza derrore di II tipo.

16 Test d'IpotesiF. Domma16 Regione critica migliore di ampiezza Definizione. Sia C 0 un sottoinsieme dello spazio campionario. Allora C 0 è detta regione critica migliore di ampiezza, per verificare lipotesi semplice H 0 : = 0 contro lipotesi semplice H 1 : = 1 se, per ogni sottoinsieme A dello spazio campionario per il quale Si ha:

17 Test d'IpotesiF. Domma17 In altri termini C 0 è la regione critica migliore di ampiezza se tra tutte le altre regioni critiche della stessa ampiezza, possiede potenza maggiore o uguale rispetto a tutte le altre regioni critiche. Il test basato su una regione critica migliore è chiamato test più potente.

18 Test d'IpotesiF. Domma18 Teorema. (di Neyman e Pearson). Sia X=(X 1,…,X n ) un c.c. iid estratto da f(x; ). Sia L( ;x) la funzione di verosimiglianza di x. Siano 1 e 2 due valori fissati e distinti di tali che ={ : = 1 oppure = 2 }; sia, infine, K un numero positivo. Se C 0 è un sottoinsieme dello spazio campionario tale che: Allora C 0 è una regione critica migliore di ampiezza per verificare lipotesi H 0 : = 1 contro lipotesi H 1 : = 2.

19 Test d'IpotesiF. Domma19 Dimostrazione.

20 Test d'IpotesiF. Domma20 Non sempre bisogna individuare C 0 e k che soddisfano le condizioni poste dal teorema. Spesso si riesce a trasformare la disuguaglianza (i) in una disuguaglianza che riguarda una particolare statistica. Esempio.

21 Test d'IpotesiF. Domma21 Test del Rapporto di Verosimiglianza Generalizzato Sia (X 1,…,X n ) un c.c. iid estratto da f(x; ). Supponiamo di voler effettuare il seguente test: contro dove e

22 Test d'IpotesiF. Domma22 Definizione. Rapporto di verosimiglianza Generalizzato. Sia L( ; x) la funzione di verosimiglianza di un campione x. Si definisce rapporto di verosimiglianza generalizzato la quantità:

23 Test d'IpotesiF. Domma23 Osservazioni: 1. (x) è una funzione del campione osservato x. Sostituendo a x il c.c. X otteniamo (X) è una statistica in quanto non dipende dai valori del parametro. 2. I valori di (x) appartengono allintervallo [0,1]. 3. I valori della statistica (X) sono usati per il seguente test: contro Tramite il rapporto di verosimiglianza si stabilisce che:

24 Test d'IpotesiF. Domma24 Dove 0 è una costante determinata dal livello di significatività del test. Il test del rapporto di verosimiglianza generalizzato ha senso anche intuitivamente in quanto (x) tende ad essere piccolo quando H 0 non è vera, dato che il denominatore tende ad essere maggiore del numeratore. Per un livello di significatività fissato il corrispondente valore di 0 tale che può essere determinato in modo esatto solo se è nota la distribuzione campionaria della statistica (X), in altri casi è necessario far riferimento ad approssimazioni per grandi campioni.

25 Test d'IpotesiF. Domma25 Esempio.

26 Test d'IpotesiF. Domma26 Teorema. Sia X 1, X 2,… una successione di v.c. iid estratta da f(x; ). Consideriamo il test H 0 : = 0 contro H 1 : 0 Assumiamo che la sequenza delle radici dellequazione di verosimiglianza siano consistenti e che siano vere le condizioni di regolarità per la normalità asintotica degli stimatori di massima verosimiglianza. Allora, sotto H 0 E evidente che si rifiuta H 0 se -2ln{ (x)} è elevato. In particolare, fissato, se

27 Test d'IpotesiF. Domma27 Teorema. Sia X 1, X 2,… una successione di v.c. iid estratta da f(x; ). =( 1,…, k ) k Consideriamo il test Se sono soddisfatte alcune condizioni di regolarità, allora, sotto H 0 dove Sono valori noti Non sono specificati

28 Test d'IpotesiF. Domma28 Test di Significatività a) Individuare una statistica (test) che si comporta in modo diverso sotto le due ipotesi H 0 e H 1 ; b) utilizzare il diverso comportamento della statistica per definire il test. Esempio. Dato un c.c. di dimensione 20 estratto da un v.c. N(,1), si vuole verificare se H 0 : =10 contro H 1 : =15 Consideriamo la STATISTICA TEST media campionaria; sappiamo che:

29 Test d'IpotesiF. Domma29 Graficamente si ha:

30 Test d'IpotesiF. Domma30 1. Osservato il valore della media campionaria 2. Possibili eventi tra 10 e 15 sono: G 1 : accetto H 0 e H 0 è vera; G 2 : rifiuto H 0 e H 0 è falsa; E 1 : rifiuto H 0 e H 0 è vera; E 2 : accetto H 0 e H 0 è falsa H0H0 H1H1

31 Test d'IpotesiF. Domma31 3. Problema: costruire una regione (critica) C 0 tale che: significa individuare, con qualche criterio, un punto (detto punto critico) tra 10 e 15 in modo tale che: H0H0 H1H1 C0C0

32 Test d'IpotesiF. Domma32 Fissato, sappiamo che Nel caso dellesempio, fissato, si ha: dove Si individua dalle tavole della N(0,1)

33 Test d'IpotesiF. Domma33 Punto critico è dato da: E il confine tra la Regione Critica e la Regione di Accettazione.

34 Test d'IpotesiF. Domma34 Fasi per la costruzione di un Test di Significatività: 1. Si formulano le ipotesi; 2. Si individua la statistica test; 3. Si fissa il livello di significatività; 4. Si determinano i punti critici; 5. Si costruisce la regione critica; 6. Si estrae il campione e si verifica se il valore della statistica test appartiene oppure non appartiene alla regione critica; 7. Si decide se accettare o rifiutare lipotesi nulla.

35 Test d'IpotesiF. Domma35 TEST sui parametri di una v.c. NORMALE Dato un c.c. iid di dimensione n, estratto da un v.c. N(, 2 0 ), si vuole verificare se H 0 : = contro H 1 : = con La STATISTICA TEST media campionaria è tale che

36 Test d'IpotesiF. Domma36 GRAFICO

37 Test d'IpotesiF. Domma37 Fissato, determiniamo il punto critico dove Si individua dalle tavole della N(0,1)

38 Test d'IpotesiF. Domma38 Da questultima il punto critico risulta essere: E, quindi, la regione critica è: Osservato il campione, si calcola la media campionaria

39 Test d'IpotesiF. Domma39 Calcolo della probabilità derrore di II tipo: Dato che esono per ipotesi noti È stato calcolato in precedenza allora È noto, quindi, dalle tavole possiamo calcolare

40 Test d'IpotesiF. Domma40 Calcolo della potenza del test: Dove

41 Test d'IpotesiF. Domma41 Si evidenzia che i due errore, e, sono legati da una relazione inversa: - Al diminuire di, il punto critico si sposta a destra e, quindi, aumenta; - al diminuire di, il punto critico si sposta a sinistra e, quindi, aumenta

42 Test d'IpotesiF. Domma42 Per diminuire contemporaneamente i due errori, bisogna aumentare la dimensione campionaria; infatti: abbiamo: dove Dato che il punto critico è maggiore di 0, allaumentare di n, z aumenta e, quindi, (z ) aumenta. Di conseguenza, diminuisce.

43 Test d'IpotesiF. Domma43 Al contrario, per lerrore di secondo tipo, si ha: dove Dato che il punto critico è minore di 1, allaumentare di n, z diminuisce e, quindi, (z )= diminuisce.

44 Test d'IpotesiF. Domma44 TEST sulla media di una v.c. NORMALE Dato un c.c. iid di dimensione n, estratto da un v.c. N(, 2 0 ), si vuole verificare se H 0 : = contro H 1 : Alternativa BILATERALE La STATISTICA TEST media campionaria è tale che

45 Test d'IpotesiF. Domma45 Intuitivamente rifiutiamo H 0 per valori della media campionaria molto più grandi di 0 oppure molto più piccoli di 0. In questo caso si individuano due punti critici e tali che rifiutiamo H 0

46 Test d'IpotesiF. Domma46 Determinazione dei punti critici. Fissato lerrore di I tipo, ripartiamo sulle code in modo tale che: Dalle tavole della N(0,1), calcoliamo e

47 Test d'IpotesiF. Domma47 Regione di rifiuto è data da La regione critica può essere espressa anche nel seguente modo: dove

48 Test d'IpotesiF. Domma48 La funzione di potenza del test dipende da

49 Test d'IpotesiF. Domma49 Esempio

50 Test d'IpotesiF. Domma50 TEST sulla media di una v.c. NORMALE Dato un c.c. iid di dimensione n, estratto da un v.c. N(, 2 ), con varianza sconosciuta, si vuole verificare se H 0 : = contro H 1 : Alternativa BILATERALE La STATISTICA TEST media campionaria è tale che Dato che la varianza è sconosciuta, la media campionaria non può essere utilizzata come statistica-test.

51 Test d'IpotesiF. Domma51 Sotto H 0 Fissato, ripartendo lerrore di primo tipo sulle code, si ha:

52 Test d'IpotesiF. Domma52 dove Dalle tavole della t-student si evince che I punti critici risultano:

53 Test d'IpotesiF. Domma53 La regione critica può essere espressa anche nel seguente modo: dove In definitiva la regione critica risulta essere:

54 Test d'IpotesiF. Domma54 Estratto il campione x=(x 1,…,x n ), si calcola la media campionaria e la varianza campionaria e si verifica se :

55 Test d'IpotesiF. Domma55 Esempio. Una grande catena nazionale di punti vendita di articoli per la casa effettua una svendita di fine stagione di tosaerba. Il numero di tosaerba vendute durante questa liquidazione, in un campione di dieci negozi, è il seguente: 8, 11, 0, 4, 7, 8, 10, 5, 8, 3. Vi sono elementi per sostenere, ad un livello di significatività di 0.05, che durante questa svendita in media siano state svendute più di 5 tosaerba per negozio ? Assumete che il numero di tosaerba sia normalmente distribuito.

56 Test d'IpotesiF. Domma56 Dualità tra Intervalli di Confidenza al 100(1- )% e Test di Significatività al livello. Dato un c.c. iid di dimensione n, estratto da un v.c. N(, 2 0 ), con varianza nota, si vuole verificare se H 0 : = contro H 1 : Alternativa BILATERALE Regione critica Regione di Accettazione

57 Test d'IpotesiF. Domma57 LIntervallo di confidenza per è: Se H 0 : = 0 e 0 appartiene allI.C. allora accettiamo H 0 ; infatti, si ha: Vale il viceversa.

58 Test d'IpotesiF. Domma58 TEST sulla varianza di una v.c. NORMALE Dato un c.c. iid di dimensione n, estratto da un v.c. N(, 2 ), con media e varianza sconosciute, si vuole verificare se H 0 : = contro H 1 : Alternativa UNILATERALE In tale contesto, sotto H 0 sappiamo che

59 Test d'IpotesiF. Domma59 Fissato, la regione critica è: dove e

60 Test d'IpotesiF. Domma60 Esempio. Si consideri una popolazione statistica adattata da una v.v. Normale con media e varianza incognite. Si estrae un c.c. di numerosità n=16 E si determina il valore della varianza campionaria, s 2 =25. Si sottoponga a test unilaterale lipotesi nulla che la varianza della popolazione sia pari a 23 ad un livello di significatività dell1%.

61 Test d'IpotesiF. Domma61 TEST sulla differenza tra le medie di due v.c. NORMALI Siano X ed Y due v.c. indipendenti e normalmente distribuite, cioè

62 Test d'IpotesiF. Domma62 Posto = x - y si vuole costruire il seguente test contro Primo caso: e note Stimatore naturale della differenza tra le medie Abbiamo visto che:

63 Test d'IpotesiF. Domma63 Sotto H 0 Rifiutiamo H 0 se i valori di D sono molto diversi dallo zero.

64 Test d'IpotesiF. Domma64 Fissato, calcoliamo i punti critici: dove

65 Test d'IpotesiF. Domma65 Dalle tavole della N(0,1), si ha: Sostituendo otteniamo i punti critici: La regione critica è data da: con

66 Test d'IpotesiF. Domma66 Secondo caso: varianze sconosciute ma uguali Stimatore naturale della differenza tra le medie Si ha, inoltre, che Sotto H 0 la quantità non è una statistica – test perché è un parametro sconosciuto.

67 Test d'IpotesiF. Domma67 Per quanto detto nelle lezioni sugli Intervalli di confidenza, la quantità dove

68 Test d'IpotesiF. Domma68 Sotto H 0 la quantità È una statistica –test per verificare le ipotesi con = x - y. contro

69 Test d'IpotesiF. Domma69 Fissato, calcoliamo i punti critici: dove

70 Test d'IpotesiF. Domma70 Dalle tavole della t-Student, si ha: Sostituendo otteniamo i punti critici: La regione critica è data da: con

71 Test d'IpotesiF. Domma71 Esempio. Per provare lutilità terapeutica di due nuovi farmaci, A e B, un gruppo di ricercatori sperimenta entrambi su un gruppo casuale di 10 soggetti. I risultati sperimentali, misurati utilizzando un determinato indice, sono I seguenti: farmaco A: 25, 46, 39, 60, 24, 23, 38, 42, 50, 46 farmaco B: 43, 29, 38, 51, 44, 28, 23, 20, 56, 55 Supponendo che lutilità terapeutica possa essere adattata statisticamente da distribuzioni normali e che le varianze delle due popolazioni siano uguali, determinare un intervallo di confidenza per la differenza delle utilità terapeutiche medie dei due farmaci al livello di confidenza del 99%. Inoltre, stabilire se la differenza tra le utilità medie è significativamente diversa da zero.


Scaricare ppt "Test dIpotesi Corso di Teoria dellInferenza Statistica a.a. 2007/2008 Secondo Periodo Prof. Filippo DOMMA Corso di Laurea in MQEGA (Metodi Quantitativi."

Presentazioni simili


Annunci Google