La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Lezione 8 Test basati su due campioni Test Chi - quadro Insegnamento: Statistica Corso di Laurea in Matematica Facoltà di Scienze, Università di Ferrara.

Presentazioni simili


Presentazione sul tema: "1 Lezione 8 Test basati su due campioni Test Chi - quadro Insegnamento: Statistica Corso di Laurea in Matematica Facoltà di Scienze, Università di Ferrara."— Transcript della presentazione:

1 1 Lezione 8 Test basati su due campioni Test Chi - quadro Insegnamento: Statistica Corso di Laurea in Matematica Facoltà di Scienze, Università di Ferrara Riferimento bibliografici: Levine, Krehbiel, Berenson (2006): Statistica, II ed., Apogeo. Piccolo D., (2000): Statistica, il Mulino, Bologna.

2 2 Argomenti Confronto tra le medie di due popolazioni indipendenti Confronto tra le medie di due popolazioni non indipendenti Confronto tra le proporzioni di due popolazioni Test Chi-Quadro per la bontà di adattamento Test Chi-Quadro per l’indipendenza

3 3 Confronto tra medie di due pop. indipendenti Consideriamo due popolazioni indipendenti e supponiamo di estrarre un campione di ampiezza n 1 dalla prima popolazione di ampiezza n 2 dalla seconda popolazione Siano μ 1 e μ 2 le medie che caratterizzano rispettiva- mente la prima e la seconda popolazione e si assumano i due scarti quadratici medi σ 1 e σ 2 come noti Si vuole verificare l’ipotesi nulla che le medie delle due popolazioni (indipendenti) sono uguali tra loro H 0 : μ 1 = μ 2 (μ 1 − μ 2 = 0) contro l’ipotesi alternativa H 1 : μ 1 ≠ μ 2 (μ 1 − μ 2 ≠ 0) A questo scopo viene definita la statistica test Z per la differenza tra le due medie

4 4 Confronto tra medie di due pop. indipendenti

5 5 Se si assume che i due campioni siano estratti casualmente ed indipendentemente da due popolazioni normali la statistica Z ha distribuzione normale Se le due popolazioni non hanno distribuzione normale il test Z può essere utilizzato con ampiezza campionarie sufficientemente elevate (n≥30) - in virtù del teorema centrale del limite In molti casi le varianze delle due popolazioni non sono note. Nel caso di grandi campioni le varianze incognite possono essere sostituite con i valori delle varianze campionarie dei due campioni. Se si assume l’ipotesi di omogeneità della varianze (σ 2 1 =σ 2 2 ) con distribuzioni normali; nel caso di piccoli campioni (n < 30) per il confronto tra le medie di due pop. indipendenti si utilizza il test t basato sulle varianze campionarie combinate

6 6 Confronto tra medie di due pop. indipendenti

7 7 Regione di rifiuto e di accettazione per la differenza tra due medie utilizzando la statistica test t basata sulle varianze combinate (test a due code) Quando l’assunzione dell’omogeneità delle varianze non è plausibile occorre fare riferimento al test t con varianze diverse (ricorrendo all’Excel o ad altri software statistici)

8 8 Confronto tra medie di due pop. indipendenti Esempio: confronto tra le vendite settimanali (numero di pezzi venduti) della BLK cola in due gruppi di supermercati, dove il primo adotta la collocazione a scaffale mentre il secondo utilizza uno spazio dedicato

9 9 Confronto tra medie di due pop. indipendenti

10 10 Confronto tra medie di due pop. indipendenti In base al fatto che l’ipotesi alternativa sia nella forma A: H 1 :μ 1 ≠μ 2 oppure B: H 1 :μ 1 μ 2 si parla di test ad una coda e test a due code

11 11 Intervallo di confidenza per la differenza tra le medie di due pop. indipendenti Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due medie sono uguali, possiamo ottenere un intervallo di confidenza per la differenza tra le medie μ 1 e μ 2 delle due popolazioni: Intervallo di confidenza per la differenza (μ 1 −μ 2 ) (10.3) dove t n1−n2−2;α/2 è il valore critico a cui corrisponde un’area cumulata pari a (1−α/2) della distribuzione t di Student con (n 1 −n 2 −2) gradi di libertà.

12 12 Ci sono situazioni in cui le due popolazioni poste a confronto non sono indipendenti di modo che il campione estratto dalla prima popolazione non è indipendente dal campione estratto dalla seconda: 1.campioni appaiati (individui o casi che condividono una stessa caratteristica) 2.misurazioni ripetute (stesso insieme di individui o casi) L’attenzione si sposta sulla differenze tra i valori nei due campioni: Confronto tra medie di 2 pop. non indipendenti

13 13 Confronto tra medie di 2 pop. non indipendenti Statistica test Z per la media delle differenze (10.4) Quindi verificare l’ipotesi di uguaglianza delle medie μ 1 e μ 2 di due popolazioni non indipendenti equivale a verificare ipotesi di uguaglia a zero della media della differenza D tra le due popolazioni, cioè H 0 : μ D =0. Se lo scarto quadratico medio della popolazione delle differenze σ D è noto, allora il test di riferimento è basato sulla statistica Z. In caso σ D sia ignoto si può fare ricorso al test t su campioni appaiati. Statistica test t per la media delle differenze (10.5)

14 14 Confronto tra medie di 2 pop. non indipendenti Esempio: Misurazioni ripetute del tempo (in secondi) di elaborazione di un progetto utilizzando due diversi software

15 15 Confronto tra medie di 2 pop. non indipendenti Test t a una coda per la differenza tra le medie di due popolazioni non indipendenti a un livello di significatività pari a 0.05 e con 9 gradi di libertà

16 16 Intervallo di confidenza per la differenza tra le medie di due pop. non indipendenti Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due medie sono uguali, possiamo ottenere un intervallo di confidenza per la differenza μ D : Intervallo di confidenza per la differenza tra le medie di due popolazioni non indipendenti (10.6) dove t n−1;α/2 è il valore critico a cui corrisponde un’area cumulata pari a (1−α/2) della distribuzione t di Student con (n−1) gradi di libertà

17 17 Spesso si è interessati a effettuare confronti e ad analizzare differenze tra due popolazioni con riferimento alla proporzione di casi con una certa caratteristica Per confrontare due proporzioni sulla base dei risultati di due campioni si può ricorrere al test Z per la differenza tra due proporzioni, la cui statistica test ha distribuzione approssimativamente normale quando le ampiezza campionarie sono sufficientemente elevate Statistica Z per la differenza tra due proporzioni (10.7) Confronto tra le proporzioni di due popolazioni

18 18 A seconda di come è formulata l’ipotesi alternativa avremo un test a due code (H 1 : π 1 ≠ π 2 (π 1 −π 2 ≠ 0)) o un test a una coda (ipotesi direzionali: H 1 : π 1 > π 2 (π 1 −π 2 > 0) oppure H 1 : π 1 < π 2 (π 1 −π 2 < 0)) Esempio La catena di alberghi TC Resort è interessata a valutare se esiste differenza tra la proporzione di clienti che intendono visitare nuovamente due dei suoi alberghi. Vengono campionati 227 clienti nel primo albergo e 262 dal secondo di cui 163 si dicono disposti a ritornare nel primo campione, 154 nel secondo. Adottando un livello di significatività pari a 0.05 si può affermare che nei due alberghi esiste una differenza tra la proporzione di coloro che sono disposti a ritornare? Confronto tra le proporzioni di due popolazioni

19 19 Confronto tra le proporzioni di due popolazioni Z= + 3,01 > +1,96 perciò si rifiuta H 0 concludendo che le percentuali sono diverse

20 20 Intervallo di confidenza per la differenza tra due proporzioni Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due proporzioni sono uguali, possiamo utilizzare l’equazione (10.8) per ottenere un intervallo di confidenza per la differenza tra le due proporzioni Intervallo di confidenza per la differenza tra due proporzioni (10.8)

21 21 Il test Chi-quadro La distribuzione Chi-quadro ha numerose applicazioni in statistica, in particolare in verifica d’ipotesi ne faremo uso con dati disponibili sotto forma di frequenze. Test di adattamento (goodness of fit) e test d’indipendenza Test Chi-quadro di adattamento: studiano la bontà di adattamento delle frequenze osservate rispetto alle frequenze che si presume dovrebbero verificarsi sotto una qualche ipotesi. Il termine “bontà di adattamento” viene di solito usato in senso stretto (confronto tra la distribuzione osservata e teorica)

22 22 Test Chi-quadro di adattamento Test sulla bontà di adattamento: si vuole verificare se una certa distribuzione è compatibile con i dati del campione. Supponiamo di avere un campione di n osservazioni di una variabile raggruppate in una tabella contenente k classi. Classi possono rappresentare: Caratteristiche qualitative Valori assunti da una variabile discreta (ogni classe raggruppa tutte le osservazioni che assumono un dato valore Intervalli di valori di una variabile continua

23 23 Test Chi-quadro di adattamento Tabella: rappresenta la distribuzione di frequenza di una variabile qualitativa o di una variabile numerica discreta o continua. Per ciascuna classe supponiamo di avere una frequenza osservata (O i ) ed una frequenza attesa (A i ) con cui si vuole confrontare la frequenza osservata. Le frequenze attese sono quelle che si osserverebbero se i dati del campione fossero distribuiti secondo la distribuzione ipotizzata. Per valutare quantitativamente la bontà dell’adattamento delle frequenze osservate alle frequenze attese si utilizza la statistica test Chi- quadro calcolata dal campione.

24 24 Statistica test Chi-quadro Si dimostra che per n sufficientemente grande tale statistica si distribuisce come una v. c. chi-quadro con grado di libertà v=k-m- 1. k è il numero delle classi. m è il numero dei parametri della distribuzione teorica stimati servendosi dei dati del campione. Se l’ipotesi nulla è che i dati si adattino alla distribuzione teorica ipotizzata la regola di decisione sarà: si rifiuti H 0 se il valore della statistica test calcolato dai dati è maggiore del valore critico α è il livello di significatività stabilito Il grado di libertà della distribuzione è v=k-m-1 Tale procedura è valida purché le frequenze assolute attese siano tutte maggiori o uguali a 5.

25 25 Test Chi–quadro di indipendenza Il test Chi-quadro può essere utilizzato anche per verificare l’indipendenza o meno di due variabili. Si sottopone a test l’ipotesi nulla che due criteri di classificazione, quando applicati al medesimo insieme di dati, siano indipendenti. Due criteri di classificazione sono indipendenti se la distribuzione rispetto ad un criterio non viene influenzata dalla classificazione rispetto all’altro. Se rifiutiamo l’ipotesi nulla allora i due criteri di classificazione sono dipendenti. Si dispongono in generale di n osservazioni congiunte di due variabili e ci chiediamo se esiste una forma di dipendenza tra le due variabili. Tale osservazioni sono raccolte in forma di tavole di contingenza: n osservazioni sono classificate secondo un criterio X (ossia secondo il valore di una certa variabile) in r classi e contemporaneamente sono classificate secondo un criterio Y (ossia secondo i valori assunti dall’altra variabile) in c classi; la tabella riporta all’incrocio di ogni riga con ogni colonna la frequenza assoluta O ij.

26 26 Tabelle di contingenza Classi c Classi1O 11 O 12 O O 1c 2O 21 O 22 O O 2c 3O 31 O 32 O O 3c... cO r1 O r2 O r3... O rc Partendo da questa tabella si costruisce la tabella delle frequenze attese A ij che si ottengono con la seguente:

27 27 Test Chi-quadro di indipendenza Per n sufficientemente grande la statistica test chi- quadro ha approssimativamente la distribuzione chi- quadro con grado di libertà v = (r-1)(c-1) La regola decisionale consiste nel rifiutare H 0 se il valore osservato della statistica  2 è maggiore del valore critico  2 U della distribuzione  2 con (r−1)  (c−1) gdl. Tale procedura è valida purché le frequenze assolute attese siano tutte maggiori o uguali a 5.

28 28 Test Chi-quadrato per l’indipendenza Esempio: tabella della frequenze osservate con riferimento al principale motivo di insoddisfazione e all’albergo Frequenze attese

29 29 Test Chi-quadrato per l’indipendenza Calcolo della statistica χ 2 per il test di indipendenza

30 30 Test Chi-quadrato per l’indipendenza Regione di rifiuto e di accettazione del test χ 2 per l’indipendenza nell’esempio sulla soddisfazione dei clienti (al livello di significatività 0.05 con 6 gradi di libertà)

31 31 Test Chi-quadrato per l’indipendenza Foglio di Microsoft Excel con i calcoli necessari per la verifica dell’ipotesi di indipendenza tra motivo di insoddisfazione e albergo


Scaricare ppt "1 Lezione 8 Test basati su due campioni Test Chi - quadro Insegnamento: Statistica Corso di Laurea in Matematica Facoltà di Scienze, Università di Ferrara."

Presentazioni simili


Annunci Google