Test basati su due campioni Test Chi - quadro

Test basati su due campioni Test Chi - quadro
Riferimento bibliografici: Levine, Krehbiel, Berenson (2006): Statistica, II ed., Apogeo. Piccolo D., (2000): Statistica, il Mulino, Bologna. Lezione 8 Test basati su due campioni Test Chi - quadro Insegnamento: Statistica Corso di Laurea in Matematica Facoltà di Scienze, Università di Ferrara

Argomenti Confronto tra le medie di due popolazioni indipendenti
Confronto tra le medie di due popolazioni non indipendenti Confronto tra le proporzioni di due popolazioni Test Chi-Quadro per la bontà di adattamento Test Chi-Quadro per l’indipendenza

Confronto tra medie di due pop. indipendenti
Consideriamo due popolazioni indipendenti e supponiamo di estrarre un campione di ampiezza n1 dalla prima popolazione di ampiezza n2 dalla seconda popolazione Siano μ1 e μ2 le medie che caratterizzano rispettiva-mente la prima e la seconda popolazione e si assumano i due scarti quadratici medi σ1 e σ2 come noti Si vuole verificare l’ipotesi nulla che le medie delle due popolazioni (indipendenti) sono uguali tra loro H0: μ1 = μ2 (μ1 − μ2 = 0) contro l’ipotesi alternativa H1: μ1 ≠ μ2 (μ1 − μ2 ≠ 0) A questo scopo viene definita la statistica test Z per la differenza tra le due medie

Se si assume che i due campioni siano estratti casualmente ed indipendentemente da due popolazioni normali la statistica Z ha distribuzione normale Se le due popolazioni non hanno distribuzione normale il test Z può essere utilizzato con ampiezza campionarie sufficientemente elevate (n≥30) - in virtù del teorema centrale del limite In molti casi le varianze delle due popolazioni non sono note. Nel caso di grandi campioni le varianze incognite possono essere sostituite con i valori delle varianze campionarie dei due campioni. Se si assume l’ipotesi di omogeneità della varianze (σ21=σ22) con distribuzioni normali; nel caso di piccoli campioni (n < 30) per il confronto tra le medie di due pop. indipendenti si utilizza il test t basato sulle varianze campionarie combinate

Regione di rifiuto e di accettazione per la differenza tra due medie utilizzando la statistica test t basata sulle varianze combinate (test a due code) Quando l’assunzione dell’omogeneità delle varianze non è plausibile occorre fare riferimento al test t con varianze diverse (ricorrendo all’Excel o ad altri software statistici)

Esempio: confronto tra le vendite settimanali (numero di pezzi venduti) della BLK cola in due gruppi di supermercati, dove il primo adotta la collocazione a scaffale mentre il secondo utilizza uno spazio dedicato

In base al fatto che l’ipotesi alternativa sia nella forma A: H1:μ1≠μ2 oppure B: H1:μ1<μ2 o C: H1:μ1>μ2 si parla di test ad una coda e test a due code

Intervallo di confidenza per la differenza tra le medie di due pop
Intervallo di confidenza per la differenza tra le medie di due pop. indipendenti Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due medie sono uguali, possiamo ottenere un intervallo di confidenza per la differenza tra le medie μ1 e μ2 delle due popolazioni: Intervallo di confidenza per la differenza (μ1−μ2) (10.3) dove tn1−n2−2;α/2 è il valore critico a cui corrisponde un’area cumulata pari a (1−α/2) della distribuzione t di Student con (n1−n2−2) gradi di libertà.

Confronto tra medie di 2 pop. non indipendenti
Ci sono situazioni in cui le due popolazioni poste a confronto non sono indipendenti di modo che il campione estratto dalla prima popolazione non è indipendente dal campione estratto dalla seconda: campioni appaiati (individui o casi che condividono una stessa caratteristica) misurazioni ripetute (stesso insieme di individui o casi) L’attenzione si sposta sulla differenze tra i valori nei due campioni:

Quindi verificare l’ipotesi di uguaglianza delle medie μ1 e μ2 di due popolazioni non indipendenti equivale a verificare ipotesi di uguaglia a zero della media della differenza D tra le due popolazioni, cioè H0: μD=0. Se lo scarto quadratico medio della popolazione delle differenze σD è noto, allora il test di riferimento è basato sulla statistica Z. In caso σD sia ignoto si può fare ricorso al test t su campioni appaiati. Statistica test Z per la media delle differenze (10.4) Statistica test t per la media delle differenze (10.5)

Esempio: Misurazioni ripetute del tempo (in secondi) di elaborazione di un progetto utilizzando due diversi software

Test t a una coda per la differenza tra le medie di due popolazioni non indipendenti a un livello di significatività pari a 0.05 e con 9 gradi di libertà

Intervallo di confidenza per la differenza tra le medie di due pop
Intervallo di confidenza per la differenza tra le medie di due pop. non indipendenti Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due medie sono uguali, possiamo ottenere un intervallo di confidenza per la differenza μD: Intervallo di confidenza per la differenza tra le medie di due popolazioni non indipendenti (10.6) dove tn−1;α/2 è il valore critico a cui corrisponde un’area cumulata pari a (1−α/2) della distribuzione t di Student con (n−1) gradi di libertà

Confronto tra le proporzioni di due popolazioni
Spesso si è interessati a effettuare confronti e ad analizzare differenze tra due popolazioni con riferimento alla proporzione di casi con una certa caratteristica Per confrontare due proporzioni sulla base dei risultati di due campioni si può ricorrere al test Z per la differenza tra due proporzioni, la cui statistica test ha distribuzione approssimativamente normale quando le ampiezza campionarie sono sufficientemente elevate Statistica Z per la differenza tra due proporzioni (10.7)

A seconda di come è formulata l’ipotesi alternativa avremo un test a due code (H1: π1 ≠ π2 (π1−π2 ≠ 0)) o un test a una coda (ipotesi direzionali: H1: π1 > π2 (π1−π2 > 0) oppure H1: π1 < π2 (π1−π2 < 0)) Esempio La catena di alberghi TC Resort è interessata a valutare se esiste differenza tra la proporzione di clienti che intendono visitare nuovamente due dei suoi alberghi. Vengono campionati 227 clienti nel primo albergo e 262 dal secondo di cui 163 si dicono disposti a ritornare nel primo campione, 154 nel secondo. Adottando un livello di significatività pari a 0.05 si può affermare che nei due alberghi esiste una differenza tra la proporzione di coloro che sono disposti a ritornare?

Z= + 3,01 > +1,96 perciò si rifiuta H0 concludendo che le percentuali sono diverse

Intervallo di confidenza per la differenza tra due proporzioni
Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due proporzioni sono uguali, possiamo utilizzare l’equazione (10.8) per ottenere un intervallo di confidenza per la differenza tra le due proporzioni Intervallo di confidenza per la differenza tra due proporzioni (10.8)

Il test Chi-quadro La distribuzione Chi-quadro ha numerose applicazioni in statistica, in particolare in verifica d’ipotesi ne faremo uso con dati disponibili sotto forma di frequenze. Test di adattamento (goodness of fit) e test d’indipendenza Test Chi-quadro di adattamento: studiano la bontà di adattamento delle frequenze osservate rispetto alle frequenze che si presume dovrebbero verificarsi sotto una qualche ipotesi. Il termine “bontà di adattamento” viene di solito usato in senso stretto (confronto tra la distribuzione osservata e teorica)

Test Chi-quadro di adattamento
Test sulla bontà di adattamento: si vuole verificare se una certa distribuzione è compatibile con i dati del campione. Supponiamo di avere un campione di n osservazioni di una variabile raggruppate in una tabella contenente k classi. Classi possono rappresentare: Caratteristiche qualitative Valori assunti da una variabile discreta (ogni classe raggruppa tutte le osservazioni che assumono un dato valore Intervalli di valori di una variabile continua

Test Chi-quadro di adattamento
Tabella: rappresenta la distribuzione di frequenza di una variabile qualitativa o di una variabile numerica discreta o continua. Per ciascuna classe supponiamo di avere una frequenza osservata (Oi) ed una frequenza attesa (Ai) con cui si vuole confrontare la frequenza osservata. Le frequenze attese sono quelle che si osserverebbero se i dati del campione fossero distribuiti secondo la distribuzione ipotizzata. Per valutare quantitativamente la bontà dell’adattamento delle frequenze osservate alle frequenze attese si utilizza la statistica test Chi-quadro calcolata dal campione.

Statistica test Chi-quadro
Si dimostra che per n sufficientemente grande tale statistica si distribuisce come una v. c. chi-quadro con grado di libertà v=k-m-1. k è il numero delle classi. m è il numero dei parametri della distribuzione teorica stimati servendosi dei dati del campione. Se l’ipotesi nulla è che i dati si adattino alla distribuzione teorica ipotizzata la regola di decisione sarà: si rifiuti H0 se il valore della statistica test calcolato dai dati è maggiore del valore critico α è il livello di significatività stabilito Il grado di libertà della distribuzione è v=k-m-1 Tale procedura è valida purché le frequenze assolute attese siano tutte maggiori o uguali a 5.

Test Chi–quadro di indipendenza
Il test Chi-quadro può essere utilizzato anche per verificare l’indipendenza o meno di due variabili. Si sottopone a test l’ipotesi nulla che due criteri di classificazione, quando applicati al medesimo insieme di dati, siano indipendenti. Due criteri di classificazione sono indipendenti se la distribuzione rispetto ad un criterio non viene influenzata dalla classificazione rispetto all’altro. Se rifiutiamo l’ipotesi nulla allora i due criteri di classificazione sono dipendenti. Si dispongono in generale di n osservazioni congiunte di due variabili e ci chiediamo se esiste una forma di dipendenza tra le due variabili. Tale osservazioni sono raccolte in forma di tavole di contingenza: n osservazioni sono classificate secondo un criterio X (ossia secondo il valore di una certa variabile) in r classi e contemporaneamente sono classificate secondo un criterio Y (ossia secondo i valori assunti dall’altra variabile) in c classi; la tabella riporta all’incrocio di ogni riga con ogni colonna la frequenza assoluta Oij .

Tabelle di contingenza
Classi 1 2 3 ... c O11 O12 O13 O1c O21 O22 O23 O2c O31 O32 O33 O3c Or1 Or2 Or3 Orc Partendo da questa tabella si costruisce la tabella delle frequenze attese Aij che si ottengono con la seguente:

Test Chi-quadro di indipendenza
Per n sufficientemente grande la statistica test chi-quadro ha approssimativamente la distribuzione chi-quadro con grado di libertà v = (r-1)(c-1) La regola decisionale consiste nel rifiutare H0 se il valore osservato della statistica 2 è maggiore del valore critico 2U della distribuzione 2 con (r−1)(c−1) gdl. Tale procedura è valida purché le frequenze assolute attese siano tutte maggiori o uguali a 5.

Test Chi-quadrato per l’indipendenza
Esempio: tabella della frequenze osservate con riferimento al principale motivo di insoddisfazione e all’albergo Frequenze attese

Calcolo della statistica χ2 per il test di indipendenza

Regione di rifiuto e di accettazione del test χ2 per l’indipendenza nell’esempio sulla soddisfazione dei clienti (al livello di significatività 0.05 con 6 gradi di libertà)

Foglio di Microsoft Excel con i calcoli necessari per la verifica dell’ipotesi di indipendenza tra motivo di insoddisfazione e albergo

Test basati su due campioni Test Chi - quadro

Presentazioni simili

Presentazione sul tema: "Test basati su due campioni Test Chi - quadro"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Test basati su due campioni Test Chi - quadro

Presentazioni simili

Presentazione sul tema: "Test basati su due campioni Test Chi - quadro"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back