Test basati su due campioni Test Chi - quadro

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
8) GLI INTERVALLI DI CONFIDENZA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
Confronto tra 2 campioni Nella pratica è utilissimo confrontare se 2 campioni provengono da popolazioni con la stessa media: Confronti tra produzioni di.
Il chi quadro indica la misura in cui le
Variabili casuali a più dimensioni
Analisi dei dati per i disegni ad un fattore
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE (1)
DIFFERENZA TRA LE MEDIE
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Verifica delle ipotesi su due campioni di osservazioni
Un buon latinista è anche un bravo matematico? I.S. Artemisia Gentileschi - NAPOLI Convegno finale Progetto Lauree Scientifiche – Matematica Università
Le distribuzioni campionarie
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
IL CAMPIONE.
La statistica F Permette di confrontare due varianze, per stabilire se sono o no uguali. Simile al valore t di Student o al chi quadrato, l’F di Fisher.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Le distribuzioni campionarie
Verifica di ipotesi statistiche
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE
“Teoria e metodi della ricerca sociale e organizzativa”
Modelli di variabili casuali
Intervalli di confidenza
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Elaborazione statistica di dati
Accenni di analisi monovariata e bivariata
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
Dalmine, 26 Maggio 2004 Esercitazioni di Statistica con Matlab Dott. Orietta Nicolis fttp:\ingegneria.unibg.it.
ANALISI E INTERPRETAZIONE DATI
Accademia europea dei pazienti sull'innovazione terapeutica Lo scopo e i fondamenti della statistica negli studi clinici.
Test dell’ ANOVA L EZIONI III PARTE F ONDAMENTI E METODI PER L ’ ANALISI EMPIRICA NELLE SCIENZE SOCIALI A. A
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
1111 Università di Napoli Federico II, Dipartimento di Scienze Economiche e Statistiche S. BalbiI test non parametrici.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Implementazione.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

Test basati su due campioni Test Chi - quadro Riferimento bibliografici: Levine, Krehbiel, Berenson (2006): Statistica, II ed., Apogeo. Piccolo D., (2000): Statistica, il Mulino, Bologna. Lezione 8 Test basati su due campioni Test Chi - quadro Insegnamento: Statistica Corso di Laurea in Matematica Facoltà di Scienze, Università di Ferrara E-mail: susanna.ragazzi@unife.it

Argomenti Confronto tra le medie di due popolazioni indipendenti Confronto tra le medie di due popolazioni non indipendenti Confronto tra le proporzioni di due popolazioni Test Chi-Quadro per la bontà di adattamento Test Chi-Quadro per l’indipendenza

Confronto tra medie di due pop. indipendenti Consideriamo due popolazioni indipendenti e supponiamo di estrarre un campione di ampiezza n1 dalla prima popolazione di ampiezza n2 dalla seconda popolazione Siano μ1 e μ2 le medie che caratterizzano rispettiva-mente la prima e la seconda popolazione e si assumano i due scarti quadratici medi σ1 e σ2 come noti Si vuole verificare l’ipotesi nulla che le medie delle due popolazioni (indipendenti) sono uguali tra loro H0: μ1 = μ2 (μ1 − μ2 = 0) contro l’ipotesi alternativa H1: μ1 ≠ μ2 (μ1 − μ2 ≠ 0) A questo scopo viene definita la statistica test Z per la differenza tra le due medie

Confronto tra medie di due pop. indipendenti

Confronto tra medie di due pop. indipendenti Se si assume che i due campioni siano estratti casualmente ed indipendentemente da due popolazioni normali la statistica Z ha distribuzione normale Se le due popolazioni non hanno distribuzione normale il test Z può essere utilizzato con ampiezza campionarie sufficientemente elevate (n≥30) - in virtù del teorema centrale del limite In molti casi le varianze delle due popolazioni non sono note. Nel caso di grandi campioni le varianze incognite possono essere sostituite con i valori delle varianze campionarie dei due campioni. Se si assume l’ipotesi di omogeneità della varianze (σ21=σ22) con distribuzioni normali; nel caso di piccoli campioni (n < 30) per il confronto tra le medie di due pop. indipendenti si utilizza il test t basato sulle varianze campionarie combinate

Confronto tra medie di due pop. indipendenti

Confronto tra medie di due pop. indipendenti Regione di rifiuto e di accettazione per la differenza tra due medie utilizzando la statistica test t basata sulle varianze combinate (test a due code) Quando l’assunzione dell’omogeneità delle varianze non è plausibile occorre fare riferimento al test t con varianze diverse (ricorrendo all’Excel o ad altri software statistici)

Confronto tra medie di due pop. indipendenti Esempio: confronto tra le vendite settimanali (numero di pezzi venduti) della BLK cola in due gruppi di supermercati, dove il primo adotta la collocazione a scaffale mentre il secondo utilizza uno spazio dedicato

Confronto tra medie di due pop. indipendenti

Confronto tra medie di due pop. indipendenti In base al fatto che l’ipotesi alternativa sia nella forma A: H1:μ1≠μ2 oppure B: H1:μ1<μ2 o C: H1:μ1>μ2 si parla di test ad una coda e test a due code

Intervallo di confidenza per la differenza tra le medie di due pop Intervallo di confidenza per la differenza tra le medie di due pop. indipendenti Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due medie sono uguali, possiamo ottenere un intervallo di confidenza per la differenza tra le medie μ1 e μ2 delle due popolazioni: Intervallo di confidenza per la differenza (μ1−μ2) (10.3) dove tn1−n2−2;α/2 è il valore critico a cui corrisponde un’area cumulata pari a (1−α/2) della distribuzione t di Student con (n1−n2−2) gradi di libertà.

Confronto tra medie di 2 pop. non indipendenti Ci sono situazioni in cui le due popolazioni poste a confronto non sono indipendenti di modo che il campione estratto dalla prima popolazione non è indipendente dal campione estratto dalla seconda: campioni appaiati (individui o casi che condividono una stessa caratteristica) misurazioni ripetute (stesso insieme di individui o casi) L’attenzione si sposta sulla differenze tra i valori nei due campioni:

Confronto tra medie di 2 pop. non indipendenti Quindi verificare l’ipotesi di uguaglianza delle medie μ1 e μ2 di due popolazioni non indipendenti equivale a verificare ipotesi di uguaglia a zero della media della differenza D tra le due popolazioni, cioè H0: μD=0. Se lo scarto quadratico medio della popolazione delle differenze σD è noto, allora il test di riferimento è basato sulla statistica Z. In caso σD sia ignoto si può fare ricorso al test t su campioni appaiati. Statistica test Z per la media delle differenze (10.4) Statistica test t per la media delle differenze (10.5)

Confronto tra medie di 2 pop. non indipendenti Esempio: Misurazioni ripetute del tempo (in secondi) di elaborazione di un progetto utilizzando due diversi software

Confronto tra medie di 2 pop. non indipendenti Test t a una coda per la differenza tra le medie di due popolazioni non indipendenti a un livello di significatività pari a 0.05 e con 9 gradi di libertà

Intervallo di confidenza per la differenza tra le medie di due pop Intervallo di confidenza per la differenza tra le medie di due pop. non indipendenti Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due medie sono uguali, possiamo ottenere un intervallo di confidenza per la differenza μD: Intervallo di confidenza per la differenza tra le medie di due popolazioni non indipendenti (10.6) dove tn−1;α/2 è il valore critico a cui corrisponde un’area cumulata pari a (1−α/2) della distribuzione t di Student con (n−1) gradi di libertà

Confronto tra le proporzioni di due popolazioni Spesso si è interessati a effettuare confronti e ad analizzare differenze tra due popolazioni con riferimento alla proporzione di casi con una certa caratteristica Per confrontare due proporzioni sulla base dei risultati di due campioni si può ricorrere al test Z per la differenza tra due proporzioni, la cui statistica test ha distribuzione approssimativamente normale quando le ampiezza campionarie sono sufficientemente elevate Statistica Z per la differenza tra due proporzioni (10.7)

Confronto tra le proporzioni di due popolazioni A seconda di come è formulata l’ipotesi alternativa avremo un test a due code (H1: π1 ≠ π2 (π1−π2 ≠ 0)) o un test a una coda (ipotesi direzionali: H1: π1 > π2 (π1−π2 > 0) oppure H1: π1 < π2 (π1−π2 < 0)) Esempio La catena di alberghi TC Resort è interessata a valutare se esiste differenza tra la proporzione di clienti che intendono visitare nuovamente due dei suoi alberghi. Vengono campionati 227 clienti nel primo albergo e 262 dal secondo di cui 163 si dicono disposti a ritornare nel primo campione, 154 nel secondo. Adottando un livello di significatività pari a 0.05 si può affermare che nei due alberghi esiste una differenza tra la proporzione di coloro che sono disposti a ritornare?

Confronto tra le proporzioni di due popolazioni Z= + 3,01 > +1,96 perciò si rifiuta H0 concludendo che le percentuali sono diverse

Intervallo di confidenza per la differenza tra due proporzioni Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due proporzioni sono uguali, possiamo utilizzare l’equazione (10.8) per ottenere un intervallo di confidenza per la differenza tra le due proporzioni Intervallo di confidenza per la differenza tra due proporzioni (10.8)

Il test Chi-quadro La distribuzione Chi-quadro ha numerose applicazioni in statistica, in particolare in verifica d’ipotesi ne faremo uso con dati disponibili sotto forma di frequenze. Test di adattamento (goodness of fit) e test d’indipendenza Test Chi-quadro di adattamento: studiano la bontà di adattamento delle frequenze osservate rispetto alle frequenze che si presume dovrebbero verificarsi sotto una qualche ipotesi. Il termine “bontà di adattamento” viene di solito usato in senso stretto (confronto tra la distribuzione osservata e teorica)

Test Chi-quadro di adattamento Test sulla bontà di adattamento: si vuole verificare se una certa distribuzione è compatibile con i dati del campione. Supponiamo di avere un campione di n osservazioni di una variabile raggruppate in una tabella contenente k classi. Classi possono rappresentare: Caratteristiche qualitative Valori assunti da una variabile discreta (ogni classe raggruppa tutte le osservazioni che assumono un dato valore Intervalli di valori di una variabile continua

Test Chi-quadro di adattamento Tabella: rappresenta la distribuzione di frequenza di una variabile qualitativa o di una variabile numerica discreta o continua. Per ciascuna classe supponiamo di avere una frequenza osservata (Oi) ed una frequenza attesa (Ai) con cui si vuole confrontare la frequenza osservata. Le frequenze attese sono quelle che si osserverebbero se i dati del campione fossero distribuiti secondo la distribuzione ipotizzata. Per valutare quantitativamente la bontà dell’adattamento delle frequenze osservate alle frequenze attese si utilizza la statistica test Chi-quadro calcolata dal campione.

Statistica test Chi-quadro Si dimostra che per n sufficientemente grande tale statistica si distribuisce come una v. c. chi-quadro con grado di libertà v=k-m-1. k è il numero delle classi. m è il numero dei parametri della distribuzione teorica stimati servendosi dei dati del campione. Se l’ipotesi nulla è che i dati si adattino alla distribuzione teorica ipotizzata la regola di decisione sarà: si rifiuti H0 se il valore della statistica test calcolato dai dati è maggiore del valore critico α è il livello di significatività stabilito Il grado di libertà della distribuzione è v=k-m-1 Tale procedura è valida purché le frequenze assolute attese siano tutte maggiori o uguali a 5.

Test Chi–quadro di indipendenza Il test Chi-quadro può essere utilizzato anche per verificare l’indipendenza o meno di due variabili. Si sottopone a test l’ipotesi nulla che due criteri di classificazione, quando applicati al medesimo insieme di dati, siano indipendenti. Due criteri di classificazione sono indipendenti se la distribuzione rispetto ad un criterio non viene influenzata dalla classificazione rispetto all’altro. Se rifiutiamo l’ipotesi nulla allora i due criteri di classificazione sono dipendenti. Si dispongono in generale di n osservazioni congiunte di due variabili e ci chiediamo se esiste una forma di dipendenza tra le due variabili. Tale osservazioni sono raccolte in forma di tavole di contingenza: n osservazioni sono classificate secondo un criterio X (ossia secondo il valore di una certa variabile) in r classi e contemporaneamente sono classificate secondo un criterio Y (ossia secondo i valori assunti dall’altra variabile) in c classi; la tabella riporta all’incrocio di ogni riga con ogni colonna la frequenza assoluta Oij .

Tabelle di contingenza Classi 1 2 3 ... c O11 O12 O13 O1c O21 O22 O23 O2c O31 O32 O33 O3c Or1 Or2 Or3 Orc Partendo da questa tabella si costruisce la tabella delle frequenze attese Aij che si ottengono con la seguente:

Test Chi-quadro di indipendenza Per n sufficientemente grande la statistica test chi-quadro ha approssimativamente la distribuzione chi-quadro con grado di libertà v = (r-1)(c-1) La regola decisionale consiste nel rifiutare H0 se il valore osservato della statistica 2 è maggiore del valore critico 2U della distribuzione 2 con (r−1)(c−1) gdl. Tale procedura è valida purché le frequenze assolute attese siano tutte maggiori o uguali a 5.

Test Chi-quadrato per l’indipendenza Esempio: tabella della frequenze osservate con riferimento al principale motivo di insoddisfazione e all’albergo Frequenze attese

Test Chi-quadrato per l’indipendenza Calcolo della statistica χ2 per il test di indipendenza

Test Chi-quadrato per l’indipendenza Regione di rifiuto e di accettazione del test χ2 per l’indipendenza nell’esempio sulla soddisfazione dei clienti (al livello di significatività 0.05 con 6 gradi di libertà)

Test Chi-quadrato per l’indipendenza Foglio di Microsoft Excel con i calcoli necessari per la verifica dell’ipotesi di indipendenza tra motivo di insoddisfazione e albergo