Il test del Chi-quadrato

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Le distribuzioni di probabilità continue
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
2. Introduzione alla probabilità
Come organizzare i dati per un'analisi statistica al computer?
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Passo 1: trasformare tutte le percentuali in frequenze (senza sapere la numerosità sulla quale sono state calcolate, non si può fare il confronto tra %)
Il chi quadro indica la misura in cui le
COORDINATE POLARI Sia P ha coordinate cartesiane
1 2. Introduzione alla probabilità Definizioni preliminari: Prova: è un esperimento il cui esito è aleatorio Spazio degli eventi elementari : è linsieme.
Variabili casuali a più dimensioni
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
3. Processi Stocastici Un processo stocastico è una funzione del tempo i cui valori x(t) ad ogni istante di tempo t sono v.a. Notazione: X : insieme di.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA
Inferenza statistica per un singolo campione
Valutazione delle Prestazioni di un Classificatore
DIFFERENZA TRA LE MEDIE
Analisi della varianza (a una via)
1 Introduzione alla statistica per la ricerca Lezione III Dr. Stefano Guidi Siena, 18 Ottobre 2012.
Processi Aleatori : Introduzione – Parte I
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 7: Test di significatività
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a LA STATISTICA INFERENZIALE
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Lezione 8 Numerosità del campione
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
Confronto fra 2 popolazioni
Verifica delle ipotesi su due campioni di osservazioni
MATRICI classe 3 A inf (a.s ).
Un buon latinista è anche un bravo matematico? I.S. Artemisia Gentileschi - NAPOLI Convegno finale Progetto Lauree Scientifiche – Matematica Università
Corso di POPOLAZIONE TERRITORIO E SOCIETA’ 1 AA
Le distribuzioni campionarie
Corso di biomatematica lezione 7-3: Test di significatività
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Analisi Bivariata: Test Statistici
PROPAGAZIONE DEGLI ERRORI:
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Come analizzare una tabella di contingenza quando il valore del chi quadrato è significativo Analisi dei residui con un esempio reale: Studenti universitari.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
“Teoria e metodi della ricerca sociale e organizzativa”
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Accenni di analisi monovariata e bivariata
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
Transcript della presentazione:

Il test del Chi-quadrato Prof.ssa Montomoli - Univ. di Pavia Prof.ssa Zanolin – Univ. di Verona

Il rischio di contrarre epatite C è associato all’avere un tatuaggio? Test d’ipotesi Il rischio di contrarre epatite C è associato all’avere un tatuaggio? Cosa vuol dire ASSOCIAZIONE tra due variabili?

Due variabili sono associate soltanto quando sono correlate tra loro in modo maggiore o minore di quanto si verifichi per solo effetto del caso I tatuaggi devono essere presenti con frequenza maggiore (o minore) nei soggetti con epatite C rispetto ai soggetti senza epatite quindi è necessario studiare anche soggetti senza epatite (controlli) poi confrontarli con i soggetti con epatite … ed infine decidere se la differenza tra gruppi può essere dovuta al caso CON UN TEST STATISTICO

Se è vero che il caso può influenzare i risultati, come posso dimostrare l'esistenza di associazioni ed essere ragionevolmente sicuro che le differenze osservate non sono dovute al caso? La statistica consente di escludere (con un certo grado di probabilità, ma mai con assoluta certezza) che una eventuale associazione sia dovuta appunto al caso

Il rischio di contrarre epatite C è associato all’avere un tatuaggio? Test d’ipotesi Il rischio di contrarre epatite C è associato all’avere un tatuaggio? I dati sono riassunti nella tabella di contingenza Epatite C Si No totale Tatuaggio 25 88 113 No tatuaggio 22 491 513 47 579 626

Proporzione di soggetti con epatite

      Test d’ipotesi Supponi che, in realtà, NON esistano differenze nella frequenza di epatite tra i tatuati e i non tatuati. Che probabilità c'è di osservare - in uno studio di dimensioni simili a questo - differenze nella frequenza di epatite diverse da quelle che hai osservato? La risposta a questa domanda dipende da quanto i dati ottenuti si discostano dai dati che «sarebbe lecito attendersi se la frequenza di epatite C fosse influenzata soltanto dalla variazione casuale».

Se H0 è rifiutata: le due variabili       Test d’ipotesi TEST D’INDIPENDENZA Le due variabili (epatite e tatuaggio) sono indipendenti? Questa è l’IPOTESI NULLA H0 da verificare Se H0 è rifiutata: le due variabili NON SONO INDIPENDENTI

Come decidere se la discrepanza è piccola o grande? Test d’ipotesi Si distribuiscono i soggetti nelle celle della tabella Si calcolano le frequenze attese sotto l’H0 che le due variabili siano indipendenti (per ogni cella della tabella) Si paragonano le frequenze attese e le frequenze osservate Si valuta la discrepanza fra frequenze ATTESE e OSSERVATE   Come decidere se la discrepanza è piccola o grande?  tramite il TEST STATISTICO

P(epatite |tatuaggio) = P(epatite |no tatoo) = Test d’ipotesi Epatite C Si No totale Tatuaggio 113 No tatuaggio 513 47 579 626 8.5 104.5 38.5 474.5 P (epatite) = P(epatite |tatuaggio) = P(epatite |no tatoo) = I tuoi dati dimostrano che complessivamente (cioè indipendentemente dalla presenza di tatuaggi) l’epatite C è presente nel 7.5% dei soggetti. Applicando questa percentuale (7.5%) a ciascuno dei due gruppi di soggetti in esame (con e senza tatuaggio), si possono calcolare le frequenze attese, nel caso di indipendenza tra tatuaggio e epatite C.

Nomenclatura di una tabella di contingenza (dot notation) X 1…………………i……………k 1 . j t n11 ni1 nk1 n1j nij nkj n1t nit nkt Marginali di riga Y Marginali di colonna pi. viene stimato da ni./n.. p.j viene stimato da n.j/n..

Sotto l’ipotesi di indipendenza la probabilità di una qualsiasi combinazione delle modalità delle due variabili è data da: Pij=Pi.·P.j Probabilità congiunta Prodotto delle marginali Gli attesi nella cella ij-ma, sotto l’ipotesi di indipendenza, saranno quindi Eij=Pi.·P.j·N N° totale di soggetti Probabilità congiunta Prodotto delle marginali

CALCOLO DEL TEST 2 frequenza attesa frequenza osservata Test d’ipotesi CALCOLO DEL TEST 2 frequenza attesa frequenza osservata

FREQUENZE OSSERVATE FREQUENZE ATTESE Epatite C Si No totale Tatuaggio Test d’ipotesi FREQUENZE OSSERVATE Epatite C Si No totale Tatuaggio 25 88 113 No tatuaggio 22 491 513 47 579 626 FREQUENZE ATTESE Epatite C Si No totale Tatuaggio 8.5 104.5 113 No tatuaggio 38.5 474.5 513 47 579 626

Test d’ipotesi Si calcola il test sostituendo le frequenze osservate ed attese nella formula del 2: È evidente che il chi-quadrato aumenta con l'aumentare della differenza dei dati posti a raffronto. Se esso supera certi valori prefissati la differenza viene ritenuta significativa; in caso contrario, non si può affermare l'esistenza di una significativa differenza tra i due eventi considerati.

(numero righe - 1) x (numero colonne -1) La distribuzione di probabilità 2 dipende dal numero di gradi di libertà (g.l.) il numero di gradi di libertà di una tabella e del 2 calcolato su di essa è uguale a (numero righe - 1) x (numero colonne -1)

2 osservato > soglia critica 42,42 3,84 Rifiuto H0 N.B. Il test del chi-quadrato è sempre a una coda.

Output di un programma statistico Test d’ipotesi Output di un programma statistico | col row | 1 2 | Total -----------+----------------------+---------- 1 | 25 88 | 113 2 | 22 491 | 513 Total | 47 579 | 626 Pearson chi2(1) = 42.4189 Pr = 0.000

Rifiuto l’ipotesi nulla di indipendenza delle due variabili Test d’ipotesi P < 0.00001 Rifiuto l’ipotesi nulla di indipendenza delle due variabili CONCLUSIONI i dati della tabella sono improbabili, se è vera l’ipotesi che epatite C e tatuaggi sono indipendenti esiste una relazione tra epatite C e tatuaggi

a errore di I tipo OK b errore di II tipo Situazione reale Conclusioni Test d’ipotesi Situazione reale Conclusioni Epatite e tatuaggi sono indipendenti H0 VERA Epatite e tatuaggi NON sono indipendenti H0 FALSA RIFIUTO H0 a errore di I tipo OK NON RIFIUTO H0 b errore di II tipo

Ruolo per nazionalità italiani stranieri Test d’ipotesi Ruolo per nazionalità italiani stranieri Esiste una differente distribuzione del ruolo di gioco tra italiani e stranieri?

Test d’ipotesi Ruolo per nazionalità | straniero ruolo | 0 1 | Total -------------+----------------------+---------- Ala | 37 29 | 66 Ala/Centro | 14 14 | 28 Centro | 15 16 | 31 Guardia | 21 17 | 38 Guardia/Ala | 4 6 | 10 Play/Guardia | 8 9 | 17 Playmaker | 34 13 | 47 Total | 133 104 | 237 Pearson chi2(6) = 7.8336 Pr = 0.251 Le due variabili (ruolo e nazionalità) sono indipendenti. La distribuzione del ruolo non è diversa per nazionalità

Ipotesi: i giocatori stranieri vengono acquistati Test d’ipotesi Ipotesi: i giocatori stranieri vengono acquistati per ricoprire il ruolo di centro | straniero ruolo | 0 1 | Total -------------+----------------------+---------- Centro | 15 16 | 31 Playmaker | 34 13 | 47 Total | 49 29 | 78 Pearson chi2(1) = 4.5887 Pr = 0.032 Le due variabili (ruolo e nazionalità) non sono indipendenti.