Corso di biomatematica lezione 7-3: Test di significatività

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
8) GLI INTERVALLI DI CONFIDENZA
Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.
I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
2. Introduzione alla probabilità
Come organizzare i dati per un'analisi statistica al computer?
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
Passo 1: trasformare tutte le percentuali in frequenze (senza sapere la numerosità sulla quale sono state calcolate, non si può fare il confronto tra %)
ANALISI DELLA COVARIANZA
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA
Inferenza statistica per un singolo campione
Valutazione delle Prestazioni di un Classificatore
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE (1)
DIFFERENZA TRA LE MEDIE
Analisi della varianza (a una via)
1 Introduzione alla statistica per la ricerca Lezione III Dr. Stefano Guidi Siena, 18 Ottobre 2012.
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 5: propagazione degli errori
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 4: La funzione di Gauss
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
Corso di biomatematica lezione 7: Test di significatività
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
di cosa si occupa la statistica inferenziale?
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Corso di biomatematica lezione 3b: applicazioni di probabilità Davide Grandi.
Il test di ipotesi Cuore della statistica inferenziale!
Verifica delle ipotesi su due campioni di osservazioni
Federico Batini Item analisi Federico Batini
Scomposizione polinomi
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Il test del Chi-quadrato
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Nelle popolazioni naturali la variabilità genetica (ovvero ereditaria) può essere di tipo qualitativo o quantitativo La variabilità qualitativa si riscontra.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
La statistica F Permette di confrontare due varianze, per stabilire se sono o no uguali. Simile al valore t di Student o al chi quadrato, l’F di Fisher.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
“Teoria e metodi della ricerca sociale e organizzativa”
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Statistica di Base per le Scienze Pediatriche luigi greco D.C.H, M.D., M.Sc.M.C.H., Ph.D. Dipartimento di Pediatria UniFEDERICOII.
Transcript della presentazione:

Corso di biomatematica lezione 7-3: Test di significatività Silvia Capelli

Sommario Tabelle di contingenza e Yates Tabelle 2x2 metodo esatto piccoli campioni (Fisher) Tabelle 2xN

Adattamento dei dati Tabelle di contingenza 2x2 Quando confronto le risposte binarie di due campioni indipendenti è utile costruire una tabella a doppia entrata detta tabella di contingenza Il test del 2 permette in questo caso di verificare se le proporzioni di successi e di insuccessi nei due gruppi sono indipendenti dal “trattamento” al quale sono sottoposti oppure se esiste associazione tra essi. Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2x2 Per applicare il test del c2 dovrò costruirmi una tabella di valori misurati (osservati) ed una di valori attesi, vediamo con un esempio come fare: Date due zone una ad alto inquinamento ed una a basso inquinamento, si vuole stabilire se esiste un nesso con l’incidenza di malattie polmonari Per costruire la tabella dovrò tener conto che: Le modalità della var. casuale vanno sulle righe Le modalità della var. effetto sulle colonne (non tutti seguono la stessa convenzione…) Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2x2 Avremo dunque la tabella dei dati osservati Persone con malattie Persone senza malattie Totale Zona ad alto inquinamento 32 a 48 b 80 n1 Zona a basso inquinamento 13 c 57 d 70 n2 45 n3 105 n4 150 N Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2x2 In questa tabella abbiamo indicato con le lettere a,b… i dati e con indici ni le rispettive somme parziali, con N la totale. Ora se fosse vera l’ipotesi nulla H0 le frequenze relative sarebbero uguali e le differenze riscontrate sarebbero casuali. La stima migliore di questa frequenza relativa nell’ipotesi nulla H0 è data dalla somma delle persone con malattie nei due gruppi diviso il totale, cioè (32+13)/150 = 0.3 Considerando che nei due campioni ho un diverso numero di osservazioni i valori aspettati sono di 24 (80x0.3) nel primo e di 21 (70x0.3) nel secondo Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2x2 Avremo quindi la tabella dei dati attesi (mantenendo le somme parziali e totali): Persone con malattie Persone senza malattie Totale Zona ad alto inquinamento 24 a 56 b 80 n1 Zona a basso inquinamento 21 c 49 d 70 n2 45 n3 105 n4 150 N Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2x2 Per i valori attesi è sufficiente trovare una sola delle frequenze attese e le altre le ricavo per differenza (somme costanti…), ovvero una tabella attesa 2x2 ha solo 1 grado di libertà (ho 4 dati e 3 informazioni necessarie: totale riga, totale colonna e totale generale, 4–3=1) Calcoliamo ora il c2 dai nostri dati secondo la formula Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2x2 Con i nostri dati otteniamo: Le tavole del c2 riportano come valori critici con g.d.l. 1 3,84 alla probabilità a =0,05 6,64 alla probabilità a =0,01 Quindi il valore calcolato è addirittura superiore a quello per a =0,01, ovvero con probabilità < 0,01 posso dire che la differenza tra le due popolazioni è significativa (molto…) Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2x2 Partendo solo dalla tabella dei dati osservati, è possibile ricavare il valore del c2 tramite la formula: Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2x2 e correzione di Yates Anche per le tabelle 2x2 nel caso di campioni con osservazioni comprese tra 100 e 30 è necessario ricorrere alla correzione di Yates, che in questo caso diventa: E gli effetti di questa correzione sono tanto maggiori quanto più basso è il numero di osservazioni Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2x2 piccoli campioni: metodo esatto di Fisher Se il numero di osservazioni scende sotto le 30, e/o almeno una frequenza attesa è inferiore a 5, si ricorre al metodo delle probabilità esatte di Fisher che permette di stimare la PROBABILITA’ di ottenere una tabella 2x2 uguale a quella osservata. Con la stessa simbologia precedente avremo Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2x2 piccoli campioni: metodo esatto di Fisher Ora, per stabilire se esiste una differenza significativa tra le distribuzioni osservate (sani, malati) devo stimare la probabilità totale di ottenere una distribuzione così estrema o più estrema ancora. Per fare questo riduco di 1 il numero di osservazioni nella casella con numero minore e modifico le altre caselle per mantenere uguali i totali marginali ni . Per decidere tra le due ipotesi (H0 e H1) la probabilità che mi occorre stimare è data dalla somma della probabilità della distrib osservata e di quelle delle risposte più estreme nella stessa direzione. (test a 1 coda) Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2x2 piccoli campioni: metodo esatto di Fisher E’ necessario elencare tutte le possibilità più estreme, ovvero continuerò a ridurre i valori della casella con numero minore fino ad arrivare a 0. Sommo tutte le probabilità e confronto il risultato con il limite critico fissato (di solito a =0,05) Se P < a rifiuto H0 ed accetto H1 Nei test a due code P è raddoppiata… Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2xN Il metodo del calcolo del c2 può essere estesso anche al caso generale, ovvero con classificazioni multiple, ad esempio considerando il confronto tra 2 popolazioni per verificare l’ipotesi nulla H0 che tutte le N percentuali o proporzioni a confronto siano uguali. I gradi di libertà di una tabella 2xN sono N-1, mentre in generale per una tabella MxN saranno (N-1)x(M-1). Sarebbe opportuno NON avere caselle con frequenze attese inferiori a 5, ma con più gradi di libertà il c2 è meno sensibile ad eventuali errori dovuti a frequenze attese piccole. Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2xN - esempio Vogliamo confrontare l’effetto di 5 pesticidi dispersi in 5 areee diverse sulla sopravvivenza dello stesso tipo di animale Pestic. A Pestic. B Pestic. C Pestic. D Pestic. E Totale Morti 8 10 14 11 7 50 Sopravv. 12 6 20 22 70 16 34 33 17 120 Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2xN - esempio L’ipotesi nulla H0 è quella che tutti i pesticidi determinino la stessa frequenza percentuale, mentre l’ipotesi alternativa H1 è che almeno una classe sia significativamente differente dalle altre. Per determinare la distribuzione attesa in ogni casella dovrò fare il prodotto: Attesa= totale colonna x totale riga / totale generale Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2xN - esempio Otterremo dunque la tabella attesa Pestic. A Pestic. B Pestic. C Pestic. D Pestic. E Totale Morti 8,33 6,67 14,17 13,75 7,08 50,0 Sopravv. 11,67 9,33 19,83 19,25 9,92 70 20 16 34 33 17 120 Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2xN - esempio Il numero di gradi di libertà è (5-1)x(2-1)=4 e calcoliamo il c2 tramite la formula seguente: Ottenendo Che essendo inferiore al valore critico 9,49 per a =0,05 implica di non poter rifiutare l’ipotesi nulla. Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2xN - esempio Per il calcolo del c2 possiamo utilizzare formule abbreviate come la seguente di Brandt e Snedecor: Con Dove k è il numero di gruppi a confronto, pi è la frequenza percentuale carattere in esame, gruppo i ni è la frequenza assoluta carattere in esame, gruppo i N totale osservazioni e è la media di tutti i gruppi Silvia Capelli - Dottorato in Biologia

Adattamento dei dati Tabelle di contingenza 2xN - esempio Per il calcolo del c2 nel nostro caso avremo: Pestic. A Pestic. B Pestic. C Pestic. D Pestic. E Totale Morti ni Pi in % 8 40,0 10 62,5 14 41,2 11 33,3 7 50 41,66 Sopravv. 12 6 20 22 70 16 34 33 17 120 Silvia Capelli - Dottorato in Biologia