STATISTICA a.a LA STATISTICA INFERENZIALE

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test t di Student (Confronto di due medie)
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.
I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
Come organizzare i dati per un'analisi statistica al computer?
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
Passo 1: trasformare tutte le percentuali in frequenze (senza sapere la numerosità sulla quale sono state calcolate, non si può fare il confronto tra %)
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Lez. 3 - Gli Indici di VARIABILITA’
Analisi dei dati per i disegni ad un fattore
Progetto Pilota 2 Lettura e interpretazione dei risultati
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Inferenza su proporzioni
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 7-2: Test di significatività
Corso di biomatematica lezione 7: Test di significatività
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a PARAMETRO t DI STUDENT
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Lezione 8 Numerosità del campione
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Lezione 7 i Test statistici
Il test di ipotesi Cuore della statistica inferenziale!
Verifica delle ipotesi su due campioni di osservazioni
Le distribuzioni campionarie
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
Corso di biomatematica lezione 7-3: Test di significatività
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Il test del Chi-quadrato
PROPAGAZIONE DEGLI ERRORI:
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
La statistica F Permette di confrontare due varianze, per stabilire se sono o no uguali. Simile al valore t di Student o al chi quadrato, l’F di Fisher.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Test basati su due campioni Test Chi - quadro
“Teoria e metodi della ricerca sociale e organizzativa”
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Elaborazione statistica di dati
Accenni di analisi monovariata e bivariata
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
Disegni ad un fattore tra i soggetti. Disegni ad un solo fattore between Quando i livelli del trattamento possono influenzarsi reciprocamente è necessario.
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Statistica di Base per le Scienze Pediatriche luigi greco D.C.H, M.D., M.Sc.M.C.H., Ph.D. Dipartimento di Pediatria UniFEDERICOII.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
Transcript della presentazione:

STATISTICA a.a. 2003-2004 LA STATISTICA INFERENZIALE TEST A UNA CODA E A DUE CODE TEST DEL CHI QUADRATO

CONFRONTO FRA POPOLAZIONI Uno scopo della statistica è determinare se le caratteristiche di due popolazioni sono differenti o meno. Si traggono cioè conclusioni sulla popolazione, determinando un’inferenza statistica. Possiamo confrontare campioni o popolazioni attraverso le medie o le varianze.

CONFRONTO FRA POPOLAZIONI Per effettuare un confronto si ricorre al test statistico. Il test statistico è il procedimento che consente di rifiutare o non rifiutare (accettare ) un’ipotesi sulla popolazione Il test assegna un certo valore di probabilità all’ipotesi che viene formulata.

L’IPOTESI NULLA Si usa in genere la cosiddetta ipotesi nulla (H0). Essa postula come inesistenti (nulle, pari a zero) le differenze fra le caratteristiche delle popolazioni in esame (H0 : A=B). Un test statistico consente di provare l’inaccettabilità (con una certa quota di errore) di un’ipotesi, ma non di provarla.

L’IPOTESI NULLA Se la probabilità che l’ipotesi nulla sia vera è bassa, vorrà dire che le popolazioni confrontate sono verosimilmente differenti. Confrontare un modello con un campione sperimentale, tramite un test statistico, significa provare la concordanza tra i dati reali e il modello, cioè la validità del modello.

L’IPOTESI NULLA Prima dell’esperimento si stabilisce il valore limite per la probabilità che l’ipotesi nulla sia vera. Per probabilità inferiori a tale valore stimeremo falsa l’ipotesi nulla. Per probabilità superiori, non si è in grado di rifiutare l’ipotesi nulla.

L’IPOTESI NULLA Per convenzione si adottano due livelli di significatività: se la probabilità che l’ipotesi nulla sia vera è uguale o minore al 5% (p<=0.05) si dice che la differenza fra le popolazioni considerate è significativa se la probabilità è minore o uguale all’1% (p<=0.01) si dice che la differenza fra le popolazioni è altamente significativa.

L’IPOTESI NULLA Se la probabilità è maggiore di 0.05, non si può concludere che le popolazioni considerate sono uguali, ma si può ammettere di non avere elementi sufficienti per affermare l’esistenza di una differenza. Il livello di significatività è il rischio di rifiutare erroneamente l’ipotesi nulla quando questa è vera.

L’IPOTESI NULLA Questo errore è definito come errore di I tipo o errore a . La probabilità di non rifiutare l’ipotesi nulla quando questa è in realtà falsa (ossia di accettare un’ipotesi nulla falsa) viene detta errore di II tipo o errore b .

STRUTTURA DEI TEST Un test di significatività consiste nel calcolo di un parametro e della distribuzione di probabilità ad esso associata. Questi parametri (chi quadrato, t di student, ecc.) hanno distribuzioni di probabilità diverse a seconda del numero di gradi di libertà (GdL) impiegati nel calcolo. Queste diverse distribuzioni sono tabulate su apposite tavole.

USO DELLE TAVOLE Le tavole permettono di evitare di ricorrere alle equazioni delle curve di distribuzione del parametro. In una tavola vengono riportati i valori del parametro che vengono superati nel 5% dei casi, o nell’1% o in una frazione interessante (10%, 50%, ecc.). Ottenuto il valore del parametro si valuta sulla tavola se supera il valore corrispondente alla probabilità prescelta.

USO DELLE TAVOLE Nel caso in cui il parametro superi tale valore critico, la probabilità che ciò sia avvenuto casualmente è inferiore alla probabilità critica prescelta. Quindi si considerano significativamente differenti le due popolazioni in questione. In tal modo la probabilità di definire differenti popolazioni che non lo sono (errore del I tipo) è pari al livello critico prescelto (es. 5%).

TEST A UNA CODA E TEST A DUE CODE Supponiamo di confrontare due serie di dati A e B Se in seguito ad un test statistico rifiutiamo l’ipotesi nulla H0 : A=B dobbiamo assumere un’ipotesi alternativa. Si possono creare due diverse situazioni: può interessare solo la differenza fra le due serie di dati nel senso di A>B (oppure A <B) e quindi l’ipotesi alternativa sarà H1 : A>B

TEST A UNA CODA E TEST A DUE CODE Supponiamo di confrontare due serie di dati A e B Se in seguito ad un test statistico rifiutiamo l’ipotesi nulla H0 : A=B dobbiamo assumere un’ipotesi alternativa. Si possono creare due diverse situazioni: può interessare solo la differenza fra le due serie di dati nel senso di A>B (oppure A <B) e quindi l’ipotesi alternativa sarà H1 : A>B oppure H1 : B>A

TEST A UNA CODA E TEST A DUE CODE Può non interessare la deviazione in un solo senso e quindi ci si limita alla verifica dell’ipotesi di uguaglianza fra A e B. Nel primo caso (test a una coda o unilaterale) si deve considerare la probabilità che la serie A sia maggiore della serie B Nel secondo caso (test a due code o bilaterale) si deve considerare la probabilità che la serie A sia maggiore della B oppure che la B sia maggiore della A.

TEST A UNA CODA E TEST A DUE CODE Se p1=P(A>B) e p2=P(B>A), nel caso del test a due code si avrà pT=p1+p2=Probabilità totale Nella distribuzione normale, se si ha una probabilità del 5% di trovare un valore esterno a m +/- 1.96 s (probabilità a due code), si ha una probabilità del 2.5% di trovare un valore superiore a m +1.96 s (probabilità ad una coda).

TEST A UNA CODA E A DUE CODE All’inizio dell’esperimento occorre stabilire se il test di significatività sarà a una o a due code, ossia se interessano le variazioni in un solo senso (maggiore o minore) o in tutti e due i sensi . Un certo valore del parametro sarà significativo a livello di probabilità p per il test bilaterale, al livello p/2 per il test unilaterale.

TEST A UNA CODA E A DUE CODE La scelta del test unilaterale non dovrebbe essere presa dopo aver visto i dati e la direzione della loro deviazione, ma a priori e solo se si ha la certezza che le deviazioni in una direzione si verificano solo per caso e quindi non saranno mai significative.Ciò avviene raramente: è meglio usare i test bilaterali anche se hanno livello critico più alto e quindi significatività minore.

TEST DEL CHI-QUADRATO Supponiamo di avere due popolazioni nelle quali ogni individuo abbia probabilità P1 e P2 di mostrare la caratteristica A. In un campione casuale proveniente dalla prima popolazione, r membri hanno la caratteristica A e quindi frequenza relativa r1/n1 Nella seconda popolazione la frequenza relativa è r2/n2.

TEST DEL CHI-QUADRATO Questi dati possono essere esposti nella tabella di contingenza 2x2: Caratteristica A Presente Assente campione1 r1 n1-r1 n1 campione2 r2 n2-r2 n2 ___________________________________ r1+r2 (n1-r1)+(n2-r2) n1+n2

TEST DEL CHI-QUADRATO Il totale delle osservazioni è a destra in basso. Le quatto celle interne rappresentano le frequenze osservate. L’ipotesi nulla afferma che la frequenza relativa della caratteristica A è uguale nelle due popolazioni (P1=P2).

TEST DEL CHI-QUADRATO Ad esempio abbiamo due campioni indipendenti di 45 e 46 pazienti affetti da infarto acuto. Nel primo gruppo viene somministrato propanololo, nel secondo no. Ad un mese di distanza si valutano sopravvissuti e si ottiene la seguente tabella:

TEST DEL CHI-QUADRATO Trattamento Propanololo Controllo sopravvissuti 38 29 67 no 7 17 24 ___________________________________ 45 46 91

TEST DEL CHI-QUADRATO Secondo l’ipotesi nulla i tassi di sopravvissuti nelle due popolazioni sono identici . Tale tasso, stimato sui campioni, si ottiene dal rapporto 67/91 = 0.736. Se è vera l’ipotesi nulla, la proporzione di sopravvissuti deve essere mantenuta nei due gruppi (numero di unità attese). Nel primo gruppo il numero atteso di sopravvissuti è 45(67/91)=33.132

TEST DEL CHI-QUADRATO Nel gruppo di controllo il numero atteso è 46(67/91)=33.868. Allo stesso modo il numero atteso di decessi è nel primo gruppo 45(24/91)= 11.868 e nel gruppo di controllo 46(24/91)=12.132

TEST DEL CHI-QUADRATO Il test del chi-quadrato per il confronto di due proporzioni in campioni indipendenti si basa sulla differenza fra frequenze osservate O e attese E:

TEST DEL CHI-QUADRATO Trattamento Propanololo Controllo Sopravvissuti 38 29 67 E 33.132 33.868 O – E 4.868 - 4.868 (O-E)^2/E 0.715 0.700 Deceduti 7 17 24 E 11.868 12.132 O – E -4.868 4.868 (O-E)^2/E 1.997 1.953 ___________________________________________________ 45 46 91

TEST DEL CHI-QUADRATO I valori di E danno come somma di riga e di colonna i totali osservati, ed è per questo che i quattro scarti hanno lo stesso valore assoluto. Tanto maggiore è lo scarto tanto più è ragionevole orientarsi contro l’ipotesi zero. E’ ragionevole dividere il quadrato degli scarti per i valori attesi, in modo che la differenza venga “normalizzata”.

TEST DEL CHI-QUADRATO Calcolato il valore atteso di una cella, visto che gli E danno gli stessi totali di riga e di colonna, le altre quantità attese si possono derivare per sottrazione dai totali marginali: esiste quindi una sola quantità attesa indipendente e per questo si dice che per una tabella di contingenza 2x2 vi è un grado di libertà (GdL) per il calcolo del chi-quadrato. Il calcolo del chi-quadrato è la sommatoria delle quattro celle (O-E)^2/E: Χ2= 0.715 + 0.7 + 1.997 + 1.953 = 5.365

TEST DEL CHI-QUADRATO Nella tabella per la distribuzione chi-quadrato con 1 GdL si nota che il valore calcolato è compreso fra i valori 5.02 e 6.63, corrispondenti a p=0.025 e p=0.01. Quindi la differenza fra le due mortalità è significativa perchè p<0.05. La stessa procedura di calcolo si può estendere a tabelle 2 * k o addirittura r * k per confrontare più campioni. I GdL di una tabella r * k saranno (r-1) * (k-1).

TEST DEL CHI-QUADRATO Esiste un modo alternativo di calcolo per il chi-quadrato: Colonne a b r1 Righe c d r2 _____________________________________________ c1 c2 N

CORREZIONE DI YATES Va ricordato che il test chi-quadrato va usato con tabelle le cui entrate siano frequenze. E’ un errore usarlo con valori medi oppure percentuali. Il test chi-quadrato è un metodo approssimato valido quando le frequenze sono grandi. Una regola perchè sia valido è che il valore atteso di ogni cella sia maggiore o uguale a 5. Quando le frequenze attese sono basse (ma sempre >5) si applica la correzione di Yates che riduce di ½ la grandezza assoluta di (O-E) per ciascuna cella:

CORREZIONE DI YATES

CORREZIONE DI YATES La correzione è dovuta al fatto che il chi-quadrato si basa sull’approssimazione normale della binomiale e quindi si tratta di una correzione per la continuità. Nel nostro esempio utilizzando le nuove formule si ottiene ancora una p significativa, anche se meno significativa che nel caso senza correzione.

TEST ESATTO DI FISHER Per frequenze assolute molto basse anche la correzione per la continuità non è sufficiente. Quando la numerosità totale è inferiore a 20 o è compresa fra 20 e 40 ma il valore atteso più basso è inferiore a 5 si usa il test esatto di Fisher. Supponiamo di dover confrontare la virulenza di due ceppi batterici A e B dopo inoculazione in cavie:

TEST ESATTO DI FISHER Ceppo batteri A B Viva 6 4 10 Esito cavie Morta 14 12 26 _______________________________________ 20 16 36

TEST ESATTO DI FISHER Il campione non è grande e le frequenze attese delle due prime celle sono basse. L’ipotesi nulla ci dice che la proporzione dei morti nei due gruppi di animali è la stessa. In pratica si calcola la probabilità totale del campione osservato secondo la formula di Fisher ( r1! r2 ! c1 ! c2 !)/ (a! b! c! d! N!) e poi si va a vedere nella tabella corrispondente alla distribuzione risultante della probabilità cumulativa.