INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE (1)

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
8) GLI INTERVALLI DI CONFIDENZA
Stime per intervalli Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono.
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
STATISTICA A – K (60 ore) Esercizi di riepilogo al corso
Alcuni aspetti chiave e preliminari:
Intervalli di confidenza
Proprietà degli stimatori
Confronto tra 2 campioni Nella pratica è utilissimo confrontare se 2 campioni provengono da popolazioni con la stessa media: Confronti tra produzioni di.
Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento.
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Analisi dei dati per i disegni ad un fattore
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Inferenza statistica per un singolo campione
Valutazione delle ipotesi
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
CONFRONTO TRA DUE MEDIE:
Inferenza su proporzioni
intervallo di confidenza e test di significatività per una proporzione
DALL'INTERVALLO DI PROBABILITÀ
Esercitazione su test d’ipotesi
DIFFERENZA TRA LE MEDIE
Processi Aleatori : Introduzione – Parte I
Distribuzioni di probabilità
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 5: propagazione degli errori
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 7-2: Test di significatività
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a PARAMETRO t DI STUDENT
ISTOGRAMMI E DISTRIBUZIONI : i xixi
Esercizi x1=m-ts x2=m+ts
Stima dei parametri di una distribuzione
di cosa si occupa la statistica inferenziale?
Lezione 8 Numerosità del campione
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 7 i Test statistici
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
Lezione 7 i Test statistici
Propagazione degli errori
Verifica delle ipotesi su due campioni di osservazioni
Fondamenti di informatica
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
Esercitazioni sul calcolo dei valori critici
Le distribuzioni campionarie
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
IL CAMPIONE.
Test basati su due campioni Test Chi - quadro
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
2) PROBABILITA’ La quantificazione della ‘possibilità’ del verificarsi di un evento casuale E è detta probabilità P(E) Definizione classica: P(E) è il.
“Teoria e metodi della ricerca sociale e organizzativa”
Intervalli di confidenza
La distribuzione campionaria della media
Elaborazione statistica di dati
Dalmine, 26 Maggio 2004 Esercitazioni di Statistica con Matlab Dott. Orietta Nicolis fttp:\ingegneria.unibg.it.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
Transcript della presentazione:

INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE (1) Si vuole stimare la sensibilità () di un test diagnostico, in modo tale che l'intervallo di confidenza al 90% abbia ampiezza non superiore a  0.03. Come possiamo fare? Già sappiamo che, per campioni di sufficiente numerosità (n), la distribuzione di una proporzione approssima la gaussiana (l'appros-simazione è ritenuta buona se il valore più piccolo tra n e n(1-) è maggiore di 5): p  N(, (1-)/n) L'espressione dell'intervallo di confidenza di , in base a tale approssimazione, sarà: I.C.1-= p  z/2((1-)/n)1/2

INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE (2) Da questa si può ricavare la dimensione del campione che garantisce all'intervallo un'ampiezza pari a 2: = z/2((1-)/n)1/2 n= (1-)(z/2/)2 Si noti che la varianza della proporzione campionaria (p) dipende dall'ignoto parametro (proporzione vera ) di cui p è stima. Per calcolare la dimensione del campione sarà quindi necessario avere una qualche idea del valore di .

INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE (3) Supponiamo di sapere, nel nostro esempio, che la vera sensibilità () del test diagnostico in esame è sicuramente maggiore di 0.9. Se ci basiamo su tale valore per calcolare la dimensione del campione ricaviamo che: Si noti che tale dimensione è stata calcolata per eccesso, poiché la vera sensibilità del test è sicuramente maggiore: ad esempio, se  fosse pari a 0.95, la numerosità necessaria sarebbe 0.95  0.05  2988  145.

INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE (4) Tra i 270 soggetti affetti da malattia sottoposti al test diagnostico, si sono osservati 254 esiti positivi: la sensibilità stimata è quindi p = 254/270 = 0.941. L'intervallo di confidenza può essere calcolato direttamente dall'espressione fornita dopo avere sostituito p a : I.C.90% = 0.941  1.64   = 0.941  0.024 = [0.917; 0.965] Posso pertanto affermare che la vera sensibilità () del test diagnostico è un qualunque valore incluso tra 0.917 e 0.965. La probabilità che tale affermazione corrisponda a verità vale circa il 90%.

TEST D'IPOTESI SU UNA PROPORZIONE (1) Supponiamo di voler saggiare se la vera sensibilità () del test diagnostico in esame, è davvero pari a 0=0.95, così come dichiarato dal produttore del test, oppure ha un valore inferiore. Si tratta di scegliere tra le due ipotesi: H0 :  = 0 (la vera sensibilità del test è pari a 0=0.95) H1 :  < 0 (la vera sensibilità del test è minore di 0=0.95) Supponiamo di scegliere il livello ==0.05 per i rischi di errore di tipo I e II, e che la minima sensibilità accetta­bile per il test diagnostico sia 1=0.90 ( = 0 - 1 = 0.05).

Per il calcolo della dimensione del campione, si procede in maniera analoga a quanto visto per il test su una media. La soglia p* che discrimina tra le due ipotesi a confronto può essere espressa sia rispetto al valore di  sotto H0 sia rispetto al valore di  specificato sotto H1 Si ricava pertanto che:

TEST D'IPOTESI SU UNA PROPORZIONE (2) Se 0 e 1 non sono molto diverse, l'espressione per il calcolo della dimen-sione del campione assume una forma analoga a quella già vista per il test sulla media: dove  vale 0 quando 0  (1- 0) >  1(1- 1), e vale 1 viceversa. Si ha un'approssimazione migliore se si pone  = (0 +  1)/2. Nel nostro esempio, poiché z = z = 1.64, con la forma non-approssimata si ottiene n=(1.64 [0.950.05]1/2+1.64[0.900.10]1/2)2/0.052 = (0.3574+0.4920)2/ 0.052   290

Nel caso che si usi la forma approssimata, la dimensione del campione risulta sovrastimata se si pone  = 1: n = (1.64+1.64)2  (0.90  0.10) / 0.052   390 Se si pone invece  = (0 + 1)/2 = (0.95 + 0.90)/2 = 0.975, l'approssimazione è soddisfacente: n = (1.64 + 1.64)2  (0.925  0.075) / 0.052  300

Poiché, come visto, sotto ipotesi nulla la proporzione p stimata da un campione ha distribuzione che approssima una gaussiana con valore atteso 0 e varianza 0 (1 - 0)/n, p N ( 0 , 0  (1 - 0) / n ) il rapporto è una deviata gaussiana standard.

Nel nostro esempio, tra i 290 soggetti affetti da malattia sottoposti al test diagnostico, si sono osservati 272 esiti positivi. Pertanto, la proporzione p = 272/290 = 0.938 è una stima dell'ignota sensibilità vera del test diagnostico: Poiché il valore calcolato della statistica z è minore, in valore assoluto, del 5° percentile della deviata gaussiana standard (1.64), accetto, come plausibile, l'ipotesi nulla che la sensibilità vera del test sia pari a 0.95 Si noti che l'errore standard per il test (calcolato sotto H0 ) è diverso da quello usato per il calcolo dell'intervallo di confidenza (che prescinde da H0 ).

Test d’ipotesi per la differenza tra due proporzioni (1) Si vuole saggiare se due farmaci antiepilettici (A e B) hanno differente efficacia nel trattamento dell'epilessia parziale sintomatica. Come indice di efficacia si adotta la proporzione di pazienti che, dopo un mese dall'inizio della terapia, hanno ridotto almeno della metà la frequenza delle crisi. Se si indica con A e B la vera efficacia dei trattamenti A e B, si tratta di scegliere tra le due ipotesi: H0: A =B = (i farmaci A e B hanno uguale efficacia) H1: A B (i farmaci A e B hanno diversa efficacia)

Si supponga di prefissare i livelli =0. 05 e =0 Si supponga di prefissare i livelli =0.05 e =0.20 per i rischi di errore di tipo I e II, e che, nella pratica clinica, differenze di efficacia minori del 10% siano trascurabili: ciò equivale a porre  (= |A - B|)= 0.10 . Per quanto concerne il calcolo della dimensione del campione, poiché essa dipende dalla varianza delle proporzioni campionarie (pA e pB) e questa, a sua volta, dipende dai valori della vera efficacia dei farmaci, si dovrà fissare un valore plausibile di efficacia () che, sotto H0, è la stessa per i due farmaci. Ad esempio, poiché | A - B | = 0.10, se un valore plausibile per  è 0.70, ne deriva che i valori di A e B sono 0.65 e 0.75 (o viceversa).

La soglia d* che discrimina tra le due ipotesi a confronto può essere espressa in relazione sia ad H0 sia ad H1: Se ci proponiamo di trattare due gruppi di pazienti di uguale numerosità (nA = nB = n), si può ricavare che la dimensione per ciascuno dei due gruppi è: Questa espressione sembra alquanto complicata, tuttavia, se A  B  , si può ottenere una forma analoga a quella vista a proposito del confronto tra medie:

Nel nostro esempio, =0. 10, =0. 70, A=0. 65 e B=0 Nel nostro esempio, =0.10, =0.70, A=0.65 e B=0.75, inoltre z/2=1.96 e z=0.84, pertanto la dimensione del campione necessaria è: Allo stesso risultato si perviene con la forma semplificata: Poiché, come visto, sotto ipotesi nulla la differenza tra le proporzioni campionarie pA e pB ha distribuzione che approssima la distribuzione gaussiana e il rapporto è una deviata gaussiana standard.

Nella sperimentazione clinica che ci serve da esempio, si sono trattati 330 soggetti per gruppo. Per motivi non dipendenti né dalla comparsa di effetti collaterali né dall' efficacia del farmaco, si sono ritirati dallo studio 18 pazienti trattati con il farmaco A e 24 pazienti trattati con il farmaco B. Sui rimanenti soggetti (soggetti valutabili) si sono calcolati i seguenti indici di efficacia: pA=240/312=0.769 pB =210/306 = 0.686

Sotto ipotesi nulla, la stima (p) del parametro di efficacia  comune ai due farmaci è data dal rapporto tra il numero di pazienti in cui la terapia si è rivelata efficace ed il numero totale dei pazienti valutabili: p = (240+210)/(312+306) = 450/618 = 0.728 Tale valore sostituisce p nella stima dell'errore standard della differenza (pA-pB) Se ne conclude che l'efficacia del farmaco A è significati­vamente maggiore di quella del farmaco B (p<0.05).

Per il calcolo dell'intervallo di confidenza, l'errore stan­dard della differenza tra due proporzioni viene calcolato a prescindere dall'ipotesi nulla: Pertanto, la stima dell'errore standard si ottiene per sostituzione delle propor-zioni campionarie pA e pB ai parametri A e B. Nel nostro esempio, si ha:

Si noti che la discrepanza tra questa stima e quella usata per il calcolo della statistica-test è del tutto trascurabile. La discrepanza aumenta al tendere di pA a 0 (o a 1) e di pB a 0.5 o (o viceversa), soprattutto se i due gruppi a confronto non hanno numerosità simile. Nel nostro esempio, fissata la confidenza del 95%, si ha: I.C.95% = 0.083  1.96  0.0357 = [0.013; 0.153]