DIFFERENZA TRA LE MEDIE In campioni non indipendenti
Appaiati Si considerino di nuovo i metodi analitici V ed N per la determinazione dell'uricemia, e si supponga di voler saggiare la loro accuratezza su un ampio spettro di concentrazioni ematiche. A tale scopo, 7 soggetti sono stati sottoposti a un prelievo di sangue. Ciascun prelievo (uno per soggetto) è stato poi ripartito in due aliquote, l'una analizzata col metodo V e l'altra col metodo N. Si sono ottenute le misure (mg/dl) riportate nella seguente tabella:
Prefissato un rischio d'errore di tipo I =0 Prefissato un rischio d'errore di tipo I =0.05, si vuole saggiare se i due metodi hanno il medesimo grado di inaccuratezza. soggetto: 1 2 3 4 5 6 7 Metodo V 4.5 5.0 5.6 6.7 4.8 5.2 6.1 Metodo N 4.3 4.9 5.5 6.4 differenza 0.2 0.1 0.3 0.0 Ciò significa scegliere tra le due ipotesi: H0:(V-N) = 0 le vere medie delle distribuzioni delle misure coincidono per i due metodi H1:(V-N) 0 le vere medie delle distribuzioni delle misure differiscono tra i due metodi Nel caso in esame, i due campioni di misure non sono indipendenti. (Cfr. analogo esempio è illustrato a proposito del coefficiente di correlazione).
Valore atteso della differenza E[d] ed Var[d] Dalla NOTA* e sotto gli assunti ora specificati, si ha che: Da quanto detto si possono ricavare il valore atteso e la varianza della differenza (d) entro ciascun soggetto:
differenza tra le medie nel caso di campioni appaiati Da quanto illustrato si ricava che, sotto ipotesi nulla, la media ( ) delle differenze ( ), calcolate per ciascuno degli n soggetti, ha distribuzione gaussiana con media 0 e varianza pari a 22/n. N (0 , 22/n) Il rapporto tra la media delle differenze e la stima del suo errore standard (ricavabile direttamente dalla deviazione standard delle differenze) ha, come sappiamo, distribuzione t di Student con gradi di libertà: t t (con =n-1 g.d.l.)
Nel nostro esempio si calcola che:
continua Poiché il valore calcolato (2.973) è maggiore del centile 97.5 della distribuzio-ne t con 6 g.d.l. (2.447), l'ipotesi nulla viene rifiutata al livello di significatività =0.05. Si può concludere che il metodo V tende a dare misure significativa-mente più elevate rispetto al metodo N. Se il fine è quello di stimare quanto i due metodi analitici differiscono per inaccuratezza, anziché eseguire il test posso calcolare l'intervallo di confidenza per la vera differenza tra le medie dei due metodi ( = V - N ):
Nel nostro esempio Segue nota * Nel nostro esempio la confidenza corrispondente ad un rischio d'errore di tipo I =0.05 è (1-)=0.95: I.C.95% = 0.143 2.447 0.0481 = [0.025; 0.261] Posso pertanto affermare che la vera differenza () di inaccuratezza tra i due metodi è un qualunque valore incluso tra 0.025 e 0.261. La probabilità che tale affermazione corrisponda a verità è del 95%. Si noti che l'intervallo di confidenza non contiene lo 0: la probabilità che sia nullo è minore del 5%, in coerenza con l'esito del test di ipotesi. Segue nota *
NOTA * Covarianza (xV,xN) non nulla = Infatti ogni coppia (xV,xN) di misure si riferisce ad un valore () tipico dell'individuo in esame, che si scosta per una quantità ( -q) dalla media (q) della popolazione da cui si è estratto il campione. Inoltre, la differenza tra i valori xV ed xN entro ciascuna coppia è dovuta in parte alla sistematica differenza di accuratezza tra i due metodi (V - N), ed in parte agli errori di misura (V , N): Il termine casuale ( -q), che rappresenta la variabilità (o eterogeneità) biologica dell'uricemia, ha valore atteso nullo (infatti è uno scarto dalla media) e varianza :
NOTA* L'errore casuale di misura Assumiamo inoltre che l'errore casuale di misura abbia identica distribuzione gaussiana per i due metodi analitici: E(V) =E(N) = 0 V(V) = V(N) = 2 Dai precedenti assunti si ricava che E(xV)=V e E(xN)=N Cosa vale la covarianza tra le variabili casuali xV e xN ? Per l'indipendenza tra gli errori di misura, e tra l'errore di misura ed il termine di variabilità biologica si ha che: Ne consegue che: