Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
Test 2 di indipendenza Esperimento E : si misura una variabile doppia o bivariata (X, Y) con valore osservato: un punto (x, y) Si effettuano N = 200 prove Si riportano i valori osservati come punti del piano
Test 2 (continua) Suddivido la X in r = 5 classi con cutoff = {50, 60, 70, 80} Suddivido la Y in s = 3 classi con cutoff = {40, 60} Ottengo r s classi 2D dette celle Calcolo le frequenze assolute delle celle, assieme alle distribuzioni marginali della X e della Y.
Test 2 (continua) Calcolo le frequenze attese in caso di indipendenza, che hanno le medesime distribuzioni marginali della X e della Y.
Test 2 (continua) Calcolo le differenze cella per cella Calcolo le differenze al quadrato cella per cella
Test 2 (continua) Calcolo le differenze al quadrato normalizzate cella per cella Sommo tutto e trovo il valore 2 osservato
Test 2 (continua) Calcolo i gradi di libertà df = (r – 1)(s – 1) = 4 x 2 = 8 Cerco nella tabella del chi-quadro alla riga df = 8 dove si colloca il valore 2 osservato Uso della tabella: Per ogni valore di df = 1,2,…, i matematici hanno calcolato per ogni u > 0 la probabilità p(u) che due variabili indipendenti producano un valore del 2 osservato > u, e la hanno chiamata. Ad es. se df = 8, u = 15.51, si ha = p(u) = 0.05 = 5% Per u = 21.95, si ha = p(u) = = 0.5% df
Test 2 (continua) Quindi se X,Y fossero indipendenti, un 2 più grande di u = potrebbe essere osservato solo raramente, nel 0.5% dei casi. Avendo osservato 2 = > u, diremo allora che con limite di fiducia 1 = 99.5% le variabili sono dipendenti. La probabilità che tale giudizio sia errato è = 0.5%. Esempio: si tratta di stabilire se un primate (nascosto in una stanza) è un uomo. Come test di umanità si usa il peso. Viene osservato un peso = 140 kg. Nelluomo un peso maggiore di 130 kg viene osservato raramente, solo nel 0.5% dei casi. Diremo allora che con limite di fiducia del 99.5% il primate nascosto non è un uomo. La probabilità che tale giudizio sia errato è = 0.5% (potrebbe essere infatti un uomo molto molto pesante). E un uomo = X,Y indipendenti Peso = 2 Non è un uomo = X,Y dipendenti
Test 2 (continua) Vogliamo ora diminuire a = 0.1% la probabilità di dare un giudizio errato. Gli zoologi hanno calcolato che = 0.1% è la probabilità di osservare un uomo più pesante di 150 kg. Essendo il peso osservato = 140 kg, con limite di fiducia del 99.9% (ossia accettando una probabilità di dare un giudizio errato di = 0.1% ) non possiamo affermare come prima che il primate nascosto non è un uomo. Infatti potrebbe anche esserlo, visto che il 99.9% degli umani pesa fino a 150 kg. Dobbiamo dire che, con limite di fiducia del 99.9%, il peso osservato è compatibile con la ipotesi che si tratti di un umano. Ma attenzione! Sarebbe sbagliato dire è un uomo, potendosi evidentemente trattare di un orango o di un gorilla di 140 kg. E un uomo = X,Y indipendenti Peso = 2 Non è un uomo = X,Y dipendenti
Test 2 (continua) Calcolo i gradi di libertà df = (r – 1)(s – 1) = 4 x 2 = 8 Cerco nella tabella del chi-quadro dove si colloca il valore 2 osservato Con limite di fiducia del 1 – = 99.5% possiamo dire che le variabili sono dipendenti Ad un limite di fiducia maggiore, del 1 – = 99.9% si può dire solo che i dati sono compatibili con lipotesi di indipendenza
Test 2 (continua) Con questo campione:
Test 2 (fine)... si ha un 2 osservato di , che con df = 8 corrisponde nelle tavole (vedi CD) ad un limite di fiducia del 37.5% circa. Un valore molto basso. Alcuni grafici della funzione densità di probabilità del 2 : df = 6 df = 8 (si noti dove stanno i valori e ) df = 18
LinReg ax+b Riprendiamo il campione di n = 200 dati di una variabile bivariata (X,Y) per la quale cè un test 2 positivo di dipendenza.
LinReg ax+b (continua) Supponiamo un dipendenza lineare Y = aX + b. Supponiamo che i valori osservati x k siano esatti (regressione su X) Supponiamo che osservati y k siano affetti da errori di misura k Per cui y k = (a x k + b) + k Se non vi sono errori sistematici: La retta di regressione su X passa per il punto medio della nube di punti
LinReg ax+b (continua) La retta migliore è quella con gli errori meno dispersi (il più possibile concentrati vicino alla loro media 0), per cui usiamo la varianza del campione:
= minimo se a = ascissa vertice della parabola a = –B/2A
LinReg ax+b (continua) La retta di regressione su X (su Y)
LinReg ax+b (continua) La retta di regressione su Y
LinReg ax+b (continua)
LinReg ax+b (fine)