La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste

Presentazioni simili


Presentazione sul tema: "Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste"— Transcript della presentazione:

1 Matematica e statistica Versione didascalica: parte 8 Sito web del corso http://www.labmat.it Docente: Prof. Sergio Invernizzi, Università di Trieste e-mail: inverniz@units.it

2 Test 2 di indipendenza Esperimento E : si misura una variabile doppia o bivariata (X, Y) con valore osservato: un punto (x, y) Si effettuano N = 200 prove Si riportano i valori osservati come punti del piano

3 Test 2 (continua) Suddivido la X in r = 5 classi con cutoff = {50, 60, 70, 80} Suddivido la Y in s = 3 classi con cutoff = {40, 60} Ottengo r s classi 2D dette celle Calcolo le frequenze assolute delle celle, assieme alle distribuzioni marginali della X e della Y.

4 Test 2 (continua) Calcolo le frequenze attese in caso di indipendenza, che hanno le medesime distribuzioni marginali della X e della Y.

5 Test 2 (continua) Calcolo le differenze cella per cella Calcolo le differenze al quadrato cella per cella

6 Test 2 (continua) Calcolo le differenze al quadrato normalizzate cella per cella Sommo tutto e trovo il valore 2 osservato

7 Test 2 (continua) Calcolo i gradi di libertà df = (r – 1)(s – 1) = 4 x 2 = 8 Cerco nella tabella del chi-quadro alla riga df = 8 dove si colloca il valore 2 osservato 23.9671 Uso della tabella: Per ogni valore di df = 1,2,…, i matematici hanno calcolato per ogni u > 0 la probabilità p(u) che due variabili indipendenti producano un valore del 2 osservato > u, e la hanno chiamata. Ad es. se df = 8, u = 15.51, si ha = p(u) = 0.05 = 5% Per u = 21.95, si ha = p(u) = 0.005 = 0.5% df

8 Test 2 (continua) Quindi se X,Y fossero indipendenti, un 2 più grande di u = 21.95 potrebbe essere osservato solo raramente, nel 0.5% dei casi. Avendo osservato 2 = 23.9671 > u, diremo allora che con limite di fiducia 1 = 99.5% le variabili sono dipendenti. La probabilità che tale giudizio sia errato è = 0.5%. Esempio: si tratta di stabilire se un primate (nascosto in una stanza) è un uomo. Come test di umanità si usa il peso. Viene osservato un peso = 140 kg. Nelluomo un peso maggiore di 130 kg viene osservato raramente, solo nel 0.5% dei casi. Diremo allora che con limite di fiducia del 99.5% il primate nascosto non è un uomo. La probabilità che tale giudizio sia errato è = 0.5% (potrebbe essere infatti un uomo molto molto pesante). E un uomo = X,Y indipendenti Peso = 2 Non è un uomo = X,Y dipendenti

9 Test 2 (continua) Vogliamo ora diminuire a = 0.1% la probabilità di dare un giudizio errato. Gli zoologi hanno calcolato che = 0.1% è la probabilità di osservare un uomo più pesante di 150 kg. Essendo il peso osservato = 140 kg, con limite di fiducia del 99.9% (ossia accettando una probabilità di dare un giudizio errato di = 0.1% ) non possiamo affermare come prima che il primate nascosto non è un uomo. Infatti potrebbe anche esserlo, visto che il 99.9% degli umani pesa fino a 150 kg. Dobbiamo dire che, con limite di fiducia del 99.9%, il peso osservato è compatibile con la ipotesi che si tratti di un umano. Ma attenzione! Sarebbe sbagliato dire è un uomo, potendosi evidentemente trattare di un orango o di un gorilla di 140 kg. E un uomo = X,Y indipendenti Peso = 2 Non è un uomo = X,Y dipendenti

10 Test 2 (continua) Calcolo i gradi di libertà df = (r – 1)(s – 1) = 4 x 2 = 8 Cerco nella tabella del chi-quadro dove si colloca il valore 2 osservato 23.9671 Con limite di fiducia del 1 – = 99.5% possiamo dire che le variabili sono dipendenti Ad un limite di fiducia maggiore, del 1 – = 99.9% si può dire solo che i dati sono compatibili con lipotesi di indipendenza

11 Test 2 (continua) Con questo campione:

12 Test 2 (fine)... si ha un 2 osservato di 6.1987, che con df = 8 corrisponde nelle tavole (vedi CD) ad un limite di fiducia del 37.5% circa. Un valore molto basso. Alcuni grafici della funzione densità di probabilità del 2 : df = 6 df = 8 (si noti dove stanno i valori 23.9671 e 6.1987) df = 18

13 LinReg ax+b Riprendiamo il campione di n = 200 dati di una variabile bivariata (X,Y) per la quale cè un test 2 positivo di dipendenza.

14 LinReg ax+b (continua) Supponiamo un dipendenza lineare Y = aX + b. Supponiamo che i valori osservati x k siano esatti (regressione su X) Supponiamo che osservati y k siano affetti da errori di misura k Per cui y k = (a x k + b) + k Se non vi sono errori sistematici: La retta di regressione su X passa per il punto medio della nube di punti

15 LinReg ax+b (continua) La retta migliore è quella con gli errori meno dispersi (il più possibile concentrati vicino alla loro media 0), per cui usiamo la varianza del campione:

16 = minimo se a = ascissa vertice della parabola a = –B/2A

17 LinReg ax+b (continua) La retta di regressione su X (su Y)

18 LinReg ax+b (continua) La retta di regressione su Y

19 LinReg ax+b (continua)

20 LinReg ax+b (fine)


Scaricare ppt "Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste"

Presentazioni simili


Annunci Google