La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Corso di Laboratorio di Informatica

Presentazioni simili


Presentazione sul tema: "Corso di Laboratorio di Informatica"— Transcript della presentazione:

1 Corso di Laboratorio di Informatica
Probabilità, statistica ed Excel Test d’ipotesi

2 Test d’ipotesi Vengono utilizzati per verificare che il modello scelto per la descrizione degli eventi sia congruente con la realtà Validazione del modello statistico utilizzato, ossia una distribuzione di probabilità dove uno o più parametri non sono noti Test non parametrici L’oggetto della decisione non sono i parametri ma la scelta del modello statistico Alcuni esempi Test generici, non legati ad una distribuzione di probabilità specifica Test del 2 Test di Kolmogorov Test specifici sul determinate distribuzioni di probabilità Test di normalità Test di poissonianità Test di casualità Nelle prossime pagine andremo ad analizzare i test generici Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

3 Test del 2 (1) E’ il test più noto e più semplice da applicare
Determina se le misure seguono o meno una determinata legge statistica Assumiamo di avere n misure della grandezza X X1, X2, X3, …, Xn Suddividiamo le nostre misure in r classi, ad esempio suddividendo il range delle grandezze in r parti, avendo cura che ogni classe sia sufficientemente visitata Ogni classe avrà una probabilità di essere visitata che dipende dal modello statistico utilizzato per descrivere il fenomeno La frequenza i di ogni singola classe sarà data dal numero di osservazioni della grandezza X nella classe i-esima (Yi) diviso il numero totale di osservazioni n Se il modello probabilistico è stato scelto correttamente, la probabilità da questo prevista per la classe i-esima (pi) sarà molto vicina alla frequenza osservata nelle misure per la stessa classe (i) La seguente variabile sarà pertanto un buon estimatore della vicinanza del modello dei dati alle misure effettuate Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

4 Test del 2 (2) La variabile 2obs tende asintoticamente ad essere distribuita come 2(r-1), dove n=(r-1) prende il nome di numero di gradi di libertà Tale variabile sarà tanto più piccola quanto meglio il modello statistico scelto descriverà i nostri dati Viceversa, se il modello statistico scelto non descrive correttamente i nostri dati, la variabile 2obs assumerà valori grandi Sulla base dei risultati della variabile 2oss potremo decidere se accettare o meno l’ipotesi H0 o ipotesi nulla Ipotesi H0 Le misure effettuate sono correttamente descritte del modello statistico scelto Assumiamo di voler stabilire se il modello statistico scelto descrive i nostri dati entro un livello di confidenza , ossia vogliamo stabilire se il nostro modello è corretto entro una probabilità 1- Diremo che il nostro modello è corretto con livello  (accettazione dell’ipotesi nulla con livello ) se Al contrario rifiuteremo l’ipotesi nulla se La probabilità limite (p-value) con la quale viene rifiutata l’ipotesi nulla, quando è verificata, è quindi E’ quindi chiaro che, prendendo un valore  > * il test rifiuterà la nostra ipotesi nulla Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

5 Test del 2 (3) Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

6 Test del 2 (4) Esempio: misura della radioattività di una sorgente tramite un contatore Geiger Il fenomeno è descritto da una distribuzione di Poisson Osserviamo i dati ed estraiamo il parametro , tramite la media dei conteggi delle N misurazioni Costruiamo l’istogramma della frequenza per r=10 classi Inseriamo le frequenze nel range A1:A10 Calcoliamo le probabilità per ogni singola classe tramite la funzione di distribuzione di Poisson POISSON(x;media;cumulativo) x è il valore al quale calcolare la distribuzione Media è il valore della media della distribuzione Cumulativo fa si che la formula di Excel ritorni la funzione cumulativa se VERO e la densità di probabilità se FALSO Inseriamo le probabilità in B1:B10 Calcoliamo 2obs Inseriamo i risultati parziali in C1:C10 (N*Bi-Ai)/(N*Bi) Inseriamo il risultato in D1 SOMMA(C1:C10) Calcoliamo il p-value Numero di gradi di libertà n=(r-1)-1=8 DISTRIB.CHI(D1;8) Verifichiamo l’ipotesi nulla, ossia che il nostro fenomeno segua la statistica di Poisson, con un livello di confidenza =5%=0.05 (ossia che ci sia la probabilità del 95% che il nostro modello sia corretto) Tramite la funzione inversa del 2, INV.CHI(probabilità, gradi di libertà) Probabilità: il livello di confidenza () Gradi di libertà: i gradi di libertà del nostro fenomeno, ossia le classi (frequenze indipendenti); n=r-1 SE(D1<INV.CHI(0.05; 8);”Buon adattamento - ipotesi nulla accettata”;”Cattivo adattamento - ipotesi nulla rigettata”) Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

7 Test del 2 (4) Esempio: verifica dell’efficacia di due farmaci diversi 13 pazienti su 23 trattati con il farmaco A risultano guariti, mentre per il farmaco B risultano guariti 8 pazienti su 17 La nostra ipotesi nulla è che non esista nessuna differenza fra i due farmaci e che la differenza di guarigioni sia dovuta al caso Dalla probabilità complessiva di guarigione in entrambi i casi (21/40=52.5%), quindi assumendo che non vi sia differenza fra A e B, si ricavano i valori attesi Per piccoli numeri di classi bisogna applicare la correzione di Yates in questo caso abbiamo una matrice 2x2, quindi un numero di gradi di libertà pari a n=(colonne-1)x(righe-1)=(2-1)x(2-1)=1 La correzione di Yates va applicata La condizione di Yates prevede che il numero più basso venga aumentato di 0.5 e quello più alto venga diminuito di 0.5 Scegliamo come livello di confidenza =10%=0.1 (ossia verifichiamo che entro il 90% di probabilità le differenze di numero di guarigioni siano dovute al caso) INV.CHI(0.1;1) = 2.71 > 2obs  La nostra ipotesi è accettata Farmaco Guariti Non guariti Totali A 13 10 23 B 8 9 17 Totale 21 19 40 Farmaco Guariti Non guariti Totali A 12 11 23 B 9 8 17 Totale 21 19 40 Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006

8 Test di Kolmogorov Consiste nel confronto tra la funzione di distribuzione teorica F(x) e quella sperimentale F*(x) che descrive le misure effettuate Confronta la forma delle due distribuzioni Ipotesi nulla H0 F(x) = F*(x) Si definisce distanza di Kolmogorov la massima differenza, in valore assoluto, tra la funzione teorica e quella sperimentale L’ipotesi nulla viene accettata per piccoli valori di D e rigettata per valori grandi Lab. Di Informatica (CTF) - Alessandro De Salvo/Francesco Safai Tehrani - AA 2005/2006


Scaricare ppt "Corso di Laboratorio di Informatica"

Presentazioni simili


Annunci Google