La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione.

Presentazioni simili


Presentazione sul tema: "1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione."— Transcript della presentazione:

1 1 CPS - Corso di studi in Informatica II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione Cenni ai test di ipotesi non parametrici Test del chi quadro di indipendenza e di adattamento

2 2 Argomenti della VI Lezione Test statistici di ipotesi non parametrici Utilità e impiego dei test Un esempio: test per la mediana di una distribuzione Test del chi quadro di indipendenza Test del chi quadro di adattamento a una distribuzione Esempi CPS - Corso di studi in Informatica II parte: Statistica

3 3 Test non parametrici Sono impiegati qualora non si abbiano informazioni preliminari sul tipo e sulla forma della distribuzione e/o non si possano fare assunzioni di normalità. Gli sperimentatori dicono che tutti i dati sono normali per un teorema matematico. I matematici dicono che tutti i dati sono normali per levidenza sperimentale! ?! Se le ipotesi di normalità sono soddisfatte i test parametrici hanno unefficacia maggiore dei corrispondenti test non parametrici Se non si è certi della normalità della distribuzione è meglio usare un test non parametrico. CPS - Corso di studi in Informatica II parte: Statistica

4 4 Un esempio di test non parametrico: il test dei segni per la mediana Per una distribuzione continua la mediana è quel valore M tale che Campione di taglia n estratto da una distribuzione per cui si ipotizza che la mediana valga M 0 Ipotesi del test: CPS - Corso di studi in Informatica II parte: Statistica M

5 5 Riassumendo: Se si vuole eseguire un test sul valore della mediana di una popolazione qualunque (non necessariamente normale) estraendo un campione di taglia n si pone Si considera quindi la variabile casuale Si calcola il p-value (p.es. nel caso di test unilaterale a coda sinistra) come CPS - Corso di studi in Informatica II parte: Statistica

6 6 ESEMPIO Valore della statistica e dato del campione Calcolo del p-value sotto lipotesi nulla Il p-value è piccolo: non si può accettare lipotesi nulla che la mediana sia quella ipotizzata (a favore dellipotesi che la nuova procedura riduca il tempo di esecuzione). (test di significatività) CPS - Corso di studi in Informatica II parte: Statistica

7 7 Alcuni altri tipi di test non parametrici Test di Wilcoxon dei segni con rango: per la mediana di distribuzioni simmetriche continue (esistono tavole specifiche per vari valori della taglia n e del livello ) Test di Wilcoxon delle somme dei ranghi: per luguaglianza delle mediane di due distribuzioni continue (ovvero sulluguaglianza delle popolazioni); campioni indipendenti (esistono tavole specifiche per vari valori delle taglie m e n e del livello ) Test di Wilcoxon dei segni con rango per campioni accoppiati: per luguaglianza delle mediane di due distribuzioni continue simmetriche; campioni accoppiati (esistono tavole specifiche per vari valori della taglia n e del livello ) CPS - Corso di studi in Informatica II parte: Statistica

8 8 Test per lindipendenza di caratteri qualitativi: il test del chi quadro per lindipendenza Viene impiegato per verificare lipotesi nulla che due fattori considerati congiuntamente in relazione a una data popolazione (p.es. il tipo di laurea frequentato e il conseguimento di un lavoro stabile dopo un certo numero di anni) siano indipendenti. La procedura viene applicata per verificare lindipendenza tra due fattori in una tabella di contingenza con r righe e c colonne. CPS - Corso di studi in Informatica II parte: Statistica La rappresentazione tabellare come tabella a doppia entrata o tabella di contingenza è la procedura descrittiva tipica per il confronto tra due variabili categoriche

9 9 CPS - Corso di studi in Informatica II parte: Statistica ESEMPIO Motivi di insoddisfazione tra i clienti di tre grandi alberghi Frequenze marginali

10 10 CPS - Corso di studi in Informatica II parte: Statistica Consideriamo f o = frequenze osservate in una cella della tabella di contingenza r x c f e = frequenze teoriche o attese in una cella ella tabella di contingenza nel caso in cui lipotesi nulla di indipendenza sia vera Per calcolare le frequenze attese ricordiamo che due variabili qualitative devono essere ritenute indipendenti se, per ogni cella della tabella a doppia entrata, la frequenza relativa congiunta coincide con il prodotto delle corrispondenti frequenze relative marginali. Regola di calcolo: f e = ( totale di riga x totale di colonna ) / n n : ampiezza campionaria

11 11 CPS - Corso di studi in Informatica II parte: Statistica Lipotesi nulla e lipotesi alternativa in questo contesto sono: H 0 : La due variabili categoriche sono indipendenti (p.es. non sussistono relazioni tra il particolare albergo visistato e il motivo di insoddisfazione) H 1 : La due variabili categoriche sono dipendenti (p.es. sussiste una relazione tra il particolare albergo visitato e il motivo di insoddisfazione) 2 = tutte le celle __________ (f o - f e ) 2 fefe La statistica per il test è la seguente: E distribuita come una variabile casuale chi quadro a (r - 1)(c - 1) gradi di libertà.

12 12 CPS - Corso di studi in Informatica II parte: Statistica Caso dellesempio: calcolo delle frequenze attese per le celle (1,1) e (4,3): f e (1,1) = ( totale di riga x totale di colonna ) / n = 67 x 88 / 187 = f e (4,3) = ( totale di riga x totale di colonna ) / n = 29 x 66 / 187 = Tabella delle frequenze attese:

13 13 CPS - Corso di studi in Informatica II parte: Statistica Caso dellesempio: calcolo della statistica 2 2 = Tale valore eccede il valore critico della distribuzione chi quadro con (4 - 1)(3 - 1) = 6 gradi di libertà al livello = 0.05, che è 2 (6) = Si deve rifiutare lipotesi nulla: esiste una relazione tra lalbergo visitato e il motivo di insoddisfazione dei clienti

14 14 CPS - Corso di studi in Informatica II parte: StatisticaRiassumendo: Se si vuole eseguire un test sullindipendenza di due caratteri qualitativi in una popolazione, si considera il valore della statistica 2 e si esprime la regola di decisione del test, in dipendenza dallipotesi nulla e dal livello di significatività scelto, come: ATTENZIONE: per poter applicare il test la frequenza attesa di ogni classe devessere almeno pari a 5 (e comunque mai nulla!). Altrimenti, si possono raggruppare più classi in una sola. 2 > 2 1- ((r-1)(c-1))

15 15 Test di bontà delladattamento a una distribuzione: il test del chi quadro per ladattamento Viene impiegato per verificare lipotesi nulla che un dato campione sia estratto da, ovvero si adatti, a una specifica distribuzione La distribuzione può essere 1. specificata completamente (se ne danno i parametri) 2. non specificata completamente (i parametri devono essere preliminarmente stimati dai dati del campione) Il test è basato sulla seguente proprietà: CPS - Corso di studi in Informatica II parte: Statistica

16 16 X i è il numero di prove che danno risultato i; lo si denota con O i (oppure N i ) E[X i ]=np i =E i numero atteso di prove che danno risultato i È distribuita approssimativamente, per n grande, come una v.a. chi quadro a k-1 gradi di libertà dove k è il numero delle classi. Questa v.a. viene impiegata come statistica di test per verificare lipotesi nulla che il campione dato sia estratto da una popolazione avente la distribuzione specificata. 2 = CPS - Corso di studi in Informatica II parte: Statistica

17 17Riassumendo: Se si vuole eseguire un test sulladattamento di una distribuzione campionaria F a una distribuzione nota F, si considera il valore della statistica 2 e si esprime la regola di decisione del test, in dipendenza dallipotesi nulla e dal livello di significatività scelto, come: ATTENZIONE: per poter applicare il test la frequenza attesa di ogni classe devessere almeno pari a 5. Altrimenti, si possono raggruppare più classi in una sola. 2 > 2 1- (k - 1) CPS - Corso di studi in Informatica II parte: Statistica

18 18 ESEMPIO Ipotesi nulla e alternativa CPS - Corso di studi in Informatica II parte: Statistica

19 19 Non si può rifiutare lipotesi nulla (test di significatività) CPS - Corso di studi in Informatica II parte: Statistica

20 20 Per distribuzioni diverse dalla multinomiale: Distribuzioni discrete Distribuzioni continue Se i parametri della distribuzione ipotizzata non sono specificati, ma devono essere stimati preliminarmente dal campione: n = k - d - 1 Gradi di libertà della v.a. chi quadro Numero di classi in cui si dividono i dati Numero di parametri stimati CPS - Corso di studi in Informatica II parte: Statistica

21 21 ESEMPIO 1. Stima dei parametri della distribuzione 2. Calcolo delle frequenze attese e di quelle osservate per le classi costruite in modo tale che nessuna frequenza attesa sia inferiore a 5 3. Calcolo del valore della statistica di test 4. Confronto con il quantile della distribuzione del chi quadro opportuno Procedura CPS - Corso di studi in Informatica II parte: Statistica

22 22 1. Stima dei parametri 2. Individuazione delle classi; calcolo delle frequenze attese e delle frequenze osservate 3. Calcolo del valore della statistica di test 4. Confronto con la v.a. chi quadro al livello e con i gradi di libertà opportuni 1) CPS - Corso di studi in Informatica II parte: Statistica

23 23 ATTENZIONE ! Su alcune tavole delle distribuzioni delle variabili casuali di interesse in Statistic (Z, chi quadro, F di Fisher, t di Student) i quantili (per esempio z per la variabile normale standard Z) vengono intesi nel modo seguente: P ( Z > z ) = Le tavole riportano comunque lindicazione (tramite la formula o tramite il grafico della funzione densità di probabilità della variabile implicata) per interpretare correttamente i valori che vi compaiono. CPS - Corso di studi in Informatica II parte: Statistica

24 24 … in questo caso! Non si tratta di una regola generale. CPS - Corso di studi in Informatica II parte: Statistica

25 25 ESERCIZIO I cavalli vincitori delle ultime 144 edizioni di una storica corsa avevano occupato alla partenza le otto possibili posizioni con le seguneti frequenze: pos fr Si può affermare che la posizione di partenza abbia avuto uninfluenza significativa sulla vittoria? CPS - Corso di studi in Informatica II parte: Statistica

26 26 CPS - Corso di studi in Informatica II parte: Statistica Test per ladattamento della distribuzione normale: normal probability plot ESEMPIO: E stato misurato il diametro esterno di 20 tubi. Si vuole verificare che le misure siano distribuite secondo la distribuzione normale. I dati raccolti sono: Problema: stabilire se il campione a disposizione è estratto da una popolazione normale senza ricorrere a test parametrici o non parametrici

27 27 CPS - Corso di studi in Informatica II parte: Statistica Procedimento di soluzione 1. Ordiniamo i dati attribuendo rango i alli-esima osservazione ordinata: 2. Le osservazioni ordinate vengono riportate sul normal probability plot in funzione di P i =100×[(i-0.5)/n] (valori sullasse delle x). Le osservazioni ordinate corrispondenti vengono riportate sullasse delle y. Es. P 1 =100×[(1-0.5)/20]=2.5 La scala su tale asse va fissata in modo da comprendere i valori minimo e massimo osservati.

28 28 CPS - Corso di studi in Informatica II parte: Statistica 5. Stimiamo ricordando che lo scarto tipo è uguale ai 2/5 della differenza tra il 90-mo e il 10-mo percentile. Es. 2/5 ( )= Decidiamo se i punti del grafico cadono abbastanza prossimi a una retta. Scegliamo a occhio la retta migliore. Se ciò avviene accettiamo lipotesi che i dati siano distribuiti secondo la normale. 4. Stimiamo tramite il 50-mo percentile (media e mediana della normale coincidono). Es. stim =

29 29 CPS - Corso di studi in Informatica II parte: Statistica Qualche consiglio pratico per decidere se accettare lipotesi normale: 1. i punti non sono indipendenti, se un punto è sopra la retta probabilmente lo sarà anche il successivo. Però sequenze troppo lunghe sopra o sotto la retta devono INSOSPETTIRE. 2. Le discrepanze dei punti estremi (valore massimo e valore minimo) sono maggiori di quelle dei punti centrali. Pertanto nel tracciare la retta PRIVILEGIARE i punti centrali


Scaricare ppt "1 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione."

Presentazioni simili


Annunci Google