Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoAnjelo Franceschi Modificato 10 anni fa
1
Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA
VI Lezione Cenni ai test di ipotesi non parametrici Test del chi quadro di indipendenza e di adattamento CPS - Corso di studi in Informatica II parte: Statistica
2
Argomenti della VI Lezione
Test statistici di ipotesi non parametrici Utilità e impiego dei test Un esempio: test per la mediana di una distribuzione Test del chi quadro di indipendenza Test del chi quadro di adattamento a una distribuzione Esempi CPS - Corso di studi in Informatica II parte: Statistica
3
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Test non parametrici Sono impiegati qualora non si abbiano informazioni preliminari sul tipo e sulla forma della distribuzione e/o non si possano fare assunzioni di normalità. ?! Gli sperimentatori dicono che tutti i dati sono normali per un teorema matematico. I matematici dicono che tutti i dati sono normali per l’evidenza sperimentale! Se le ipotesi di normalità sono soddisfatte i test parametrici hanno un’efficacia maggiore dei corrispondenti test non parametrici Se non si è certi della normalità della distribuzione è meglio usare un test non parametrico. CPS - Corso di studi in Informatica II parte: Statistica
4
Un esempio di test non parametrico: il test dei segni per la mediana
Per una distribuzione continua la mediana è quel valore M tale che Campione di taglia n estratto da una distribuzione per cui si ipotizza che la mediana valga M0 M Ipotesi del test: CPS - Corso di studi in Informatica II parte: Statistica
5
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Riassumendo: Se si vuole eseguire un test sul valore della mediana di una popolazione qualunque (non necessariamente normale) estraendo un campione di taglia n si pone Si considera quindi la variabile casuale Si calcola il p-value (p.es. nel caso di test unilaterale a coda sinistra) come CPS - Corso di studi in Informatica II parte: Statistica
6
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
ESEMPIO (test di significatività) Valore della statistica e dato del campione Calcolo del p-value sotto l’ipotesi nulla Il p-value è piccolo: non si può accettare l’ipotesi nulla che la mediana sia quella ipotizzata (a favore dell’ipotesi che la nuova procedura riduca il tempo di esecuzione). CPS - Corso di studi in Informatica II parte: Statistica
7
Alcuni altri tipi di test non parametrici
Test di Wilcoxon dei segni con rango: per la mediana di distribuzioni simmetriche continue (esistono tavole specifiche per vari valori della taglia n e del livello ) Test di Wilcoxon delle somme dei ranghi: per l’uguaglianza delle mediane di due distribuzioni continue (ovvero sull’uguaglianza delle popolazioni); campioni indipendenti (esistono tavole specifiche per vari valori delle taglie m e n e del livello ) Test di Wilcoxon dei segni con rango per campioni accoppiati: per l’uguaglianza delle mediane di due distribuzioni continue simmetriche; campioni accoppiati (esistono tavole specifiche per vari valori della taglia n e del livello ) CPS - Corso di studi in Informatica II parte: Statistica
8
Test per l’indipendenza di caratteri qualitativi:
il test del chi quadro per l’indipendenza Viene impiegato per verificare l’ipotesi nulla che due fattori considerati congiuntamente in relazione a una data popolazione (p.es. il tipo di laurea frequentato e il conseguimento di un lavoro stabile dopo un certo numero di anni) siano indipendenti. La procedura viene applicata per verificare l’indipendenza tra due fattori in una tabella di contingenza con r righe e c colonne. La rappresentazione tabellare come tabella a doppia entrata o tabella di contingenza è la procedura descrittiva tipica per il confronto tra due variabili categoriche CPS - Corso di studi in Informatica II parte: Statistica
9
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
ESEMPIO Motivi di insoddisfazione tra i clienti di tre grandi alberghi Frequenze marginali CPS - Corso di studi in Informatica II parte: Statistica
10
fe = ( totale di riga x totale di colonna ) / n
Consideriamo fo = frequenze osservate in una cella della tabella di contingenza r x c fe = frequenze teoriche o attese in una cella ella tabella di contingenza nel caso in cui l’ipotesi nulla di indipendenza sia vera Per calcolare le frequenze attese ricordiamo che due variabili qualitative devono essere ritenute indipendenti se, per ogni cella della tabella a doppia entrata, la frequenza relativa congiunta coincide con il prodotto delle corrispondenti frequenze relative marginali. Regola di calcolo: fe = ( totale di riga x totale di colonna ) / n n : ampiezza campionaria CPS - Corso di studi in Informatica II parte: Statistica
11
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
L’ipotesi nulla e l’ipotesi alternativa in questo contesto sono: H0: La due variabili categoriche sono indipendenti (p.es. non sussistono relazioni tra il particolare albergo visistato e il motivo di insoddisfazione) H1: La due variabili categoriche sono dipendenti (p.es. sussiste una relazione tra il particolare albergo visitato e il motivo di insoddisfazione) La statistica per il test è la seguente: 2 = tutte le celle __________ (fo - fe)2 fe E’ distribuita come una variabile casuale chi quadro a (r - 1)(c - 1) gradi di libertà. CPS - Corso di studi in Informatica II parte: Statistica
12
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Caso dell’esempio: calcolo delle frequenze attese per le celle (1,1) e (4,3): fe (1,1) = ( totale di riga x totale di colonna ) / n = 67 x 88 / 187 = 31.53 fe (4,3) = ( totale di riga x totale di colonna ) / n = 29 x 66 / 187 = 10.24 Tabella delle frequenze attese: CPS - Corso di studi in Informatica II parte: Statistica
13
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Caso dell’esempio: calcolo della statistica 2 2 = Tale valore eccede il valore critico della distribuzione chi quadro con (4 - 1)(3 - 1) = 6 gradi di libertà al livello = 0.05, che è 2 (6) = Si deve rifiutare l’ipotesi nulla: esiste una relazione tra l’albergo visitato e il motivo di insoddisfazione dei clienti CPS - Corso di studi in Informatica II parte: Statistica
14
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Riassumendo: Se si vuole eseguire un test sull’indipendenza di due caratteri qualitativi in una popolazione, si considera il valore della statistica 2 e si esprime la regola di decisione del test, in dipendenza dall’ipotesi nulla e dal livello di significatività scelto, come: 2 > 21- ((r-1)(c-1)) ATTENZIONE: per poter applicare il test la frequenza attesa di ogni classe dev’essere almeno pari a 5 (e comunque mai nulla!). Altrimenti, si possono raggruppare più classi in una sola. CPS - Corso di studi in Informatica II parte: Statistica
15
Test di bontà dell’adattamento a una distribuzione:
il test del chi quadro per l’adattamento Viene impiegato per verificare l’ipotesi nulla che un dato campione sia estratto da, ovvero si adatti, a una specifica distribuzione La distribuzione può essere 1. specificata completamente (se ne danno i parametri) 2. non specificata completamente (i parametri devono essere preliminarmente stimati dai dati del campione) Il test è basato sulla seguente proprietà: CPS - Corso di studi in Informatica II parte: Statistica
16
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Xi è il numero di prove che danno risultato i; lo si denota con Oi (oppure Ni) E[Xi]=npi=Ei numero atteso di prove che danno risultato i 2 = È distribuita approssimativamente, per n grande, come una v.a. chi quadro a k-1 gradi di libertà dove k è il numero delle classi. Questa v.a. viene impiegata come statistica di test per verificare l’ipotesi nulla che il campione dato sia estratto da una popolazione avente la distribuzione specificata. CPS - Corso di studi in Informatica II parte: Statistica
17
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Riassumendo: Se si vuole eseguire un test sull’adattamento di una distribuzione campionaria F a una distribuzione nota F’, si considera il valore della statistica 2 e si esprime la regola di decisione del test, in dipendenza dall’ipotesi nulla e dal livello di significatività scelto, come: 2 > 21- (k - 1) ATTENZIONE: per poter applicare il test la frequenza attesa di ogni classe dev’essere almeno pari a 5. Altrimenti, si possono raggruppare più classi in una sola. CPS - Corso di studi in Informatica II parte: Statistica
18
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
ESEMPIO Ipotesi nulla e alternativa CPS - Corso di studi in Informatica II parte: Statistica
19
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Non si può rifiutare l’ipotesi nulla (test di significatività) CPS - Corso di studi in Informatica II parte: Statistica
20
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Per distribuzioni diverse dalla multinomiale: Distribuzioni discrete Distribuzioni continue Se i parametri della distribuzione ipotizzata non sono specificati, ma devono essere stimati preliminarmente dal campione: n = k - d - 1 Gradi di libertà della v.a. chi quadro Numero di parametri stimati Numero di classi in cui si dividono i dati CPS - Corso di studi in Informatica II parte: Statistica
21
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
ESEMPIO Procedura 1. Stima dei parametri della distribuzione 2. Calcolo delle frequenze attese e di quelle osservate per le classi costruite in modo tale che nessuna frequenza attesa sia inferiore a 5 3. Calcolo del valore della statistica di test 4. Confronto con il quantile della distribuzione del chi quadro opportuno CPS - Corso di studi in Informatica II parte: Statistica
22
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
1. Stima dei parametri 2. Individuazione delle classi; calcolo delle frequenze attese e delle frequenze osservate 3. Calcolo del valore della statistica di test 1) 4. Confronto con la v.a. chi quadro al livello e con i gradi di libertà opportuni CPS - Corso di studi in Informatica II parte: Statistica
23
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
ATTENZIONE ! Su alcune tavole delle distribuzioni delle variabili casuali di interesse in Statistic (Z, chi quadro, F di Fisher, t di Student) i quantili (per esempio z per la variabile normale standard Z) vengono intesi nel modo seguente: P ( Z > z ) = Le tavole riportano comunque l’indicazione (tramite la formula o tramite il grafico della funzione densità di probabilità della variabile implicata) per interpretare correttamente i valori che vi compaiono. CPS - Corso di studi in Informatica II parte: Statistica
24
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
… in questo caso! Non si tratta di una regola generale. CPS - Corso di studi in Informatica II parte: Statistica
25
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
ESERCIZIO I cavalli vincitori delle ultime 144 edizioni di una storica corsa avevano occupato alla partenza le otto possibili posizioni con le seguneti frequenze: pos fr Si può affermare che la posizione di partenza abbia avuto un’influenza significativa sulla vittoria? CPS - Corso di studi in Informatica II parte: Statistica
26
Test per l’adattamento della distribuzione normale:
normal probability plot Problema: stabilire se il campione a disposizione è estratto da una popolazione normale senza ricorrere a test parametrici o non parametrici ESEMPIO: E’ stato misurato il diametro esterno di 20 tubi. Si vuole verificare che le misure siano distribuite secondo la distribuzione normale. I dati raccolti sono: CPS - Corso di studi in Informatica II parte: Statistica
27
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Procedimento di soluzione 1. Ordiniamo i dati attribuendo rango i all’i-esima osservazione ordinata: 2. Le osservazioni ordinate vengono riportate sul normal probability plot in funzione di Pi =100×[(i-0.5)/n] (valori sull’asse delle x). Le osservazioni ordinate corrispondenti vengono riportate sull’asse delle y. Es. P1 =100×[(1-0.5)/20]=2.5 La scala su tale asse va fissata in modo da comprendere i valori minimo e massimo osservati. CPS - Corso di studi in Informatica II parte: Statistica
28
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
3. Decidiamo se i punti del grafico cadono abbastanza prossimi a una retta. Scegliamo “a occhio” la retta migliore. Se ciò avviene accettiamo l’ipotesi che i dati siano distribuiti secondo la normale. 4. Stimiamo tramite il 50-mo percentile (media e mediana della normale coincidono). Es. stim= 5. Stimiamo ricordando che lo scarto tipo è uguale ai 2/5 della differenza tra il 90-mo e il 10-mo percentile. Es. 2/5 ( )=0.0046 CPS - Corso di studi in Informatica II parte: Statistica
29
CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica
Qualche consiglio pratico per decidere se accettare l’ipotesi normale: 1. i punti non sono indipendenti, se un punto è sopra la retta probabilmente lo sarà anche il successivo. Però sequenze troppo lunghe sopra o sotto la retta devono INSOSPETTIRE. 2. Le discrepanze dei punti estremi (valore massimo e valore minimo) sono maggiori di quelle dei punti centrali. Pertanto nel tracciare la retta PRIVILEGIARE i punti centrali CPS - Corso di studi in Informatica II parte: Statistica
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.