Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
8) GLI INTERVALLI DI CONFIDENZA
Le distribuzioni di probabilità continue
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Sintesi dei dati La sintesi dei dati comporta una perdita di informazioni, deve quindi essere privilegiato l’indice di sintesi che minimizza la perdita.
Lez. 3 - Gli Indici di VARIABILITA’
Analisi dei dati per i disegni ad un fattore
esponente del radicando
Gli errori nell’analisi statistica
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Analisi della varianza (a una via)
Introduzione alla statistica per la ricerca Lezione I
Processi Aleatori : Introduzione – Parte I
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 7-2: Test di significatività
Corso di biomatematica lezione 7: Test di significatività
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
di cosa si occupa la statistica inferenziale?
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Complementi al Corso di Ecologia - Approfondimenti di statistica
Lezione 8 Numerosità del campione
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
Il test di ipotesi Cuore della statistica inferenziale!
Verifica delle ipotesi su due campioni di osservazioni
METODI E CONTROLLI STATISTICI DI PROCESSO
Le distribuzioni campionarie
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Corso di biomatematica lezione 7-3: Test di significatività
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Il test del Chi-quadrato
Statistica Descrittiva
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Test basati su due campioni Test Chi - quadro
Intervalli di confidenza
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Accenni di analisi monovariata e bivariata
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
ANALISI E INTERPRETAZIONE DATI
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’ecologia è oggi sempre più una disciplina che enfatizza lo studio olistico del sistema. Anche se il concetto che l’intero possa essere più della somma.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

Corso di Calcolo delle Probabilità e Statistica II Parte – STATISTICA VI Lezione Cenni ai test di ipotesi non parametrici Test del chi quadro di indipendenza e di adattamento CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Argomenti della VI Lezione Test statistici di ipotesi non parametrici Utilità e impiego dei test Un esempio: test per la mediana di una distribuzione Test del chi quadro di indipendenza Test del chi quadro di adattamento a una distribuzione Esempi CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Test non parametrici Sono impiegati qualora non si abbiano informazioni preliminari sul tipo e sulla forma della distribuzione e/o non si possano fare assunzioni di normalità. ?! Gli sperimentatori dicono che tutti i dati sono normali per un teorema matematico. I matematici dicono che tutti i dati sono normali per l’evidenza sperimentale! Se le ipotesi di normalità sono soddisfatte i test parametrici hanno un’efficacia maggiore dei corrispondenti test non parametrici Se non si è certi della normalità della distribuzione è meglio usare un test non parametrico. CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Un esempio di test non parametrico: il test dei segni per la mediana Per una distribuzione continua la mediana è quel valore M tale che Campione di taglia n estratto da una distribuzione per cui si ipotizza che la mediana valga M0 M Ipotesi del test: CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Riassumendo: Se si vuole eseguire un test sul valore della mediana di una popolazione qualunque (non necessariamente normale) estraendo un campione di taglia n si pone Si considera quindi la variabile casuale Si calcola il p-value (p.es. nel caso di test unilaterale a coda sinistra) come CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica ESEMPIO (test di significatività) Valore della statistica e dato del campione Calcolo del p-value sotto l’ipotesi nulla Il p-value è piccolo: non si può accettare l’ipotesi nulla che la mediana sia quella ipotizzata (a favore dell’ipotesi che la nuova procedura riduca il tempo di esecuzione). CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Alcuni altri tipi di test non parametrici Test di Wilcoxon dei segni con rango: per la mediana di distribuzioni simmetriche continue (esistono tavole specifiche per vari valori della taglia n e del livello ) Test di Wilcoxon delle somme dei ranghi: per l’uguaglianza delle mediane di due distribuzioni continue (ovvero sull’uguaglianza delle popolazioni); campioni indipendenti (esistono tavole specifiche per vari valori delle taglie m e n e del livello ) Test di Wilcoxon dei segni con rango per campioni accoppiati: per l’uguaglianza delle mediane di due distribuzioni continue simmetriche; campioni accoppiati (esistono tavole specifiche per vari valori della taglia n e del livello ) CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Test per l’indipendenza di caratteri qualitativi: il test del chi quadro per l’indipendenza Viene impiegato per verificare l’ipotesi nulla che due fattori considerati congiuntamente in relazione a una data popolazione (p.es. il tipo di laurea frequentato e il conseguimento di un lavoro stabile dopo un certo numero di anni) siano indipendenti. La procedura viene applicata per verificare l’indipendenza tra due fattori in una tabella di contingenza con r righe e c colonne. La rappresentazione tabellare come tabella a doppia entrata o tabella di contingenza è la procedura descrittiva tipica per il confronto tra due variabili categoriche CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica ESEMPIO Motivi di insoddisfazione tra i clienti di tre grandi alberghi Frequenze marginali CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

fe = ( totale di riga x totale di colonna ) / n Consideriamo fo = frequenze osservate in una cella della tabella di contingenza r x c fe = frequenze teoriche o attese in una cella ella tabella di contingenza nel caso in cui l’ipotesi nulla di indipendenza sia vera Per calcolare le frequenze attese ricordiamo che due variabili qualitative devono essere ritenute indipendenti se, per ogni cella della tabella a doppia entrata, la frequenza relativa congiunta coincide con il prodotto delle corrispondenti frequenze relative marginali. Regola di calcolo: fe = ( totale di riga x totale di colonna ) / n n : ampiezza campionaria CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica L’ipotesi nulla e l’ipotesi alternativa in questo contesto sono: H0: La due variabili categoriche sono indipendenti (p.es. non sussistono relazioni tra il particolare albergo visistato e il motivo di insoddisfazione) H1: La due variabili categoriche sono dipendenti (p.es. sussiste una relazione tra il particolare albergo visitato e il motivo di insoddisfazione) La statistica per il test è la seguente: 2 =  tutte le celle __________ (fo - fe)2 fe E’ distribuita come una variabile casuale chi quadro a (r - 1)(c - 1) gradi di libertà. CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Caso dell’esempio: calcolo delle frequenze attese per le celle (1,1) e (4,3): fe (1,1) = ( totale di riga x totale di colonna ) / n = 67 x 88 / 187 = 31.53 fe (4,3) = ( totale di riga x totale di colonna ) / n = 29 x 66 / 187 = 10.24 Tabella delle frequenze attese: CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Caso dell’esempio: calcolo della statistica 2 2 = 27.402 Tale valore eccede il valore critico della distribuzione chi quadro con (4 - 1)(3 - 1) = 6 gradi di libertà al livello  = 0.05, che è 2 (6) = 12.592. Si deve rifiutare l’ipotesi nulla: esiste una relazione tra l’albergo visitato e il motivo di insoddisfazione dei clienti CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Riassumendo: Se si vuole eseguire un test sull’indipendenza di due caratteri qualitativi in una popolazione, si considera il valore della statistica 2 e si esprime la regola di decisione del test, in dipendenza dall’ipotesi nulla e dal livello di significatività scelto, come: 2 > 21- ((r-1)(c-1)) ATTENZIONE: per poter applicare il test la frequenza attesa di ogni classe dev’essere almeno pari a 5 (e comunque mai nulla!). Altrimenti, si possono raggruppare più classi in una sola. CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Test di bontà dell’adattamento a una distribuzione: il test del chi quadro per l’adattamento Viene impiegato per verificare l’ipotesi nulla che un dato campione sia estratto da, ovvero si adatti, a una specifica distribuzione La distribuzione può essere 1. specificata completamente (se ne danno i parametri) 2. non specificata completamente (i parametri devono essere preliminarmente stimati dai dati del campione) Il test è basato sulla seguente proprietà: CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Xi è il numero di prove che danno risultato i; lo si denota con Oi (oppure Ni) E[Xi]=npi=Ei numero atteso di prove che danno risultato i 2 = È distribuita approssimativamente, per n grande, come una v.a. chi quadro a k-1 gradi di libertà dove k è il numero delle classi. Questa v.a. viene impiegata come statistica di test per verificare l’ipotesi nulla che il campione dato sia estratto da una popolazione avente la distribuzione specificata. CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Riassumendo: Se si vuole eseguire un test sull’adattamento di una distribuzione campionaria F a una distribuzione nota F’, si considera il valore della statistica 2 e si esprime la regola di decisione del test, in dipendenza dall’ipotesi nulla e dal livello di significatività scelto, come: 2 > 21- (k - 1) ATTENZIONE: per poter applicare il test la frequenza attesa di ogni classe dev’essere almeno pari a 5. Altrimenti, si possono raggruppare più classi in una sola. CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica ESEMPIO Ipotesi nulla e alternativa CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Non si può rifiutare l’ipotesi nulla (test di significatività) CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Per distribuzioni diverse dalla multinomiale: Distribuzioni discrete Distribuzioni continue Se i parametri della distribuzione ipotizzata non sono specificati, ma devono essere stimati preliminarmente dal campione: n = k - d - 1 Gradi di libertà della v.a. chi quadro Numero di parametri stimati Numero di classi in cui si dividono i dati CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica ESEMPIO Procedura 1. Stima dei parametri della distribuzione 2. Calcolo delle frequenze attese e di quelle osservate per le classi costruite in modo tale che nessuna frequenza attesa sia inferiore a 5 3. Calcolo del valore della statistica di test 4. Confronto con il quantile della distribuzione del chi quadro opportuno CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica 1. Stima dei parametri 2. Individuazione delle classi; calcolo delle frequenze attese e delle frequenze osservate 3. Calcolo del valore della statistica di test 1) 4. Confronto con la v.a. chi quadro al livello e con i gradi di libertà opportuni CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica ATTENZIONE ! Su alcune tavole delle distribuzioni delle variabili casuali di interesse in Statistic (Z, chi quadro, F di Fisher, t di Student) i quantili (per esempio z per la variabile normale standard Z) vengono intesi nel modo seguente: P ( Z > z ) =  Le tavole riportano comunque l’indicazione (tramite la formula o tramite il grafico della funzione densità di probabilità della variabile implicata) per interpretare correttamente i valori che vi compaiono. CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica … in questo caso! Non si tratta di una regola generale. CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica ESERCIZIO I cavalli vincitori delle ultime 144 edizioni di una storica corsa avevano occupato alla partenza le otto possibili posizioni con le seguneti frequenze: pos. 1 2 3 4 5 6 7 8 fr. 29 19 18 25 17 10 15 11 Si può affermare che la posizione di partenza abbia avuto un’influenza significativa sulla vittoria? CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

Test per l’adattamento della distribuzione normale: normal probability plot Problema: stabilire se il campione a disposizione è estratto da una popolazione normale senza ricorrere a test parametrici o non parametrici ESEMPIO: E’ stato misurato il diametro esterno di 20 tubi. Si vuole verificare che le misure siano distribuite secondo la distribuzione normale. I dati raccolti sono: CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Procedimento di soluzione 1. Ordiniamo i dati attribuendo rango i all’i-esima osservazione ordinata: 2. Le osservazioni ordinate vengono riportate sul normal probability plot in funzione di Pi =100×[(i-0.5)/n] (valori sull’asse delle x). Le osservazioni ordinate corrispondenti vengono riportate sull’asse delle y. Es. P1 =100×[(1-0.5)/20]=2.5 La scala su tale asse va fissata in modo da comprendere i valori minimo e massimo osservati. CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica 3. Decidiamo se i punti del grafico cadono abbastanza prossimi a una retta. Scegliamo “a occhio” la retta migliore. Se ciò avviene accettiamo l’ipotesi che i dati siano distribuiti secondo la normale. 4. Stimiamo  tramite il 50-mo percentile (media e mediana della normale coincidono). Es. stim=1.70135 5. Stimiamo  ricordando che lo scarto tipo è uguale ai 2/5 della differenza tra il 90-mo e il 10-mo percentile. Es. 2/5 (1.7071-1.6957)=0.0046 CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica

CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica Qualche consiglio pratico per decidere se accettare l’ipotesi normale: 1. i punti non sono indipendenti, se un punto è sopra la retta probabilmente lo sarà anche il successivo. Però sequenze troppo lunghe sopra o sotto la retta devono INSOSPETTIRE. 2. Le discrepanze dei punti estremi (valore massimo e valore minimo) sono maggiori di quelle dei punti centrali. Pertanto nel tracciare la retta PRIVILEGIARE i punti centrali CPS - Corso di studi in Informatica 2004-2005 - II parte: Statistica