Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.

Slides:



Advertisements
Presentazioni simili
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Advertisements

Le distribuzioni di probabilità continue
2. Introduzione alla probabilità
Presupposti alla lezione
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Analisi dei dati per i disegni ad un fattore
Analisi preliminari dei dati
Descrizione dei dati Metodi di descrizione dei dati
Gli errori nell’analisi statistica
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Inferenza statistica per un singolo campione
Analisi della varianza (a una via)
Introduzione alla statistica per la ricerca Lezione I
Processi Aleatori : Introduzione – Parte I
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 7: Test di significatività
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
Lezione 4 Probabilità.
Parte I (introduzione) Taratura degli strumenti (cfr: UNI 4546) Si parla di taratura in regime statico se lo strumento verrà utilizzato soltanto per misurare.
Analisi della varianza
Verifica delle ipotesi su due campioni di osservazioni
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Statistica economica (6 CFU) Corso di Laurea in Economia e Commercio a.a Docente: Lucia Buzzigoli Lezione 5 1.
Le distribuzioni campionarie
Statistica Che cos’è?.
TRATTAMENTO DEI DATI ANALITICI
Unità 7 Test parametrici ☐ Test t di Student ☐ Analisi della varianza ad una via ☐ Confronti multipli.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Corso di Laboratorio di Informatica
Cap. 15 Caso, probabilità e variabili casuali Cioè gli ingredienti matematici per fare buona inferenza statistica.
Statistica Descrittiva
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Corso di Analisi Statistica per le Imprese
Controllo di qualità dei processi e collaudo
Strumenti statistici in Excell
IL CAMPIONE.
“Teoria e metodi della ricerca sociale e organizzativa”
La statistica F Permette di confrontare due varianze, per stabilire se sono o no uguali. Simile al valore t di Student o al chi quadrato, l’F di Fisher.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4
Analisi della varianza Resistenza di una fibra sintetica: essa è legata alla percentuale di cotone che potrà però variare tra il 10 e il 40% perché il.
Intervalli di confidenza
Eventi aleatori Un evento è aleatorio (casuale) quando non si può prevedere con certezza se avverrà o meno I fenomeni (eventi) aleatori sono studiati.
La distribuzione campionaria della media
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Elaborazione statistica di dati
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
Dalmine, 26 Maggio 2004 Esercitazioni di Statistica con Matlab Dott. Orietta Nicolis fttp:\ingegneria.unibg.it.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
STATISTICA P IA F ONDAZIONE DI C ULTO E R ELIGIONE C ARD. G. P ANICO Azienda Ospedaliera CORSO DI LAUREA IN INFERMIERISTICA Sr. Margherita Bramato.
Problemi analitici quantitativi I metodi chimico-analitici strumentali hanno lo scopo di quantificare o di determinare proprietà chimico-fisiche di uno.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
In alcuni casi gli esiti di un esperimento possono essere considerati numeri naturali in modo naturale. Esempio: lancio di un dado In atri casi si definisce.
Ipotesi operative TeoriaEsperienza diretta e/o personale Quesito Piano esecutivo Scelta popolazione Scelta strumenti Scelta metodi statistici Discussione.
L’ecologia è oggi sempre più una disciplina che enfatizza lo studio olistico del sistema. Anche se il concetto che l’intero possa essere più della somma.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
Trattamento dei dati sperimentali
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
Transcript della presentazione:

Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione

TEST PARAMETRICI E NON PARAMETRICI L’applicazione di un dato test a una serie di dati dipende dal tipo di distribuzione della variabile casuale che stiamo studiando. Agli effetti pratici possiamo suddividere i test in due categorie: test parametrici, test non parametrici. Nella statistica parametrica si fanno uso di modelli matematici che necessitano di ipotesi a priori sulle caratteristiche della popolazione o comunque di ipotesi più restrittive di quelle della statistica non parametrica.

Nell’analisi di dati biomedici ci possiamo trovare di fronte a: A. dati proventi da distribuzioni gaussiane (o molto simili ad esse); B. dati provenienti da distribuzioni diverse dalla curva di Gauss. Nel caso A (rispettando determinate ipotesi) si utilizzano preferibilmente test parametrici, mentre nel caso B è in generale obbligatorio applicare test non parametrici. Si noti che, mentre nel caso B è in generale errato applicare test parametrici, nel caso A si possono applicare test parametrici o non parametrici. Tuttavia nel caso A è preferibile impiegare test parametrici, poiché, a parità di numerosità del campione, questi sono molto più potenti dei corrispondenti test non parametrici, permettendo così di evidenziare differenze significative con campioni meno numerosi rispetto ai corrispondenti test non parametrici.

OSSERVAZIONE SUI TEST PARAMETRICI Ogni test statistico parametrico impone talune condizioni sulla distribuzione dei parametri della popolazione dalla quale è stato estratto il campione usato nella ricerca. Molte volte (sbagliando) si suppone che queste condizioni siano valide senza effettuare nessuna verifica. La validità dei risultati ottenuti applicando un test parametrico, dipende dalla validità dei presupposti. Un test statistico non parametrico è invece basato su un modello che specifica solo condizioni molto generiche e non richiede condizioni relative alla forma specifica della distribuzione della popolazione da cui è stato estratto il campione.

Esempio Il test t di Student per il confronto di due campioni indipendenti è un classico esempio di test parametrico che descriveremo in seguito. Esso richiede i seguenti presupposti: i dati seguono in modo accettabile una distribuzione normale; i dati sono indipendenti; le deviazioni standard per le due popolazioni sono uguali (in generale diciamo che il rapporto fra la deviazione standard maggiore e quella minore non è maggiore di 2).

TEST PER LA VERIFICA DELLE NORMALITÀ I test parametrici (come il test t di Student) partono dall’ipotesi che le osservazioni seguano una distribuzione gaussiana. In questo caso tutta l’informazione è contenuta nella media  e nella deviazione standard  della popolazione in esame. Tuttavia, quando si considerano dati reali, è raro che tale ipotesi sia completamente verificata: i dati possono essere essenzialmente gaussiani ma presentare occasionali outliers, oppure possono non essere affatto gaussiani. È quindi necessario avere a disposizione procedimenti per verificare, per un dato set di osservazioni, la ragionevolezza dell’assunzione di normalità.

Un modo grossolano per valutare qualitativamente forti scostamenti dalla normalità è quello di analizzare visivamente l’istogramma di frequenza dei dati raccolti. È chiaro che un istogramma in cui si evidenziano chiaramente più mode oppure fortemente asimmetrico a destra o a sinistra suggerisce che i dati che si vogliono analizzare non seguono una distribuzione gaussiana. Un tale approccio non porta però a nessuna informazione quantitativa precisa ed è da considerarsi mediocre. Il modo più classico per valutare la normalità di osservazioni univariate è tramite l’analisi dei coefficienti di asimmetria e di curtosi i cui valori critici al 5% e all’1% sono riportati nei manuali di statistica.

Anche il test del χ2 (che descriveremo in seguito) può essere impiegato per valutare se una distribuzione di frequenze è da considerarsi ragionevolmente di tipo gaussiano oppure no. Con questo test è possibile confrontare le frequenze osservate nel campione in esame con quelle attese nell’ipotesi di distribuzione gaussiana. Shapiro e Wilks hanno proposto un differente test globale che ha buone proprietà di potenza, essendo sensibile ad un’ampia varietà di alternative alla normale. Nel lavoro originale essi hanno riportato i valori critici della loro statistica per una numerosità del campione n50.

Per n>50 D’Agostino ha proposto un test alternativo, dando anche una tavola dei valori critici del suo test per dimensioni campionarie fino a 1000. Un test largamente impiegato, che descriveremo più in dettaglio, è il test di Kolmogorov-Smirnov. Per comprendere il funzionamento del test di Kolmogorov-Smirnov è necessario definire prima il concetto di funzione di ripartizione.

F(x) = P(X≤x) con –∞<x<∞ FUNZIONE DI RIPARTIZIONE In precedenza abbiamo visto che la distribuzione di probabilità di una variabile aleatoria continua X può essere rappresentata con il grafico della densità di probabilità f(x) in funzione di x, come in figura. La funzione di ripartizione (detta anche funzione di distribuzione cumulativa o brevemente funzione di distribuzione) di una variabile casuale X è definita come F(x) = P(X≤x) con –∞<x<∞ Essa esprime perciò la probabilità che la variabile aleatoria assuma valori uguali o inferiori a x. x Funzione di densità di probabilità f(x) Funzione di ripartizione F(x) 1

Essa è quindi una funzione monotona non decrescente che va da 0 a 1. x Funzione di densità di probabilità f(x) Funzione di ripartizione F(x) 1 F(x) rappresenta l’area sottostante alla curva densità di probabilità f(x), dall’estremo sinistro della curva (che può essere a –∞) fino al valore x. Essa è quindi una funzione monotona non decrescente che va da 0 a 1. La funzione di ripartizione che corrisponde alla densità di probabilità in figura in alto a destra è, ad esempio, quella riportata in figura in basso a destra. N.B. La funzione di ripartizione può essere definita, in modo del tutto analogo a quanto fatto sopra, anche per una variabile aleatoria discreta.

Test di Kolmogorov-Smirnov Molti test utilizzati in statistica sono test parametrici. Questi test sono basati su assunzioni importanti, quali un’adeguata dimensione campionaria e la distribuzione normale della variabile di interesse. Il test di Kolmogorov-Smirnov è un test non parametrico che verifica la forma delle distribuzioni campionarie. È applicabile a dati per lo meno ordinali perché richiede la costruzione di una funzione di ripartizione. Questo test è comunemente usato per confrontare dati sperimentali con distribuzioni attese ed in particolare per testare se la distribuzione in studio differisce da una distribuzione teorica, per esempio, normale.

H1: F(x) ≠ F0 (x), per qualche x. Sia X una variabile casuale continua con funzione di ripartizione F(x). Il test di Kolmogorov-Smirnov su un unico campione è un test per la bontà dell’adattamento. Esso verifica cioè che la variabile casuale X abbia funzione di ripartizione uguale ad una data funzione di ripartizione F0(x), ossia: H0: F(x) = F0(x), per ogni x contro H1: F(x) ≠ F0 (x), per qualche x. Sia x = (x1, . . . xN) un campione casuale di ampiezza N tratto dalla variabile casuale X. Poiché il problema riguarda la funzione di ripartizione della variabile casuale X, è intuitivo basare la statistica test sulla funzione di ripartizione empirica.

Dette quindi x(1), . . . . x(N) le N osservazioni ordinate, la funzione di ripartizione empirica sarà definita come La è uno stimatore non distorto di F(x).

La statistica test di Kolmogorov-Smirnov è data da È cioè definita come la massima differenza (in valore assoluto) tra la funzione di ripartizione empirica e la funzione di ripartizione teorica . L’idea del test di Kolmogorov-Smirnov è piuttosto semplice e intuitiva. Poiché stima la vera funzione di ripartizione F(x), è logico basarsi su una qualche distanza tra e . Se e sono vicine, si accetta l’ipotesi nulla, mentre la si rifiuta se e sono lontane.

Il valore di DN così calcolato è confrontato con i valori critici riportati nella corrispondente tabella, che dipendono dal livello di significatività scelto e dalla numerosità dei campioni considerati. In altre parole l’ipotesi nulla viene rifiutata ad un livello di significatività α quando il valore calcolato di DN supera il corrispondente valore riportato nella tabella dei quantili. Nella sua forma originale il test di Kolmogorov-Smirnov si applica quando è completamente determinata indipendentemente dai dati che stiamo studiando. In questo caso i valori critici di DN sono quelli riportati nella successiva Tabella 1. Di solito, però, non è questa la situazione.

Testando se una serie di osservazioni si adatta ad una distribuzione gaussiana, la particolare distribuzione è quella avente media e deviazione standard stimate dai dati. In questo caso si usa una versione modificata del test di Kolmogorov-Smirnov, dovuta a H.W. Lilliefors. Il test statistico, ovvero il valore di DN, è calcolato esattamente come prima, ma i valori critici sono diversi. La tabella da usare è la Tabella 2, che fornisce i valori critici per N fino a 30. (Se, per N<30, il valore critico corrispondente ad un particolare N non è presente in tabella, si può usare un’interpolazione lineare per ricavarlo). In generale, quando N>30 i valori critici per il test di Kolmogorov-Smirnov- Lilliefors bilaterale per α = 0,10; 0,05 e 0,01 sono rispettivamente ; e .

Esempio di calcolo di una funzione di ripartizione empirica Si supponga di avere un campione di 20 individui sui quali è stata acquisita la variabile aleatoria X e che i valori misurati siano quelli di seguito riportati 1,55;  0,08;  0,70;  6,98;  0,42;  3,20;  0,95;  0,17;  1,37;  50,57;  0,24;  0,34;  0,50;  0,94;1,26;  0,38;  0,10;  1,75;  0,15;  0,49 Per calcolare la funzione di ripartizione empirica si ordinano le osservazioni in ordine crescente. Ricordando che la numerosità del campione (N) è pari a 20 e che quindi per , la funzione di ripartizione empirica sarà calcolata come nella seguente tabella. Il suo grafico sarà pertanto quello in figura sotto. Funzione di ripartizione empirica

Esempio di applicazione del test di Kolmogorov-Smirnov-Lilliefors Si supponga che la funzione di ripartizione empirica calcolata (utilizzando la procedura vista precedentemente) su un campione con numerosità N pari a 53 osservazioni sia la linea a gradini mostrata in figura sotto. Sulla base del valore medio e della deviazione standard delle osservazioni campionarie si supponga di avere ottenuto la funzione di ripartizione teorica F0(x) corrispondente alla distribuzione gaussiana (linea continua in figura). Il valore della statistica del test è la massima differenza verticale tra le due funzioni di ripartizione ed è uguale a 0,13. Esso supera il valore critico del test al livello del 5% ( ). Si può quindi rigettare l’ipotesi nulla con p < 0,05. In altre parole vi è evidenza (p < 0,05) che i valori non siano distribuiti in modo gaussiano. Osservazione: si noti che anche il grafico rivelava un’asimmetria positiva.