ANALISI DELLA VARIANZA (ANOVA)

Slides:



Advertisements
Presentazioni simili
ANALISI della VARIANZA FATTORIALE
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
Lanalisi della varianza Obiettivo: studiare le relazioni tra variabili discrete, che definiscono delle categorie e variabili continue. Esempi: Confronti.
Presupposti alla lezione
Confronto tra 2 campioni Nella pratica è utilissimo confrontare se 2 campioni provengono da popolazioni con la stessa media: Confronti tra produzioni di.
Fondamenti della Misurazione
Analisi dei dati per i disegni ad un fattore
Il modello di analisi dei dati nei disegni within.
L'analisi di varianza Concetti principali: l'analisi di varianza di basa sul calcolo della statistica F. Si mette a confronto la varianza tra i gruppi.
ANALISI DELLA COVARIANZA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Esercitazione su test d’ipotesi
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a LA STATISTICA INFERENZIALE
di cosa si occupa la statistica inferenziale?
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Analisi della varianza
Il test di ipotesi Cuore della statistica inferenziale!
Verifica delle ipotesi su due campioni di osservazioni
L’Analisi della Varianza (o ANOVA)
Le distribuzioni campionarie
Recap on Measure Theory and Statistical Inference
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Anova a due fattori Esempio di piano fattoriale: il caso della progettazione robusta di batterie Tipo di Materiale Temperatura (°F)
Esame di Analisi Multivariata dei Dati
Elementi di Statistica medica Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Copyright © 2007 – The McGraw-Hill Companies s.r.l. SIGNIFICATIVITÀ.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Strumenti statistici in Excell
L’analisi della varianza
Corso di Laurea in Scienze e tecniche psicologiche
La statistica F Permette di confrontare due varianze, per stabilire se sono o no uguali. Simile al valore t di Student o al chi quadrato, l’F di Fisher.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Test basati su due campioni Test Chi - quadro
“Teoria e metodi della ricerca sociale e organizzativa”
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Corso di Laurea in Scienze e tecniche psicologiche
Disegni ad un fattore tra i soggetti. Disegni ad un solo fattore between Quando i livelli del trattamento possono influenzarsi reciprocamente è necessario.
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
Accademia europea dei pazienti sull'innovazione terapeutica Lo scopo e i fondamenti della statistica negli studi clinici.
Test dell’ ANOVA L EZIONI III PARTE F ONDAMENTI E METODI PER L ’ ANALISI EMPIRICA NELLE SCIENZE SOCIALI A. A
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

ANALISI DELLA VARIANZA (ANOVA) E’ UNA TECNICA STATISTICA NATA NELL’AMBITO DELLA RICERCA SPERIMENTALE PER VALUTARE L’EFFETTO DI DETERMINATI FATTORI, VARIABILI INDIPENDENTI -DI TIPO CONTINUO O CATEGORIALE , SULLA VARIABILE DIPENDENTE -DI TIPO CONTINUO-.

ES. SE CONFRONTIAMO L’EFFETTO DI UN NUOVO FARMACO NELLA CURA DELLA DEPRESSIONE VERSO L’EFFETTO DI UN FARMACO STANDARD (CONFRONTO DI 2 GRUPPI), USIAMO IL TEST T DI STUDENT; IMPLEMENTIAMO UN’ANOVA QUANDO IL CONFRONTO E’ FATTO SU + DI 2 GRUPPI.

SE PERO’ SI VUOLE TENER CONTO ANCHE DEL FATTO CHE I PAZIENTI PROVENGONO DA 2 O + CLINICHE DIVERSE E CHE QUINDI L’AZIONE COMBINATA DEL TIPO DI OSPEDALE E TIPO DI FARMACO PUO’ CONGIUNTAMENTE INFLUENZARE L’ESITO DELLA CURA, ALLORA RICORRIAMO ALL’ANALISI DELLA VARIANZA A + FATTORI.

L’ANALISI DELLA VARIANZA ASSUME NOMI DIVERSI A SECONDA DI QUANTE SONO LE VARIABILI DIPENDENTI E INDIPENDENTI. ANOVA AD UNA VIA (ONE-WAY) QUANDO SI HA UNA SOLA VARIABILE DIPENDENTE E UNA SOLA VARIABILE INDIPENDENTE. ANOVA FATTORIALE QUANDO SI HA UNA SOLA VARIABILE DIPENDENTE, MA PIU’ VARIABILI INDIPENDENTI. MANOVA (MULTIVARIATE ANALYSIS OF VARIANCE) QUANDO C’E’ + DI UNA DIPENDENTE E + DI UNA INDIPENDENTE.

IL CONFRONTO TRA CAMPIONI CON A=nalysis N O=f V=ariance A A UNA VIA (ONE-WAY) Siano dati p campioni di uguale numerosità n (MODELLO BILANCIATO) : si misuri la grandezza x considerando la media e la deviazione standard su ciascun campione C1: xm1 ± s1 C2: xm2 ± s2 ……………….. Cp: xmp ± sp

Qual è la logica dell’ANOVA? O meglio quali ipotesi sono sottoposte a verifica e quale ragionamento porta all’accettazione o al rifiuto di esse? Nell’ANOVA le ipotesi sono: H0 : 1= 2=... p H1: almeno due delle medie sono tra loro differenti Facciamo inferenza sulle medie, ma lavoriamo sulla scomposizione della varianza.

Per controllare l’effetto dei diversi livelli di trattamento, ossia per testare la differenza tra le medie dei gruppi sottoposti ai diversi livelli di trattamento, separiamo la variabilità complessiva della variabile dipendente in due fonti di variabilità: * una attribuibile al trattamento varianza tra gruppi o varianza between * una residua all’interno dei gruppi varianza entro i gruppi o within. Dal confronto delle due varianze possiamo decidere se i trattamenti diversi hanno avuto effetto oppure no.

In pratica: 1) Poiché posso conoscere la varianza della media campionaria, per il teorema fondamentale che afferma che m=(xm1+xm2+..xmp)/p; sxm=s/sqrt(n) s2tra=((xm1- m)2+(xm2- m)2+..+.(xm2- m)2/(p-1) (VARIANZA BETWEEN) 2) Poiché i campioni provengono dalla stessa popolazione, posso pensare di prendere la media delle varianze dei campioni: s2entro= (s12+s22+……sp2)/p (VARIANZA WITHIN)

TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA varianza totale=varianza tra gruppi + varianza residua varianza totale=   (yik-y)2 N-1 varianza between= n  (y.k-y)2 K-1 varianza within=   (yik-y.k)2 N-k Se l’ipotesi nulla è vera le due stime della varianza avranno lo stesso valore atteso della varianza della popolazione, quindi il rapporto tra la varianza tra i gruppi e la varianza entro i gruppi ha come valore atteso 1 se l’ipotesi nulla è vera, in caso contrario un valore >1.

E’ stato dimostrato che la variabile F=n s2b/s2w è distribuita secondo la legge di Fisher, ed è possibile valutare la probabilità associata ai valori di F noti i gradi di libertà del numeratore: p-1 del denominatore: p(n-1)

Il rapporto tra varianza between e varianza within è il test F di Fisher. F=VARB/VARW Questo test ha una distribuzione campionaria F di Snedecor, per un valore  prefissato, solitamente =0.05, questo test ci dice quando l’ipotesi nulla è accettata (<0.05) e quando viene rifiutata (>0.05). Il test F è la principale diagnostica dell’ANOVA, ci dice se almeno due medie sono statisticamente diverse. Se vogliamo sapere quali delle medie sono diverse usiamo delle correzioni per i confronti multipli, ovvero facciamo dei test t tra le coppie delle medie. Vengono applicate delle correzioni sul livello di significatività per il fatto che sono fatti + confronti sugli stessi dati. Confronti multipli di Bonferroni *= /p

Il test t e l’analisi della varianza sono la stessa cosa? Nel confronto delle medie di 2 gruppi, F=t2, perciò test t e analisi della varianza sono 2 modi per fare la stessa cosa. In particolare il test t è un caso speciale di analisi della varianza applicata a 2 gruppi.

Rivediamo l’esempio dell’alotano e della morfina: alotano: n=61 xmalo=66.9 mmHg salo=12.2 mmHg morfina: n=61 xmorf=73.2 mmHg smorf=14.4 mmHg s2entro=((12.2)2+(14.4)2)/2=178.1 m=(xmalo+xmorf)/2=(66.9+73.2)/2=70 s2tra=(xmalo- m)2 +(xmorf- m)2=…....=19.85 quindi: F=61 19.85/178.1 =6.8 n num=2-1=1 n den=2(61-1)=120 il valore critico al 5% è F*=3.92<F .Rifiuto l’ipotesi nulla la morfina è più efficace.

Altro esempio: effetto della corsa sui disturbi mestruali. Si sono confrontati 3 gruppi di 26 donne: controllo: 11.5 mestr/anno SD= 1.3 joggers 10.1 2.1 runners 9.1 2.4 s with2 = (1.32+2.12+2.42)/3 = 3.95 Xm = (11.5+10.1+9.1)/3 = 10.2 s bet2 = n Sm =26(1.2)2 = 37.4

In definitiva: F = 37.4/3.95 = 9.48 g l num = 3-1=2, g l den = 3 ( 26-1) = 75 consultando le tabelle: P < 0.01: la corsa altera il ciclo mestruale. Confronti ‘incrociati’ : vi sono vari metodi. Uno dei più usati è il test t di Bonferroni: Pb = P / (0.5 p (p-1)) p= numero gruppi

Confronto controllo-joggers: t = (10.1-11.5)/sqrt(2 3.95/26) = -2.54 confronto controllo-runners: t = (9.1 - 11.5)/ sqrt(2 3.95/26) = -4.35 confronto joggers-runners: t = (10.1 - 9.1 )/sqrt(2 3.95/26) = 1.81 poiché abbiamo 3 casi, dovremo considerare P = 5%/3 = 1.6 % e 75 gradi di libertà. Il valore critico di t risulta circa 2.47. I primi due casi sono significativi!!!

Altri confronti incrociati possono essere eseguiti con: -LSD - Scheffè - Tukey - B-Tukey - S-N-K -Duncan - REGW

IL CONFRONTO TRA CAMPIONI CON A=nalysis N O=f V=ariance A A DUE VIE (TWO-WAYS) In generale è necessario un pacchetto statistico più articolato ( es Winstat)

Quando ogni modalità della variabile presenta lo stesso numero di casi si parla di disegno bilanciato. n1=n2=…nk

Occorre qualche cautela nell’impostare i dati sul foglio di lavoro: vedere esempi. Si noti che le variabili indipendenti possono essere sia continue sia categoriali. E’ allora buona norma, in prospettiva di una analisi statistica a posteriori, caratterizzare i dati con TUTTE le informazioni disponibili per valutarne l’eventuale incidenza. (es: classi di età, sesso, provenienza,…)

Infine, per quanto riguarda il MANOVA (analisi multivariata che correla più variabili dipendenti con più variabili indipendenti), trattandosi di una disegno statistico complesso, occorre ricorrere a risorse di programmazione: SAS