L’analisi della varianza

Slides:



Advertisements
Presentazioni simili
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Advertisements

I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
Come organizzare i dati per un'analisi statistica al computer?
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Presupposti alla lezione
Analisi dei dati per i disegni ad un fattore
ANALISI DELLA COVARIANZA
Gli errori nell’analisi statistica
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
ANALISI DELLA VARIANZA
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Analisi della varianza (a una via)
1 Introduzione alla statistica per la ricerca Lezione III Dr. Stefano Guidi Siena, 18 Ottobre 2012.
Appunti di inferenza per farmacisti
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
Corso di biomatematica lezione 7: Test di significatività
STATISTICA a.a PARAMETRO t DI STUDENT
di cosa si occupa la statistica inferenziale?
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Analisi della varianza
Verifica delle ipotesi su due campioni di osservazioni
Statistica Descrittiva
Le distribuzioni campionarie
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Analisi Bivariata: Test Statistici
Elementi di Statistica medica Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Copyright © 2007 – The McGraw-Hill Companies s.r.l. SIGNIFICATIVITÀ.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Accenni di analisi monovariata e bivariata
Strumenti statistici in Excell
Il residuo nella predizione
Corso di Laurea in Scienze e tecniche psicologiche
La statistica F Permette di confrontare due varianze, per stabilire se sono o no uguali. Simile al valore t di Student o al chi quadrato, l’F di Fisher.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Test basati su due campioni Test Chi - quadro
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
“Teoria e metodi della ricerca sociale e organizzativa”
La distribuzione campionaria della media
UNIVERSITA’ DEGLI STUDI DI PERUGIA
Corso di Laurea in Scienze e tecniche psicologiche
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
Dalmine, 26 Maggio 2004 Esercitazioni di Statistica con Matlab Dott. Orietta Nicolis fttp:\ingegneria.unibg.it.
Disegni ad un fattore tra i soggetti. Disegni ad un solo fattore between Quando i livelli del trattamento possono influenzarsi reciprocamente è necessario.
ANALISI E INTERPRETAZIONE DATI
ANALISI DELLA VARIANZA (ANOVA)
Test dell’ ANOVA L EZIONI III PARTE F ONDAMENTI E METODI PER L ’ ANALISI EMPIRICA NELLE SCIENZE SOCIALI A. A
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
1 Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria Il T-Test A cura di Matteo Forgiarini.
Transcript della presentazione:

L’analisi della varianza Introduzione e concetti generali Giovanni Battista Flebus AA 2013-14

L’analisi della varianza (ANOVA, ANalysi Of VAriance) è una tecnica statistica che permette di valutare se le medie di due o più gruppi sono uguali fra loro. La variabile Dipendente è misurata su una scala a intervalli e ha una distribuzione normale La variabile indipendente (classificazione in più gruppi) è una misurazione a livello di scala nominale La classificazione è fatta in modo indipendente

L’analisi della varianza Si basa su due principi: (1) si può stimare la varianza della popolazione in due modi diversi, che tengano conto della suddivisione in gruppi (2) Si possono confrontare due varianze e verificare se sono estratte dalla stessa popolazione

Le ipotesi di ricerca Le due ipotesi di ricerca sono le seguenti H0 : le medie dei k gruppi sono uguali H1 : almeno una delle medie dei k gruppi è diversa dalle altre

Ulteriori esplorazioni Se il test statistico permette di concludere che c’è almeno un gruppo diverso dagli altri, si possono applicare altre tecniche per individuare i gruppi diversi

Esempio preliminare In un campione di studenti, si rileva il senso di benessere (un test, scala a intervalli) per vedere se le bocciature a scuola hanno influenza su tale tratto. Il benessere si rileva con un test (BeSco, Test di Benessere Scolastico) Le bocciature a scuola (nessuna, una o due), anche se sono una scala a rapporti, sono considerate qui come una classificazione e quindi come scala nominale. La frequenza dei tre gruppi è la seguente

Ecco i dati del campione

Il punteggio di benessere nei tre gruppi pare diverso Il punteggio di benessere nei tre gruppi pare diverso. Ma le differenze sono attribuibili alla variabilità stocastica o sono veramente consistenti?

Ma queste differenze sono reali o non sono piuttosto dovuti a fluttuazioni casuali? Ricorriamo al grafico con basette

Esaminiano il grafico a basette Ci sono sovrapposizioni di intervalli di fiducia per le medie. Nemmeno il grafico a basette ci permette di trarre una conclusione sicura

Esaminiamo i risultati dell’ANOVA Questa tabella è prodotta dall’applicazione dell’ANOVA ai dati, che ci permette di passare alla conclusione… La significatività ci dice che le tre medie non possono essere considerate uguali

Principio dell’ANOVA Si può stimare la varianza della popolazione in due modi diversi e confrontare le due stime Primo metodo: calcolare la varianza delle k medie come se fossero k osservazioni Secondo metodo: calcolare la varianza media, usando tutte le osservazioni, eliminando però da ciascuna osservazione l’influenza del proprio gruppo.

g2 g1 g3 Media dei singoli gruppi Media totale Singole osservazioni, in ciascun gruppo

Distanza del punto dalla media del gruppo Punto zero per gruppo 2 (Media del gruppo ) Media del gruppo 2 g3 g2 Media totale g1 Media del gruppo 2

Piccolo esempio numerico Un ricercatore pensa che il tempo passato a muoversi in città sia di detrimento per il rendimento accademico degli studenti universitari. Ha osservato il numero di esami di 12 studenti, suddivisi in tre gruppi secondo l’uso di trasporto per andare in facoltà: A) prendono i mezzi B) Hanno un loro mezzo (moto – auto) C) vivono in zona e quindi vanno a piedi

Le medie e varianze dei tre gruppi

Consideriamo gli elementi utili 1 Le medie dei gruppi 3 La media totale 2 Le varianze dei gruppi

Calcoliamo la varianza fra i gruppi 1 Le medie dei gruppi 2 La numerosità dei gruppi è 3 3 La media totale

Varianza fra i gruppi = [(4-5,67)2+(6-5,67)2+(7-5,67)2 ] / 2 = Calcoliamo la varianza delle medie dei gruppi (varianza fra i k gruppi (Xi-M)2/(n-1) Varianza fra i gruppi = [(4-5,67)2+(6-5,67)2+(7-5,67)2 ] / 2 = (2,7889+0,1089+1,7689)/2= 2,3335

Varianza della popolazione o varianza della distribuzione campionaria delle medie? La varianza delle k medie (s2) è però la varianza della distribuzione campionaria delle medie: s2 /n A noi serve la varianza della popolazione: s2 Perciò dobbiamo moltiplicare il valore per n (numerosità nei gruppi):

Calcoliamo la varianza della popolazione con la stima della varianza fra i gruppi (2,7889+0,1089+1,7689)/2= 2,3335 =Varianza delle distribuzione campionaria delle medie (s2/n) Varianza della popolazione = n S2 2,3335 x 4 = 9,3334

Calcoliamo la varianza della popolazione con la stima della varianza dentro i gruppi Calcoliamo la media delle varianze nei gruppi: 2,667+3,333+2,000=8,00 Media della varianza nei gruppi 8,00/3= 2,667

I gradi di libertà I gradi di libertà sono dati da (1) Numero di gruppi -1 per la varianza fra i gruppi (2) Numero di osservazioni meno i gruppi, per la varianza nei gruppi. Nel nostro caso, 3-1= 2 gl per la varianza fra i gruppi 12-3 = 9 gl per la varianza nei gruppi

Otteniamo il valore di F Il rapporto fra le due stime della varianza della popolazione (una nei gruppi e l’altra fra i gruppi) ha una distribuzione descritta dalla variabile casuale F di Fisher Snedecor con gl1 e gl2 gradi di libertà.

Nel nostro caso otteniamo F= 9,334/ 2,666 = 3,500 con 2 e 9 gradi di libertà.

Grafico di F con 2 e 9 g.l. Questo grafico è disponibile grazie al computer, nel passato si usavano le tavole per valori singoli di n1 e n2 e per valori selezionati di p (0,10; 0,05; 0,01 ecc.)

Le tavole di F ci dicono che il valore 3,500 ricade al di sotto della zona critica e perciò accettiamo l’ipotesi nulla di uguaglianza delle medie dei tre gruppi

Grafico di F con 2 e 9 g.l. F=3,50 F=4,256 Area di rifiuto di H0= 0,0,5, maggiore di 0,075 Valore teorico che separa le aree fra 0,95 e 0,05 F=4,256 Area di accettazione di H0= 0,925, F=3,50

Per il calcolo con spss Le due varianze sono però calcolate in modo diverso da quello che è stato presentato: si parte dalla somma dei quadrati (distanza dell’osservazione dalla media) (devianza in italiano, Sum of squares in inglese) dentro e fra i gruppi, divisi per i rispettivi gradi di libertà. Il rapporto F è sempre stampato usando la devianza nei e fra i gruppi. La loro somma è uguale alla devianza totale

Passiamo a SPSS Selezioniamo il menu Analizza->Confronta Medie-> ANOVA univariata. Compare questo finestra. Inseriamo la variabile Gruppo come fattore, e il numero di esami come variabile dipendente

Output di SPSS per l’ANOVA Significatività di F Guardiamo solo una parte della tabella Valore F calcolato Gradi di liberta FRA e DENTRO i gruppi, quelli totali Le due varianze calcolate nei due modi diversi

Il metodo di calcolo seguito è diverso Le due varianze appena confrontate sono di solito concepite come un rapporto di scarti quadrati, divisi per i rispettivi gradi di libertà, per produrre delle stime delle varianze Per rendere questo metodo di calcolo utilizzabile con gruppi di diversa numerosità, si procede ricordando il concetto di devianza totale, suddivisa in devianza fra i gruppi e devianza nei gruppi

La variabilità totale è descritta da SQT, ovvero Devianza totale: Scomposizione della variabilità totale La variabilità totale è descritta da SQT, ovvero Devianza totale:

Scomposizione della variabilità totale La variabilità fra i gruppi è descritta con la formula seguente Devianza fra i gruppi:

Scomposizione della variabilità totale La variabilità nei (o dentro i) gruppi è descritta dalla SSE detta anche variabilità dell’errore: Devianza dentro i gruppi:

Rappresentazione grafica della devianza

Dalle devianze alle due varianze Le due varianze (dentro e fra i gruppi) sono quindi calcolate come rapporti fra due somme di quadrati, divise dai rispettivi gradi di libertà.

Test F per ANOVA I risultati del test F per la ANOVA sono generalmente presentati in una tabella come questa:

Output di SPSS per l’ANOVA Significatività di F Guardiamo solo una parte della tabella Valore F calcolato Gradi di liberta FRA e DENTRO i gruppi, quelli totali Le due varianze calcolate nei due modi diversi

Output di SPSS per l’ANOVA Significatività di F Guardiamo solo una parte della tabella Valore F calcolato Gradi di liberta FRA e DENTRO i gruppi, quelli totali Le due varianze calcolate nei due modi diversi

Nel grafico seguente, per ogni n osservazione, sono riportati solo gli scarti dalle medie: dalla media generale, dalla media del gruppo e scarto del gruppo dalla media generale.

Rappresentazione grafice di punteggi, scarti dalla media e devianza

Rappresentazione degli scarti dalle medie

Grafico degli scarti da tre medie

Grafico degli scarti da tre medie Ingrandiamo il grafico

Per ogni osservazione, lo scarto dalla media totale è uguale alla somma degli altri due - 3,67 = (- 2) + (-1,67)

La devianza la somma dei quadrati delle distanze dalla media. Si usa il termine devianza per indicare la somma dei quadrati delle distanze dalla media. In inglese Sum of Squares La varianza stimata della popolazione si ottiene dividendo la devianza per il numero dei gradi di libertà Si usano i termini inglesi within (W) per indicare la devianza nei gruppi e between (B) per indicare la devianza fra i gruppi

Esaminiamo il primo studente, che ha un Numero di esami pari a 2 La media del suo gruppo è 4 La media dell’intero campione è pari a 5,67

Per l’osservazione 1, la distanza del primo soggetto dalla media totale è pari a -3,67, il suo quadrato contribuisce alla devianza totale

La prima osservazione è pari a 2, dista 2 dalla media del suo gruppo; il quadrato della distanza contribuisce al calcolo della devianza nei gruppi

Per la medesima osservazione 1, la distanza della media del gruppo dalla media globale è 1,67; il suo quadrato contribuisce alla devianza fra i gruppi

Usando gli scarti dalla media, rappresentiamo i due quadrati per il primo caso (osservazione) che ha un punteggio di 2. La media del suo gruppo è 4 e quella del campione intero è pari a 5,67

All’interno di ciascun gruppo, i quadrati ocra sono tutti uguali (devianza fra i gruppi). Perché?

Devianza totale. Serve per i controlli Dati sul foglio excel Devianza totale. Serve per i controlli

Devianza fra i gruppi Devianza nei gruppi

I gradi di libertà Ad ognuna delle devianze sono associati i gradi di libertà: • la devianza totale ha n − 1 gradi di libertà • la devianza tra gruppi ha k − 1 gradi di libertà • la devianza entro i gruppi ha n - p gradi di libertà Dividendo ciascuna devianza per i rispettivi gradi di libertà si ottengono le media dei quadrati, cioè le VARIANZE: Varianza tra i gruppi Varianza entro i gruppi

Il rapporto F La statistica F è quindi un rapporto fra due varianze, calcolate dividendo la devianza fra i gruppi per la devianza nei gruppi, ognuno divisa per i rispettivi gradi di libertà

Output completo di SPSS

Output completo di SPSS

Concludendo… Se le k medie sono simili, la variabilità fra i k gruppi è bassa, la varianza della popolazione è stimata in modo corretto, (tenuto conto della variabilità stocastica), il rapporto F è vicino all’unità e si conclude con l’accettazione di H0. Se c’è molta variabilità fra i k gruppi, la variabilità fra i gruppi è elevata, la varianza della popolazione è sovrastimata, il rapporto F è molto più grande dell’unità, il test statistico di F dà valori di probabilità molto bassi Se la probabilità di ottenere il valore F calcolato è molto bassa, si conclude con il rifiuto dell’ipotesi di nullità di differenze, per accettare l’ipotesi alternativa: almeno un gruppo proviene da una popolazione diversa, ossia con medie diverse

ANOVA per due gruppi? Il test dell’ANOVA dà gli stessi risultati della t di Student: infatti il rapporto F è il quadrato della t.

Confronti post-hoc Sono confronti che si fanno a posteriori, se l’Anova è significativa e se ci sono più di 2 gruppi in una variabile indipendente La logica è quella di tenere sotto controllo i problemi di significatività legati ai confronti multipli. Vi sono diverse procedure di confronti alcuni presumono che le varianze siano uguali: LSD (Least Significant Difference), Bonferroni,Sidak, Scheffé, SNK (Student-Neumann-Kouls), Tukey HSD (Honestly Significant Difference), Duncan, Hochberg, Gabriel, Waller-Duncan, Dunnett altre no: Tamhane, Dunnett, Games-Howell, C di Dunnett In Spss, premete il bottone Post Hoc... e selezionate tutti i test che volete gli output sono di due tipi: confronti multipli completi oppure gruppi omogenei

Esempio con dati reali Differenze di vocabolario nei quattro gruppi di studenti di terza media

Il test F è significativo

Si conclude che… Almeno un gruppo ha la media diversa dagli altri. In altre parole, il gruppo con la media più alta è statistica mente diverso dal gruppo con la media più bassa.

Un grafico è sempre utile…

E degli altri gruppi, che si può dire? Come si differenziano fra di loro? Esiste un solo gruppo diverso dagli altri? Esistono più gruppi diversi dagli altri? Si possono individuare i gruppi simili e quelli diversi?

Differenze a priori e a posteriori Si può dare risposta a questi interrogativi con i post hoc (termine latino per indicare che si cercano differenze fra i gruppi a posteriori, ossia dopo che si è stabilità la differenza statistica fra i gruppi. I confronti pianificati invece si cercano a priori, perché la teoria prevede già una differenza nei gruppi

Test post hoc (LSD)

Test dei sottoinsieme omogenei (SNK)

Dati sul test di vocabolario, per scuole

Le differenze di vocabolario in studenti che andranno in scuole diverse non ci sorprende

Il test post hoc sui gruppo omogenei dà risultati molto ben interpretabili

Le differenze di vocabolario in studenti che andranno in scuole diverse non ci sorprende

Confronti a priori Oltre ai post hoc si possono effettuare dei confronti a priori ovvero decisi prima ancora di effettuare l’anova, sulla base di una teoria Questi confronti si chiamano anche contrasti perché contrastano la media di uno o più gruppi con quella di altri Anche in questo caso ci sono due possibilità: contrasti predefiniti: lineare, quadratico, Helmert...contrasti decisi da noi In Spss, premete il bottone Contrasti... se selezionare Polinomiale, poi potete scegliere fra Lineare, Quadratico, Cubico... (ipotizzo che le medie aumentano o diminuiscono nella varie categorie in modo lineare, quadratico...) altrimenti dovrete inserire dei coefficienti (uno alla volta e poi premere Aggiungi). dopo aver inserito un contrasto è possibile inserirne un secondo tramite il pulsante Successivo