La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

L’Analisi della Varianza (o ANOVA)

Presentazioni simili


Presentazione sul tema: "L’Analisi della Varianza (o ANOVA)"— Transcript della presentazione:

1 L’Analisi della Varianza (o ANOVA)
d.ssa Roberta Romanelli Psicometria II (fascia I-Z) Fino ad ora abbiamo trattato casi in cui abbiamo sempre confrontato i dati di un campione con quelli di una popolazione generale di riferimento oppure i dati di due campioni. Spesso però in psicologia andiamo a confrontare la performance di più campioni. Si basa sulla presenza dei gruppi sperimentali e di controllo, a cui i soggetti vengono assegnati casualmente ad ognuna delle due condizioni.

2 Che cosa è? L’ANOVA è una tecnica statistica che permette di verificare ipotesi su differenze tra medie di 2 o più popolazioni. Var. Indipendente Scala Nominale Var. Dipendente Scala a Intervalli e/o a Rapporti equivalenti Sono presenti due fonti di variazione: Differenze ke esistono tra il gr sperimentale e quello di controllo (variabilità tra i gruppi) Differenze ke esistono tra i soggetti in ogni gruppo (variabilità entro i gruppi) IN SINTESI QUESTA TECNICA CI PERMETTE DI SCOMPORRE LA VARIABILITA’ TOTALE IN DUE PARTI: 1) UNA ATTRIBUIBILE ALL’INFLUENZA DELLA VI ED 2) UNA ATTRIBUIBILE ALLA VAR RESIDUA CHE RACCHIUDE TUTTA LA VARIABILITà NON CONTROLLATA Gruppo sperimentale VS Gruppo di controllo

3 Variabile indipendente/ sperimentale
Terminologia Variabile indipendente/ sperimentale una variabile che il ricercatore sottopone a manipolazione sperimentale Variabile quasi-indipendente una variabile utilizzata per distinguere fra diversi gruppi di risultati (es: sesso) FATTORI Oltre alla VD e VI esistono altre variab: quelle DI DISTURBO che non sono controllate e che possono influenzare la VD. La loro influenza può erroneamente attribuita alla VI la V INTERVENIENTE che rappresentano le caratteristiche dei soggetti Le VI possono essere: (1)SPERIMENTALI che sono quelle effettivamente manipolate dallo sperimentatore in quanto decide i livelli della var (es:difficoltà di un compito, diverse dosi di un farmaco;tipo di trattamento); (2) DIFFERENZIALI che sono quelle in cui lo sperimentatore non può intervenire sui livelli già esistenti (es: sesso;scolarità; età). Variabile dipendente: una variabile il cui valore è determinato da quello dei fattori

4 Una prima definizione È una tecnica statistica basata sulla scomposizione della variabilità totale dei dati in due parti: VARIABILITA’ SPERIMENTALE che è dovuta alle variabili introdotte o studiate dallo sperimentatore VARIABILITA’ ACCIDENTALE o RESIDUA dovuta a tutte le variabili che non è possibile controllare o che non sono state controllate Immaginiamo di voler studiare se un certo tipo di condurre una lezione possa favorire l’apprendimento nei soggetti. Nello specifico supponiamo che una lezione fatta con l’ausilio di immagini/slide favorisca un miglior risultato agli esami. La nostra V.Sperimentale sarà “modo di condurre la lezione” ed i suoi livelli saranno 1) lezione con slide 2) lezione senza slide.

5 se i punteggi osservati dipendono dall’appartenenza a gruppi diversi?
può assumere diversi valori Ogni punteggio Y dipende dal gruppo cui appartiene il soggetto (più un errore). Come verifichiamo se i punteggi osservati dipendono dall’appartenenza a gruppi diversi? Possiamo prevedere il punteggio di ogni soggetto in base al gruppo cui appartiene Il ricercatore è interessato a che il gruppo sperimentale (in cui è presente la variabile sperimentale) abbia una media molto diversa da quella degli altri gruppi.

6 1 2 … j k x11 x12 x1j x1k x21 x22 . i xi1 xi2 xij xik n xn1 xn2 xnj
. i xi1 xi2 xij xik n xn1 xn2 xnj xnk T totale per colonna Q totale delle x al quadrato per colonna nj è la numerosità del gruppo μ è la media generale

7 VARIABILITA’ TRA I GRUPPI (o Between) VARIABILITA’ ENTRO I GRUPPI
Differenza tra le medie = Variabilità tra gruppi VARIABILITA’ TOTALE VARIABILITA’ TRA I GRUPPI (o Between) VARIABILITA’ ENTRO I GRUPPI (o Within) La differenza tra le medie dei gruppi viene detta VARIABILITA’ La variabilità totale risente di due fonti di variazione: 1) Differenze che esistono tra i due gruppi (sperimentale vs controllo) => parliamo di variabilità tra i gruppi o between. In questa categ le diff indiv e l’err sono considerare FONTI DI VARIAZIONE ACCIDENTALE in quanto non prevedibili dal ricercatore 2) Differenze tra gli individui in ogni gruppo => le persone, anche all’interno di uno stesso gruppo, possono fornire delle risposte differenti => parliamo di variabilità entro i gruppi o within Trattamento Differenze individuali Errore casuale Differenze individuali Errore casuale

8 VARIABILITA’ TRA I GRUPPI (o Between) VARIABILITA’ ENTRO I GRUPPI
Differenza tra le medie = Variabilità tra gruppi VARIABILITA’ TOTALE VARIABILITA’ TRA I GRUPPI (o Between) VARIABILITA’ ENTRO I GRUPPI (o Within) Deve essere isolata dalla variabilità tra i gruppi Viene isolata eliminando la variabilità che esiste all’interno di ogni gruppo La variabilità totale risente di due fonti di variazione: 1) Differenze che esistono tra i due gruppi (sperimentale vs controllo) => parliamo di variabilità tra i gruppi o between 2) Differenze tra gli individui in ogni gruppo => le persone, anche all’interno di uno stesso gruppo, possono fornire delle risposte differenti => parliamo di variabilità entro i gruppi o within Il punteggio ottenuto da ogni soggetto viene confrontato con la media del proprio gruppo Il punteggio ottenuto da ogni soggetto viene confrontato con la media generale

9 Quando l’IPOTESI NULLA è vera
Non ci sono differenze significative tra le medie dei gruppi Il trattamento non produce effetti La variabilità tra gruppi e quella entro i gruppi sono molto simili perché comprendono entrambe solo la varianza d’errore Quando l’IPOTESI NULLA è falsa Ci sono differenze significative tra le medie dei gruppi Il trattamento produce effetti La variabilità tra gruppi sarà maggiore di quella entro i gruppi

10 Questo modello è relativo ai dati della popolazione
Il modello teorico Media generale dei punteggi nel campione totale Errore casuale (o Residuo) Effetto dovuto al trattamento Questo modello è relativo ai dati della popolazione È specifica per ogni soggetto Il suo valore dipende da: differenze individuali tra i soggetti Errore di specificazione del modello Non attendibilità delle misure L’effetto del trattamento in una stessa condizione è costante

11 Variabilità dei punteggi del soggetto j all’interno di ogni gruppo
…. Noi lavoriamo sulle stime campionarie dei parametri della popolazione…. Stima Media generale del campione Differenza tra la media dei gruppi e la media generale del campione Differenza tra il punteggio del soggetto e la media del gruppo in cui si trova Rispetto alla componente dell’errore dire che anche se i soggetti sono sottoposti allo stesso trattamento è improbabile che rispondono allo stesso modo e quindi è improbabile che abbiano gli stessi punteggi. Quanto il punteggio del soggetto j è determinato dall’appartenenza alla condizione i Variabilità dei punteggi del soggetto j all’interno di ogni gruppo

12 Classificazione generale
Solo 1 Var.Indipendente ANOVA A 1 VIA 2 o più Var.Indipendenti ANOVA FATTORIALE Solo 1 Var.Dipendente ANOVA UNIVARIATA 2 o più Var.Dipendenti ANOVA MULTIVARIATA o MANOVA

13 ANOVA UNIVARIATA È definita anche:
“Disegno di ricerca tra i soggetti” ad un solo fattore Disegni per gruppi indipendenti La condizione sperimentale è determinata dai livelli della VI Ad ogni condizione troviamo un gruppo di soggetti diversi Gruppi indipendenti Parlare dei gruppi indipendenti in quanto un sg che si trova in una condizione sperimentale non verrà esposto ad un’altra condizione sperimentale. I livelli della VI non sempre sono solo 2 xchè non sempre abbiamo solo gruppo sperimentale e gruppo di controllo. Potremmo avere anche + livelli della VI, come ad esempio quando uno psicologo vuole verificare l’efficacia di diversi trattamenti per la cura dell’attacco di panico (ad esempio 1 livello: trat. Farmacologico; 2 livello: trat. C-c; 3 livello: nessun trattamento).

14 Esempio 3 gruppi esposti a 3 trattamenti diversi T1,T2,T3.
La media complessiva è 10 Se il punteggio del soggetto fosse dovuto solo all’effetto della media allora …. T1 T2 T3 10 TUTTI I SOGGETTI HANNO LO STESSO PUNTEGGIO

15 T1 T2 T3 8 9 13 T1 T2 T3 Se il trattamento ha effetto. Ad esempio:
T1: diminuzione di 2 punti T2: diminuzione di 1 punto T3: aumento di 3 punti Il punteggio di ogni soggetto sarà: Se nel punteggio influiscono sia la media generale, sia il trattamento sia la variabilità dovuta all’errore casuale Il punteggio di ogni soggetto sarà: T1 T2 T3 9 (ε = 1) 8 (ε = -1) 13 (ε=0) 7 (ε = -1) 9 (ε = 0) 13 (ε=1) T1 T2 T3 8 9 13

16 La devianza somma dei quadrati degli scostamenti di ogni punteggio dalla media DEVIANZA DEVIANZA TOTALE Somma dei quadrati degli scarti dei punteggi ( ) dalla media generale ( ) 2) DEVIANZA TRA I GRUPPI Somma dei quadrati degli scarti dei punteggi (o Dev. BETWEEN) medi del gruppo di appartenenza ( ) dalla media generale 3) DEVIANZA ENTRO I GRUPPI Somma dei quadrati degli scarti dei punteggi di (o Dev. WITHIN) ogni singolo soggetto ( ) dalla media del gruppo di appartenenza ( ) Da un punto di vista matematico-statistico la scomposizione della variabilità riguarda la devianza. La devianza generale/totale è un indice di variabilità che non tiene conto dell’informazione relativa ai gruppi, ma solo del fatto che gli individui sono tutti diversi tra loro => quindi differenza con la media generale

17 + + = …..in formule DEVIANZA TOTALE n - 1 DEVIANZA WITHIN
DEVIANZA BETWEEN + n - k k - 1 + = n – = k – n - k

18 … esempio Riprendendo i dati dell’esempio precedente Calcoliamo le devianze: T1 T2 T3 9 (ε = 1) 8 (ε = -1) 13 (ε=0) 7 (ε = -1) 9 (ε = 0) 13 (ε=1) media 8 8,5 13 yij Gr.appartenenza Dev.Totale Dev.Between Dev.Within 9 1 (9-10)2= 1 (8-10)2 (9-8)2 7 (7-10)2= 9 (7-8)2 8 2 (8-10)2= 4 (8.5-10)2 (8-8.5)2 (9-8.5)2 13 3 (13-10)2= 9 (13-10)2 (13-13)2 14 (14-10)2=16 (14-13)2

19 …. come ricaviamo la varianza?
Dividendo le devianze per i rispettivi gradi di libertà otteniamo: Differenze sulla VD tra le medie dei gruppi sottoposti a trattamenti diversi Differenze sulla VD tra i punteggi di soggetti appartenenti allo stesso gruppo Riflette l’effetto del trattamento sperimentale, delle differenze individuali e dell’errore Riflette l’effetto delle differenze individuali e dell’errore casuale

20 FONTI DI VARIAZIONE DEVIANZA GDL VARIANZA CONFRONTI
Trai i gruppi k - 1 Entro i gruppi/residua n – k Totale n - 1

21 Esempio Supponiamo di aver effettuato un esperimento nel quale abbiamo assegnato casualmente 10 soggetti ad un gruppo sperimentale e di controllo. Supponiamo che la nostra variabile dipendente sia QUANTITA’ DI PAROLE DI UNA LISTA RICORDATE DOPO 5 MINUTI Supponiamo che la nostra variabile indipendente sia MODO DIVERSO DI DARE LE ISTRUZIONI (amichevole VS neutro)

22 Soggetto Nr. Parole ricordate MEDIA 13
Modo amichevole (gr. Sperimentale) Modo neutro (gr. di Controllo) Soggetto Nr. Parole ricordate 1 10 8 2 7 3 14 4 16 5 15 11 MEDIA 13

23 Calcoliamo la variabilità between
Media totale = 11,5 Gr.Sperimentale Gr. Controllo 10 8 (13-11,5)2 (10-11,5)2 7 14 16 15 11 Media gr.sperimentale 13 Media gr.controllo 11,25 DEVIANZA BETWEEN CON k-1 gdl 11, ,25 = 22,50 con 2-1=1 gdl

24 Calcoliamo la variabilità within
Media totale = 11,5 Gr.Sperimentale Gr. Controllo 10 8 (10-13)2 (8-10)2 7 (7-10)2 14 (14-13)2 (10-10)2 16 (16-13)2 (14-10)2 15 11 (15-13)2 (11-10)2 Media gr.sperimentale 13 Media gr.controllo 32 30 DEVIANZA WITHIN CON n-k gdl 32+30= 62 con 10-2=8 gdl

25 Entro i gruppi/residua
FONTI DI VARIAZIONE DEVIANZA GDL VARIANZA CONFRONTI Trai i gruppi 22,50 1 22,50/1=22,50 F = 22,50/7,75 = 2,90 Entro i gruppi/residua 62 8 62/8 = 7,75 Totale 84,50 9

26 Con le formule abbreviate…

27 1 2 … j k x11 x12 x1j x1k x21 x22 . i xi1 xi2 xij xik n xn1 xn2 xnj
. i xi1 xi2 xij xik n xn1 xn2 xnj xnk T1 T2 Tj Tk T Q1 Q2 Qj Qk Q n1 n2 nj nk N μ1 μ2 μj μk μ T totale per colonna Q totale delle x al quadrato per colonna nj è la numerosità del gruppo μ è la media generale

28 Somma dei singoli valori di ciascun campione
Somma dei singoli valori elevati al quadrato di ciascun campione Somma dei Qj Somma dei Tj Somma dei singoli valori di ciascun campione

29 gruppo 1 gruppo 2 gruppo 3 soggetti xi1 xi12 xi2 xi22 xi3 xi32 1 2 4 16 3 9 5 T1=9 Q1=19 T2=15 Q2=49 T3=7 Q3=11

30 gruppo 1 gruppo 2 gruppo 3 soggetti xi1 xi12 xi2 xi22 xi3 xi32 1 2 4 16 3 9 5 T1=9 Q1=19 T2=15 Q2=49 T3=7 Q3=11

31 Assunzioni di base Le osservazioni devono essere raccolte indipendentemente le une dalle altre: il punteggio che presenta un soggetto non deve essere stato influenzato da quello osservato in un altro soggetto Gli errori εij si distribuiscono normalmente con media =0. Indici di Asimmetria e Curtosi La variabile indipendente ha k≥2 livelli ed è su scala nominale o ordinale La variabile dipendente è misurata su scala a intervalli e/o a rapporti equivalenti

32 Assunzioni di base OMOSCHEDASTICITA’: in base alla quale la varianza degli errori σε deve essere uguale in ogni gruppo ( test di Levene). Se non è rispettata i diversi gruppi hanno un peso diverso nel determinare la varianza d’errore Gli effetti hanno natura addittiva la VI aggiunge qualcosa alla condizione base in maniera identica per tutti i soggetti Gli errori εij devono essere indipendenti il punteggio di un soggetto non deve essere correlato con quello di altri soggetti Randomizzazione Rispetto alla omoschedasticità si suppone che le popolazioni da cui si suppone provengano i campioni abbiano la stessa varianza. Se ci fossa una maggiore varianza di una popolazione si avrebbe una minore precisione della media relativa e quindi si potrebbe dare erroneamente + peso ad una variabilità rispetto ad una altra.

33 Verifica delle ipotesi (1)
Il test di verifica delle ipotesi si basa sulle seguenti considerazioni: Se HO è vera i dati differiscono tra loro solo per l’effetto del caso Se H1 è vera entrambe le fonti di variabilità determinano la variabilità complessiva

34 Verifica delle ipotesi (2)
Segue la distribuzione della F Le ipotesi che esamina sono: Ho le popolazioni da cui provengono i campioni hanno medie uguali sulla VD H1 almeno due medie sono diverse, cioè almeno due campioni provengono da popolazioni con medie diverse tra loro L’ipotesi nulla afferma quindi che il trattamento a cui il gruppo è sottoposto non ha alcun effetto

35 Verifica delle ipotesi (3)
Si fissa il livello di α (solitamente pari a .05) Si calcolano i Gradi di Libertà Si calcola il valore dell’Fcrit(gdlB, gdlW) usando le tavole Si calcola il valore del nostro F secondo la formula Fott = VarB/VarW

36 Verifica delle ipotesi (4)
Si prende una decisione: Se Fott < Fcrit si accetta H0 le medie delle popolazioni da cui i campioni sono stati estratti non sono significativamente diverse Il trattamento non produce effetto Le VarB e VarW sono molto simili F assume valori bassi, cioè F<1 Se è vera l’ipotesi nulla la differenza tra i sg all’interno dei gruppi è equivalente alla differenza tra gli individui che compongono i diversi gruppi.

37 Se Fott > Fcrit si rifiuta H0
almeno due medie delle popolazioni da cui i campioni sono stati estratti sono significativamente diverse La VarB sarà > della VarW F assume valori elevati

38 P-value I pacchetti statistici forniscono due indicazioni:
• il valore della statistica test • il p-value Il p-value rappresenta, intuitivamente, la probabilità di osservare, sotto l’ipotesi nulla, un valore meno verosimile di quello della statistica test.

39 Il test mediante il p-value
Il p-value (p) `e quindi un valore compreso tra 0 e 1 tale che: se α < p si accetta H0 se α > p si rifiuta H0 Il p-value è molto utile perchè consente di fare il test anche non conoscendo nei dettagli la regola di decisione specifica (è sufficiente conoscere l’ipotesi nulla).

40 Se i gruppi (k) sono 2 t di Student
F di Fisher Se i gruppi (k) sono più di 2 non si può usare la t di Student perché: I diversi t non sono indipendenti: aumento del livello di α Diminuzione della potenza del test La varianza d’errore è maggiore con la t di Student perché la numerosità del campione è ridotta.

41 Ma quali gruppi differiscono?
Se F è significativo e quindi la VI ha un effetto significativo possiamo dire che: Almeno tra due delle medie dei gruppi a confronto esiste una differenza significativa Ma quali gruppi differiscono? Uso dei confronti

42 Confronti post hoc k (k – 1) /2 Svantaggio
Il ricercatore non può selezionare in anticipo i gruppi da confrontare Ogni media viene confrontata con tutte le altre k (k – 1) /2 Il livello di probabilità per k confronti è Il livello di probabilità per un confronto è α Oppure secondo Bonferroni il livello di probabilità è dato da α*k (con k =numero di gruppi da confrontare) Svantaggio All’aumentare del numero dei gruppi aumenta il numero dei confronti Aumenta la probabilità di commettere l’errore di I° Tipo (rifiuto Ho quando è vera)

43 Confronti pianificati
Il ricercatore decide in anticipo quali medie vanno confrontate. Le medie possono essere relative ai singoli gruppi oppure è possibile combinare le medie di più gruppi Per valutare la significatività del gruppo di confronti pianificati, si usa il livello di significatività che si utilizzerebbe se si facesse un unico confronto.


Scaricare ppt "L’Analisi della Varianza (o ANOVA)"

Presentazioni simili


Annunci Google