La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Test dell’ ANOVA L EZIONI III PARTE F ONDAMENTI E METODI PER L ’ ANALISI EMPIRICA NELLE SCIENZE SOCIALI A. A. 2015-16.

Presentazioni simili


Presentazione sul tema: "Test dell’ ANOVA L EZIONI III PARTE F ONDAMENTI E METODI PER L ’ ANALISI EMPIRICA NELLE SCIENZE SOCIALI A. A. 2015-16."— Transcript della presentazione:

1 Test dell’ ANOVA L EZIONI III PARTE F ONDAMENTI E METODI PER L ’ ANALISI EMPIRICA NELLE SCIENZE SOCIALI A. A. 2015-16

2 ANalysis Of VAriance Analisi della varianza parametricoeffetti fattori Test parametrico per stimare effetti di uno o più determinati fattori (o variabili indipendenti) su una o più variabili dipendenti. Tecnica statistica, nata in contesto sperimentale (nella scienza agraria), rispetto agli effetti: A effetti fissi, tutte le modalità della variabile indipendente vengono introdotte nell’analisi ; A effetti random, le modalità variabile indipendente introdotte son un sottoinsieme casuale di quelle possibili. A.A. 2015-2016g.fanci@unimc.it2

3 Quando? differenze tra le medie di più gruppi tra loro indipendenti Quando il ricercatore intende stimare le differenze tra le medie di più gruppi tra loro indipendenti ovvero, parimenti, vuole valutare all’interno di un solo campione la relazione di influenza di una variabile indipendente su una variabile dipendente, a condizione che la variabile indipendente assuma un numero ridotto di modalità distinte (ordinate o non). A.A. 2015-2016g.fanci@unimc.it3

4 Analisi relazione tra variabili Variabile dipendente cardinale Variabile indipendente di qualsiasi tipo ma IN CLASSI A.A. 2015-20164g.fanci@unimc.it

5 (segue) medie campionarie Stima delle differenze tra medie campionarie varianze si prendono in considerazione le rispettive varianze. Scopo : stabilire se due o più medie campionarie possono derivare da popolazioni che hanno la stessa media parametrica. l’ANOVA le medie sono più di due Dobbiamo necessariamente utilizzare l’ANOVA quando le medie sono più di due, o quando vogliamo suddividere la variabile di raggruppamento in più variabili per eliminare eventuali fonti di variazione oltre a quella prodotta dal fattore di cui vogliamo valutarne l’effetto. A.A. 2015-2016g.fanci@unimc.it5

6 Tipi di test dell’ANOVA ANOVA a una via (One way ANOVA) ANOVA fattoriale MANOVA (Multivariate ANalysis Of VAriance) A.A. 2015-2016g.fanci@unimc.it6

7 One way ANOVA Il ricercatore osserva una sola variabile dipendente ed una sola variabile indipendente. Es: la razza influenza il peso dei vitelli. A.A. 2015-2016g.fanci@unimc.it7 VitelliRazza 1Razza 2Razza 3 165.6 276.3 377.9 482.4 ….. 40

8 ANOVA fattoriale Il ricercatore osserva una sola variabile che assume essere dipendente e più di una variabile o fattore che assume essere indipendente. Es.: il successo scolastico dipende sia dal grado di interesse individuale nei confronti dello studio e dell’ottenimento di buoni voti, sia dal grado di istruzione dei genitori A.A. 2015-2016g.fanci@unimc.it8

9 (segue) Y = a + bx + cz + dw + ek Contributi trascurabili A.A. 2015-2016g.fanci@unimc.it9 Spiegano l’88% della varianza di Y Spiega l’ 8% della varianza di Y Spiega il 4% della varianza di Y

10 ANOVA multifattoriale Due o più variabili indipendenti influenza no due o più variabili dipendenti. Es.: l’acquisto di autovetture e l’utilizzo dei mezzi pubblici sono influenzati dal genere, dal grado d’istruzione e dall’ascolto di spot pubblicitari. Effetti di interazione A.A. 2015-2016g.fanci@unimc.it10

11 (segue) La dispersione si analizza rispetto alle MEDIE dei gruppi. è possibile in alcuni casi isolare l’effetto delle diverse variabili indipendenti e/o osservare il cd. effetto di interazione; si incrementa la potenza del test (cioè la probabilità di rilevare un effetto, se l’effetto è presente) perché consentono di ridurre la varianza d’errore. A.A. 2015-2016g.fanci@unimc.it11

12 Condizioni da soddisfare I gruppi devono essere indipendenti; Gli elementi che costituiscono i vari gruppi (items) siano stati assegnati casualmente (random); omoschedasticità La variabile Y deve avere la stessa varianza nelle K popolazioni (assunto cd. di omoschedasticità); normalità La variabile Y deve distribuirsi normalmente nelle K popolazioni (assunto cd. di normalità) A.A. 2015-2016g.fanci@unimc.it12

13 MISURE DI DISPERSIONE VARIANZA; DEVIANZA; DEVIAZIONE STANDARD. A.A. 2015-2016g.fanci@unimc.it13 Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche. Per ottenere un indice unico e sintetico di dispersione occorre che i dati siano misurati su scale metriche a intervalli equivalenti o a rapporti equivalenti.

14 Effetto su singole osservazioni Si può stimare l’indice di dispersione che tenga conto delle singole osservazioni:  si calcolano gli scarti dei valori osservati dalla media;  si calcola la media degli scarti. A.A. 2015-2016g.fanci@unimc.it14

15 Scostamento semplice medio A.A. 2015-2016g.fanci@unimc.it15 Poiché la somma degli scarti dalla media è zero, sommo gli scarti in valore assoluto.

16 Esempio: scostamento semplice medio Ad un test di personalità, 10 adolescenti hanno ottenuto i seguenti punteggi: 8 9 5 4 7 8 9 7 4 3 Calcolare lo scostamento semplice medio: Prima calcolo la media (M). M = 8+9+5+4+7+8+9+7+4+3 = 6,4 10 A.A. 2015-2016g.fanci@unimc.it16

17 (segue esempio) SSM = 8-6,4 + 9-6,4 + 5-6,4 ….. 10 4-6,4 + 3-6,4 = 1,95 10 A.A. 2015-2016g.fanci@unimc.it17

18 Varianza ( σ 2 ) In statistica e in riferimento a una serie di valori corrisponde alla media dei quadrati degli scarti dei singoli valori dalla loro media aritmetica. La somma degli scarti della media è uguale a 0, elevo al quadrato. A.A. 2015-2016g.fanci@unimc.it18

19 Esempio Ad un test di personalità, 10 adolescenti hanno ottenuto i seguenti punteggi: 8 9 5 4 7 8 9 7 4 3 Calcolare la varianza M = 6,4 [8-6,4] 2 +[9-6,4] 2 +[5-6,4] 2 …[4-6,4] 2 +[3-6,4] 2 = 10 – 1 A.A. 2015-2016g.fanci@unimc.it19

20 (segue) La varianza non è mai negativa; Maggiore è la varianza più i casi sono dispersi attorno alla media; Minore è la varianza meno i casi sono dispersi attorno alla media. A.A. 2015-2016g.fanci@unimc.it20

21 A.A. 2015-2016g.fanci@unimc.it21 Distribuzione normale e varianza

22 È la radice quadrata della varianza, quindi è anch’essa una misura di dispersione. Indica quanto mediamente i dati osservati si discostano dalla media. A.A. 2015-2016g.fanci@unimc.it22 Detta anche deviazione standard

23 Distribuzione normale È simmetrica rispetto a μ. È crescente per x μ. È asintotica all’asse x da entrambi i lati. La distribuzione normale può essere utilizzata per approssimare numerose distribuzioni di probabilità discrete. Dipende dai parametri σ e μ. A.A. 2015-2016g.fanci@unimc.it23

24 Uso dell’ANOVA Test di ipotesi Stima dei parametri A.A. 2015-2016g.fanci@unimc.it24

25 Test di ipotesi controllo empirico  Quali le ipotesi sottoposte a controllo empirico? ragionamento accettazionerifiuto  Qual è il ragionamento che porta alla accettazione o al rifiuto? A.A. 2015-2016g.fanci@unimc.it25

26 Ipotesi nulla H 0 : μ 1 = μ 2 = μ 3 = …….= μ j Se si rispettano gli assunti, le k popolazioni hanno gli stessi parametri ( μ e σ). Se l’ipotesi nulla è vera, le popolazioni coincidono rispetto alla media, quindi ogni gruppo proviene dalla stessa popolazione in cui la caratteristica in esame (variabile dipendente) è distribuita secondo la funzione Nor ( μ, σ) A.A. 2015-2016g.fanci@unimc.it26

27 Ipotesi alternativa Almeno una delle medie campionarie proviene da una popolazione la cui media differisce dalle diverse medie delle altre popolazioni; cioè H 1 : μ 1 ≠ μ 2 = μ 3 = ….= μ j A.A. 2015-2016g.fanci@unimc.it27

28 Possibili alternative La media di ogni popolazione differisce dalla media di tutte le altre popolazioni, cioè H 1 : μ 1 ≠ μ 2 ≠ μ 3 ≠ ….≠ μ j Le medie di alcuni sottoinsiemi di popolazioni differiscono l’una dalle altre ( μ 1 è diversa da μ 2, ma è uguale a μ 3 ). Alcune combinazioni di medie differiscono da una singola media o da un’altra combinazione di medie. A.A. 2015-2016g.fanci@unimc.it28

29 esempio Ci sono 5 gruppi (per esempio, 5 località diverse), e in ogni località viene misurato un indicatore di biodiversità (la variabile alla quale si è interessati) in 20 campioni casuali (per esempio, 20aree di 1 metro quadro, 20 prelievi d’acqua, oppure 20 volumi uguali di sedimento). In totale, sono disponibili quindi 20 misurazioni della variabile A.A. 2015-2016g.fanci@unimc.it29

30 (segue esempio) A.A. 2015-2016g.fanci@unimc.it30 La tabella riporta le medie dei gruppi (in ordine crescente) e una lettera che permette di capire quale gruppo è diverso da quale altro. I gruppi con la almeno una lettera in comune non hanno una biodiversità media significativamente diversa.

31 Effetti delle variabili nei/tra gruppi Condizione = un’unica popolazione in cui la media della variabile dipendente è μ. Stima effetto v. discreta su v. dipendente continua Se H 0 : μ j = μ generale Allora l’effetto del gruppo j ( α ) è pari alla differenza tra la media di quel gruppo e la media generale, ossia: A.A. 2015-2016g.fanci@unimc.it31

32 (segue) α j = μ j – μ Se il gruppo j non esercita alcun effetto sulla variabile dipendente α j = 0 μ j = μ Se il gruppo j esercita un effetto sulla variabile dipendente, α j assumerà valore positivo o negativo a seconda che la media del gruppo sia maggiore o minore alla media generale A.A. 2015-2016g.fanci@unimc.it32

33 Modello ANOVA SCOPO: quanta variazione della v. dipendente Y è attribuibile alle i osservazioni del gruppo j Y ij = μ + α j + e discrepanzascarto Dove e indica la discrepanza (o scarto) fra i valori osservati e quelli predetti dall’appartenenza ad un dato gruppo. A.A. 2015-2016g.fanci@unimc.it33

34 Somma dei quadrati Per stimare la varianza di Y ij quanto in proporzione a α j e quanto a e, bisogna partire dal numeratore della varianza campionaria: Σ (Y i – Y ) 2 i =1 La somma dei quadrati equivale alla somma delle deviazioni al quadrato di ciascun valore dalla media generale di tutti i gruppi ( Y ). A.A. 2015-2016g.fanci@unimc.it34

35 (segue) Per verificare le due ipotesi considerate, la variabilità totale (misurata dalla somma dei quadrati totale – SST) viene scomposta in due componenti: una componente attribuibile alla differenza tra i gruppi o between (misurata dalla somma dei quadrati tra i gruppi – SSA) e una seconda componente che si riferisce alle differenze riscontrate all’interno del gruppo o within (misurata dalla somma dei quadrati all’interno dei gruppi – SSW) Variabilità fra gruppi Variabilità totale SSA SST Variabilità interna SSW A.A. 2015-2016g.fanci@unimc.it35

36 Analisi La varianza è sempre > 0, salvo il caso in cui tutte le osservazioni assumano lo stesso valore; between La somma dei quadrati between esprime l'effetto complessivo esercitato sulla variabile dipendente dalla variabile indipendente; within La somma dei quadrati within esprime l'influenza di fattori non misurati o casuali. A.A. 2015-2016g.fanci@unimc.it36

37 37 Tornando sul modello ANOVA Il modello può essere rappresentato in questa forma: Y ij =  + α i + ε ij con μ media di tutte le popolazioni rappresentate nell’esperimento α i = μ − μ i effetto dell’i-esimo trattamento/livello Generalmente si assume: i = 1,..., p (p numero dei livelli ) j = 1,..., n i (n i numero di repliche all’interno di un livello ) n t = n.ro totale di osservazioni Se il disegno è bilanciato, n 1 = n 2 =... = n p

38 38 IDEA DI FONDO: Scomposizione della variabilità totale Variabilità all’interno dei gruppi (SSE)  errore sperimentale Variabilità tra i gruppi (SSA)  effetti del trattamento/livello Si ha che:SST = SSA + SSE

39 39 Assumendo che i p gruppi (popolazioni) da cui vengono estratte casualmente le osservazioni siano distribuiti normalmente e abbiano uguali varianze, l’ipotesi sottoposta a controllo è: H 0 :  1 =  2 = … =  p oppure H 0 : α i = 0 H A : non tutte le  i sono uguali Come fare inferenza

40 40 Come costruire il test? Il test è basato sulle seguenti considerazioni: Se è vera l’ipotesi nulla, i dati differiscono tra loro per il solo effetto della variabilità casuale. Se invece è vera l’ipotesi alternativa (quindi rifiuto l’H 0 ), entrambe le fonti di variabilità contribuiscono a determinare la variabilità complessiva. Il test è quindi basato sull’analisi della variabilità complessiva in funzione delle diverse cause (da cui il termine Analisi della Varianza).

41 41 La VARIABILITA’ TOTALE è descritta dalla SST: Devianza totale: Scomposizione della variabilità totale

42 42 La VARIABILITA’ TRA I GRUPPI è descritta dalla SSA (devianza tra i gruppi) Devianza tra i gruppi: (Segue) FORMULA CALCOLATORIA:

43 La VARIABILITA’ NEI GRUPPI (o ENTRO I GRUPPI) è descritta dalla SSE: devianza entro i gruppi Devianza entro i gruppi: (segue) FORMULA CALCOLATORIA

44 44 Cosa ci aspettiamo? Se l’ipotesi nulla è vera, ci possiamo attendere uno scarso contributo della devianza tra gruppi alla devianza totale. Sell’ipotesi nulla è falsa, ci possiamo attendere che entrambe le devianze contribuiscano a determinare la devianza totale. A questo livello non è però possibile fare confronti, perché le devianze hanno un numero di addendi diverso. Dobbiamo quindi rendere confrontabili le devianze....

45 45 I gradi di libertà Ad ognuna delle devianze sono associati i gradi di libertà: la devianza totale ha n t − 1 gradi di libertà la devianza tra gruppi ha p − 1 gradi di libertà la devianza entro i gruppi ha n t - p gradi di libertà Dividendo ciascuna devianza per i rispettivi gradi di libertà si ottengono le VARIANZE, cioè le medie dei quadrati: Varianza tra i gruppi Varianza entro i gruppi

46 46 Test F per la ANOVA a un fattore test F Per verificare l’ipotesi di uguaglianza delle medie utilizzo il test F che confronta MSA e MSE. test F distribuzione F di Fisher Il test F segue una distribuzione F di Fisher con (p-1, n t -p) gradi di libertà. La regola decisionale è: Rifiuto H 0 se F>F α

47 (segue) Non è altro che un rapporto fra i due quadrati medi Intergruppo e Intragruppo (QM INTERGRUPPO / QM INTRAGRUPPO ) Si calcola per controllare l’ipotesi nulla (H 0 ) Due assunti devono essere soddisfatti: 1. I j gruppi devono essere estratti indipendentemente da una popolazione normalmente distribuita; 2. La varianza della popolazione deve essere identica a quella dei j gruppi (omoschedasticità). A.A. 2015-2016g.fanci@unimc.it47

48 (segue) Così la statistica F sarà distribuita con J – 1 gradi di libertà al numeratore; N – J gradi di libertà al denominatore. Ci si attende che la stima della varianza fra gruppi sia maggiore della stima della varianza nei gruppi Il test di significatività è a una coda A.A. 2015-2016g.fanci@unimc.it48

49 49 Il valore critico della F viene determinato in funzione del livello di significatività  del test. Se H 0 è falsa ci aspettiamo che F assuma valori maggiori rispetto ai valori tabulati nella tavola della F  la variabilità totale è dovuta soprattutto all’effetto del trattamento/fattore. Se H 0 è vera ci aspettiamo che il valore osservato di F sia minore al valore tabulato. Test F per la ANOVA a un fattore I valori critici si individuano nelle tavole della distribuzione F in base ai gradi di libertà e al livello di significatività scelto

50 50 I risultati del test F per la ANOVA a un fattore vengono sintetizzati in una tabella come quella seguente: Test F per la ANOVA a un fattore

51 51 Esempio Esempio:Peso dei vitelli di 3 razze diverse: Output di excel:

52 Esercitazioni in classe Test ANOVA, tassi di criminalità negli Stati Uniti d’America, Bohrnstedt, Knoke httpwww.dmi.units.it/corsi/biomed/anova/ anova.html :// httpwww.dmi.units.it/corsi/biomed/anova/ anova.html:// Esercitazione n. 5 A.A. 2015-2016g.fanci@unimc.it52


Scaricare ppt "Test dell’ ANOVA L EZIONI III PARTE F ONDAMENTI E METODI PER L ’ ANALISI EMPIRICA NELLE SCIENZE SOCIALI A. A. 2015-16."

Presentazioni simili


Annunci Google