Corso di Laurea in Scienze e tecniche psicologiche Esame di Analisi Multivariata dei Dati Ripasso regressione La Mediazione L’anova fattoriale between A cura di Matteo Forgiarini Matteo.forgiarini@unimib.it Modifiche di Giulio Costantini
Ripasso regressione (da vedere a casa)
Ripasso regressione Regressione multipla: modello di regressione con più di una variabile indipendente. Con variabili standardizzate, l’intercetta b0 è sempre uguale a zero e i coefficienti si chiamano beta
Interpretare gli indici nella regressione multipla Intercetta b0: valore della variabile dipendente y quando tutte le variabili indipendenti x1 ... xk sono uguali a 0. Coefficienti b1 ... bk: variazione della variabile dipendente y al variare di un’unità di una variabile indipendente xi, quando tutte le altre variabili indipendenti x sono mantenute costanti. Risentono dell’unità di misura (alla variabile lunghezza corrisponderà un b differente se la misurate in cm o in metri).
Interpretare gli indici nella regressione multipla Coefficienti β1 ... βk: Sono i coefficienti b per variabili standardizzate. Esprimono la variazione della variabile dipendente y al variare di una deviazione standard di una variabile indipendente xi, quando tutte le altre variabili indipendenti x sono mantenute costanti. Non risentono dell’unità di misura (es. cm, m, mm), quindi possono essere confrontati tra loro per rispondere a domande quali: il prezzo di un’auto è predetto di più dalla sua lunghezza o dalla sua potenza?
Interpretare gli indici nella regressione multipla (2) R2: porzione di varianza di y spiegata da tutte le variabili indipendenti insieme. (a+b+c)/(a+b+c+e) Sr2 (SPSS le chiama «parte»): porzione di varianza di y spiegata da xi, ma non da altri predittori. a/(a+b+c+e) Pr2: porzione di varianza di y non spiegata dagli altri predittori, che è spiegata da xi. a/(a+e) SPSS vi dà Sr e Pr, ricordatevi di elevare al quadrato se vi servono Sr2 e Pr2 e W X a c b
Significatività A ciascuno dei coefficienti è associato un p-value. Il p-value è la probabilità di ottenere un valore (che sia un b, β, R2, pr, sr, etc.) grande come quello ottenuto o più grande, per il solo effetto del campionamento casuale, se nella popolazione quel valore fosse zero. La soglia convenzionale x dichiarare un valore «significativamente» diverso da 0 è p < .05. Il p-value associato ai b, β, sr e pr è lo stesso (nota che il p-value della correlazione semplice, r, è diverso).
Metodi di inserimento variabili Immetti (enter). tutte le variabili in un blocco sono inserite insieme. A fasi (stepwise). SPSS cerca il miglior insieme di predittori tra quelli da voi proposti e li inserisce, scartando gli altri. Metodo molto criticato (es. se avete voglia date un’occhiata qui https://en.wikipedia.org/wiki/Stepwise_regression oppure qui http://andrewgelman.com/2014/06/02/hate-stepwise-regression/)
In SPSS Analizza > Regressione > Lineare Inserite dipendente e indipendenti Metodo: scegliete il metodo di immissione, immetti o a fasi. Statistiche: per chiedere informazioni aggiuntive, come le pr ed sr. Ricordate di calcolarne il quadrato se volete sr2 e pr2.
Esercizio Aprite il file auto.sav Regressione del prezzo dell’auto su potenza e capienza serbatoio (soluzione nella prossima slide)
Output annotato: b, β, pr, sr, e p-value associato; R2 e p-value associato.
Come riportare i risultati È stata svolta l’analisi di regressione multipla del prezzo dell’auto su potenza e capienza del serbatoio. Dai risultati si evince che sia potenza (β = .59, p = .001) sia capienza (β = .35, p = .024) sono predittori significativi e che insieme spiegano circa il 77% della varianza del prezzo dell’auto (R2 = .767 e p < .001). La varianza unicamente spiegata da potenza sul totale della varianza della variabile dipendente è il 18% (= .4282), mentre la varianza unicamente spiegata da capienza è circa il 7% (= .2562). La varianza unicamente spiegata da potenza sulla porzione della varianza della variabile dipendente non spiegata da altri predittori è il 44% (= ,6632), mentre quella spiegata da capienza è il 22% (= ,4682).
Metodo di Baron & Kenny (1986) La mediazione Metodo di Baron & Kenny (1986)
Step 2: regressione semplice di W su X per calcolare bwx. byx = effetto semplice X (Esogena) Y (predetta) byx.w= effetto diretto bwx byw.x W (Mediatore) EFFETTO MEDIATO = bwx*byw.x = byx - byx.w Step 1: regressione semplice di Y su X per calcolare l’effetto semplice byx. Se non è significativo fermatevi: non ha senso verificare la mediazione in assenza di effetto semplice. Step 2: regressione semplice di W su X per calcolare bwx. Step 3: regressione multipla di Y su X e W, per calcolare l’effetto diretto byx.w e il coefficiente byw. Calcolo di effetto diretto e mediato: Effetto mediato o indiretto = bwx*byw.x oppure anche = byx - byx.w L’effetto mediato è significativo se bwx e byw.x sono entrambi significativi. Effetto diretto = byx.w. Se è significativo la mediazione si dice parziale (c’è una parte di effetto non spiegata dal mediatore), altrimenti la mediazione si dice totale (cioè tutto l’effetto è spiegato dal mediatore).
Esercizio Aprite il file Stress.sav. Su un gruppo di 150 studenti sono state misurate le seguenti variabili: Stress: misurato prima dell’esame di psicometria. Depressione: misurata dopo aver visto gli esiti dell’esame. Ansia: misurata cinque minuti prima dell’esame di psicometria. Voto all’esame di psicometria. Esercizio: esercizio fisico, misurato il giorno dopo l’esame di psicometria.
Rispondete alle seguenti domande Lo stress predice la depressione? Se presente, l’effetto dello stress sulla depressione è mediato dal voto all’esame? E dall’ansia? E dall’esercizio fisico? Quali delle mediazioni significative sono totali e quali parziali? Quali conclusioni potete trarre dalla vostra analisi? Le soluzioni nelle prossime slide: non guardatele prima di aver provato da soli. I dati dell’esempio sono rigorosamente inventati: fate esercizio fisico e non stressatevi (troppo) per l’esame
Stress -> Depressione Lo stress predice la depressione? Si risponde con una regressione semplice. Analizza > Regressione > Lineare. Inserire depressione come dipendente e stress come indipendente. La risposta è sì, b = 2.281, p < .001 Stress spiega l’8.9% della varianza di depressione
Stress Voto Depressione (ATTENZIONE AI SEGNI!) Effetto semplice byx = 2.281, p < .001 X (Stress) Y (Depr.) effetto diretto byx.w= 1.264, p = .028 bwx =-1.736, p < .001 byw.x = -0.586, p < .001 W (Voto) EFFETTO MEDIATO = bwx*byw.x = byx - byx.w = 1.02 L’effetto diretto è significativo, quindi la mediazione è parziale
Stress Ansia Depressione Effetto semplice byx = 2.281, p < .001 X (Stress) Y (Depr.) effetto diretto byx.w= 0.688, p = .285 bwx =0.538, p < .001 byw.x = 2.959, p < .001 W (Ansia) EFFETTO MEDIATO = bwx*byw.x = byx - byx.w = 1.59 L’effetto diretto non è significativo, quindi la mediazione è totale
Stress Esercizio Depressione (ATTENZIONE AI SEGNI!) Effetto semplice byx = 2.281, p < .001 X (Stress) Y (Depr.) effetto diretto byx.w= 2.278, p < .001 bwx =-0.005 , p = .283 byw.x = -0.590, p = .270 W (Esercizio) EFFETTO MEDIATO = bwx*byw.x = byx - byx.w = .003 L’effetto di X su W non è significativo, così come quello di W quindi la mediazione NON é SIGNIFICATIVA.
Conclusioni Lo stress prima dell’esame influenza la depressione dopo l’esame. La prima analisi di mediazione ha rivelato che l’effetto dello stress sull’ansia è parzialmente mediato dal voto: al crescere dello stress diminuiscono i voti e al diminuire dei voti aumenta la depressione post-esame. La seconda analisi di mediazione ha rivelato che l’effetto dello stress sulla depressione è totalmente mediato dall’ansia: all’aumentare dello stress aumenta l’ansia e all’aumentare dell’ansia aumenta la depressione. La terza analisi ha rivelato che l’esercizio fisico non gioca alcun ruolo nella relazione tra stress e depressione.
ANOVA BETWEEN
t-test Confronta le medie di due gruppi (es. Maschi vs. femmine) definiti da una variabile indipendente VI (es. genere) su una variabile dipendente VD (es. altezza). Ipotesi nulla (h0): nessuna differenza tra le medie dei due gruppi nella VD Ipotesi alternativa (h1): i due gruppi hanno una media della VD differente.
ANOVA Confronta le medie di 3 o più gruppi (es. provenienza: Italia, Giappone, USA etc.) su una variabile dipendente (es. quantità di sushi consumato). Se la VI ha due livelli, potete usare indifferentemente ANOVA o t-test. Ipotesi nulla H0: nessuna differenza tra le medie della VD tra i gruppi. Ipotesi alternativa H1: differenza tra almeno due delle medie definite dalla VI. Indicando con µ1, µ2, … µk le medie della VD nei k livelli della VI, l’ipotesi nulla del test anova risulta: H0: µ1= µ2=…= µk H1: µ i≠ µj per almeno una coppia di livelli della VI (i e j indicano 2 generici livelli della VI)
Esercizio Aprire il file Competenze.sav Dividere la variabile anno di nascita in due classi ugualmente numerose (giovani e vecchi) [usate il menu analizza > frequenze per trovare il punto di divisione, in questo caso la mediana; usate trasforma > ricodifica in variabili differenti per creare le fasce d’età] Verificare se la pressione massima è influenzata dalla fascia d’età usando il t-test e l’ANOVA. Rifare tutto usando tre fasce d’età (questa volta non potete usare il t-test)
Trovare il punto di divisione per due gruppi uguali con analizza>frequenze. Il punto che di divisione per due gruppi uguali è anche detto mediana. Abbiamo selezionato l’opzione per ottenere il valore – ovvero la mediana - della variabile “anno di nascita” che divide il campione totale in due sotto-campioni di uguale numerosità. Possiamo quindi costruire una nuova variabile per eseguire il t-test e l’anova.
L’anova between Creiamo la variabile nasc_2f che definisca due fasce d’età (vecchi e giovani), usando trasforma > ricoficica in variabili differenti. La nuova variabile assume valore 1 per soggetti nati prima del 1951 e assume valore 2 per tutti gli altri soggetti più giovani.
Usando il t-test L’anova between Eseguiamo il t-test per campioni indipendenti utilizzando come variabile di gruppo “nasc_2f” e come variabile dipendente “pressione massima”. Il t-test risulta significativo, t(98) = 2.160, p = .033, quindi è possibile rifiutare l’ipotesi nulla e concludere che la pressione sanguigna nelle persone “più giovani” è significativamente maggiore che negli “anziani”.
Usando l’ANOVA Analizza > Modello lineare generalizzato > Univariata L’ANOVA indica che i due gruppi di età hanno una pressione sanguigna significativeamente diversa, F(1, 98) = 4.667, p = .033. L’effect size è ηp2 = .082. La pressione sanguigna nei giovani è inferiore (M = 139.6) rispetto agli anziani (M = 133.5). Il p-value è lo stesso del t-test, sebbene l’anova si basi sul test F, che confronta le varianze tra i gruppi (between) ed entro i gruppi (within).
Con 3 fasce d’età L’anova between
Costruire nasc_3f usando trasforma > ricodifica in variabili differenti
Risultati dell’ANOVA L’anova between Il test risulta significativo F(2, 97) = 4,313, p = .016. L’effect size è ηp2 = .082. Possiamo rifiutare l’ipotesi nulla e concludere che la variabile età ha influenza sulla variablile pressione sanguigna: in altri termini esiste una coppia di livelli della V.I. per i quali le due medie di gruppo hanno una differenza significativa. Ma... Con 3 livelli della V.I. esistono 3 coppie di medie, qual è la coppia che rende significativo l’anova? Ne esiste più di una? Andiamo a scoprirlo con i test post-hoc
Esercitazione N° 4– L’anova between I test post-hoc Esercitazione N° 4– L’anova between Per capire quale coppia di fasce di età ha reso significativo l’anova, occorre eseguire i test post hoc. I test post hoc confrontano contemporaneamente le n*(n-1)/2 coppie di medie della V.D. (con n pari al numero di livelli della V.I.). Ma... Il confronto contemporaneo altera il livello di significatività dei test: il livello alfa (generalmente pari a 0,05) viene “gonfiato” rendendo quindi più elevato il rischio di commettere l’errore di I tipo. Occorre quindi mettere in atto strategie che permettano di controllare il valore di alfa: negli esempi proposti verrà usata la correzione di Tukey. I problemi che si incontrano confrontando contemporaneamente più di 2 medie, sono gli stessi problemi che impediscono di usare il t-test quando la V.I. ha più di 2 livelli: anche in questo caso il livello alfa si gonfierebbe e aumenterebbe dunque il rischio di commettere l’errore di I tipo.
Analizza > modello lineare generalizzato > univariata > Menu post-hoc
Esercitazione N° 4 – L’anova between Notiamo che la media 2 risulta significativamente diversa dalla media 3. Gli scarti tra media 1 e media 2 e tra media 1 e 3 non risultano invece significativi. Dagli output possiamo notare che il test anova è risultato significativo poiché una coppia di medie presenta uno scarto statisticamente significativo e rende quindi falsa l’ipotesi nulla di uguaglianza delle 3 medie.
Anova between fattoriale
Esercitazione N° 4 – L’anova between L’anova between fattoriale Esercitazione N° 4 – L’anova between Anova fattoriale = ANOVA con più di una variabile indipendente. Ovvero... È possibile eseguire l’anova su disegni fattoriali tramite i quali viene testata, oltre agli effetti principali dei singoli fattori sulla variabile dipendente, anche l’interazione tra i fattori stessi. Infatti se sulla variabile dipendente agiscono 2 fattori contemporaneamente è possibile che essi interagiscano tra loro e che l’effetto di un fattore sulla variabile dipendente sia “modulato” dall’altro fattore, ovvero è possibile che l’effetto del fattore 1 assuma valori differenti nei diversi livelli del fattore 2. Ipotizziamo di testare l’ipotesi che la pressione sanguigna sia influenzata contemporaneamente dal sesso dei soggetti (livello1=femmina;livello2=maschio) e dall’essere fumatori o no dei soggetti stessi. Stiamo testando un anova between fattoriale 2X2.
Esercitazione N° 4 – L’anova between L’anova between fattoriale Esercitazione N° 4 – L’anova between Analizza > modello lineare generalizzato > univariata Per testare i modelli anova fattoriali, occorre scegliere il modello lineare generalizzato univariato; nei fattori fissi, inseriamo il “genere” e la variabile “fuma”; inoltre l’analisi dei grafici risulta interessante e utile alla comprensione: selezioniamo “plots” e inseriamo i due fattori per ottenere due diverse linee; infine “aggiungiamo” il grafico desiderato.
Esercitazione N° 4 – L’anova between L’anova between fattoriale Esercitazione N° 4 – L’anova between Effetti principali Interazione Testando un modello fattoriale con due variabili indipendenti verranno eseguiti 3 test f: un test per l’effetto principale del fattore 1, un test per l’effetto principale del fattore 2 e un test sull’interazione tra i due fattori. Dall’analisi degli output, possiamo notare che gli effetti principali dei due fattori risultano significativi (p-value< .05): la media della pressione sanguigna dei maschi risulta statisticamente diversa da quella delle femmine; similmente i non fumatori hanno una pressione media differente dai fumatori. Risulta interessante notare che l’interazione tra i fattori risulta non significativa: i due fattori in modo indipendente hanno influenza sulla V.D., ma l’effetto di ogni fattore non varia nei diversi livelli dell’altro fattore: il fattore “genere” influisce in ugual misura per i fumatori e per i non fumatori; similmente è possibile concludere che il fattore “fuma” influisce sulla V.D. con la stessa forza in modo indipendente dal genere dei soggetti.
Esercitazione N° 4 – L’anova between L’anova between fattoriale Esercitazione N° 4 – L’anova between È possibile notare la mancanza di interferenza tra i fattori anche osservando il grafico che spss ha prodotto: le linee sono quasi parallele: infatti la riduzione di pressione nei soggetti non fumatori ha quasi la stessa entità per i maschi e per le femmine. Dicendo che le linee sono “quasi” parallele, considerando che l’nterazione non risulta significativa, affermiamo che il “quasi” identifica una differenza tanto piccola da non rendere significativo l’effetto di interazione.
Esercizio Svolgere un’anova fattoriale per predire la pressione sanguigna a partire da genere e città di provenienza. Le soluzioni nelle prossime slide: prima di guardarle provate a risolvere il problema.
Esercitazione N° 4 – L’anova between L’anova between fattoriale Esercitazione N° 4 – L’anova between Analizziamo ora un modello anova fattoriale che permetta di capire se la pressione sanguigna (V.D.) è influenzata dal genere dei soggetti (fattore 1) e contemporaneamente dalla residenza in diverse città lombarde (Bergamo, Milano, Cremona e Varese) (fattore 2). Dall’analisi degli output, notiamo che il fattore genere risulta significativo (p-value<0,05); il fattore “città” risulta invece non significativo (p-value>0,05): possiamo quindi concludere che la pressione sanguigna dei soggetti non è influenzata in modo significativo dai differenti stili di vita delle 4 città lombarde.. Contemporaneamente la pressione dei soggetti maschi risulta statisticamente diversa da quella dei soggetti femmine. Ma... Notiamo che l’interazione tra i due fattori risulta significativa (p-value<0,05): possiamo quindi concludere che il fattore “genere” influenza la pressione sanguigna in modo differente nelle 4 città. Esaminiamo il grafico...
Esercitazione N° 4 – L’anova between L’anova between fattoriale Esercitazione N° 4 – L’anova between Le quattro rette non risultano parallele: la riduzione media della pressione sanguigna delle femmine rispetto ai maschi non è omogenea nelle 4 città lombarde considerate. In particolare a Milano si può notare che le femmine hanno in media una pressione maggiore dei soggetti maschi.
Assunzioni del GLM
Predetti e Residui Predetti: in una regressione o ANOVA: punteggi predetti dall’equazione per ciascun soggetto. Residui: differenza tra i punteggi predetti e quelli osservati per ciascun soggetto.
Salvare i predetti e i residui Quando facciamo l’ANOVA o la regressione, nel menu ANALIZZA > MODELLO LINEARE GENERALIZZATO > UNIVARIATA > SALVA chiediamo i residui e i predetti. Compariranno due nuove variabili in SPSS, una per i residui e una per i predetti.
Testare la normalità dei residui Per avere un’idea visiva della distribuzione dei residui: Possiamo chiedere un grafico che mostra la distribuzione dei residui in ANALIZZA > STATISTICHE DESCRITTIVE>ESPLORA. Chiediamo il grafico di normalità con test per i residui
Testare la normalità dei residui Per un test formale della normalità dei residui: Kolmogorov-Smirnov. Lo trovate in ANALIZZA > TEST NON PARAMETRICI > FINESTRE DI DIALOGO LEGACY > K-S PER UN CAMPIONE. Se è significativo l’assunzione di normalità è violata, rifiuto l’ipotesi nulla che non ci sia differenza tra la distribuzione dei residui e la distribuzione normale.
Testare visivamente l’omoschedasticità e la presenza di outlier In GRAFICI > FINESTRE DI DIALOGO LEGACY > DISPERSIONE/PUNTI chiedo un grafico a dispersione semplice, in ascissa i predetti e in ordinata i residui