Regressione lineare multipla La maggior parte delle ricerche psicologiche utilizzano più di una variabile indipendente, infatti molti fenomeni umani e psicologici sono multi- determinati. Per testare l’effetto contemporaneo di più variabili indipendenti su una variabile dipendente si utilizza il modello di regressione multipla. Esempio: quali sono i predittori del voto di esame di statistica? È possibile studiare l’effetto delle ore di studio (X) e del numero di esami sostenuti nell’anno (W) per predire il voto di esame (Y).
Descrittive e correlazioni Minimo Massimo Media Dev. std. VOTO 30 12 22,17 4,942 APPELLI 11 4,67 2,631 ORE 90 38,87 20,714 voto appelli ore VOTO Correlazione 1 -,380(*) ,572(**) Sig. (2-code) ,038 ,001 N 30 APPELLI -,500(**) ,005 ORE
Modello e rappresentazione grafica Il modello di regressione multipla è volto a determinare quanto la variabilità dei punteggi rappresentati sull’asse Y dipenda dalla variabilità dei punteggi rappresentati sull’asse X e W. Si intende testare la seguente relazione diretta: La rappresentazione grafica con più v.i. avviene attraverso uno scatterplot multidimensionale. Per due v.i. lo scatterplot è tridimensionale, per più di due v.i. la rappresentazione grafica è molto complessa. X Y W
Regressione lineare multipla Dal punto di vista statistico, l’obiettivo della regressione multipla è di definire la funzione lineare delle v.i. che meglio interpola la nuvola di punti dello scatterplot multidimensionale. Nell’esempio con 2 v.i. e 1 v.d., si cercherà il piano che meglio interpola la nuvola dei punti dello scatterplot tridimensionale. Dunque il valore predetto di Y (Ŷ), sarà in funzione sia dei punteggi che variano sull’asse delle X, sia di quelli che variano sull’asse delle W.
Regressione lineare multipla La funzione di regressione multipla è quindi: Dove: α = il coefficiente costante o intercetta byx.w = coefficiente di regressione tra y e x, sapendo che nella regressione è presente anche w. byw.x = coefficiente di regressione tra y e w, sapendo che nella regressione è presente anche x. Come si evince dalla formula, la funzione della regressione multipla non può essere una retta, in quanto considera più di due v.i.
I coefficienti di regressione multipla I coefficienti di regressione multipla rappresentano il cambiamento atteso in Y (Ŷ) per ogni unità in più di una v.i., tenendo costanti le altre v.i. byx.w indica, quindi, l’effetto di X su Y, al netto dell’effetto di W; allo stesso modo, byw.x indica l’effetto di W su Y, al netto dell’effetto di X. In sostanza, il coefficiente indica quanto cambia in media il valore della v.d., aumentando di 1 il punteggio della v.i., al netto delle possibile influenze delle altre variabili. Per questo motivo i coefficienti di regressione multipla sono chiamati anche effetti o coefficienti parziali.
I coefficienti di regressione multipla Si parla di effetto parziale o di parzializzazione poiché dall’effetto di una v.i. sulla v.d. è stato rimosso il possibile effetto dovuto all’influenza delle altre v.i, ossia è stata rimossa la covarianza tra le altre v.i e vd. Graficamente significa che: Y Quindi: X Y = a (e non a+c) W Y = b (e non b+c) e a b c W X
I coefficienti di regressione multipla Poiché l’effetto di X su Y è uguale solo ad a (e non a+c), il coefficiente di regressione multipla di X su Y è diverso rispetto al coefficiente di regressione semplice tra X e Y. Dunque, nella regressione multipla a e b, sono detti anche contributi unici di variabili, in quanto indicano, in termini percentuali, quanto la v.d. dipenda unicamente dalla X (a) e unicamente dalla W (b).
Coefficienti standardizzati Nella regressione multipla è molto utile utilizzare i coefficienti di regressione standardizzati (β) per confrontare gli effetti delle v.i., generalmente misurate su scale di misura differenti. Per ottenere i coefficienti di regressione standardizzati è necessario standardizzare tutte le variabili prima di condurre una regressione multipla. In quanto coefficienti standardizzati essi variano tra -1 ed 1, ma nella regressione multipla non corrispondo al coefficiente di correlazione di Pearson. Come per b, si interpretano sapendo che il loro effetto è calcolato tenendo costante le altre v.i.
Coefficiente costante o intercetta Il coefficiente costante o intercetta (α) si interpreta nello stesso modo rispetto alla regressione semplice, in quanto indica il cambiamento atteso in Y (Ŷ) quando le v.i. sono uguali a 0. Infatti sostituendo 0 a X e W si ha: Geometricamente, α è il punto in cui il piano di regressione interseca l’asse delle Y.
Bontà del modello statistico Come per la regressione semplice, anche la regressione multipla deve essere valutata rispetto alla capacità delle v.i. di spiegare la varianza della v.d. (R2), ossia come proporzione di riduzione dell’errore se si utilizza come modello la regressione piuttosto che se si utilizza come modello la media. La formula per il calcolo dell’R2 è la stessa:
R2 e R2 corretto Anche l’interpretazione dell’R2 è identica rispetto alla regressione semplice, con l’unica differenza che in questo caso esso indica quanta percentuale di varianza le v.i. spiegano “congiuntamente” della v.d. Rispetto alla figura precedente, dunque, l’R2 è dato dalla somma della variabilità congiunta delle v.i. (c) più i contributi unici di ogni singola variabile (a + b). Se si aggiungono v.i. l’R2 tende ad aumentare, anche se il contributo unico sulla v.d. è basso, perciò l’R2 è considerato un indicatore distorto. L’R2 corretto corregge la distorsione dell’R2, pesando la variabilità totale per il numero di variabili indipendenti e per la numerosità del campione.
Regressione e inferenza statistica Anche i coefficienti della regressione lineare multipla devono essere sottoposti a test inferenziali per la verifica delle ipotesi. Per comprendere se i b siano diversi da 0 si testa che: H0: byx.w = 0 e byw.x = 0 Ossia che l’effetto di XY e WY non siano significativi H1: byx.w ≠ 0 e byw.x ≠ 0 Ossia che l’effetto di XY e WY siano significativi L’obiettivo del ricercatore è rifiutare H0, attraverso il confronto tra p associato a ciascun tcal e α (=0,05): Se p > α accetto H0 Se p < α rifiuto H0
Inferenza statistica e bontà di adattamento Come nella regressione semplice, l’R2 deve essere sottoposto a inferenza statistica, attraverso il test F di Fisher. Ipotesi: H0: R2 = 0 percentuale di varianza spiegata non è significativa H1: R2 ≠ 0 percentuale di varianza spiegata è significativa La logica è sempre la stessa: Se p > α accetto H0 Se p < α rifiuto H0
Inferenza statistica e bontà di adattamento Poiché l’R2 indica la varianza spiegata da tutte le v.i. complessivamente, se esso risulta significativo non significa che lo sia anche il contributo ciascuna singola v.i. I risultati del test F (globale) possono quindi non coincidere con quelli del test t (contributo unico). Tale situazione si verifica in particolare quando le v.i. sono tra loro molto correlate e quando i campioni sono piccoli (N < 30): in questi casi i test inferenziali sono meno potenti.
Esempio di regressione multipla Modello R R-quadrato R-quadrato corretto Errore std. della stima 1 ,582(a) ,339 ,290 4,163 Modello Somma dei quadrati df Media dei quadrati F Sig. 1 Regressione 240,235 2 120,118 6,931 ,004(a) Residuo 467,931 27 17,331 Totale 708,167 29 Interpretazione: Le v.i. spiegano globalmente una percentuale significativa di varianza spiegata (F(2,27) = 6,931;p <,05) pari al 34% (R2 corretto = 29%).
Esempio di regressione multipla Coefficienti non standardizzati Coefficienti standardizzati t Sig. B Errore std. Beta (Costante) 18,542 2,923 6,343 ,000 appelli -,236 ,339 -,125 -,694 ,494 ore ,122 ,043 ,510 2,820 ,009 Interpretazione di α, βappelli e βore: α risulta significativo (t=6,343; p < ,05): gli studenti che hanno sostenuto 0 esami nell’anno e che hanno studiato 0 ore, prendono un voto medio di 18,542. βappelli non risulta significativo (t=-0,694; p>,05): il voto non dipende dal numero di altri esami sostenuti nell’anno. βore risulta significativo (t=2,820; p<,05): il numero di ore che uno studente studia ha un effetto positivo sul voto. Il voto aumenta di .122 per ogni ora che si studia in più.
Esempio di regressione multipla Coefficienti non standardizzati Coefficienti standardizzati t Sig. B Errore std. Beta (Costante) 18,542 2,923 6,343 ,000 appelli -,236 ,339 -,125 -,694 ,494 ore ,122 ,043 ,510 2,820 ,009 Interpretazione di α, βappelli e βore: α risulta significativo (t=6,343; p < ,05): gli studenti che hanno sostenuto 0 esami nell’anno e che hanno studiato 0 ore, prendono un voto medio di 18,542. βappelli non risulta significativo (t=-0,694; p>,05): il voto non dipende dal numero di altri esami sostenuti nell’anno. βore risulta significativo (t=2,820; p<,05): il numero di ore che uno studente studia ha un effetto positivo sul voto. Il voto aumenta in media di .122 per ogni ora che si studia in più.
Interpretazione e commento La correlazione tra appelli (W) e voto (Y) risultava negativa e significativa (r=-.380; p<.05): perché b non risulta significativo? La relazione tra queste è due è spuria: esse correlano soltanto perché W correla (negativamente) con X. Infatti, coloro che fanno molti esami dedicano meno ore all’esame di statistica: questo che determina un voto basso. Se si studia lo stesso numero di ore, il fatto di aver sostenuto molti esami o pochi esami, non influenza il voto in statistica. Il voto dipende quindi esclusivamente dal numero di ore studiate.