Scopo della lezione Regressione lineare multipla Cos’è Scopi dell’analisi della regressione Quando si applica? condizioni di applicabilità utilità Coefficienti della regressione: quali sono gli indicatori utili? Interpretazione dei risultati dell’analisi della regressione
Cosa è l’analisi della regressione multipla? Tecnica che consente di analizzare il contributo di più variabili (predittori) su una variabile dipendente (criterio) ovvero Regressione multipla Regressione semplice X1 X Y X2 Y …. Xk
Scopi dell’analisi della regressione Predittivo: sulla base delle correlazioni tra i predittori e tra i predittori e il criterio si cerca di prevedere la risposta dei soggetti alla variabile criterio Causale: individuazione delle variabili che spiegano la risposta dei soggetti alla variabile criterio Come nella ANOVA lo scopo dipende dalla pianificazione sperimentale: Variabili differenziali e variabili indipendenti
Analisi della regressione La regressione scompone la variabilità totale in variabilità spiegata dalla regressione e variabilità residua. La regressione generalmente non opera sui gruppi ma su variabili continue
Anova e Regressione Scopo predittivo: le persone che vivono in città sono più stressate delle persone che vivono in campagna. G1 (cittadini) O1 (stress) G2 (contadini) O2 (stress) H0: 1 = 2 ; H1 : 1 > 2 Regressione: Lontananza dal centro urbano (in Km) Stress H0: = 0 ; H1 : < 0 N.B. Nella regressione può essere utilizzato lo stesso disegno della ANOVA, trattando le variabili qualitative come variabili dummy. Anche in questo caso le ipotesi saranno formulate relativamente alla relazione
Anova e Regressione Scopo causale: le persone che vivono in città sono più stressate delle persone che vivono in campagna. Anova: G (cont.) O1 (stress) X(avvicinamento alla città per 6 m.) O2 (stress) H0: 1 = 2 ; H1 : 1 < 2 Ovvero H0: = 0 ; H1 : > 0
Passi fondamentali dell’analisi della regressione Selezione delle variabili Individuazione del modello di analisi della regressione Stima dei parametri Interpretazione dei risultati
Selezione delle variabili Decisione relativa al tipo di variabili Assunzioni di normalità della distribuzione delle Y per ogni X Assunzione di omeoschedasticità dei residui Assunzione di assenza di multicollinearità nella popolazione: le variabili predittori non devono essere correlate tra loro
La regressione multipla E’ la combinazione lineare dei predittori atta a massimizzare la correlazione con la variabile dipendente (criterio) La combinazione si ottiene mediante il metodo dei “minimi quadrati”, che consente di minimizzare la somma dei quadrati delle differenze tra Y e Y’ ovvero massimizzare la loro correlazione. I parametri stimati tramite questo metodo individuano un piano o un iperpiano a k - 1 dimensioni
La retta di regressione ∑ (Yi -Y’i)2= minima Y Y4 Y3 Y’4 Y1 Y’3 Y’2 Y’1 a Y2 X a = altezza del punto di incontro del piano con l’asse delle Y b = funzione dell’angolo della inclinazione del piano con la variabile X Y’ = a +b X
Il piano di regressione ∑ (Yi -Y’i)2= minima Y Y3 X2 Y1 Y’3 Y’2 Y’1 Y2 X1 a = altezza del punto di incontro del piano con l’asse delle Y b1 = funzione dell’angolo della inclinazione del piano con la variabile X1 b2 = funzione dell’angolo della inclinazione del piano con la variabile X2 Y’ = a +b1 X1+b2X2
I coefficienti di regressione Equazione di regressione multipla Y’ = a + b1 X1+ b2X2 + ….. + bkXk a = intercetta o termine costante bi = coefficienti di regressione parziale tra le variabili prese a coppie, è il rapporto tra la covarianza (tra Y e Xi) e la varianza della variabile Xi. E’ dunque un indice di dipendenza di Y da Xi. Differentemente dalla regressione semplice sono direzionali. Xi = variabili predittori
I coefficienti b parziali Possono essere considerati coefficienti di correlazione parziale. Rappresentano l’inclinazione dell’iperpiano di regressione nella dimensione della corrispondente variabile indipendente, mantenendo costanti tutte le altre. bij.k = bij- (bik) (bkj) / 1- bjk bkj Rappresenta il mutamento ipotetico che si verificherebbe nella variabile Y se una delle variabili indipendenti fosse cambiata di una unità e le altre variabili indipendenti restassero costanti
Scomposizione della devianza devianza totale n-1 Devianza dovuta alla regressione Devianza residua k n-k-1 ∑ (Y’- Ymedio)2 ∑ (Y- Y’)2 Si può controllare probabilisticamente tramite il test F la significatività della relazione. L’indicatore che si utilizza per misurare e quantificare la relazione è il coefficiente di correlazione multipla al quadrato (R2), ovvero il coefficiente di determinazione. R2 = SQ spiegata / SQ totale
Il coefficiente di correlazione multipla E’ il rapporto tra la devianza dovuta alla regressione e la devianza totale, ovvero è la proporzione di variabilità totale spiegata dall’insieme dei predittori. Rappresenta la correlazione tra due distribuzioni, quella della variabile criterio Y e quella della variabile predetta Y’. E’ sempre superiore a quello tra le singole variabili Aumenta all’aumentare della correlazione tra le singole variabili indipendenti e la dipendente Aumenta al diminuire della correlazione tra le variabili indipendenti Y X X
Coefficienti di correlazione Coefficiente di correlazione parziale: indica la relazione tra due variabili avendo eliminato l’effetto delle altre. Non è unico, dipende da quali variabili vogliamo parzializzare. Correlazione parziale tra X1 e Y Y X1 X2
Altri coefficienti di correlazione Coefficiente di correlazione semiparziale: indica la relazione tra una variabile predittore e il criterio avendo eliminato l’effetto delle altre sul predittore, ma non elimina la relazione che le altre variabili predittori hanno con il criterio. Y X1 X2
Scomposizione della devianza Devianza totale Devianza dovuta alla regressione Devianza residua Devianza X1 Devianza X2 Devianza Xk Ogni variabile X ha il suo coefficiente , che si distribuisce come una t di student con n - k - 1 gdl
Procedure per selezionare i predittori Forward Calcola la correlazione tra ciascun predittore e il criterio: quello con la più alta correlazione entra per primo nell’analisi. I predittori successivi vengono introdotti nell’analisi in base al quadrato della correlazione semiparziale con il criterio, ovvero sono i predittori che incrementano R2 La procedura termina quando un predittore non fornisce un incremento significativo N.B. una variabile già entrata nell’equazione non viene più rimossa anche se il suo contributo diminuisce per effetto dell’entrata di un altro predittore
Procedure per selezionare i predittori Backward Procede per eliminazione: calcola il coefficiente di correlazione multipla al quadrato considerando tutte la variabili predittore. Elimina una variabile alla volta tenendo presente la conseguente modificazione di R2.Se la modificazione è irrilevante il predittore viene eliminato definitivamente N.B. Il contributo di ogni predittore è valutato alla luce degli altri.
Procedure per selezionare i predittori Stepwise Variazione della procedure forward: il contributo di ciascun predittore viene valutato nuovamente ad ogni passo, eliminando quelli che comportano una riduzione dell’ R2. N.B. Il contributo di ogni predittore è valutato alla luce degli altri.
Applicazione della analisi della regressione
Disturbo ossessivo-compulsivo Estrazione dei predittori: quali predittori selezionare? Metodo della regressione stepwise Severità ? ? Responsabilità ? Controllo Depressione Disturbo ossessivo-compulsivo
Estrazione dei predittori: quali predittori estrarre? Metodo stepwise Step1. Variabili entrate al primo passo R multiplo 0.23 R2 0.05 Adjusted R2 0.04 Standard Error 15.01 F = 3.93 p= 0.02 Variabili nell’equazione Variabili B SE Beta Beta t p Controllo 2.75 1.22 .34 1.92 0.02
Estrazione dei predittori: quali predittori estrarre? Metodo stepwise Step 2 Variabili entrate R multiplo 0.49 R2 0.24 Adjusted R2 0.20 Standard Error 13.7 F = 4.81 p= 0.0001 Variabili nell’equazione Variabili B SE Beta Beta t p Controllo 3.92 0.06 0.13 2.16 0.02 Responsabilità 0.61 0.11 0.39 3.51 0.0005
Disturbo ossessivo-compulsivo Estrazione dei predittori: quali predittori estrarre? Metodo della regressione stepwise: risultati Severità Responsabilità Controllo Depressione =0.39 =0.13 Disturbo ossessivo-compulsivo
Estrazione dei predittori: quali predittori estrarre? Metodo della regressione gerarchica Controllo Severità Responsabilità Depressione Disturbo ossessivo-compulsivo
Estrazione dei predittori: quali predittori estrarre? Metodo della regressione gerarchica Predittori Step 1 Metodo enter: forzo le variabili ad entrare nella regressione Controllo Severità Depressione Step 2 Metodo enter: Responsabilità Criterio Disturbo ossessivo-compulsivo
Predittori: criteri generali Metodo enter: regressione gerarchica Step1 R multiplo 0.58 R2 0.34 Adjusted R2 0.31 Analisi della varianza GDL Devianza Varianza Regressione 3 3687.42 1229.14 Residuo 137 32382.7 236.37 F = 5.20 p= 0.0001 Variabili nell’equazione Variabili B SE Beta Beta t p Controllo 3.92 0.65 .13 1.98 0.02 Severità 1.12 0.34 .44 1.3 0.09 Depressione 2.56 0.17 .27 1.57 0.06
Predittori: criteri generali Metodo enter: regressione gerarchica Step2 R multiplo 0.72 R2 0.52 Adjusted R2 0.50 Analisi della varianza GDL Devianza Varianza Regressione 4 12088.2 3022.04 Residuo 136 67377.1 495.42 F = 6.10 p= 0.0001 Variabili nell’equazione Variabili B SE Beta Beta t p Controllo 1.78 0.09 0.15 1.61 0.06 Severità 0.98 0.27 0 .38 1.4 0.09 Depressione 1.54 0.21 0 .32 1.52 0.06 Responsabilità 2.75 0.17 0.41 2.38 0.001
Estrazione dei predittori: quali predittori estrarre? Metodo della regressione gerarchica: risultati Controllo Severità Responsabilità Depressione Disturbo ossessivo-compulsivo
Riepilogando La regressione multipla è una tecnica di analisi multipla che predice i punteggi di una variabile criterio a partire da K variabili predittori Il coefficiente R2 indica la quantità di varianza spiegata o predetta dalla regressione Tramite il test F possiamo sottoporre a verifica l’ipotesi di regressione Tramite il test t possiamo sottoporre a verifica l’ipotesi di previsione di un predittore rispetto al criterio, all’interno della regressione multipla (H0: =0; H1: <>0) Più sarà dettagliato e pianificato il disegno di ricerca migliori saranno i modelli di analisi della regressione