Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori Regressione multipla con 3 predittori Sommatoria dei quadrati R quadro Test sui parametri beta Matrice di covarianza dei beta Errore standard dei beta
Regressione semplice e multipla in forma matriciale Test su di un singolo predittore Test sui singoli predittori Varianza dei singoli predittori Correlazione tra i predittori Matrici standardizzate Matrici di correlazione Sommatorie dei quadrati in Z R quadro in Z R quadro tra variabili indipendenti Errore standard dei beta in Z
Metodo dei minimi quadrati Partendo dalla generale: Il metodo dei minimi quadrati stima il parametro beta minimizzando la sommatoria dei quadrati dovuti all’errore. Infatti, se:
È possibile stimare: Metodo dei minimi quadrati
Regressione semplice
Regressione multipla Analoga a quella semplice Una sola variabile dipendente (Y) o da spiegare Due o più variabili indipendenti (X) o predittive, esplicative Correlazione multipla (anziché semplice) Stima con i minimi quadrati
Regressione lineare semplice (1 dip, 1 indip) Regressione lineare multipla (2 indip., 1 dip.) intercettaerrore variabile indipendente pendenza Regressione multipla
Regr.multipla matriciale
X’X inversa Regr.multipla matriciale
In notazione matriciale viene espresso sinteticamente: Regressione multipla con 3 predittori (caso generale)
Forma matriciale
Schema generale
Sommatoria dei quadrati Il metodo dei minimi quadrati permette di verificare la seguente uguaglianza: Sommatoria dei quadrati
Poiché in generale: si avrà che la sommatoria dei quadrati di y dalla propria media può essere scomposta nella somma dei quadrati dovuti alla regressione e nella somma dei quadrati dovuti all’errore, secondo la: Sommatoria dei quadrati
Si ricorda l’equivalenza di:
Sommatoria dei quadrati
In sintesi: Sommatoria dei quadrati
R quadro
Adjusted R 2 YY’ Poiché il coefficiente di correlazione multipla dipende sia dal numero di osservazioni (n) che dal numero di variabili indipendenti (k) è conveniente correggerlo in funzione dei gradi di libertà. Adjusted R 2 YY’ Nel nostro esempio
È possibile verificare l’ipotesi della diversità dei parametri b i presi nel loro insieme da 0: Test sui parametri
k= numero di colonne della matrice X escludendo X 0 n= numero di rilevazioni in y Test sui parametri
k= numero di colonne della matrice X escludendo X 0 n= numero di rilevazioni in y
Matrice di covarianza dei Una stima della matrice di covarianza dei beta è data da: Indichiamo:
Matrice di covarianza dei Dove gli elementi sulla diagonale sono una stima della varianza dei singoli b i
Errore standard dei L’errore standard dei parametri può essere calcolato con la seguente formula: dove c ii è l’elemento diagonale interno alla matrice (X’X) -1 corrispondente al parametro b i.
Errore standard dei Nota: quando il valore di c ii è elevato il valore di se b i cresce, indicando che la variabile X i ha un alto coefficiente di correlazione multipla con le altre variabili X.
Errore standard dei Al crescere del valore di R 2 i il denominatore del rapporto diminuisce e conseguentemente cresce il valore dell’errore standard del parametro b i. L’errore standard dei i può essere calcolato anche nel seguente modo: dove
Inserire matrice di covarianza dei beta
Disponendo dell’errore standard di misura associato a ciascun b i è possibile effettuare un t-test per verificare: Test su di un singolo predittore
Disponendo dell’errore standard di misura associato a ciascun bi è possibile anche stima l’intervallo di fiducia per ciascun parametro:
Test sui singoli predittori 1.calcolare la SSreg per il modello contenente tutte le variabili indipendenti 2.calcolare la SSreg per il modello escludendo le variabili di cui si vuole testare la significanza (SS -i ) 3.effettuare un test F con al numeratore la differenza SS reg -SS i pesata per la differenza tra i gradi di libertà dei due modelli; e con denominatore SSres / (n-k-1) Al fine di condurre un test statistico sui coefficienti di regressione è necessario:
Test sui singoli predittori Per testare, ad esempio, il peso del solo primo predittore rispetto al modello totale, è necessario calcolare una nuova matrice b i dalla matrice X i cui è stata tolta la colonna appartenente al primo predittore. Da questa segue immediato il calcolo di SS i.
Test sui singoli predittori
Medesimo procedimento si segue per testare qualunque sottogruppo di predittori. Similmente si avrà:
Test sui singoli predittori È interessante notare come questo test su di un singolo predittore sia equivalente al t-test b 1 =0. Quando al numeratore vi è un solo grado di libertà, vale infatti l’equivalenza:
Tabella riassuntiva In questa circostanza nessuno dei parametri stimati ottiene la significatività statistica relativa all’ipotesi b i 0
Varianza delle singole X i Utilizzando la matrice X’X possiamo calcolare la varianza delle singole variabili X i.
Varianza dei singoli predittori
Covarianza tra predittori e variabile dipendente È possibile calcolare la covarianza tra la le variabili indipendenti e la variabile dipendente secondo la:
Correlazione tra predittori e variabile dipendente La correlazione tra la le variabili indipendenti e la variabile dipendente è data dalla: Come si vedrà successivamente l’utilizzo di matrici standardizzate semplifica immediatamente il calcolo.
Test su più predittori È possibile effettuare un test statistico su di un gruppo di predittori al fine di verificarne la significatività. A tal scopo si utilizza la formula precedentemente indicata: Per testare, ad esempio, il peso dei soli primo e secondo predittori rispetto al modello totale, è necessario calcolare una nuova matrice bi dalla matrice Xi cui è stata tolta la colonna appartenente a tali predittori. Da questa segue immediato il calcolo di SSi.
Test su più predittori
Correlazione tra le variabili X Condizione standard di indipendenza tra le variabili X i
Correlazione tra le variabili X Condizione di dipendenza tra le variabili X i Soluzione completamente standardizzata
Indichiamo con R i. la correlazione multipla della variabile X i con le rimanenti variabili, indicate con X j Correlazione tra le variabili X L’elemento c ii rappresenta il valore della diagonale della matrice (X’X) -1 mentre s 2 i è la varianza della variabile X i.
Nel caso in cui non si disponesse della matrice X’X ma del MS res e dell’errore standard del parametro b i la correlazione tra una X e le altre potrà essere calcolata nella seguente maniera: Correlazione tra le variabili X
Inserire correlazione multipla da Morrison (m33.r)
La matrice X e la matrice y possono essere convertite in un punteggio standardizzato dividendo la deviazione di ciascun elemento dalla media per l’appropriata deviazione standard. Matrici standardizzate
Nel nostro esempio avremo: Matrici standardizzate
Con variabili standardizzate non è necessario inserire nella matrice Z la componente unitaria 1 poiché il parametro 0 è uguale a 0.
I coefficienti b standardizzati possono essere ottenuti a partire da quelli non standardizzati impiegando la formula: L’equazione della retta di regressione diventa: Matrici standardizzate
Nel nostro esempio avremo:
Utilizzare matrici standardizzate permette di porre il parametro b 0 =0. Infatti, se le variabili sono standardizzate il valore di intercetta per Y è 0, poiché tutte le medie sono uguali a 0; Inoltre, essendo la correlazione tra due qualsiasi variabili standardizzate è: con i,j compresi tra 1 e k. Matrici standardizzate
Matrice di correlazione Se moltiplichiamo la matrice (Z’Z) per lo scalare [1/(n-1)] otteniamo la matrice di correlazione R tra le variabili indipendenti
Nel nostro esempio avremo: Matrice di correlazione
Correlazione Y con singoli predittori Allo stesso modo se la variabile Y è anch’essa standardizzata e moltiplichiamo il prodotto Z’Y z per lo scalare [1/(n-1)] otteniamo la matrice di correlazione r yi della variabile Y con i suoi predittori X i.
Correlazione Y con singoli predittori
La soluzione del sistema di equazioni normali della retta porta alla seguente uguaglianza: I valori stimati potranno essere ottenuti impiegando l’equazione: Correlazione Y con singoli predittori
Poiché con le variabili standardizzate abbiamo che: Partendo dalle formule generali è possibile avere le seguenti formule semplificate: Sommatorie dei quadrati
Calcolo di R 2 y.123 Avendo scomposto la varianza nella componente dovuta alla regressione e nella componente dovuta ai residui, è immediato calcolare:
Correlazione multipla tra le X i.yz Se in generale la correlazione multipla al quadrato di una variabile indipendente X i con le altre è: essa, in presenza di variabili standardizzate, diviene: dove l’elemento a ii appartiene alla diagonale della matrice R -1.
Volendo adesso calcolare gli altri due coefficienti si dovrà procedere nel modo seguente: Ad esempio la correlazione multipla al quadrato tra la prima variabile X 1 e le altre due può essere calcolata nel seguente modo: Correlazione multipla tra le X i.yz
Errore standard dei z L’errore standard dei parametri standardizzati è ottenibile dalla formula generale:
Errore standard dei z Si hanno ora a disposizione tutti gli elementi per testare la diversità dei singoli predittori da 0, ottenendo i medesimi risultati ottenuti con le variabili non standardizzate.