Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura media mensile in gradi F X 2 : numero di giorni di operatività in un mese X 3 : numero di riavviamenti (startup) in un mese Problema: capire quali variabili e come influiscono sul consumo di vapore
Quali variabili utilizzare nella regressione? matrice di correlazione
Modello lineare con una variabile esplicativa Si vuole spiegare la variabile Y come funzione della X 1 supponendo che il legame sia lineare quindi si vogliono determinare a e b tali che e Facendo i conti si ottiene
Possiamo riscrivere le 25 equazioni in un’unica equazione matriciale, ovvero con
determiniamo =(a,b) minimizzando la soluzione dell’equazione matriciale è Dai dati dell’esempio si ottiene
Si vuole spiegare la variabile Y in funzione della variabile X 2 Si ottiene
Si vuole spiegare la variabile Y in funzione della variabile X 3 Si ottiene
Quali variabili utilizzare nella regressione? matrice di correlazione
Modello lineare con due variabili esplicative Si vuole spiegare la Y come funzione lineare di X 1 (variabile maggiormente correlata con Y) e X 2 (variabile meno correlata con X 1 ) il modello ipotizzato è Si vuole, quindi, determinare il piano che passi il più vicino possibile ai punti del grafico
y = 0 + 1 x X y X2X2 1 La regressione lineare semplice parte da una variabile indipendente, “x” y = 0 + 1 x + La regressione lineare multipla parte da più variabile indipendenti Y = 0 + 1 x 1 + 2 x 2 + La linea diventa un piano y = 0 + 1 x 1 + 2 x 2
Grafico di dispersione della variabile Y rispetto a X 1 e X 2
si vogliono determinare a, b e c tali che Possiamo riscrivere le 25 equazioni in un’unica equazione matriciale, ovvero con
la soluzione ottenuta con il metodo dei minimi quadrati è Dai dati dell’esempio otteniamo
modello ipotizzato: Il piano di regressione ha equazione Il valore di R 2 è più basso perchè le variabili sono maggiormente correlate
Quali variabili utilizzare nella regressione? matrice di correlazione Si scelgono le variabili maggiormente correlate con la variabile da spiegare e meno correlate tra loro.
Modello lineare con tre variabili esplicative Si vuole spiegare la Y come funzione lineare di X 1, X 2 e X 3 il modello ipotizzato è l’equazione matriciale è con
la soluzione ottenuta con il metodo dei minimi quadrati è Dai dati dell’esempio otteniamo
Osservazioni L’indice R 2, nel caso della regressione multipla, non è uguale a 2 Le formule viste per il caso di due regressori si estendono al caso di k > 2 regressori Il valore dell’indice R 2 aumenta all’aumentare del numero delle variabili esplicative del modello. Occorre trovare un compromesso tra numero dei regressori e bontà di adattamento Non seguendo questo principio potremmo incappare in problemi di over fitting, cioè modelli “molto buoni” ma inutilizzabili a fini previsivi.
Coefficiente di determinazione multiplo somma dei quadrati della regressione (SQR) somma dei quadrati degli errori (SQE) somma dei quadrati della regressione (SQT)
Coefficiente di determinazione multiplo Quando alle variabili esplicative del modello di regressione si aggiunge una nuova variabile, la somma dei quadrati degli errori non aumenta e normalmente i valori stimati della variabile Y risultano essere più vicini ai valori osservati. Il valore di R 2 non può decrescere E’ necessario definire un altro indice per poter confrontare la capacità di adattamento di diversi modelli, neutralizzando l’effetto dovuto al diverso numero di variabili esplicative
Coefficiente di determinazione multiplo corretto Il coefficiente di correlazione multiplo è dato dalla radice quadrata del coefficiente di determinazione multiplo e misura la correlazione lineare tra i valori osservati y i e i corrispondenti valori stimati. Questo indice, a differenza del coefficiente di correlazione lineare, può assumere solo valori non negativi.
Esempio Sono stati registrati la media mensile in minuti di utilizzo del cellulare (Minuti), il costo medio mensile delle telefonate (Bolletta), la percentuale per uso ufficio (Lavoro) e il reddito famigliare (Reddito) di 250 individui. Stimando il modello di regressione lineare multipla che fa dipendere la variabile media mensile in minuti d’utilizzo del cellulare dalle restanti variabili, si ottengono le seguenti tabelle di output:
Statistica della regressione R multiplo0,540 R al quadrato0,292 R al quadrato corretto0,283 Errore standard39,424 Osservazioni250 ANALISI VARIANZA gdlSQMQFSignificatività Regressione ,752565,233,8212,45E-18 Residuo ,711554,23 Totale ,41 Coefficienti errore standardStat tp-value inferiore 95% superiore 95% Intercetta29,62515,5031,9110,057-0,9160,161 BOLLETTA0,8850,1476,0160,0000,5951,175 LAVORO0,5360,3231,6620,098-0,0991,172 REDDITO0,9560,2334,1120,0000,4981,414
a. Aumentando di un euro il costo medio della bolletta di quanto aumenta la media mensile di utilizzo del cellulare (tenendo costante il valore delle altre variabili)? b. Considerando un livello di significatività pari a α = 0.10, indicare quali sono le variabili esplicative che presentano un coefficiente di regressione significativamente diverso da zero. c. Considerando un livello di confidenza pari a 1−α=0.95, il coefficiente di regressione della variabile Bolletta può essere pari a 1.2? d. La bontà di adattamento del modello di regressione lineare è molto elevata? e. Si può rifiutare l’ipotesi nulla che i coefficienti di regressione sono tutti uguali a zero per un α = 0.05 ?