DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale (Capitolo 4 del libro + Appendice A) 1
Forma generale del modello di regressione Il modello è ancora lineare nei coefficienti βj ma la differenza sostanziale rispetto al modello lineare semplice è nella presenza di più variabili esplicative Xj j = 1, k – 1 In notazione compatta (per l’unità i): 𝛽 = β𝟎 β𝟏 ⋮ β𝒌−𝟏 𝒙𝒊 = 𝑥𝑖0=1 𝑥𝑖1 ⋮ 𝑥𝑖,𝑘−1 𝑥 𝑖 ′ 𝛽=1 𝛽 0 + 𝑥 𝑖1 𝛽 1 +…+ 𝑥 𝑖,𝑘−1 𝛽 𝑘−1
In forma matriciale (per tutte le n osservazioni) il modello è: 𝑌 = 𝒀𝟏 𝒀𝟐 ⋮ 𝒀𝒏 Qual è la relazione tra X e la matrice dei dati? Xβ definisce un piano (k=3) o un “iperpiano” (k>3) di regressione
Generalizzazione delle assunzioni viste per la regressione lineare semplice che implica Partire dalle assunzioni su Y o da quelle su (v. p. 173) è equivalente: X non aleatoria
Assunzione sulla matrice di covarianze dei termini di errore significato Richiami sulla matrice di covarianze di un vettore aleatorio (pp. 297 - 299)
Assunzioni sulla matrice X X = fissa, non stocastica: non dipende in alcun modo dal termine di errore ε X ha rango pieno: non ci sono colonne di X linearmente dipendenti da altre
Ripasso sulle matrici: v. Appendice A Addizione tra matrici Moltiplicazione Matrice diagonale Matrice identità Matrice trasposta (trasposta del prodotto) Matrice inversa Traccia Matrice idempotente Somma di quadrati (ponderata) in forma matriciale Forme quadratiche (positive, negative definite) Forme quadratiche idempotenti Scomposizione spettrale Derivata di un vettore X (aleatorio) Derivata di una funzione (lineare o quadratica) di X
Stima di β con il metodo dei minimi quadrati Occorre trovare il vettore β che minimizza la seguente espressione (dove tilde indica un generico vettore di residui e y è il vettore dei valori osservati di Y): Cioè:
Occorre trovare il vettore β che risolve la seguente equazione Quindi, per il vettore β che risolve l’equazione (β cappello) vale la relazione: Se la matrice X’X quadrata di dimensione kk (k = numero di parametri del modello), è invertibile (v. assunzione su rango X):
Ripasso: vincoli del sistema di equazioni normali nella regressione semplice (p. 148) Vincoli nella regressione multipla: l’equazione implica X’e = 0 k vincoli lineari sui residui (nella regressione semplice k=2)
Esempio regressione multipla Y = Investimenti X1 = PIL (migliaia di miliardi) X2 = Trend (1, 2, 3, … 15) dati p. 176 Esercitazione in Excel File di input e testo esercizio (da fare in autonomia): sv-regr-multipla_dati.xls 11
Esempio investimenti: output modello di regressione multipla (p. 178) Calcolo dei coefficienti stimati: Excel ANALISI DATI (p. 307) o IBM SPSS Statistics (v. dopo); dettaglio formule in Excel: Figura 4.2 (p. 179) Come si interpretano i coefficienti (stimati) del modello di regressione multipla? Le stime calcolate sono uguali o diverse a quelle ottenute adattando due modelli di regressione semplice (uno per il PIL e uno per il Trend)?
Esempio investimenti: regressione semplice (X = Trend) Invest = 212.211 + 3.108 Trend + e Interpretazione parametri Nel modello di regressione multipla il coeff. di X2=Trend è invece negativo (relazione inversa): perché? 13
Esempio investimenti: regressione semplice (X = PIL) Invest = 54.933 + 0.146 PIL + e Invece, nel modello di regressione multipla il coefficiente di X1=PIL è (circa) quattro volte superiore: perché? 14
Interpretazione dei parametri nella regressione lineare multipla Nella regr. multipla i coefficienti sono parziali (o netti): il parametro βj rappresenta il coeff. angolare della retta E(Y) = K + βjXj quando il valore delle variabili diverse da Xj è fissato: nella regr. multipla il coefficiente βj misura la relazione tra Y e Xj mantenendo costante il valore delle altre variabili esplicative Ciò spiega perché la stima di βj nella regr. multipla è diversa da quella ottenuta nella regr. semplice: nella regr. multipla si controllano le variabili diverse da Xj, nella regr. semplice si ignorano tali variabili
Criterio alternativo per trovare i coefficienti di regressione multipla attraverso i residui di regressioni semplici (pp. 178–179) v. Figura 4.3 (p. 181): calcoli in Excel per esempio dati investimenti Coefficiente di correlazione parziale (v. p. 180): relazione tra Y e Xj al netto delle altre variabili E’ possibile calcolare il coefficiente di correlazione parziale a partire dai coefficienti di correlazione semplice tra le coppie di variabili: v. formula p. 181
Esempio investimenti: SPSS File: Dati_investimenti.sav Menu: Analizza – Regressione – Lineare
Esempio investimenti: SPSS Le differenze rispetto all’output di Excel sono dovute alla minor precisione degli algoritmi numerici di ANALISI DATI