La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale.

Presentazioni simili


Presentazione sul tema: "DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale."— Transcript della presentazione:

1 DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale (Capitolo 4 del libro + Appendice A)

2 Forma generale del modello di regressione Il modello è ancora lineare nei coefficienti β j ma la differenza sostanziale rispetto al modello lineare semplice è nella presenza di più variabili esplicative X j  j = 1, k – 1 Il modello è ancora lineare nei coefficienti β j ma la differenza sostanziale rispetto al modello lineare semplice è nella presenza di più variabili esplicative X j  j = 1, k – 1 In notazione compatta (per l’unità i): In notazione compatta (per l’unità i):

3 In forma matriciale (per tutte le n osservazioni) il modello è: Qual è la relazione tra X e la matrice dei dati? Xβ definisce un piano (k=3) o un “iperpiano” (k>3) di regressione

4 Generalizzazione delle assunzioni viste per la regressione lineare semplice che implica che implica Partire dalle assunzioni su Y o da quelle su  (v. p. 173) è equivalente: X non aleatoria Partire dalle assunzioni su Y o da quelle su  (v. p. 173) è equivalente: X non aleatoria

5 Assunzione sulla matrice di covarianze dei termini di errore Richiami sulla matrice di covarianze di un vettore aleatorio (pp ) significato

6 Assunzioni sulla matrice X X = fissa, non stocastica: non dipende in alcun modo dal termine di errore ε X = fissa, non stocastica: non dipende in alcun modo dal termine di errore ε X ha rango pieno: non ci sono colonne di X linearmente dipendenti da altre X ha rango pieno: non ci sono colonne di X linearmente dipendenti da altre

7 Addizione tra matrici Addizione tra matrici Moltiplicazione Moltiplicazione Matrice diagonale Matrice diagonale Matrice identità Matrice identità Matrice trasposta (trasposta del prodotto) Matrice trasposta (trasposta del prodotto) Matrice inversa Matrice inversa Traccia Traccia Matrice idempotente Matrice idempotente Somma di quadrati (ponderata) in forma matriciale Somma di quadrati (ponderata) in forma matriciale Forme quadratiche (positive, negative definite) Forme quadratiche (positive, negative definite) Forme quadratiche idempotenti Forme quadratiche idempotenti Scomposizione spettrale Scomposizione spettrale Derivata di un vettore X (aleatorio) Derivata di un vettore X (aleatorio) Derivata di una funzione (lineare o quadratica) di X Derivata di una funzione (lineare o quadratica) di X Ripasso sulle matrici: v. Appendice A

8 Stima di β con il metodo dei minimi quadrati Occorre trovare il vettore β che minimizza la seguente espressione (dove  tilde indica un generico vettore di residui e y è il vettore dei valori osservati di Y): Occorre trovare il vettore β che minimizza la seguente espressione (dove  tilde indica un generico vettore di residui e y è il vettore dei valori osservati di Y): Cioè: Cioè:

9 Occorre trovare il vettore β che risolve la seguente equazione Occorre trovare il vettore β che risolve la seguente equazione Quindi, per il vettore β che risolve l’equazione (β cappello) vale la relazione: Quindi, per il vettore β che risolve l’equazione (β cappello) vale la relazione: Se la matrice X’X quadrata di dimensione k  k (k = numero di parametri del modello), è invertibile (v. assunzione su rango X): Se la matrice X’X quadrata di dimensione k  k (k = numero di parametri del modello), è invertibile (v. assunzione su rango X):

10 Ripasso: vincoli del sistema di equazioni normali nella regressione semplice (p. 148) Vincoli nella regressione multipla: l’equazione implica X’e = 0  k vincoli lineari sui residui (nella regressione semplice k=2)

11 Esempio regressione multipla Y = Investimenti X1 = PIL (migliaia di miliardi) X2 = Trend (1, 2, 3, … 15) dati p. 176 Esercitazione in Excel File di input e testo esercizio (da fare in autonomia): sv-regr-multipla_dati.xls

12 Esempio investimenti: output modello di regressione multipla (p. 178) Come si interpretano i coefficienti (stimati) del modello di regressione multipla? Le stime calcolate sono uguali o diverse a quelle ottenute adattando due modelli di regressione semplice (uno per il PIL e uno per il Trend)? Calcolo dei coefficienti stimati: Excel ANALISI DATI (p. 307) o IBM SPSS Statistics (v. dopo); dettaglio formule in Excel: Figura 4.2 (p. 179)

13 Esempio investimenti: regressione semplice (X = Trend) Invest = Trend + e Interpretazione parametri Nel modello di regressione multipla il coeff. di X 2 =Trend è invece negativo (relazione inversa): perché?

14 Esempio investimenti: regressione semplice (X = PIL) Invest = PIL + e Invece, nel modello di regressione multipla il coefficiente di X 1 =PIL è (circa) quattro volte superiore: perché?

15 Interpretazione dei parametri nella regressione lineare multipla Nella regr. multipla i coefficienti sono parziali (o netti): il parametro β j rappresenta il coeff. angolare della retta E(Y) = K + β j X j quando il valore delle variabili diverse da X j è fissato: nella regr. multipla il coefficiente β j misura la relazione tra Y e X j mantenendo costante il valore delle altre variabili esplicative Ciò spiega perché la stima di β j nella regr. multipla è diversa da quella ottenuta nella regr. semplice: nella regr. multipla si controllano le variabili diverse da X j, nella regr. semplice si ignorano tali variabili

16 Criterio alternativo per trovare i coefficienti di regressione multipla attraverso i residui di regressioni semplici (pp. 178–179)  v. Figura 4.3 (p. 181): calcoli in Excel per esempio dati investimenti Criterio alternativo per trovare i coefficienti di regressione multipla attraverso i residui di regressioni semplici (pp. 178–179)  v. Figura 4.3 (p. 181): calcoli in Excel per esempio dati investimenti Coefficiente di correlazione parziale (v. p. 180): relazione tra Y e X j al netto delle altre variabili Coefficiente di correlazione parziale (v. p. 180): relazione tra Y e X j al netto delle altre variabili E’ possibile calcolare il coefficiente di correlazione parziale a partire dai coefficienti di correlazione semplice tra le coppie di variabili: v. formula p. 181 E’ possibile calcolare il coefficiente di correlazione parziale a partire dai coefficienti di correlazione semplice tra le coppie di variabili: v. formula p. 181

17 Esempio investimenti: SPSS File: Dati_investimenti.sav Menu: Analizza – Regressione – Lineare

18 Esempio investimenti: SPSS Le differenze rispetto all’output di Excel sono dovute alla minor precisione degli algoritmi numerici di ANALISI DATI


Scaricare ppt "DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale."

Presentazioni simili


Annunci Google