La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

DATA MINING PER IL MARKETING

Presentazioni simili


Presentazione sul tema: "DATA MINING PER IL MARKETING"— Transcript della presentazione:

1 DATA MINING PER IL MARKETING
Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale (Capitolo 4 del libro + Appendice A) 1

2 Forma generale del modello di regressione
Il modello è ancora lineare nei coefficienti βj ma la differenza sostanziale rispetto al modello lineare semplice è nella presenza di più variabili esplicative Xj  j = 1, k – 1 In notazione compatta (per l’unità i): 𝛽 = β𝟎 β𝟏 ⋮ β𝒌−𝟏 𝒙𝒊 = 𝑥𝑖0=1 𝑥𝑖1 ⋮ 𝑥𝑖,𝑘−1 𝑥 𝑖 ′ 𝛽=1 𝛽 0 + 𝑥 𝑖1 𝛽 1 +…+ 𝑥 𝑖,𝑘−1 𝛽 𝑘−1

3 In forma matriciale (per tutte le n osservazioni) il modello è:
𝑌 = 𝒀𝟏 𝒀𝟐 ⋮ 𝒀𝒏 Qual è la relazione tra X e la matrice dei dati? Xβ definisce un piano (k=3) o un “iperpiano” (k>3) di regressione

4 Generalizzazione delle assunzioni viste per la regressione lineare semplice
che implica Partire dalle assunzioni su Y o da quelle su  (v. p. 173) è equivalente: X non aleatoria

5 Assunzione sulla matrice di covarianze dei termini di errore
significato Richiami sulla matrice di covarianze di un vettore aleatorio (pp )

6 Assunzioni sulla matrice X
X = fissa, non stocastica: non dipende in alcun modo dal termine di errore ε X ha rango pieno: non ci sono colonne di X linearmente dipendenti da altre

7 Ripasso sulle matrici: v. Appendice A
Addizione tra matrici Moltiplicazione Matrice diagonale Matrice identità Matrice trasposta (trasposta del prodotto) Matrice inversa Traccia Matrice idempotente Somma di quadrati (ponderata) in forma matriciale Forme quadratiche (positive, negative definite) Forme quadratiche idempotenti Scomposizione spettrale Derivata di un vettore X (aleatorio) Derivata di una funzione (lineare o quadratica) di X

8 Stima di β con il metodo dei minimi quadrati
Occorre trovare il vettore β che minimizza la seguente espressione (dove  tilde indica un generico vettore di residui e y è il vettore dei valori osservati di Y): Cioè:

9 Occorre trovare il vettore β che risolve la seguente equazione
Quindi, per il vettore β che risolve l’equazione (β cappello) vale la relazione: Se la matrice X’X quadrata di dimensione kk (k = numero di parametri del modello), è invertibile (v. assunzione su rango X):

10 Ripasso: vincoli del sistema di equazioni normali nella regressione semplice (p. 148)
Vincoli nella regressione multipla: l’equazione implica X’e = 0  k vincoli lineari sui residui (nella regressione semplice k=2)

11 Esempio regressione multipla
Y = Investimenti X1 = PIL (migliaia di miliardi) X2 = Trend (1, 2, 3, … 15) dati p. 176 Esercitazione in Excel File di input e testo esercizio (da fare in autonomia): sv-regr-multipla_dati.xls 11

12 Esempio investimenti: output modello di regressione multipla (p. 178)
Calcolo dei coefficienti stimati: Excel ANALISI DATI (p. 307) o IBM SPSS Statistics (v. dopo) Come si interpretano i coefficienti (stimati) del modello di regressione multipla? Le stime calcolate sono uguali o diverse a quelle ottenute adattando due modelli di regressione semplice (uno per il PIL e uno per il Trend)?

13 Esempio investimenti: regressione semplice (X = Trend)
Invest = Trend + e Interpretazione parametri Nel modello di regressione multipla il coeff. di X2=Trend è invece negativo (relazione inversa): perché? 13

14 Esempio investimenti: regressione semplice (X = PIL)
Invest = PIL + e Invece, nel modello di regressione multipla il coefficiente di X1=PIL è (circa) quattro volte superiore: perché? 14

15 Interpretazione dei parametri nella regressione lineare multipla
Nella regr. multipla i coefficienti sono parziali (o netti): il parametro βj rappresenta il coeff. angolare della retta E(Y) = K + βjXj quando il valore delle variabili diverse da Xj è fissato: nella regr. multipla il coefficiente βj misura la relazione tra Y e Xj mantenendo costante il valore delle altre variabili esplicative Ciò spiega perché la stima di βj nella regr. multipla è diversa da quella ottenuta nella regr. semplice: nella regr. multipla si controllano le variabili diverse da Xj, nella regr. semplice si ignorano tali variabili

16 Criterio alternativo per trovare i coefficienti di regr
Criterio alternativo per trovare i coefficienti di regr. lineare multipla (p. 179) Ad esempio: trovare il coeff. di regressione multipla (parziale) del PIL 1) Regressione di Investimenti su tutte le variabili esplicative tranne PIL 2) Regressione di PIL su tutte le altre variabili esplicative 3) Regressione tra i residui della regressione 1) e i residui della regressione 2) V. Figura p. 181: calcoli in Excel per esempio dati investimenti

17 Il coefficiente di correlazione tra la serie di residui della regressione 1) e la serie di residui della regressione 2) è detto coefficiente di correlazione parziale (v. p. 180): relazione tra Y e Xj al netto delle altre variabili E’ possibile calcolare il coefficiente di correlazione parziale a partire dai coefficienti di correlazione semplice tra le coppie di variabili: v. formula p. 181

18 Esempio investimenti: SPSS
File: Dati_investimenti.sav Menu: Analizza – Regressione – Lineare

19 Esempio investimenti: SPSS
Le differenze rispetto all’output di Excel sono dovute alla minor precisione degli algoritmi numerici di ANALISI DATI


Scaricare ppt "DATA MINING PER IL MARKETING"

Presentazioni simili


Annunci Google