La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore.

Presentazioni simili


Presentazione sul tema: "DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore."— Transcript della presentazione:

1 DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore flessibilità per applicazioni aziendali (Capitoli 5 – 6 del libro)

2 Regressione con variabili esplicative qualitative (categoriali) caratteristiche socio-demografiche dei consumatori (sesso, professione, …) caratteristiche socio-demografiche dei consumatori (sesso, professione, …) tipologia e area geografica dei punti vendita tipologia e area geografica dei punti vendita categoria merceologica dei prodotti categoria merceologica dei prodotti brand brand … in generale: gruppi diversi di osservazioni in generale: gruppi diversi di osservazioni

3 Esempio: consumo e reddito USA (miliardi di $): p. 222 Reddito Consumo Negli anni il modello sembra diverso: c’è una variabile importante esclusa dal modello

4 Aggiunta di una variabile dummy (variabile indicatrice con valori 0-1) Il modello di regressione diventa multiplo: Consumo = f(Reddito, dummy)

5 Risultati del modello di regressione multipla X 1 = Reddito X 2 = Dummy Interpretazione coefficienti: significato di β 2 ?

6 Ricordando la definizione di X 2 (dummy): a parità di reddito (X 1 ), la stima dell’ammontare dei consumi (y cappello) diminuisce di un ammontare pari a (miliardi di $) negli anni in cui dummy=1 (cioè passando da un periodo di pace a uno di guerra)

7 Rappresentazione grafica dell’effetto della variabile dummy (β 2 =-55.46): due rette con diversa intercetta e uguale pendenza Reddito Consumo L’adattamento ai dati migliora sensibilmente con la variabile dummy: v. p. 224

8 Generalizzazione al caso di variabili qualitative con più di due modalità Esempio: destagionalizzazione di una serie storica

9 Serie storica delle vendite di un bene (§5.2) v. file: Esempio dati vendite stagionali

10 Modello: vendite stimate = f(trend + stagionalità + componente erratica) In questo esempio è presente solo la serie storica Y: le uniche variabili esplicative sono definite in funzione del tempo (trend, stagionalità e eventualmente ciclo) Il modello può essere generalizzato includendo anche altre variabili esplicative (variabili esogene) se disponibili

11 Come possiamo rappresentare X? Perché manca la dummy per l’inverno? Perché manca la dummy per l’inverno? formulazione alternativa (4 dummy; no intercetta): p. 227 formulazione alternativa (4 dummy; no intercetta): p. 227 La scelta della dummy da eliminare (o della formulazione del modello) non cambia l’adattamento né le previsioni La scelta della dummy da eliminare (o della formulazione del modello) non cambia l’adattamento né le previsioni La prima osservazione fa riferimento al primo trimestre (primavera); La seconda osservazione fa riferimento al secondo trimestre (estate); Ecc.

12 Stima dei parametri I coefficienti delle dummy stagionali rappresentano l’effetto della stagione considerata relativo alla stagione esclusa, a parità di trend I coefficienti delle dummy stagionali rappresentano l’effetto della stagione considerata relativo alla stagione esclusa, a parità di trend Su tali stime si possono applicare tutte le procedure della regressione multipla (intervalli, test …): v. libro Su tali stime si possono applicare tutte le procedure della regressione multipla (intervalli, test …): v. libro

13 Destagionalizzazione (p ) La serie destagionalizzata non risente più delle ciclicità stagionali

14 Detrendizzazione (p ) La serie detrendizzata non mostra più un andamento di lungo periodo (è stazionaria)

15 La serie detrendizzata e destagionalizzata non risente più né delle ciclicità stagionali né dell’andamento di lungo periodo: dovrebbe essere assimilabile alla componente erratica (in realtà ciò è vero solo in parte: perché?)

16 Esercitazioni con variabili dummy Seminar sulla previsione delle vendite per il budgeting Seminar sulla previsione delle vendite per il budgeting Previsione del consumo di gas (Esercizio 6.1, pp ) Previsione del consumo di gas (Esercizio 6.1, pp ) Indagine sull’ascolto radiofonico (Esercizio 6.2, pp ) Indagine sull’ascolto radiofonico (Esercizio 6.2, pp ) Analisi delle retribuzioni aziendali (Esercizio 6.4, pp ) Analisi delle retribuzioni aziendali (Esercizio 6.4, pp ) Vendita di fusti di birra (Esercizio 6.5, pp ) Vendita di fusti di birra (Esercizio 6.5, pp )

17 Eteroschedasticità Assunzione del modello: Assunzione del modello: Var(  i ) = Var(y i ) =  2 costante (omoschedasticità) In pratica, l’ipotesi è spesso violata  tipicamente: Var(y i ) varia in funzione del livello di una o più esplicative In pratica, l’ipotesi è spesso violata  tipicamente: Var(y i ) varia in funzione del livello di una o più esplicative

18 Esempio: dati trade La variabilità della spesa aumenta con il numero di visite Implicazioni di marketing

19 Esempio: dati trade Anche la variabilità dei residui aumenta con il numero di visite

20 Trasformazioni di Y Trasformare Y può aiutare a rendere Var(y i ) approx costante (cioè a eliminare l’eteroschedasticità) Trasformare Y può aiutare a rendere Var(y i ) approx costante (cioè a eliminare l’eteroschedasticità) Trasformazioni più comuni: Trasformazioni più comuni: –log(y i )se  i  E(y i ) –(y i ) 1/2 se y i è un conteggio –Classe generale: Box-Cox (v. Zani-Cerioli, pp ) Le trasformazioni dei dati possono aiutare anche a Le trasformazioni dei dati possono aiutare anche a –rendere migliore l’approx della distribuzione di Y a una Normale –rendere migliore l’approx di una funzione lineare

21 Esempio dati trade – log(Y) La trasformazione logaritmica non sembra del tutto soddisfacente

22 Esempio dati trade – sqrt(Y)

23 Esempio dati trade – normalità Y Y Sqrt(Y) log(Y): la trasformazione logaritmica può essere preferibile dal punto di vista dell’approx della distribuzione di Y con una Normale

24 Esempio dati trade – log(Y) – log(X) Interpretazione coefficienti Analisi per esercizio

25 Autocorrelazione Assunzione del modello: Assunzione del modello: I disturbi  i, e quindi le osservazioni y i, sono tra loro incorrelati (indipendenti) In pratica, l’ipotesi è spesso violata quando Y è una serie storica  tipicamente il valore di Y al tempo t è influenzato dai valori di Y ai tempi precedenti: autocorrelazione (correlazione seriale) In pratica, l’ipotesi è spesso violata quando Y è una serie storica  tipicamente il valore di Y al tempo t è influenzato dai valori di Y ai tempi precedenti: autocorrelazione (correlazione seriale) Dettagli: §5.4 Dettagli: §5.4


Scaricare ppt "DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore."

Presentazioni simili


Annunci Google