DATA MINING PER IL MARKETING

Slides:



Advertisements
Presentazioni simili
R. Barro e X. Sala-i-Martin
Advertisements

Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Regressione lineare Esercitazione 24/01/04.
Università degli Studi di Cagliari
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
STATISTICA 6.0: REGRESSIONE LINEARE
MODELLO DI REGRESSIONE LINEARE MULTIPLA: USO DELLE VARIABILI DUMMY (parte 2) In alcune circostanze è opportuno inserire, come variabili esplicative, delle.
IL MODELLO DI REGRESSIONE MULTIPLA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Le funzioni di Engel Presentazione a cura di : Giulia Bravo
Analisi della varianza (a una via)
La logica della regressione
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Modello di regressione lineare semplice
Il Sistema informativo e la ricerca di Marketing Maria De Luca
STATISTICA PER LE DECISIONI DI MARKETING
Marketing: prezzi e consumo
Statistica economica (6 CFU)
“Analisi delle serie storiche e applicazioni”
STATISTICA PER LE DECISIONI DI MARKETING
Principali analisi statistiche
Statistica economica (6 CFU)
Statistica economica (6 CFU) Corso di Laurea in Economia e Commercio a.a Docente: Lucia Buzzigoli Lezione 13 1.
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
Statistica economica (6 CFU)
Commissione Fondi Sanitari
STATISTICA PER LE DECISIONI DI MARKETING
Capitolo 3 (parte seconda)
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
Data Mining per il Marketing Andrea Cerioli Sito web del corso I modelli statistici nel Data Mining e nel marketing.
Cap. 13 Regressione 1. Modello statistico Un modello statistico è una formula che interpreta e sintetizza matematicamente il comportamento congiunto di.
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.
Data Mining per il Marketing Andrea Cerioli Sito web del corso I modelli statistici nel marketing e nel Data Mining e.
L’analisi di regressione lineare ed i passaggi logici
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso
DATA MINING PER IL MARKETING
Analisi Multivariata dei Dati
Analisi discriminante lineare - contesto
Copyright © 2003, SAS Institute Inc. All rights reserved. Company confidential - for internal use only Forecasting: Prevedere gli eventi per pianificare.
ECONOMIA POLITICA E-I ESERCITAZIONI. 2 Richiami di matematica – Funzioni Funzioni FUNZIONE: ogni regola matematica che permette di calcolare il valore.
Dipartimento di Scienze Statistiche, ALMA MATER STUDIORUM – Università di Bologna Un’applicazione dei Modelli di Risposta delle Quote di Mercato di Giulia.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
Esercitazioni di Statistica con Matlab Dott
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
10 Quasi esperimenti Giulio Vidotto Raffaele Cioffi.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Transcript della presentazione:

DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore flessibilità per applicazioni aziendali (Capitoli 5 – 6 del libro) 1

Regressione con variabili esplicative qualitative (categoriali) caratteristiche socio-demografiche dei consumatori (sesso, professione, …) tipologia e area geografica dei punti vendita categoria merceologica dei prodotti brand … in generale: gruppi diversi di osservazioni

Esempio: consumo e reddito USA (miliardi di $): p. 222 Negli anni 1942-1945 il modello sembra diverso: c’è una variabile importante esclusa dal modello

Aggiunta di una variabile dummy (variabile indicatrice con valori 0-1) Il modello di regressione diventa multiplo: Consumo = f(Reddito, dummy)

Risultati del modello di regressione multipla 𝒚 =−𝟏𝟎.𝟏+𝟎.𝟗𝟔 𝑿 𝟏 −𝟓𝟓.𝟒𝟔 𝑿 𝟐 X1 = Reddito X2 = Dummy Interpretazione coefficienti: significato di β2?

𝒚 =−𝟏𝟎.𝟏+𝟎.𝟗𝟔 𝑿 𝟏 se X2 = 0 (pace) 𝒚 =−𝟏𝟎.𝟏−𝟓𝟓.𝟒𝟔+𝟎.𝟗𝟔 𝑿 𝟏 Ricordando la definizione di X2 (dummy): a parità di reddito (X1), la stima dell’ammontare dei consumi (y cappello) diminuisce di un ammontare pari a -55.46 (miliardi di $) negli anni in cui dummy=1 (cioè passando da un periodo di pace a uno di guerra) 𝒚 =−𝟏𝟎.𝟏+𝟎.𝟗𝟔 𝑿 𝟏 se X2 = 0 (pace) 𝒚 =−𝟏𝟎.𝟏−𝟓𝟓.𝟒𝟔+𝟎.𝟗𝟔 𝑿 𝟏 =−𝟔𝟓.𝟓𝟔+𝟎.𝟗𝟔 𝑿 𝟏 se X2 = 1 (guerra)

Rappresentazione grafica dell’effetto della variabile dummy (β2=-55 Rappresentazione grafica dell’effetto della variabile dummy (β2=-55.46): due rette con diversa intercetta e uguale pendenza Consumo Reddito L’adattamento ai dati migliora sensibilmente con la variabile dummy: v. p. 224

Esempio: destagionalizzazione di una serie storica Generalizzazione al caso di variabili qualitative con più di due modalità Esempio: destagionalizzazione di una serie storica

Serie storica delle vendite di un bene (§5.2) v. file: Esempio dati vendite stagionali

Modello: vendite stimate = f(trend + stagionalità + componente erratica) In questo esempio è presente solo la serie storica Y: le uniche variabili esplicative sono definite in funzione del tempo (trend, stagionalità e eventualmente ciclo) Il modello può essere generalizzato includendo anche altre variabili esplicative (variabili esogene) se disponibili

Come possiamo rappresentare X? La prima osservazione fa riferimento al primo trimestre (primavera); La seconda osservazione fa riferimento al secondo trimestre (estate); Ecc. Perché manca la dummy per l’inverno? formulazione alternativa (4 dummy; no intercetta): p. 227 La scelta della dummy da eliminare (o della formulazione del modello) non cambia l’adattamento né le previsioni

Stima dei parametri I coefficienti delle dummy stagionali rappresentano l’effetto della stagione considerata relativo alla stagione esclusa, a parità di trend Su tali stime si possono applicare tutte le procedure della regressione multipla (intervalli, test …): v. libro

Destagionalizzazione (p. 229-230) La serie destagionalizzata non risente più delle ciclicità stagionali

Detrendizzazione (p. 229-230) La serie detrendizzata non mostra più un andamento di lungo periodo (è stazionaria)

La serie detrendizzata e destagionalizzata non risente più né delle ciclicità stagionali né dell’andamento di lungo periodo: dovrebbe essere assimilabile alla componente erratica (in realtà ciò è vero solo in parte: perché?)

Esercitazioni con variabili dummy Seminar sulla previsione delle vendite per il budgeting Previsione del consumo di gas (Esercizio 6.1, pp. 243-252) Indagine sull’ascolto radiofonico (Esercizio 6.2, pp. 253-258) Analisi delle retribuzioni aziendali (Esercizio 6.4, pp. 264-271) Vendita di fusti di birra (Esercizio 6.5, pp. 272-277)

Var(i) = Var(yi) = 2 costante (omoschedasticità) Eteroschedasticità Assunzione del modello: Var(i) = Var(yi) = 2 costante (omoschedasticità) In pratica, l’ipotesi è spesso violata  tipicamente: Var(yi) varia in funzione del livello di una o più esplicative 17

Esempio: dati trade La variabilità della spesa aumenta con il numero di visite Implicazioni di marketing 18

Esempio: dati trade Anche la variabilità dei residui aumenta con il numero di visite 19

Trasformazioni di Y Trasformare Y può aiutare a rendere Var(yi) approx costante (cioè a eliminare l’eteroschedasticità) Trasformazioni più comuni: log(yi) se i  E(yi) (yi)1/2 se yi è un conteggio Classe generale: Box-Cox (v. Zani-Cerioli, pp. 203-212) Le trasformazioni dei dati possono aiutare anche a rendere migliore l’approx della distribuzione di Y a una Normale rendere migliore l’approx di una funzione lineare

Esempio dati trade – log(Y) La trasformazione logaritmica non sembra del tutto soddisfacente 21

Esempio dati trade – sqrt(Y) 22

Esempio dati trade – normalità Y Sqrt(Y) log(Y): la trasformazione logaritmica può essere preferibile dal punto di vista dell’approx della distribuzione di Y con una Normale 23

Esempio dati trade – log(Y) – log(X) Interpretazione coefficienti Analisi per esercizio 24

Autocorrelazione Assunzione del modello: I disturbi i, e quindi le osservazioni yi, sono tra loro incorrelati (indipendenti) In pratica, l’ipotesi è spesso violata quando Y è una serie storica  tipicamente il valore di Y al tempo t è influenzato dai valori di Y ai tempi precedenti: autocorrelazione (correlazione seriale) Dettagli: §5.4 25