DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING
Andrea Cerioli Sito web del corso Richiami sul modello di regressione lineare (semplice) Introduzione di elementi aleatori e problemi di inferenza (v. corso Metodi Statistici per il Management + Capitoli 2 – 3 del libro)

Due semplici esempi sulle vendite (Esempio Prezzi-Vendite: p. 135)
N. dipendenti (X) Fatturato in milioni di € (Y) A 10 1,9 B 18 3,1 C 20 3,2 D 8 1,5 E 30 6,2 F 12 2,8 G 14 2,3 Prezzi in Euro (x) Vendite (pezzi) (Y) A 1.55 410 B 1.60 380 C 1.65 350 D 400 E 1.50 440 F G 1.45 450 H 420

Introduzione di elementi aleatori
Supermercati con prezzi/dipendenti uguali possono avere vendite diverse: ci sono altri fattori influenti Alcuni di questi (quelli noti) possono essere inclusi nel modello: regressione multipla Anche dopo avere incluso i fattori noti, supermercati con caratteristiche analoghe possono avere vendite diverse: le vendite sono dovute in parte a tali fattori, ma in parte anche a elementi non conosciuti  le interpretiamo come variabili aleatorie (casuali) Al contrario i dipendenti e i prezzi (var. esplicative) non sono variabili casuali poiché sono del tutto prevedibili dalla azienda che li stabilisce: sono fissati

E(Yi)? var(Yi)? Distribuzione di Yi?
Schema di riferimento Una successione di valori fissi x1, x2, … xn a cui sono associate n variabili aleatorie Y1, Y2, … Yn Il punto cruciale consiste nel descrivere in modo appropriato tali v.a.: E(Yi)? var(Yi)? Distribuzione di Yi?

Assunzioni su Yi Tutte le osservazioni sono caratterizzate dallo stesso grado di incertezza (omoschedasticità): var(Yi) = σ2 i=1, 2, …, n σ2 è un parametro incognito da stimare Le osservazioni sono indipendenti (conoscendo le X): cov(Yi, Yj)=0 i≠j Tutta la «struttura nota» è nelle X

I valori osservati della variabili dipendente provengono da n distribuzioni di probabilità con medie incognite: E(Yi) = µi i=1, 2, …, n Modello di regressione: le medie delle distribuzioni variano linearmente con la variabile esplicativa µi = E(Yi) = α+β xi cioè i punti (x1, µ1), (x2, µ2), …, (xn, µn) stanno tutti su una retta con parametri α e β

Modello di regressione
α e β rappresentano l’intercetta ed il coefficiente angolare della retta sulla quale giacciono le medie incognite delle distribuzioni di Y1, …, Yn

L’ipotesi che definisce il modello di regressione è:
µi = E(Yi) = α+β xi N.B.: questa assunzione non implica che tutti i punti (xi, yi) stiano sulla retta, ma che i valori medi delle distribuzioni da cui provengono le osservazioni di Y verificano l’equazione della retta (per i valori fissati di x1, …, xn) Dal grafico traspare inoltre che le distribuzioni da cui provengono le osservazioni di Y sono Gaussiane: y1 è una realizzazione di Y1 ~ N(µ1, σ2) y2 è una realizzazione di Y2 ~ N(µ2, σ2) …

Richiami sulla v.a. normale (pp. 63 – 72)
se Y~N(µ, σ2): Z = (Y – µ)/ σ ~ N(0,1) Pr(-1.96<Z<1.96) = 0.95 Pr(-2.58<Z<2.58) = 0.99 aY+b ~ N(b+ µ, a2σ2) (v. Teorema p. 64) funzione di densità: curva “a campana” Quando è sensato assumere che Y~N(µ, σ2)?

Modello di regressione - 2
Poiché Yi = E(Yi) + termine di errore (gaussiano) possiamo scrivere il modello come Yi = α +β xi +εi con E(εi)=0 Inoltre si assume che i termini di errore εi abbiano distribuzione gaussiana e siano indipendenti tra loro Le proprietà del termine di errore εi sono equivalenti a quelle della variabile dipendente Yi (perché X è fissata)

σ2 = Varianza delle osservazioni Yi attorno alla retta
Stima dei parametri I parametri ignoti sono: α, β, µ1, µ2, …, µn, σ2 La stima di α e β consente di ricostruire tutte le medie incognite µ1, µ2, …, µn In aggiunta, è necessario stimare σ2 = Varianza delle osservazioni Yi attorno alla retta

Stime di α e β Le formule di calcolo sono le stesse dell’analisi dei dati (minimi quadrati: p. 143) Però è diversa l’interpretazione: ora sono stime degli ignoti coefficienti  e β Pensando di ripetere più volte l’esperimento che ha generato le osservazioni y1, …, yn per valori fissi di x1, …, xn (campionamento ripetuto) si ottiene una distribuzione campionaria delle stime: anche le stime sono variabili casuali

Termine di errore e residuo stimato
Modello vero (retta in blu) Modello stimato (retta in nero)

Stima di σ2 σ2= dispersione verticale attorno alla retta che unisce i valori medi delle popolazioni  varianza del termine di errore, per x fissato: σ2 = var(εi) = E(εi2) Dato che ei è l’unica stima disponibile di εi sembra naturale utilizzare come stimatore di σ2 una funzione della devianza dei residui:

Stima di σ2 Dividiamo la devianza per i suoi “gradi di libertà”:
n – 2 = gradi di libertà (degrees of freedom: df) Dobbiamo “pagare” 2 df per la stima di  e β (v. p. 148)

Inferenza sui parametri (modello di regressione)
Costruire intervalli di confidenza e test per la verifica d’ipotesi sui parametri del modello: , β e 2 (da questi si possono ottenere intervalli e test anche per le medie 1, …,n). Il caso principale è quello del coeff. angolare β: l’inferenza parte dalla stima campionaria 16

Studio della distribuzione di
Stimatore corretto (p. 149) p. 150

Al posto di σ2 (ignoto) sostituiamo la sua stima s2
La radice quadrata della stima della varianza di uno stimatore è l’errore standard (standard error, SE) dello stimatore

Interpretazione dello standard error di beta cappello
Rappresenta l’errore quadratico medio che si commette quando si stima il coefficiente di regressione con le formule dei minimi quadrati: è la misura (stimata) della variabilità campionaria nella stima di β tramite Principio del campionamento ripetuto

Studio della distribuzione di
v. pp

Costruzione di intervalli di confidenza per i parametri

Passaggi successivi (p. 154):
Punto di partenza: lo scost. standard. di beta capello ha una distribuzione N(0,1) (perché?) Passaggi successivi (p. 154): si esplicita la formula della var. di beta cappello si sostistuisce 2 ignoto con s2; si richiama la v.a. T di Student con n-2 gradi di libertà

Intervallo di confidenza per 
Dove t/2 è il percentile della distribuzione T di Student con (n – 2) gradi di libertà tale che (v. figura p. 86): Pr(T  -t/2 ) = Pr(T  t/2 ) = /2 Quali assunzioni per l’uso della T di Student? E nel caso di grandi campioni?

Esercizio Esempio 7 supermercati prezzo-vendite: p
Esercizio Esempio 7 supermercati prezzo-vendite: p Esempio 7 supermercati dipendenti-fatturato: calcolo intervalli di confidenza per i parametri Beta cappello = 0.198; SE = Pr(0.133 < β < 0.263) = Interpretazione (v. dopo) Intervallo per  e 2 (per esercizio)

Interpretazione L'intervallo di confidenza di , con probabilità = 0.95, va da a Ciò significa che, nell'universo di riferimento, all'aumento di un dipendente corrisponde un aumento delle vendite compreso tra 133 mila Euro e 263 mila Euro circa (con probabilità del 95%). Osservazione 1: l'intervallo è piuttosto ampio  dipende dalla ridotta numerosità campionaria (solo 7 supermercati). Osservazione 2: significato della probabilità (95%) associata all’intervallo Osservazione 3: confronto tra stima puntuale e intervallo

Costruzione di test di ipotesi per
α β σ2

Sotto H0: β =0 t-statistica Dato che
Calcolo del p-value (dalla tn-2)  pp

Esercizio Es. 7 supermercati (dipendenti-fatturato):
H0:β=0 tβ=7.82 p-value = Interpretazione: rifiuto decisamente l’ipotesi nulla H0:=0 tα=0.39 p-value = 0.714 Interpretazione : non posso rifiutare l’ipotesi nulla Es. 7 supermercati (prezzo-vendite): p. 157

Intervallo di confidenza per la previsione y0
Varianza dell’errore di previsione (p. 167) Distribuzione dell’errore di previsione Intervallo di confidenza per y0 (p. 167) Da che cosa dipende

Esercizio: per un numero di dipendenti pari a 16 costruire un intervallo di previsione delle vendite al 95% Interpretazione Come ci aspettiamo che cambi l’intervallo se X = 50?

DATA MINING PER IL MARKETING

Presentazioni simili

Presentazione sul tema: "DATA MINING PER IL MARKETING"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

DATA MINING PER IL MARKETING

Presentazioni simili

Presentazione sul tema: "DATA MINING PER IL MARKETING"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back