DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso Richiami sul modello di regressione lineare (semplice) Introduzione di elementi aleatori e problemi di inferenza (v. corso Metodi Statistici per il Management + Capitoli 2 – 3 del libro)
Due semplici esempi sulle vendite (Esempio Prezzi-Vendite: p. 135) N. dipendenti (X) Fatturato in milioni di € (Y) A 10 1,9 B 18 3,1 C 20 3,2 D 8 1,5 E 30 6,2 F 12 2,8 G 14 2,3 Prezzi in Euro (x) Vendite (pezzi) (Y) A 1.55 410 B 1.60 380 C 1.65 350 D 400 E 1.50 440 F G 1.45 450 H 420
Introduzione di elementi aleatori Supermercati con prezzi/dipendenti uguali possono avere vendite diverse: ci sono altri fattori influenti Alcuni di questi (quelli noti) possono essere inclusi nel modello: regressione multipla Anche dopo avere incluso i fattori noti, supermercati con caratteristiche analoghe possono avere vendite diverse: le vendite sono dovute in parte a tali fattori, ma in parte anche a elementi non conosciuti le interpretiamo come variabili aleatorie (casuali) Al contrario i dipendenti e i prezzi (var. esplicative) non sono variabili casuali poiché sono del tutto prevedibili dalla azienda che li stabilisce: sono fissati
E(Yi)? var(Yi)? Distribuzione di Yi? Schema di riferimento Una successione di valori fissi x1, x2, … xn a cui sono associate n variabili aleatorie Y1, Y2, … Yn Il punto cruciale consiste nel descrivere in modo appropriato tali v.a.: E(Yi)? var(Yi)? Distribuzione di Yi?
Assunzioni su Yi Tutte le osservazioni sono caratterizzate dallo stesso grado di incertezza (omoschedasticità): var(Yi) = σ2 i=1, 2, …, n σ2 è un parametro incognito da stimare Le osservazioni sono indipendenti (conoscendo le X): cov(Yi, Yj)=0 i≠j Tutta la «struttura nota» è nelle X
I valori osservati della variabili dipendente provengono da n distribuzioni di probabilità con medie incognite: E(Yi) = µi i=1, 2, …, n Modello di regressione: le medie delle distribuzioni variano linearmente con la variabile esplicativa µi = E(Yi) = α+β xi cioè i punti (x1, µ1), (x2, µ2), …, (xn, µn) stanno tutti su una retta con parametri α e β
Modello di regressione α e β rappresentano l’intercetta ed il coefficiente angolare della retta sulla quale giacciono le medie incognite delle distribuzioni di Y1, …, Yn
L’ipotesi che definisce il modello di regressione è: µi = E(Yi) = α+β xi N.B.: questa assunzione non implica che tutti i punti (xi, yi) stiano sulla retta, ma che i valori medi delle distribuzioni da cui provengono le osservazioni di Y verificano l’equazione della retta (per i valori fissati di x1, …, xn) Dal grafico traspare inoltre che le distribuzioni da cui provengono le osservazioni di Y sono Gaussiane: y1 è una realizzazione di Y1 ~ N(µ1, σ2) y2 è una realizzazione di Y2 ~ N(µ2, σ2) …
Richiami sulla v.a. normale (pp. 63 – 72) se Y~N(µ, σ2): Z = (Y – µ)/ σ ~ N(0,1) Pr(-1.96<Z<1.96) = 0.95 Pr(-2.58<Z<2.58) = 0.99 aY+b ~ N(b+ µ, a2σ2) (v. Teorema p. 64) funzione di densità: curva “a campana” Quando è sensato assumere che Y~N(µ, σ2)?
Modello di regressione - 2 Poiché Yi = E(Yi) + termine di errore (gaussiano) possiamo scrivere il modello come Yi = α +β xi +εi con E(εi)=0 Inoltre si assume che i termini di errore εi abbiano distribuzione gaussiana e siano indipendenti tra loro Le proprietà del termine di errore εi sono equivalenti a quelle della variabile dipendente Yi (perché X è fissata)
σ2 = Varianza delle osservazioni Yi attorno alla retta Stima dei parametri I parametri ignoti sono: α, β, µ1, µ2, …, µn, σ2 La stima di α e β consente di ricostruire tutte le medie incognite µ1, µ2, …, µn In aggiunta, è necessario stimare σ2 = Varianza delle osservazioni Yi attorno alla retta
Stime di α e β Le formule di calcolo sono le stesse dell’analisi dei dati (minimi quadrati: p. 143) Però è diversa l’interpretazione: ora sono stime degli ignoti coefficienti e β Pensando di ripetere più volte l’esperimento che ha generato le osservazioni y1, …, yn per valori fissi di x1, …, xn (campionamento ripetuto) si ottiene una distribuzione campionaria delle stime: anche le stime sono variabili casuali
Termine di errore e residuo stimato Modello vero (retta in blu) Modello stimato (retta in nero)
Stima di σ2 σ2= dispersione verticale attorno alla retta che unisce i valori medi delle popolazioni varianza del termine di errore, per x fissato: σ2 = var(εi) = E(εi2) Dato che ei è l’unica stima disponibile di εi sembra naturale utilizzare come stimatore di σ2 una funzione della devianza dei residui:
Stima di σ2 Dividiamo la devianza per i suoi “gradi di libertà”: n – 2 = gradi di libertà (degrees of freedom: df) Dobbiamo “pagare” 2 df per la stima di e β (v. p. 148)
Inferenza sui parametri (modello di regressione) Costruire intervalli di confidenza e test per la verifica d’ipotesi sui parametri del modello: , β e 2 (da questi si possono ottenere intervalli e test anche per le medie 1, …,n). Il caso principale è quello del coeff. angolare β: l’inferenza parte dalla stima campionaria 16
Studio della distribuzione di Stimatore corretto (p. 149) p. 150
Al posto di σ2 (ignoto) sostituiamo la sua stima s2 La radice quadrata della stima della varianza di uno stimatore è l’errore standard (standard error, SE) dello stimatore
Interpretazione dello standard error di beta cappello Rappresenta l’errore quadratico medio che si commette quando si stima il coefficiente di regressione con le formule dei minimi quadrati: è la misura (stimata) della variabilità campionaria nella stima di β tramite Principio del campionamento ripetuto
Studio della distribuzione di v. pp. 149-150
Costruzione di intervalli di confidenza per i parametri
Passaggi successivi (p. 154): Punto di partenza: lo scost. standard. di beta capello ha una distribuzione N(0,1) (perché?) Passaggi successivi (p. 154): si esplicita la formula della var. di beta cappello si sostistuisce 2 ignoto con s2; si richiama la v.a. T di Student con n-2 gradi di libertà
Intervallo di confidenza per Dove t/2 è il percentile della distribuzione T di Student con (n – 2) gradi di libertà tale che (v. figura p. 86): Pr(T -t/2 ) = Pr(T t/2 ) = /2 Quali assunzioni per l’uso della T di Student? E nel caso di grandi campioni?
Esercizio Esempio 7 supermercati prezzo-vendite: p Esercizio Esempio 7 supermercati prezzo-vendite: p. 155 Esempio 7 supermercati dipendenti-fatturato: calcolo intervalli di confidenza per i parametri Beta cappello = 0.198; SE = 0.0253 Pr(0.133 < β < 0.263) = 0.95 Interpretazione (v. dopo) Intervallo per e 2 (per esercizio)
Interpretazione L'intervallo di confidenza di , con probabilità = 0.95, va da 0.133 a 0.263. Ciò significa che, nell'universo di riferimento, all'aumento di un dipendente corrisponde un aumento delle vendite compreso tra 133 mila Euro e 263 mila Euro circa (con probabilità del 95%). Osservazione 1: l'intervallo è piuttosto ampio dipende dalla ridotta numerosità campionaria (solo 7 supermercati). Osservazione 2: significato della probabilità (95%) associata all’intervallo Osservazione 3: confronto tra stima puntuale e intervallo
Costruzione di test di ipotesi per α β σ2
Sotto H0: β =0 t-statistica Dato che Calcolo del p-value (dalla tn-2) pp. 156 - 157
Esercizio Es. 7 supermercati (dipendenti-fatturato): H0:β=0 tβ=7.82 p-value = 0.000548 Interpretazione: rifiuto decisamente l’ipotesi nulla H0:=0 tα=0.39 p-value = 0.714 Interpretazione : non posso rifiutare l’ipotesi nulla Es. 7 supermercati (prezzo-vendite): p. 157
Intervallo di confidenza per la previsione y0 Varianza dell’errore di previsione (p. 167) Distribuzione dell’errore di previsione Intervallo di confidenza per y0 (p. 167) Da che cosa dipende
Esercizio: per un numero di dipendenti pari a 16 costruire un intervallo di previsione delle vendite al 95% Interpretazione Come ci aspettiamo che cambi l’intervallo se X = 50?