La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso Richiami sul modello di regressione lineare (semplice) Introduzione.

Presentazioni simili


Presentazione sul tema: "DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso Richiami sul modello di regressione lineare (semplice) Introduzione."— Transcript della presentazione:

1 DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso Richiami sul modello di regressione lineare (semplice) Introduzione di elementi aleatori e problemi di inferenza (v. corso Metodi Statistici per il Management + Capitoli 2 – 3 del libro)

2 Due semplici esempi sulle vendite (Esempio Prezzi- Vendite: p. 135) N. dipenden ti (X)Fatturato in milioni di € (Y) A101,9 B183,1 C203,2 D81,5 E306,2 F122,8 G142,3 Prezzi in Euro (x) Vendite (pezzi) (Y) A B C D E F G H

3 Introduzione di elementi aleatori Supermercati con prezzi/dipendenti uguali possono avere vendite diverse: ci sono altri fattori influenti Supermercati con prezzi/dipendenti uguali possono avere vendite diverse: ci sono altri fattori influenti Alcuni di questi (quelli noti) possono essere inclusi nel modello: regressione multipla Alcuni di questi (quelli noti) possono essere inclusi nel modello: regressione multipla Anche dopo avere incluso i fattori noti, supermercati con caratteristiche analoghe possono avere vendite diverse: le vendite sono dovute in parte a tali fattori, ma in parte anche a elementi non conosciuti  le interpretiamo come variabili aleatorie (casuali) Anche dopo avere incluso i fattori noti, supermercati con caratteristiche analoghe possono avere vendite diverse: le vendite sono dovute in parte a tali fattori, ma in parte anche a elementi non conosciuti  le interpretiamo come variabili aleatorie (casuali) Al contrario i dipendenti e i prezzi (var. esplicative) non sono variabili casuali poiché sono del tutto prevedibili dalla azienda che li stabilisce: sono fissati Al contrario i dipendenti e i prezzi (var. esplicative) non sono variabili casuali poiché sono del tutto prevedibili dalla azienda che li stabilisce: sono fissati

4 Schema di riferimento Una successione di valori fissi Una successione di valori fissi x 1, x 2, … x n a cui sono associate n variabili aleatorie a cui sono associate n variabili aleatorie Y 1, Y 2, … Y n Il punto cruciale consiste nel descrivere in modo appropriato tali v.a.: Il punto cruciale consiste nel descrivere in modo appropriato tali v.a.: E(Y i )? var(Y i )? Distribuzione di Y i ?

5 Assunzioni su Y i Tutte le osservazioni sono caratterizzate dallo stesso grado di incertezza (omoschedasticità): Tutte le osservazioni sono caratterizzate dallo stesso grado di incertezza (omoschedasticità): var(Y i ) = σ 2 i=1, 2, …, n σ 2 è un parametro incognito da stimare Le osservazioni sono indipendenti (conoscendo le X): Le osservazioni sono indipendenti (conoscendo le X): cov(Y i, Y j )=0 i≠j Tutta la «struttura nota» è nelle X

6 I valori osservati della variabili dipendente provengono da n distribuzioni di probabilità con medie incognite: I valori osservati della variabili dipendente provengono da n distribuzioni di probabilità con medie incognite: E(Y i ) = µ i i=1, 2, …, n Modello di regressione: le medie delle distribuzioni variano linearmente con la variabile esplicativa Modello di regressione: le medie delle distribuzioni variano linearmente con la variabile esplicativa µ i = E(Y i ) = α+β x i cioè i punti (x 1, µ 1 ), (x 2, µ 2 ), …, (x n, µ n ) stanno tutti su una retta con parametri α e β

7 Modello di regressione α e β rappresentano l’intercetta ed il coefficiente angolare della retta sulla quale giacciono le medie incognite delle distribuzioni di Y 1, …, Y n α e β rappresentano l’intercetta ed il coefficiente angolare della retta sulla quale giacciono le medie incognite delle distribuzioni di Y 1, …, Y n

8 L’ipotesi che definisce il modello di regressione è: L’ipotesi che definisce il modello di regressione è: µ i = E(Y i ) = α+β x i N.B.: questa assunzione non implica che tutti i punti (x i, y i ) stiano sulla retta, ma che i valori medi delle distribuzioni da cui provengono le osservazioni di Y verificano l’equazione della retta (per i valori fissati di x 1, …, x n ) Dal grafico traspare inoltre che le distribuzioni da cui provengono le osservazioni di Y sono Gaussiane: –y 1 è una realizzazione di Y 1 ~ N(µ 1, σ 2 ) –y 2 è una realizzazione di Y 2 ~ N(µ 2, σ 2 ) –…

9 Richiami sulla v.a. normale (pp. 63 – 72) se Y~N(µ, σ 2 ): Z = (Y – µ)/ σ ~ N(0,1) se Y~N(µ, σ 2 ): Z = (Y – µ)/ σ ~ N(0,1) Pr(-1.96

10 Modello di regressione - 2 Poiché Poiché Y i = E(Y i ) + termine di errore (gaussiano) possiamo scrivere il modello come Y i = α +β x i +ε i con E(ε i )=0 Inoltre si assume che i termini di errore ε i abbiano distribuzione gaussiana e siano indipendenti tra loro Le proprietà del termine di errore ε i sono equivalenti a quelle della variabile dipendente Y i (perché X è fissata)

11 Stima dei parametri I parametri ignoti sono: I parametri ignoti sono: α, β, µ 1, µ 2, …, µ n, σ 2 La stima di α e β consente di ricostruire tutte le medie incognite µ 1, µ 2, …, µ n La stima di α e β consente di ricostruire tutte le medie incognite µ 1, µ 2, …, µ n In aggiunta, è necessario stimare In aggiunta, è necessario stimare σ 2 = Varianza delle osservazioni Y i attorno alla retta

12 Stime di α e β Le formule di calcolo sono le stesse dell’analisi dei dati (minimi quadrati: p. 143) Le formule di calcolo sono le stesse dell’analisi dei dati (minimi quadrati: p. 143) Però è diversa l’interpretazione: ora Però è diversa l’interpretazione: ora sono stime degli ignoti coefficienti  e β Pensando di ripetere più volte l’esperimento che ha generato le osservazioni y 1, …, y n per valori fissi di x 1, …, x n (campionamento ripetuto) si ottiene una distribuzione campionaria delle stime: anche le stime sono variabili casuali Pensando di ripetere più volte l’esperimento che ha generato le osservazioni y 1, …, y n per valori fissi di x 1, …, x n (campionamento ripetuto) si ottiene una distribuzione campionaria delle stime: anche le stime sono variabili casuali

13 Termine di errore e residuo stimato Modello vero (retta in blu) Modello stimato (retta in nero)

14 Stima di σ 2 σ 2 = dispersione verticale attorno alla retta che unisce i valori medi delle popolazioni  varianza del termine di errore, per x fissato: σ 2 = dispersione verticale attorno alla retta che unisce i valori medi delle popolazioni  varianza del termine di errore, per x fissato: σ 2 = var(ε i ) = E(ε i 2 ) Dato che e i è l’unica stima disponibile di ε i sembra naturale utilizzare come stimatore di σ 2 una funzione della devianza dei residui: Dato che e i è l’unica stima disponibile di ε i sembra naturale utilizzare come stimatore di σ 2 una funzione della devianza dei residui:

15 Stima di σ 2 Dividiamo la devianza per i suoi “gradi di libertà”: Dividiamo la devianza per i suoi “gradi di libertà”: n – 2 = gradi di libertà (degrees of freedom: df) n – 2 = gradi di libertà (degrees of freedom: df) Dobbiamo “pagare” 2 df per la stima di  e β (v. p. 148) Dobbiamo “pagare” 2 df per la stima di  e β (v. p. 148)

16 Inferenza sui parametri (modello di regressione) Costruire intervalli di confidenza e test per la verifica d’ipotesi sui parametri del modello: , β e  2 (da questi si possono ottenere intervalli e test anche per le medie  1, …,  n ). Il caso principale è quello del coeff. angolare β: l’inferenza parte dalla stima campionaria

17 Studio della distribuzione di Stimatore corretto (p. 149) p. 150

18 Al posto di σ 2 (ignoto) sostituiamo la sua stima s 2 La radice quadrata della stima della varianza di uno stimatore è l’errore standard (standard error, SE) dello stimatore La radice quadrata della stima della varianza di uno stimatore è l’errore standard (standard error, SE) dello stimatore

19 Interpretazione dello standard error di beta cappello Rappresenta l’errore quadratico medio che si commette quando si stima il coefficiente di regressione con le formule dei minimi quadrati: è la misura (stimata) della variabilità campionaria nella stima di β tramite Rappresenta l’errore quadratico medio che si commette quando si stima il coefficiente di regressione con le formule dei minimi quadrati: è la misura (stimata) della variabilità campionaria nella stima di β tramite Principio del campionamento ripetuto Principio del campionamento ripetuto

20 Studio della distribuzione di v. pp

21 Costruzione di intervalli di confidenza per i parametri

22 Punto di partenza: lo scost. standard. di beta capello ha una distribuzione N(0,1) (perché?) Passaggi successivi (p. 154): Passaggi successivi (p. 154): –si esplicita la formula della var. di beta cappello –si sostistuisce  2 ignoto con s 2 ; –si richiama la v.a. T di Student con n-2 gradi di libertà

23 Intervallo di confidenza per  Dove t  /2 è il percentile della distribuzione T di Student con (n – 2) gradi di libertà tale che (v. figura p. 86): Dove t  /2 è il percentile della distribuzione T di Student con (n – 2) gradi di libertà tale che (v. figura p. 86): Pr(T  -t  /2 ) = Pr(T  t  /2 ) =  /2 Quali assunzioni per l’uso della T di Student? E nel caso di grandi campioni?

24 Esercizio Esempio 7 supermercati prezzo-vendite: p. 155 Esempio 7 supermercati dipendenti-fatturato: calcolo intervalli di confidenza per i parametri Beta cappello = 0.198; SE = Pr(0.133 < β < 0.263) = 0.95 Interpretazione (v. dopo) Intervallo per  e  2 (per esercizio)

25 Interpretazione L'intervallo di confidenza di , con probabilità = 0.95, va da a L'intervallo di confidenza di , con probabilità = 0.95, va da a Ciò significa che, nell'universo di riferimento, all'aumento di un dipendente corrisponde un aumento delle vendite compreso tra 133 mila Euro e 263 mila Euro circa (con probabilità del 95%). Ciò significa che, nell'universo di riferimento, all'aumento di un dipendente corrisponde un aumento delle vendite compreso tra 133 mila Euro e 263 mila Euro circa (con probabilità del 95%). Osservazione 1: l'intervallo è piuttosto ampio  dipende dalla ridotta numerosità campionaria (solo 7 supermercati). Osservazione 1: l'intervallo è piuttosto ampio  dipende dalla ridotta numerosità campionaria (solo 7 supermercati). Osservazione 2: significato della probabilità (95%) associata all’intervallo Osservazione 2: significato della probabilità (95%) associata all’intervallo Osservazione 3: confronto tra stima puntuale e intervallo Osservazione 3: confronto tra stima puntuale e intervallo

26 Costruzione di test di ipotesi per α β σ2 α β σ2 α β σ2 α β σ2

27 Dato che t-statistica Calcolo del p-value (dalla t n-2 )  pp Sotto H 0 : β =0

28 Esercizio Es. 7 supermercati (dipendenti-fatturato): H 0 :β=0 t β =7.82p-value = Interpretazione: rifiuto decisamente l’ipotesi nulla H 0 :  =0 t α =0.39p-value = Interpretazione : non posso rifiutare l’ipotesi nulla Es. 7 supermercati (prezzo-vendite): p. 157

29 Intervallo di confidenza per la previsione y 0 Varianza dell’errore di previsione (p. 167) Varianza dell’errore di previsione (p. 167) Distribuzione dell’errore di previsione Distribuzione dell’errore di previsione Intervallo di confidenza per y 0 (p. 167) Intervallo di confidenza per y 0 (p. 167) Da che cosa dipende

30 Esercizio: per un numero di dipendenti pari a 16 costruire un intervallo di previsione delle vendite al 95% Interpretazione Come ci aspettiamo che cambi l’intervallo se X = 50?


Scaricare ppt "DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso Richiami sul modello di regressione lineare (semplice) Introduzione."

Presentazioni simili


Annunci Google