La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.

Presentazioni simili


Presentazione sul tema: "STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo."— Transcript della presentazione:

1 STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo sulla selezione del modello Dati: v. file Dati_random.xls

2 Esempio: procedure di selezione con variabili tra loro indipendenti n = 200 osservazioni (simulate) in modo che: n = 200 osservazioni (simulate) in modo che: –Y i ~ N(0, 1) –Osservazioni diverse di Y (Y i e Y j ) sono indipendenti –20 variabili esplicative X 1 … X 20 indipendenti da Y e incorrelate tra loro (v. scatterplot matrix) –non ci sono problemi di invertibilità di (XX) Tutte le assunzioni del modello sono soddisfatte con Tutte le assunzioni del modello sono soddisfatte con E(Y i ) = β 0 = 0 N.B.: β 1 = 0, …, β 20 = 0 R 2 = 0 nel modello. N.B.: β 1 = 0, …, β 20 = 0 R 2 = 0 nel modello. Nel campione dobbiamo però aspettarci che R 2 > 0 e che i Beta cappello siano 0 per effetto della variabilità campionaria Nel campione dobbiamo però aspettarci che R 2 > 0 e che i Beta cappello siano 0 per effetto della variabilità campionaria Sono soddisfatte anche le assunzioni sulla distribuzione di Y: test e intervalli di confidenza basati sulla t sono validi Sono soddisfatte anche le assunzioni sulla distribuzione di Y: test e intervalli di confidenza basati sulla t sono validi

3 Esempio: scatterplot matrix Il grafico sembra confermare lassenza di struttura nei dati (tra Y e le esplicative, ma anche tra le diverse X)

4 Esempio: procedura backward con soglia out = 0.10 (default SPSS) Al primo passo rimuove X4 Al secondo passo rimuove X5 (dettagli: v. output SPSS) Modello finale (passo 17): 4 variabili esplicative R 2 =0.079 R 2 adj=0.060 Con soglia out più bassa il modello si riduce un po (esce X10)

5 Esempio: procedura forward con soglia in = 0.05 (default SPSS) Al primo passo inserisce X17 Al secondo passo si arresta Modello finale 1 variabile esplicativa R 2 = R 2 adj = Risultati analoghi con procedura stepwise Se soglia in = 0.10 entrano anche X20, X9 e X10 v. procedura backward

6 Esempio: sintesi procedure automatiche La conclusione (sconfortante) è che, pur in assenza di struttura nei dati, le procedure automatiche identificano comunque un modello relazioni spurie Larbitrarietà nella scelta delle soglie complica ulteriormente la questione Non vi sono nemmeno problemi di multicollinearità Qual è il problema? Unindicazione la possiamo ottenere tornando al modello completo …

7 Esempio: modello completo Dalle t-statistiche sembrerebbe β 17 0 (qualche dubbio su β 20 e β 9 ) Però … v. Tabella ANOVA

8 Esempio: modello completo Al 5% NON possiamo rifiutare H 0 : β 1 = β 2 = … = β 20 = 0 Perché cè contrasto con il test t che porta a rifiutare β 17 =0?

9 Esempio: conclusione Il problema è nella molteplicità dei test effettuando numerosi test in sequenza, ci dobbiamo aspettare che alcuni risultino significativi per il solo effetto del caso: v. interpretazione della probabilità di errore Il problema è nella molteplicità dei test effettuando numerosi test in sequenza, ci dobbiamo aspettare che alcuni risultino significativi per il solo effetto del caso: v. interpretazione della probabilità di errore Tale problema si accentua nelle procedure automatiche, quando le variabili sono numerose Tale problema si accentua nelle procedure automatiche, quando le variabili sono numerose Il test F sul modello non ne è invece influenzato: è per costruzione un test su tutti i parametri Il test F sul modello non ne è invece influenzato: è per costruzione un test su tutti i parametri Ciò spiega perché il test F sul modello completo è lunica procedura che fornisce il risultato corretto nellesempio in questo caso luso di procedure di selezione automatica delle variabili sarebbe dannoso Ciò spiega perché il test F sul modello completo è lunica procedura che fornisce il risultato corretto nellesempio in questo caso luso di procedure di selezione automatica delle variabili sarebbe dannoso

10 Conclusioni sulle procedure di selezione Le raccomandazioni sulle procedure backward – forward – stepwise sono spesso contrastanti Le raccomandazioni sulle procedure backward – forward – stepwise sono spesso contrastanti Trade off tra efficienza-distorsione di stime e previsioni Trade off tra efficienza-distorsione di stime e previsioni La (mia) esperienza è che: La (mia) esperienza è che: –gli svantaggi dei passi forward, soprattutto in termini di interpretazione del modello, possono dare luogo a inconvenienti fastidiosi –i passi forward forniscono spesso risultati instabili: piccole variazioni nella matrice X possono dar luogo a modelli molto diversi –la scelta delle soglie può essere rilevante per il modello finale –unapplicazione oculata dellapproccio backward (legata al contesto di analisi e possibilmente non automatica, anche con più soluzioni) è generalmente preferibile, a meno che non ci siano problemi seri di overfitting o nellinversione di (XX) A ben vedere, tutte le procedure automatiche violano alcuni principi statistici di base (ad es.: probabilità di errore nei test) A ben vedere, tutte le procedure automatiche violano alcuni principi statistici di base (ad es.: probabilità di errore nei test) Si sono affermati approcci più algoritmici per la scelta delle variabili: alberi decisionali Si sono affermati approcci più algoritmici per la scelta delle variabili: alberi decisionali


Scaricare ppt "STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo."

Presentazioni simili


Annunci Google