La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

STATISTICA PER LE DECISIONI DI MARKETING

Presentazioni simili


Presentazione sul tema: "STATISTICA PER LE DECISIONI DI MARKETING"— Transcript della presentazione:

1 STATISTICA PER LE DECISIONI DI MARKETING
Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo sulla selezione del modello Dati: v. file Dati_random.xls 1

2 Esempio: procedure di selezione con variabili tra loro indipendenti
n = 200 osservazioni (simulate) in modo che: Yi ~ N(0, 1) Osservazioni diverse di Y (Yi e Yj) sono indipendenti 20 variabili esplicative X1 … X20 indipendenti da Y e incorrelate tra loro (v. scatterplot matrix) non ci sono problemi di invertibilità di (X’X) Tutte le assunzioni del modello sono soddisfatte con E(Yi) = β0 = 0 N.B.: β1 = 0, …, β20 = 0  R2 = 0 nel modello. Nel campione dobbiamo però aspettarci che R2 > 0 e che i Beta cappello siano ≠ 0 per effetto della variabilità campionaria Sono soddisfatte anche le assunzioni sulla distribuzione di Y: test e intervalli di confidenza basati sulla t sono validi

3 Esempio: scatterplot matrix
Il grafico sembra confermare l’assenza di struttura nei dati (tra Y e le esplicative, ma anche tra le diverse X)

4 Esempio: procedura backward con “soglia out” = 0.10 (default SPSS)
Al primo passo rimuove X4 Al secondo passo rimuove X5 (dettagli: v. output SPSS) Modello finale (passo 17): 4 variabili esplicative R2=0.079 R2adj=0.060 Con soglia out più bassa il modello si riduce un po’ (esce X10)

5 Esempio: procedura forward con “soglia in” = 0.05 (default SPSS)
Al primo passo inserisce X17 Al secondo passo si arresta  Modello finale 1 variabile esplicativa R2 = 0.025 R2adj = 0.020 Risultati analoghi con procedura stepwise Se soglia in = 0.10 entrano anche X20, X9 e X10  v. procedura backward

6 Esempio: sintesi procedure automatiche
La conclusione (sconfortante) è che, pur in assenza di struttura nei dati, le procedure automatiche identificano comunque un modello  relazioni spurie L’arbitrarietà nella scelta delle soglie complica ulteriormente la questione Non vi sono nemmeno problemi di multicollinearità Qual è il problema? Un’indicazione la possiamo ottenere tornando al modello completo …

7 Esempio: modello completo
Dalle t-statistiche sembrerebbe β17≠0 (qualche dubbio su β20 e β9) Però … v. Tabella ANOVA

8 Esempio: modello completo
Al 5% NON possiamo rifiutare H0: β1 = β2 = … = β20 = 0 Perché c’è contrasto con il test t che porta a rifiutare β17=0?

9 Esempio: conclusione Il problema è nella molteplicità dei test  effettuando numerosi test in sequenza, ci dobbiamo aspettare che alcuni risultino significativi per il solo effetto del caso: v. interpretazione della probabilità di errore Tale problema si accentua nelle procedure automatiche, quando le variabili sono numerose Il test F sul modello non ne è invece influenzato: è per costruzione un test su tutti i parametri Ciò spiega perché il test F sul modello completo è l’unica procedura che fornisce il risultato corretto nell’esempio  in questo caso l’uso di procedure di selezione automatica delle variabili sarebbe dannoso

10 Conclusioni sulle procedure di selezione
Le raccomandazioni sulle procedure backward – forward – stepwise sono spesso contrastanti Trade off tra efficienza-distorsione di stime e previsioni La (mia) esperienza è che: gli svantaggi dei passi forward, soprattutto in termini di interpretazione del modello, possono dare luogo a inconvenienti “fastidiosi” i passi forward forniscono spesso risultati instabili: piccole variazioni nella matrice X possono dar luogo a modelli molto diversi la scelta delle soglie può essere rilevante per il modello finale un’applicazione “oculata” dell’approccio backward (legata al contesto di analisi e possibilmente non automatica, anche con più soluzioni) è generalmente preferibile, a meno che non ci siano problemi seri di overfitting o nell’inversione di (X’X) A ben vedere, tutte le procedure automatiche violano alcuni principi statistici di base (ad es.: probabilità di errore nei test) Si sono affermati approcci più algoritmici per la scelta delle variabili: alberi decisionali


Scaricare ppt "STATISTICA PER LE DECISIONI DI MARKETING"

Presentazioni simili


Annunci Google