Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
STATISTICA PER LE DECISIONI DI MARKETING
Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione del modello (Capitolo 3 del libro + Appendice A) 1
2
Criteri per confrontare i modelli
In assenza di relazione lineare tra Y e le X qual è il valore atteso di R2? Quindi E(R2) > 0 (valore teorico sotto H0: β1 = βk = 0) R2 campionario è un po’ “ottimistico”, soprattutto quando k è grande e n piccolo (k<n) Inoltre R2 campionario non può diminuire quando si aggiunge una nuova variabile esplicativa R2 campionario non è molto utile per confrontare modelli con un diverso numero di variabili esplicative
3
Correzione a R2: R2 adjusted
Per confrontare l’adattamento di modelli con variabili esplicative diverse si può calcolare la versione modificata: R2 adjusted = 1 in presenza di dipendenza lineare perfetta (R2 = 1 e DEV(E) = 0) R2 adjusted è però meno interpretabile di R2: ad esempio, se R2 = 0 risulta
4
Selezione delle variabili
La scelta delle variabili non può prescindere dalla conoscenza del problema analizzato Se le variabili potenzialmente importanti sono molte, può essere utile limitare l’analisi a un sottoinsieme: Problemi di collinearità (X’X) “quasi” non invertibile Problemi di previsione: overfitting Semplificazione nella comunicazione dei risultati Non bisogna però pensare che solo i risultati significativi siano importanti “selection bias” Selezione del sottoinsieme “ottimo” di variabili attraverso R2 (adjusted): di solito è proibitiva dal punto di vista pratico Procedure di selezione backward e forward attraverso i test F In pratica: v. SPSS 4
5
Procedura backward Si parte adattando il modello con tutte le variabili Si eliminano le variabili per cui la t-statistica non è significativa (ad es. al 5%) e si riadatta il modello Procedura automatizzata (SPSS) in cui ad ogni passo è rimossa la variabile con t-statistica più piccola (equivale al test F per la verifica di H0: βj = 0) finche non risultano tutte significative Svantaggi: Si parte da (X’X) con tutte le variabili: possibile collinearietà L’automatizzazione della procedura può portare ad eliminare variabili importanti dal punto di vista interpretativo La procedura automatica richiede di fissare alcune soglie Vantaggio principale: partendo dal modello completo è più facile mantenere il collegamento con il problema analizzato (aspetto importante)
6
Procedura forward Si parte adattando il modello più semplice (solo intercetta) Si aggiunge la variabile esplicativa maggiormente correlata con Y si considerano (una alla volta) tutte le Xj escluse dal modello e si sceglie quella che ha max t-statistica per la verifica di H0: βj = 0, purché > di una soglia Procedura automatizzata (SPSS) finché vi sono Xj significative escluse Svantaggi: La scelta sulla X da includere è per un passo specifico: ottimo “locale” La scelta effettuata a un passo condiziona quelle ai passi successivi: si possono escludere variabili importanti o includerne altre poco rilevanti ad es. se X4 e X5 sono fortemente correlate è probabile che il modello finale ne contenga solo una (la prima a essere inclusa) indipendentemente dalla loro interpretazione La procedura automatica richiede di fissare alcune soglie Vantaggio principale: Non è necessario adattare il modello con tutte le variabili rilevate
7
Procedura stepwise In pratica?
Combina passi backward e forward: ad ogni passo le variabili possono sia uscire che entrare (anche con soglie diverse) L’obiettivo è quello di combinare i vantaggi di entrambe le procedure, riducendone gli svantaggi In pratica?
8
Esempio: dati investimenti = f(PIL, Trend)
Analisi con SPSS: Regressione lineare – Metodo – Opzioni Metodo: Per blocchi modello con tutte le variabili incluse
9
Esempio: dati investimenti – Metodo per blocchi
10
Esempio: dati investimenti – Metodo stepwise
Metodi backward e forward: per esercizio In questo esempio criteri differenti conducono a risultati analoghi, ma spesso non è così
11
Per esercizio: applicare le procedure automatiche di SPSS ai dati dell’esercitazione sulla selezione del modello (v. sito del corso – file dati_random.xls) n = 200 osservazioni; Y: variabile dipendente; X1 – X20: variabili esplicative Analisi preliminare (matrice dei diagrammi di dispersione; matrice di correlazione …): quale relazione ci si può aspettare? Procedura backward di SPSS (con soglie di default) Procedura forward di SPSS (con soglie di default) Confronto tra le due procedure Confronto con i risultati delle analisi preliminari: sono state utili le procedure automatiche? se ci sono differenze, quali sono i motivi?
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.