STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.

STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione del modello (§4.10 + §5.5)

Criteri per confrontare i modelli In assenza di relazione lineare tra Y e le X qual è il valore atteso di R 2 ? In assenza di relazione lineare tra Y e le X qual è il valore atteso di R 2 ? Quindi E(R 2 ) > 0 (valore teorico sotto H 0 : β 1 = β k = 0)  R 2 campionario è un po’ “ottimistico”, soprattutto quando k è grande e n piccolo (comunque k 0 (valore teorico sotto H 0 : β 1 = β k = 0)  R 2 campionario è un po’ “ottimistico”, soprattutto quando k è grande e n piccolo (comunque k<n) Inoltre R 2 campionario non può diminuire quando si aggiunge una nuova variabile esplicativa  R 2 campionario non è molto utile per confrontare modelli con un diverso numero di variabili esplicative Inoltre R 2 campionario non può diminuire quando si aggiunge una nuova variabile esplicativa  R 2 campionario non è molto utile per confrontare modelli con un diverso numero di variabili esplicative

Correzione a R 2: R 2 adjusted R 2 adjusted = 1 in presenza di dipendenza lineare perfetta (R 2 = 1 e DEV(E) = 0) R 2 adjusted = 1 in presenza di dipendenza lineare perfetta (R 2 = 1 e DEV(E) = 0) R 2 adjusted è però meno interpretabile di R 2 : ad esempio, se R 2 = 0 risulta R 2 adjusted è però meno interpretabile di R 2 : ad esempio, se R 2 = 0 risulta In pratica, si hanno spesso problemi con molte potenziali variabili esplicative: come selezionarle? In pratica, si hanno spesso problemi con molte potenziali variabili esplicative: come selezionarle? Per confrontare l’adattamento di modelli con variabili esplicative diverse si può calcolare la versione modificata:

Selezione delle variabili La scelta delle variabili non può prescindere dalla conoscenza del problema analizzato La scelta delle variabili non può prescindere dalla conoscenza del problema analizzato Se le variabili potenzialmente importanti sono molte, può essere utile limitare l’analisi a un sottoinsieme: Se le variabili potenzialmente importanti sono molte, può essere utile limitare l’analisi a un sottoinsieme: –Problemi di collinearità  (X’X) “quasi” non invertibile –Problemi di previsione: overfitting –Semplificazione nella comunicazione dei risultati –Non bisogna però pensare che solo i risultati significativi siano importanti  “selection bias” Selezione del sottoinsieme “ottimo” di variabili attraverso R 2 (adjusted): di solito è proibitiva dal punto di vista pratico Selezione del sottoinsieme “ottimo” di variabili attraverso R 2 (adjusted): di solito è proibitiva dal punto di vista pratico Procedure automatiche di selezione backward e forward attraverso i test F Procedure automatiche di selezione backward e forward attraverso i test F In pratica: v. SPSS In pratica: v. SPSS

Procedura backward Si parte adattando il modello con tutte le variabili Si parte adattando il modello con tutte le variabili Si eliminano le variabili per cui la t-statistica non è significativa (ad es. al 5%) e si riadatta il modello Si eliminano le variabili per cui la t-statistica non è significativa (ad es. al 5%) e si riadatta il modello Procedura automatizzata (SPSS) in cui ad ogni passo è rimossa la variabile con t-statistica più piccola (equivale al test F per la verifica di H 0 : β j = 0) finche non risultano tutte significative Procedura automatizzata (SPSS) in cui ad ogni passo è rimossa la variabile con t-statistica più piccola (equivale al test F per la verifica di H 0 : β j = 0) finche non risultano tutte significative Svantaggi: Svantaggi: –Si parte da (X’X) con tutte le variabili: possibile collinearietà –L’automatizzazione della procedura può portare ad eliminare variabili importanti dal punto di vista interpretativo –La procedura automatica richiede di fissare alcune soglie Vantaggio principale: partendo dal modello completo è più facile mantenere il collegamento con il problema analizzato (aspetto importante) Vantaggio principale: partendo dal modello completo è più facile mantenere il collegamento con il problema analizzato (aspetto importante)

Procedura forward Si parte adattando il modello più semplice (solo intercetta) Si parte adattando il modello più semplice (solo intercetta) Si aggiunge la variabile esplicativa maggiormente correlata con Y  si considerano (una alla volta) tutte le X j escluse dal modello e si sceglie quella che ha max t-statistica per la verifica di H 0 : β j = 0, purché > di una soglia Si aggiunge la variabile esplicativa maggiormente correlata con Y  si considerano (una alla volta) tutte le X j escluse dal modello e si sceglie quella che ha max t-statistica per la verifica di H 0 : β j = 0, purché > di una soglia Procedura automatizzata (SPSS) finché vi sono X j significative escluse Procedura automatizzata (SPSS) finché vi sono X j significative escluse Svantaggi: Svantaggi: –La scelta sulla X da includere è per un passo specifico: ottimo “locale” –La scelta effettuata a un passo condiziona quelle ai passi successivi: si possono escludere variabili importanti o includerne altre poco rilevanti  ad es. se X 4 e X 5 sono fortemente correlate è probabile che il modello finale ne contenga solo una (la prima a essere inclusa) indipendentemente dalla loro interpretazione –La procedura automatica richiede di fissare alcune soglie Vantaggio principale: Non è necessario adattare il modello con tutte le variabili rilevate Vantaggio principale: Non è necessario adattare il modello con tutte le variabili rilevate

Procedura stepwise Combina passi backward e forward: ad ogni passo le variabili possono sia uscire che entrare (anche con soglie diverse) Combina passi backward e forward: ad ogni passo le variabili possono sia uscire che entrare (anche con soglie diverse) L’obiettivo è quello di combinare i vantaggi di entrambe le procedure, riducendone gli svantaggi L’obiettivo è quello di combinare i vantaggi di entrambe le procedure, riducendone gli svantaggi In pratica? In pratica?

Esempio: dati investimenti = f(PIL, Trend) Analisi con SPSS: Regressione lineare – Metodo – Opzioni Analisi con SPSS: Regressione lineare – Metodo – Opzioni Metodo: Per blocchi  modello con tutte le variabili incluse Metodo: Per blocchi  modello con tutte le variabili incluse

Esempio: dati investimenti – Metodo per blocchi

Esempio: dati investimenti – Metodo stepwise Metodi backward e forward: per esercizio Metodi backward e forward: per esercizio In questo esempio criteri differenti conducono a risultati analoghi, ma spesso non è così In questo esempio criteri differenti conducono a risultati analoghi, ma spesso non è così

STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.

Presentazioni simili

Presentazione sul tema: "STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.

Presentazioni simili

Presentazione sul tema: "STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back