STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.

Slides:



Advertisements
Presentazioni simili
La regressione multipla lineare
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi e tecniche di analisi dei dati con Laboratorio (4+4 crediti) Specialistica in Psicologia dei Processi Cognitivi (A31) I anno Prof.ssa Francesca.
Metodologia e tecniche della ricerca in psicologia clinica con Laboratorio (6+2 crediti) Specialistica in Psicologia clinica (A30) I anno Prof.ssa Francesca.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Analisi fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 10.
Regressione logistica
Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente.
La regressione logistica binomiale
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
Dall’analisi Fattoriale alla regressione lineare
STATISTICA PER LE DECISIONI DI MARKETING
Regressione logistica
STATISTICA PER LE DECISIONI DI MARKETING
Le distribuzioni campionarie
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
Data Mining per il Marketing Andrea Cerioli Sito web del corso I modelli statistici nel Data Mining e nel marketing.
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.
Analisi Bivariata: Test Statistici
Data Mining per il Marketing Andrea Cerioli Sito web del corso I modelli statistici nel marketing e nel Data Mining e.
Introduzione ai sistemi informativi aziendali
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13 Regressione Logistica: La stima e l’interpretazione del del modello.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
DATA MINING PER IL MARKETING
Strumenti statistici in Excell
I progressi della salute I trend temporali del PASSI Valentina Minardi ISS, 17 settembre 2010 Workshop per i coordinatori e referenti del sistema di sorveglianza.
IL CAMPIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Analisi Multivariata dei Dati
Regressione lineare - Esercizi
Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Regressione lineare - Esercizi Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°9.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13.
Dalmine, 26 Maggio 2004 Esercitazioni di Statistica con Matlab Dott. Orietta Nicolis fttp:\ingegneria.unibg.it.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Campionamento procedimento attraverso il quale si estrae, da un insieme di unità (popolazione) costituenti l’oggetto delle studio, un numero ridotto di.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Transcript della presentazione:

STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione del modello (§ §5.5)

Criteri per confrontare i modelli In assenza di relazione lineare tra Y e le X qual è il valore atteso di R 2 ? In assenza di relazione lineare tra Y e le X qual è il valore atteso di R 2 ? Quindi E(R 2 ) > 0 (valore teorico sotto H 0 : β 1 = β k = 0)  R 2 campionario è un po’ “ottimistico”, soprattutto quando k è grande e n piccolo (comunque k 0 (valore teorico sotto H 0 : β 1 = β k = 0)  R 2 campionario è un po’ “ottimistico”, soprattutto quando k è grande e n piccolo (comunque k<n) Inoltre R 2 campionario non può diminuire quando si aggiunge una nuova variabile esplicativa  R 2 campionario non è molto utile per confrontare modelli con un diverso numero di variabili esplicative Inoltre R 2 campionario non può diminuire quando si aggiunge una nuova variabile esplicativa  R 2 campionario non è molto utile per confrontare modelli con un diverso numero di variabili esplicative

Correzione a R 2: R 2 adjusted R 2 adjusted = 1 in presenza di dipendenza lineare perfetta (R 2 = 1 e DEV(E) = 0) R 2 adjusted = 1 in presenza di dipendenza lineare perfetta (R 2 = 1 e DEV(E) = 0) R 2 adjusted è però meno interpretabile di R 2 : ad esempio, se R 2 = 0 risulta R 2 adjusted è però meno interpretabile di R 2 : ad esempio, se R 2 = 0 risulta In pratica, si hanno spesso problemi con molte potenziali variabili esplicative: come selezionarle? In pratica, si hanno spesso problemi con molte potenziali variabili esplicative: come selezionarle? Per confrontare l’adattamento di modelli con variabili esplicative diverse si può calcolare la versione modificata:

Selezione delle variabili La scelta delle variabili non può prescindere dalla conoscenza del problema analizzato La scelta delle variabili non può prescindere dalla conoscenza del problema analizzato Se le variabili potenzialmente importanti sono molte, può essere utile limitare l’analisi a un sottoinsieme: Se le variabili potenzialmente importanti sono molte, può essere utile limitare l’analisi a un sottoinsieme: –Problemi di collinearità  (X’X) “quasi” non invertibile –Problemi di previsione: overfitting –Semplificazione nella comunicazione dei risultati –Non bisogna però pensare che solo i risultati significativi siano importanti  “selection bias” Selezione del sottoinsieme “ottimo” di variabili attraverso R 2 (adjusted): di solito è proibitiva dal punto di vista pratico Selezione del sottoinsieme “ottimo” di variabili attraverso R 2 (adjusted): di solito è proibitiva dal punto di vista pratico Procedure automatiche di selezione backward e forward attraverso i test F Procedure automatiche di selezione backward e forward attraverso i test F In pratica: v. SPSS In pratica: v. SPSS

Procedura backward Si parte adattando il modello con tutte le variabili Si parte adattando il modello con tutte le variabili Si eliminano le variabili per cui la t-statistica non è significativa (ad es. al 5%) e si riadatta il modello Si eliminano le variabili per cui la t-statistica non è significativa (ad es. al 5%) e si riadatta il modello Procedura automatizzata (SPSS) in cui ad ogni passo è rimossa la variabile con t-statistica più piccola (equivale al test F per la verifica di H 0 : β j = 0) finche non risultano tutte significative Procedura automatizzata (SPSS) in cui ad ogni passo è rimossa la variabile con t-statistica più piccola (equivale al test F per la verifica di H 0 : β j = 0) finche non risultano tutte significative Svantaggi: Svantaggi: –Si parte da (X’X) con tutte le variabili: possibile collinearietà –L’automatizzazione della procedura può portare ad eliminare variabili importanti dal punto di vista interpretativo –La procedura automatica richiede di fissare alcune soglie Vantaggio principale: partendo dal modello completo è più facile mantenere il collegamento con il problema analizzato (aspetto importante) Vantaggio principale: partendo dal modello completo è più facile mantenere il collegamento con il problema analizzato (aspetto importante)

Procedura forward Si parte adattando il modello più semplice (solo intercetta) Si parte adattando il modello più semplice (solo intercetta) Si aggiunge la variabile esplicativa maggiormente correlata con Y  si considerano (una alla volta) tutte le X j escluse dal modello e si sceglie quella che ha max t-statistica per la verifica di H 0 : β j = 0, purché > di una soglia Si aggiunge la variabile esplicativa maggiormente correlata con Y  si considerano (una alla volta) tutte le X j escluse dal modello e si sceglie quella che ha max t-statistica per la verifica di H 0 : β j = 0, purché > di una soglia Procedura automatizzata (SPSS) finché vi sono X j significative escluse Procedura automatizzata (SPSS) finché vi sono X j significative escluse Svantaggi: Svantaggi: –La scelta sulla X da includere è per un passo specifico: ottimo “locale” –La scelta effettuata a un passo condiziona quelle ai passi successivi: si possono escludere variabili importanti o includerne altre poco rilevanti  ad es. se X 4 e X 5 sono fortemente correlate è probabile che il modello finale ne contenga solo una (la prima a essere inclusa) indipendentemente dalla loro interpretazione –La procedura automatica richiede di fissare alcune soglie Vantaggio principale: Non è necessario adattare il modello con tutte le variabili rilevate Vantaggio principale: Non è necessario adattare il modello con tutte le variabili rilevate

Procedura stepwise Combina passi backward e forward: ad ogni passo le variabili possono sia uscire che entrare (anche con soglie diverse) Combina passi backward e forward: ad ogni passo le variabili possono sia uscire che entrare (anche con soglie diverse) L’obiettivo è quello di combinare i vantaggi di entrambe le procedure, riducendone gli svantaggi L’obiettivo è quello di combinare i vantaggi di entrambe le procedure, riducendone gli svantaggi In pratica? In pratica?

Esempio: dati investimenti = f(PIL, Trend) Analisi con SPSS: Regressione lineare – Metodo – Opzioni Analisi con SPSS: Regressione lineare – Metodo – Opzioni Metodo: Per blocchi  modello con tutte le variabili incluse Metodo: Per blocchi  modello con tutte le variabili incluse

Esempio: dati investimenti – Metodo per blocchi

Esempio: dati investimenti – Metodo stepwise Metodi backward e forward: per esercizio Metodi backward e forward: per esercizio In questo esempio criteri differenti conducono a risultati analoghi, ma spesso non è così In questo esempio criteri differenti conducono a risultati analoghi, ma spesso non è così