LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
Dipartimento di Economia
Primi passi con Easy Reg 1
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 10.
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente.
STATISTICA 6.0: REGRESSIONE LINEARE
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
ALBERI DECISIONALI prima parte
Analisi della varianza (a una via)
La logica della regressione
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Metodi di ricerca in Psicologia
Metodi della ricerca in Psicologia
Valutazione della stima: gli intervalli di confidenza
STATISTICA PER LE DECISIONI DI MARKETING
Principali analisi statistiche
STATISTICA PER LE DECISIONI DI MARKETING
Le distribuzioni campionarie
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
La teoria dei campioni può essere usata per ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. Da un punto di vista applicativo.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.
Analisi Bivariata: Test Statistici
DATA MINING PER IL MARKETING
Esercizi riepilogativi Analisi Univariata e Bivariata
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
La regressione II Cristina Zogmaister.
DATA MINING PER IL MARKETING
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
DATA MINING PER IL MARKETING
IL CAMPIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Regressione lineare - Esercizi
Regressione lineare - Esercizi Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°9.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Istituto Comprensivo Rignano-Incisa Tirocinante TFA: G. Giuliani
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
TRATTAMENTO STATISTICO DEI DATI ANALITICI
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Transcript della presentazione:

LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo sulla selezione del modello Dati: v. file Dati_random.xls

n = 200 osservazioni; Y: variabile dipendente; X1 – X20: variabili esplicative n = 200 osservazioni; Y: variabile dipendente; X1 – X20: variabili esplicative Analisi preliminare (matrice dei diagrammi di dispersione; matrice di correlazione …): quale relazione ci si può aspettare? Analisi preliminare (matrice dei diagrammi di dispersione; matrice di correlazione …): quale relazione ci si può aspettare? Procedura backward di SPSS (con soglie di default) Procedura backward di SPSS (con soglie di default) Procedura forward di SPSS (con soglie di default) Procedura forward di SPSS (con soglie di default) Confronto tra le due procedure Confronto tra le due procedure Confronto con i risultati delle analisi preliminari: Confronto con i risultati delle analisi preliminari: –sono state utili le procedure automatiche? –se ci sono differenze, quali sono i motivi? Esempio sulla selezione automatica delle variabili nel modello di regressione multipla: file dati_random.xls

Esempio: scatterplot matrix Il grafico sembra confermare l’assenza di struttura nei dati (tra Y e le esplicative, ma anche tra le diverse X)

Esempio: procedura backward con “soglia out” = 0.10 (default SPSS) Al primo passo rimuove X4 Al secondo passo rimuove X5  (dettagli: v. output SPSS) Modello finale (passo 17): 4 variabili esplicative R 2 =0.079 R 2 adj=0.060 Con soglia out più bassa il modello si riduce un po’ (esce X10)

Esempio: procedura forward con “soglia in” = 0.05 (default SPSS) Al primo passo inserisce X17 Al secondo passo si arresta  Modello finale 1 variabile esplicativa R 2 = R 2 adj = Risultati analoghi con procedura stepwise Se soglia in = 0.10 entrano anche X20, X9 e X10  v. procedura backward

n = 200 osservazioni (simulate) in modo che: n = 200 osservazioni (simulate) in modo che: –Y i ~ N(0, 1) –Osservazioni diverse di Y (Y i e Y j ) sono indipendenti –20 variabili esplicative X 1 … X 20 indipendenti da Y e incorrelate tra loro (v. scatterplot matrix) –non ci sono problemi di invertibilità di (X’X) Tutte le assunzioni del modello sono soddisfatte con Tutte le assunzioni del modello sono soddisfatte con E(Y i ) = β 0 = 0 N.B.: β 1 = 0, …, β 20 = 0  R 2 = 0 nel modello. N.B.: β 1 = 0, …, β 20 = 0  R 2 = 0 nel modello. Nel campione dobbiamo però aspettarci che R 2 > 0 e che i Beta cappello siano ≠ 0 per effetto della variabilità campionaria Nel campione dobbiamo però aspettarci che R 2 > 0 e che i Beta cappello siano ≠ 0 per effetto della variabilità campionaria Sono soddisfatte anche le assunzioni sulla distribuzione di Y: test e intervalli di confidenza basati sulla t sono validi Sono soddisfatte anche le assunzioni sulla distribuzione di Y: test e intervalli di confidenza basati sulla t sono validi Esempio: vera struttura dei dati

Esempio: sintesi procedure automatiche La conclusione (sconfortante) è che, pur in assenza di struttura nei dati, le procedure automatiche identificano comunque un modello  relazioni spurie L’arbitrarietà nella scelta delle soglie complica ulteriormente la questione Non vi sono nemmeno problemi di multicollinearità Qual è il problema? Un’indicazione la possiamo ottenere tornando al modello completo …

Esempio: modello completo Dalle t-statistiche sembrerebbe β 17 ≠0 (qualche dubbio su β 20 e β 9 ) Però … v. Tabella ANOVA

Esempio: modello completo Al 5% NON possiamo rifiutare H 0 : β 1 = β 2 = … = β 20 = 0 Perché c’è contrasto con il test t che porta a rifiutare β 17 =0?

Esempio: conclusione Il problema è nella molteplicità dei test  effettuando numerosi test in sequenza, ci dobbiamo aspettare che alcuni risultino significativi per il solo effetto del caso: v. interpretazione della probabilità di errore Il problema è nella molteplicità dei test  effettuando numerosi test in sequenza, ci dobbiamo aspettare che alcuni risultino significativi per il solo effetto del caso: v. interpretazione della probabilità di errore Tale problema si accentua nelle procedure automatiche, quando le variabili sono numerose Tale problema si accentua nelle procedure automatiche, quando le variabili sono numerose Il test F sul modello non ne è invece influenzato: è per costruzione un test su tutti i parametri Il test F sul modello non ne è invece influenzato: è per costruzione un test su tutti i parametri Ciò spiega perché il test F sul modello completo è l’unica procedura che fornisce il risultato corretto nell’esempio  in questo caso l’uso di procedure di selezione automatica delle variabili sarebbe dannoso Ciò spiega perché il test F sul modello completo è l’unica procedura che fornisce il risultato corretto nell’esempio  in questo caso l’uso di procedure di selezione automatica delle variabili sarebbe dannoso

Conclusioni sulle procedure di selezione Le raccomandazioni sulle procedure backward – forward – stepwise sono spesso contrastanti Le raccomandazioni sulle procedure backward – forward – stepwise sono spesso contrastanti Trade off tra efficienza-distorsione di stime e previsioni Trade off tra efficienza-distorsione di stime e previsioni La (mia) esperienza è che: La (mia) esperienza è che: –gli svantaggi dei passi forward, soprattutto in termini di interpretazione del modello, possono dare luogo a inconvenienti “fastidiosi” –i passi forward forniscono spesso risultati instabili: piccole variazioni nella matrice X possono dar luogo a modelli molto diversi –la scelta delle soglie può essere rilevante per il modello finale –un’applicazione “oculata” dell’approccio backward (legata al contesto di analisi e possibilmente non automatica, anche con più soluzioni) è generalmente preferibile, a meno che non ci siano problemi seri di overfitting o nell’inversione di (X’X) A ben vedere, tutte le procedure automatiche violano alcuni principi statistici di base (ad es.: probabilità di errore nei test) A ben vedere, tutte le procedure automatiche violano alcuni principi statistici di base (ad es.: probabilità di errore nei test) Si sono affermati approcci più algoritmici per la scelta delle variabili: alberi decisionali Si sono affermati approcci più algoritmici per la scelta delle variabili: alberi decisionali