Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
8) GLI INTERVALLI DI CONFIDENZA
Statistica Economica I
Come organizzare i dati per un'analisi statistica al computer?
LA VARIABILITA’ IV lezione di Statistica Medica.
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
La regressione lineare trivariata
ANALISI DELLA COVARIANZA
Dipartimento di Economia
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 10.
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Dip. Economia Politica e Statistica
Analisi della varianza (a una via)
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
STATISTICA a.a PARAMETRO t DI STUDENT
1 Y Modello di regressione semplice Supponiamo che una variabile Y sia funzione lineare di unaltra variabile X, con parametri incogniti 1 e 2 che vogliamo.
Linee guida per la Chimica Analitica Statistica chemiometrica
Regressione Logistica
Principali analisi statistiche
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
COVARIANZA e CORRELAZIONE.
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
La regressione come strumento di sintesi delle relazioni tra variabili
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
Elementi di Statistica medica Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Copyright © 2007 – The McGraw-Hill Companies s.r.l. SIGNIFICATIVITÀ.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Strumenti statistici in Excell
IL CAMPIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Test basati su due campioni Test Chi - quadro
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13.
Dalmine, 26 Maggio 2004 Esercitazioni di Statistica con Matlab Dott. Orietta Nicolis fttp:\ingegneria.unibg.it.
La covarianza.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Statistica per l’economia e l’impresa Capitolo 4 MODELLO DI REGRESSIONE LINEARE SEMPLICE.
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Transcript della presentazione:

ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS) Stimatore della varianza comune non nota 2 e f.d. dello stimatore OLS Stimatore della varianza comune non nota 2 nel caso di modello nullo Eliminazione delle variabili statisticamente non significative Tests statistici per la selezione delle variabili Il test F per la selezione delle variabili Procedure operative per la selezione delle variabili: backward elimination, forward selection, stepwise selection. Un criterio per l’eliminazione delle variabili esplicative ridondanti Eliminazione di variabili via analisi delle componenti principali

Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS) Per le variabili risposta yi|xi, i=1,2,…,n, complessivamente considerate nel vettore y|X , sotto le seguenti ipotesi: 1) modello (parametrico) lineare: E(y|X, ) = X; 2) indipendenza condizionale; 3) medesima varianza non dipendente da  : VAR(y|X, ) = 2In ; lo stimatore Ordinary Least Squares OLS = (X’X)-1X’y, ha valore medio e varianza rispettivamente: E(OLS) = ; VAR(OLS) = (2/n)(X’X/n)-1. Se si assume anche l’ulteriore aggiuntiva ipotesi: 4) la legge di distribuzione condizionale comune delle variabili risposta yi|xi, i=1,2,…,n, è Normale (ipotesi di normalità); lo stimatore OLS coincide con lo stimatore di massima verosimiglianza ML ed ha f.d. Normale k-variata; Diversamente, data la linearità dello stimatore, per il teorema del limite centrale, esso ha solo asintoticamente funzione di distribuzione Normale k-variata; in questo caso, per n elevato (grandi campioni) la sua f.d. sarà approssimativamente Normale k-variata.

Stimatore della varianza comune non nota 2 e sua f.d. Lo stimatore corretto della varianza comune non nota 2 è dato da: (1) sk2 = (y-X OLS)’ (y-X OLS)/(n-k). Sotto l’assunzione di normalità della legge di distribuzione condizionata comune delle variabili risposta, la statistica: (2) z = (n-k) sk2/2, si distribuisce come un chi-quadrato con n-k gradi di libertà. Essendo 2 non nota, e dunque solo stimabile con la (1), sempre sotto l’assunzione di normalità, considerando i singoli stimatori OLS(j), il loro valore medio (j) e la stima della loro varianza j2= diag[sk2(X’X)-1], j = 1,2,…,k, la statistica: [OLS(j) - (j)] / , ha funzione di distribuzione t di Student’s con n-k gradi di libertà, j = 1,2,…,k.

Stimatore della varianza comune non nota 2 nel caso di modello nullo Nel caso di modello nullo (in assenza di dipendenza delle variabili risposta dalle covariate (regressori o variabili indipendenti)), posto m = y’1n/n, lo stimatore della varianza comune non nota 2 è dato da: s02 =(y-m1n)’(y-m1n)/(n-1). In questo caso, sotto l’assunzione di Normalità della legge di distribuzione condizionata comune delle variabili risposta, la statistica: z = (n-1) s02/ 2, si distribuisce come un (chi-quadrato) con n-1 gradi di libertà.

Eliminazione delle variabili statisticamente non significative Perché scartare delle variabili? (i) Per realizzare un modello parsimonioso. (ii) Per avere un adeguato rapporto tra la dimensione del campione e il numero di parametri del modello da stimare. (iii) Per eliminare variabili esplicative fortemente correlate con variabili già entrate nel modello il cui contributo esplicativo aggiuntivo non può che essere statisticamente irrilevante (non significativo). (iv) Per eliminare variabili il cui contributo esplicativo è comunque statisticamente irrilevante. Il problema di scelta del modello migliore comporta: (1) Prefissato il numero p di variabili da selezionare, la scelta delle p (1 p  k) variabili delle k disponibili con coefficiente di correlazione multiplo al quadrato (o rapporto di determinazione) massimo, p=1,2,…,k. Fissato p (1 p  k), si tratta di comparare k!/[p!(k-p)!] modelli di regressione. Questa comparazione può risultare laboriosa per numero di modelli da considerare. Il migliore modello con p+1 variabili non è necessariamente costituito dalle stesse variabili del migliore modello con p variabili più una variabile aggiuntiva (i modelli non sono necessariamente nested). (2) La scelta del numero p di variabili da considerare nel modello comparando tra loro i modelli migliori. Questa scelta è resa non univoca non essendo i modelli necessariamente inclusivi (nested).

Tests statistici per la selezione delle variabili: tests sui valori dei coefficienti di regressione stimati (test t e test chi-quadrato) La selezione delle p variabili (0  p  k), da ritenere statisticamente significative nella modellazione lineare della dipendenza della variabile risposta dalle covariate, sotto ipotesi di normalità e stima della varianza non nota 2, può avvenire nei seguenti modi: 1- Con verifica dell’ipotesi di nullità (H0: j=0, contro H1: j0) di ogni singolo coefficiente di regressione. In tal caso si fa riferimento alla statistica determinata sotto l’ipotesi nulla: [OLS(j) - 0]/sqrt(j2), che ha f.d. t di Student’s con n-k gradi di libertà, j=1,2,…,k. Si rifiuta l’ipotesi nulla per valori elevati del valore assoluto della statistica (o per valori piccoli di p-value della statistica in valore assoluto). 2- Con verifica dell’ipotesi di nullità (H0: q=0, contro H1: non tutti i singoli i di q sono nulli) di un gruppo di coefficienti di regressione, data la partizione:  = (p’, q’)’, con: p+q=k. In tal caso si fa riferimento alla statistica di Wald (forma quadratica) determinata sotto l’ipotesi nulla: w = (q-OLS)’[VAR(q-OLS)]-1 (q-OLS), che ha f.d. chi-quadrato con q gradi di libertà, se 2 è noto (Mardia et al., teorema 3.2.1); diversamente, sostituendo 2 con la sua stima s2p+q, risulta solo asintoticamente con f.d. chi-quadrato con q gradi di libertà.

Test sulla variazione della somma dei residui al quadrato: Il test F 3- Considerato un modello lineare con un numero fissato di variabili già accettate (ritenute statisticamente significative) xp (1  p  k) (modello ridotto), si tratta di verificare l’ipotesi di decremento non significativo (ipotesi nulla) della somma dei residui al quadrato (RSS: Residual Sum of Squares) conseguente all’inserimento aggiuntivo di una o più ulteriori variabili esplicative (ulteriori covariate) xq (1  q  k-p) (modello esteso). In questo caso ponendo: xp+q = (xp, xq); RSS(xp) = (y-Xpp-OLS)’(y-Xpp-OLS); RSS(xp+q) = (y-Xp+q(p+q)-OLS)’(y-Xp+q(p+q)-OLS); si fa riferimento alla statistica: z = {[RSS(xp) - RSS(xp+q)]/q} / [RSS(xp+q)/(n-p-q)], che, sotto l’ipotesi di normalità, ha f.d. F di Snedecor con gradi di libertà q ed [n-(p+q)]. Si rigetta l’ipotesi nulla per valori di z maggiori del valore critico F(q,(n-p-q),(1-)), con usualmente =0.05, oppure con p-value minore di una soglia piccola prefissata (minore di ). Il test F permette di comparare modelli necessariamente nested.

Procedure operative per la selezione delle variabili: backward elimination, forward selection, stepwise selection. Dal test F suddetto, operando successivamente con q = 1, si ottengono le procedure di selezione seguenti: Backward Elimination; Forward Selection; Stepwise Selection. Vedi, ad esempio, Draper and Smith, Applied Regression Analysis, John Wiley & Sons, Inc.

Un criterio per l’eliminazione delle variabili esplicative ridondanti basato sui rapporti di determinazione tra variabili esplicative. In presenza di multicollinearità si può pensare di determinare le p variabili delle k variabili esplicative inizialmente considerate che più sono in grado di spiegare le singole rimanenti k-p variabili. Per ogni scelta di p variabili raccolte nel vettore xp, che, senza perdere in generalità, possiamo pensare siano le prime p variabili delle k considerate, si possono considerare i k-p rapporti di determinazione r2(xj,xp), ottenibili con j = p+1,…,k, per le singole rimanenti k-p variabili e fare corrispondere a tale scelta, delle possibili , il rapporto di determinazione minimo: Delle scelte possibili di p variabili, si sceglierà quella per la quale il rapporto di determinazione minimo è massimo.

Eliminazione di variabili via analisi delle componenti principali Delle k variabili esplicative, le prime componenti principali colgono la variabilità strutturale; le ultime componenti principali costituiscono perturbazione. Nella scelta delle variabili, si eliminano quelle variabili che sono più fortemente correlate (positivamente o negativamente) con le ultime componenti principali (quelle corrispondenti ad autovalori poco elevati). Si eliminano cioè le variabili che presentano i più elevati coefficienti in valore assoluto che non siano già state precedentemente eliminate fino alla riduzione desiderata del numero di variabili.