Dipartimento di SEA Università degli Studi di Cagliari ___________________________ Elementi di econometria per gli studenti della specialistica EM Prof. Paolo Mattana
TEORIA DELLA REGRESSIONE Obiettivo importante: scoprire l'esistenza di relazioni tra le variabili Abbiamo già visto l'analisi di correlazione: solo relazioni lineari; solo intensità della relazione
CHE COS’E’ L’ECONOMETRIA? Definizione di Samuelson (1954): L’econometria può essere definita come l’applicazione della statistica matematica ai dati economici per ottenere il supporto empirico ai modelli costruiti nell’ambito della teoria economica e per ottenere stime numeriche. In pratica nasce dall’integrazione tra la teoria economica, l’economia matematica e la statistica allo scopo di: identificare valori numerici per i parametri delle relazioni economiche (elasticità, propensioni, valori marginali) verificare la validità delle teorie economiche proposte
PERCHE’ STUDIARE L’ECONOMETRIA? Per confutare/confermare teorie economiche Per trovare veste numerica ai parametri Per metterci in grado di capire i lavori empirici Per metterci in grado di fare valutazioni autonome della realtà Per studiare relazioni esistenti fra comportamenti di soggetti economici (ad es. imprese) e risultati
CENNI SUL METODO DELL’ECONOMETRIA Individuazione di una asserzione teorica di interesse Creazione del modello matematico Specificazione della forma statistica Raccolta dati Stima Test delle ipotesi Uso del modello per scopi professionali/conoscitivi o di politica economica
INDIVIDUAZIONE DI UN’ASSERZIONE TEORICA Es: da cosa dipende la domanda di benzina? Teoria economica: la domanda è influenzata: negativamente dal prezzo (P) positivamente dal reddito (R) dai rapporti di sostituibilità/complementarietà (G) dalle possibili innovazioni tecniche (T) Contesto multivariato: siamo interessati ai seguenti aspetti Effetti prodotti dalle variazioni di prezzo Effetti prodotti dalle altre variabili.
CREAZIONE DI UN MODELLO MATEMATICO L’economia matematica si incarica di dare veste funzionale alla relazione teorica di interesse Es. (nel caso di relazioni multivariate individuate dalla teoria) Lineare Log lineare Altre forme più complesse?
SPECIFICAZIONE FORMA STATISTICA/ECONOMETRICA La relazione matematica è esatta (mondo deterministico) Il mondo reale implica errori Non riusciamo a confortare la teoria con una relazione esatta. Esiste però la possibilità di considerare la relazione dal punto di vista statistico/econometrico
SPECIFICAZIONE FORMA STATISTICA/ECONOMETRICA Si aggiunga perciò un termine stocastico di errore Nella nuova formulazione, i parametri beta costituiscono l’oggetto dell’analisi; se i parametri sono diversi da zero trovo conferma alla teoria u è il termine stocastico di errore
RACCOLTA DATI I dati possono avere la forma Cross-section Osservazioni relative ad una particolare unità economica (un consumatore, uno stato, un produttore) in un punto temporale. Come ci immaginiamo una cross-section? Es. di relazioni bivariate fra dati cross-section: PIL dei paesi UE / investimenti (anno 2000); Domanda Consumatori / reddito disponibile (1995); Etc….
RACCOLTA DATI Serie temporali Abbiamo, in questo caso, osservazioni relative all’evoluzione temporale della stessa unità economica (insieme di consumatori, stato, insieme di produttori …) Possono essere osservazioni annuali trimestrali mensili etc. Es. Pil italiano dal 1970 al 2007 (proviamo a scaricare le serie da istat.it
STIMA – TIPI DI ANALISI Analisi univariata Valutazione di medie, varianze, altri momenti….. Analisi bivariata Analisi di correlazione solo relazioni lineari solo intensità della relazione Analisi di regressione natura della relazione (es. causalità) forma della relazione (es. forma funzionale) relazioni non-lineari contesti multivariati
TEST DELLE IPOTESI - CONFRONTO CON I DATI Le analisi forniscono “risposte”. Impareremo a valutare queste risposte con procedure ben precise (test delle ipotesi). Tali risposte possono Confermare la teoria Non confermare la teoria Dare indicazioni numeriche Nel caso in cui non si trovi conferma della teoria è sbagliata la teoria? la trasposizione empirica è viziata da qualche difetto?
USO DEL MODELLO PER FINI PROFESSIONALI O … I modelli econometrici possono essere molto utili per fini professionali stima di funzioni di domanda e dei loro parametri stima di funzioni di costo e loro parametri per noi anche: relazione fra misure di concentrazione e profitti/occupazione relazione fra misure di diversificazione e profitti/occupazione relazione fra attività di innovazione e profitti/occupazione …. per avere indicazioni di politica economica stima di funzioni di consumo modello econometrico della Banca d’Italia previsioni macroeconomiche …
TEORIA DELLA REGRESSIONE Con l'analisi di regressione abbiamo la possibilità di studiare la natura della relazione fra le variabili e la forma che essa assume Prime limitazioni: Consideriamo solo due variabili (vedremo successivamente l'estensione al caso n-dimensionale); Il modello di regressione semplice prevede l'esistenza di una variabile endogena e di una variabile esogena; Inizieremo con modelli lineari.
TEORIA DELLA REGRESSIONE Ricordiamoci sempre che la retta di regressione vera (quella della popolazione) è sconosciuta e tale resterà Obiettivo: "immaginarci" la retta vera a partire dalle informazioni campionarie. Un metodo a mia disposizione è quello di "adattare" una retta alla nuvola di punti che rappresenta il mio campione e sperare di ottenere una stima (predizione) accettabile della retta vera. NB: Si parla di: disturbi quando si ragiona sulla retta “vera” errori o residui quando si ragiona sulla retta stimata
TEORIA DELLA REGRESSIONE Quale retta scelgo? Criterio di scelta deviazioni dalla media? modulo delle deviazioni dalla media? deviazioni al quadrato? Cosa implica la scelta del criterio?
TEORIA DELLA REGRESSIONE
METODO OLS (MINIMI QUADRATI ORDINARI Un criterio logico per trovare una retta che attraversi una nuvola di punti è quello che "in qualche modo" imponga una riduzione degli scarti tra osservazioni e retta stimata (residui). NB: La retta vera è sconosciuta. Devo trovare un sostituto attendibile Criterio Minimizzare la somma degli scarti quadratici dalla retta (RSS)
TEORIA DELLA REGRESSIONE OLS sceglie alfa e beta in modo da minimizzare S = RSS Minimizzazione di una funzione rispetto a due variabili
TEORIA DELLA REGRESSIONE Primo elemento Secondo elemento
TEORIA DELLA REGRESSIONE Poiché sono conosciuti, le uniche incognite sono Mettendo a sistema ottengo le stime OLS di Dove: è la media di Y è la media di X
TEORIA DELLA REGRESSIONE NB:
TEORIA DELLA REGRESSIONE
TEORIA DELLA REGRESSIONE
TEORIA DELLA REGRESSIONE Quindi posso scrivere:
TEORIA DELLA REGRESSIONE Condizioni del secondo ordine per il metodo OLS
TEORIA DELLA REGRESSIONE La regressione è significativa? L’equazione è stata ricavata da un campione e non dalla popolazione 1. Test t sull’errore standard della pendenza b: Ipotesi nulla = la pendenza è uguale a 0; 2. Analisi della varianza: si esamina il rapporto tra varianza spiegata dalla regressione e varianza residua.
L’INFERENZA STATISTICA La t è una FDP che presenta una forma è schiacciata rispetto alla Z E’ stata calcolata dal matematico inglese Gosset (1908), che la pubblicò sotto lo pseudonimo di Student La sua forma esatta dipende dai gradi di libertà: GdL = n – parametri da stimare dove n è la dimensione del campione I valori della t sono tabulati (oppure si può usare la rete…)
DISTRIBUZIONE t Per campioni molto grandi, il valore di s oscilla poco intorno al suo valore medio . Quindi per valori molto grandi la distribuzione t si avvicina molto a quella di Z ed arriva a coincidere per infiniti gradi di libertà. Per piccoli campioni le differenze sono notevoli, data l’oscillazione casuale di s intorno a NB: In generale, la distribuzione t è rilevante ogniqualvolta si abbia: .
DISTRIBUZIONE t Parte della distribuzione che cade all’esterno dei valori tabulati 0.5 0.1 0.05 0.01 1 1.0 6.3 12.7 63.7 2 .81 2.9 4.3 9.9 Gradi di libertà … … … … … 13 .69 1.8 2.2 3.0 14 .69 1.7 2.15 3.0 15 etc Valore critico di t per df=14 (con valore critico al 5%)
IL COEFFICIENTE DI DETERMINAZIONE Principio base “Residui grandi implicano un “fit” scadente” Da questo principio posso costruire un indice di “varianza spiegata” In generale ho per tutte le osservazioni
IL COEFFICIENTE DI DETERMINAZIONE
IL COEFFICIENTE DI DETERMINAZIONE Questo darà vero anche se sommo tutte le osservazioni NB: La media può essere interpretata come il valore di Yi senza l’influenza dei regressori
IL COEFFICIENTE DI DETERMINAZIONE La relazione è valida anche per i quadrati In quanto
IL COEFFICIENTE DI DETERMINAZIONE Infatti =0 =0 =0 Definizioni SST = Total Sum of Squares SSE = Explained Sum of Squares SSR = Residual Sum of Squares
IL COEFFICIENTE DI DETERMINAZIONE Definizione: Il coefficiente di determinazione R2 misura la quota parte della varianza della variabile dipendente spiegata dalla regressione.
IL MODELLO MULTIVARIATO Finora: Abbiamo trovato uno stimatore per la relazione fra X e Y; Abbiamo sviluppato regole decisionali che permettono di usare lo stimatore per “testare” ipotesi sulla relazione tra X e Y; Ma abbiamo sempre preso in considerazione una sola X (ed un solo beta, coefficiente angolare) Il mondo è spesso più complicato!! Cosa succede se Y ha piu’ di una “causa”?
IL MODELLO MULTIVARIATO L’equazione da stimare diventa (in notazione scalare): dove le Xj sono le variabili indipendenti (o regressori) e i beta sono parametri (sconosciuti) oggetto di stima. La logica OLS è la stessa NB: qual è ora l’interpretazione dei beta? Possono essere visti come derivate parziali: misurano cioè l’effetto sulla variabile dipendente di variazioni delle relative variabili indipendenti (ceteris paribus).
IL MODELLO MULTIVARIATO Ciascun elemento del vettore beta è una pendenza associata ad una X. Esattamente come in un contesto bivariato, tranne per il fatto che 1 (generico) rappresenta la variazione attesa di Y per una unità di incremento di X1, (tenendo costanti X2…Xn); Quindi il coefficiente generico i rappresenta l’effetto diretto di Xi su Y (controllando per le diverse altre cause)
IL MODELLO CLASSICO DI REGRESSIONE LINEARE Svilupperemo ora il modello classico di regressione lineare Distingueremo le assunzioni sulla variabile indipendente e le assunzioni sui residui. Assunzioni sulla variabile indipendente
IL MODELLO CLASSICO DI REGRESSIONE LINEARE Assunzioni sui residui IIA: IIB = costante IIC IID
IL MODELLO CLASSICO DI REGRESSIONE LINEARE in media, la linea di regressione sia corretta Y X X1 X2 X3
IL MODELLO CLASSICO DI REGRESSIONE LINEARE varianza costante dei disturbi (omoschedasticità) PDF di εi Y X1 X2 X3 X
IL MODELLO CLASSICO DI REGRESSIONE LINEARE varianza non costante dei disturbi (eteroschedasticità) PDF di εi Y X1 X2 X3 X
IL MODELLO CLASSICO DI REGRESSIONE LINEARE Lo scatter (X, Residui) spesso produce una nuvola a “ventaglio” Residui X
IL MODELLO CLASSICO DI REGRESSIONE LINEARE IIC Corr. Negativa Corr. Positiva Assenza Corr.
IL MODELLO CLASSICO DI REGRESSIONE LINEARE Esempio di correlazione seriale positiva nei residui Residui t
PROPRIETA’ DEGLI STIMATORI OLS Le proprietà degli stimatori sono raggruppabili in due categorie: 1. Small sample properties; 2. Large sample properties Ricordiamo la definizione di stimatore?
PROPRIETA’ DEGLI STIMATORI OLS Correttezza Definizioni correlate Errore campionario: Abbiamo incontrato esempi di stimatori distorti. Ad es. tende a sottostimare bisogna correggere per n - 1
PROPRIETA’ DEGLI STIMATORI OLS Correttezza: Uno stimatore corretto è centrato sul valore “vero” della popolazione
PROPRIETA’ DEGLI STIMATORI OLS Esempio di stimatore distorto
PROPRIETA’ DEGLI STIMATORI OLS Efficienza Varianza minima Anche quando uno stimatore è non distorto esiste sempre la probabilità di avere una realizzazione campionaria molto lontana dalla media vera della popolazione. Tale probabilità sarà tanto più bassa quanto più lo stimatore è efficiente. N.B. La proprietà di efficienza è definita su uno stimatore rispetto a tutti gli altri. Lo stimatore corretto che presenta varianza minima è Best Unbiased Estimator
PROPRIETA’ DEGLI STIMATORI OLS Lo stimatore con distribuzione campionaria A non presenta varianza minima B A
PROPRIETA’ DEGLI STIMATORI OLS Esercizio 5.1 (Thomas) Una variabile casuale X ha media μ = 70 e varianza Per stimare μ estraiamo un campione casuale di dimensione n = 20 3 stimatori sono proposti: 1. 2. 3.
PROPRIETA’ DEGLI STIMATORI OLS Dimostrare che a, b e c sono distorti Calcolare la distorsione Calcolare la varianza. Quale stimatore presenta var inferiore? i.
PROPRIETA’ DEGLI STIMATORI OLS ii. Bias nel caso dello stimatore a: Bias nel caso dello stimatore b: Bias nel caso dello stimatore c: (bias maggiore)
PROPRIETA’ DEGLI STIMATORI OLS iii.
PROPRIETA’ DEGLI STIMATORI OLS Proviamo ora a studiare le proprietà degli stimatori OLS quando le assunzioni del modello classico sono rispettate. Si parta dalla constatazione che: In quanto
PROPRIETA’ DEGLI STIMATORI OLS Possiamo anche scrivere dove è la parte deterministica
PROPRIETA’ DEGLI STIMATORI OLS Linearità Il modello che stiamo studiando è lineare in Y lineare in Y In quanto i termini sono costanti (X non è stocastica) Lo stesso si può dimostrare per
PROPRIETA’ DEGLI STIMATORI OLS Correttezza: lo stimatore OLS è corretto Punto di partenza
PROPRIETA’ DEGLI STIMATORI OLS Dalla forma:
PROPRIETA’ DEGLI STIMATORI OLS Efficienza: lo stimatore OLS presenta varianza minima Uno stimatore è efficiente quando presenta la varianza minima tra tutti gli stimatori (ci si riferisce alla classe degli stimatori lineari ) Teorema di Gauss – Markov Per il modello di regressione lineare, sotto le assunzioni (IIA – IID), gli stimatori OLS hanno la varianza più piccola tra tutti gli stimatori lineari e corretti (unbiased). Lo stimatore OLS è BLUE.
PROPRIETA’ DEGLI STIMATORI OLS La distribuzione campionaria degli stimatori OLS Quale sarà la distribuzione campionaria degli stimatori OLS? Sappiamo che: Ne deriva che: è la somma di una cost. e di una VC distribuita normalmente Quindi:
PROPRIETA’ DEGLI STIMATORI OLS Ora, poiché sono funzioni lineari di Y, ne deriviamo che, in infiniti campioni
PROPRIETA’ DEGLI STIMATORI OLS Come sono fatti e ? Per quanto riguarda sappiamo che Da cui si ricava Standard error di
PROPRIETA’ DEGLI STIMATORI OLS Senza dimostrazione diamo anche:
PROPRIETA’ DEGLI STIMATORI OLS Nelle regressioni si usa il test – t di significatività statistica per verificare l’esistenza di effetti lineari di una variabile indipendente sulla variabile dipendente è il coefficiente di regressione campionaria, SE(βj) è lo standard error della distribuzione campionaria di βj
PROPRIETA’ DEGLI STIMATORI OLS Test su due code Test su una coda Come mai si usa la t e non la Z standardizzata? NB: La varianza della popolazione è sconosciuta; si approssima con la varianza (corretta) campionaria…
LA “TRINITA’ DELL’APPROCCIO CLASSICO AL TEST La gran parte dei test (sia che usino il principio LR, Wald o LM) generano statistiche da semplici regressioni ausiliarie (OLS). Solo i test che usano il principio LR richiedono la stima di entrambi i modelli (ristretto e non ristretto). Wald richiede solo stima modello ristretto LM richiede solo stima modello non ristretto
LA “TRINITA’ DELL’APPROCCIO CLASSICO AL TEST Basi di partenza: Esistono alcuni risultati standard sulle proprietà distributive delle stime ottenute con metodi MLE tali risultati possono utilizzarsi per costruire test asintotici (parametrici/non parametrici) Il passaggio da MLE a OLS (lo stimatore che conosciamo) è semplice considerando che (sotto l’ipotesi di normalità degli residui), la funzione di verosimiglianza è proporzionale a RSS
LA “TRINITA’ DELL’APPROCCIO CLASSICO AL TEST Lo stimatore MLE del vettore di parametri sarà: Sotto H0: MLE = arg MAX L( ) s.t. R = q Sotto H1: MLE = arg MAX L( ) Come selezionare un test desiderabile? Possiamo sfruttare 3 principi: LR, Wald e LM
LA “TRINITA’ DELL’APPROCCIO CLASSICO AL TEST RELAZIONE FRA I TRE PRINCIPI Le tre statistiche misurano la “distanza” secondo tre diversi criteri
LA DIAGNOSTICA DI ROUTINE TEST JARQUE-BERA Statistica per testare l’ipotesi nulla di normalità dei residui. Sfrutta la differenza tra la statistica relativa ad una serie specifica e i valori che si dovrebbero determinare sotto una distribuzione normale. La statistica si computa come segue: dove S è l’indice di simmetria, K il kurtosis e k il numero di coefficienti stimati. Sotto H0, JB si distribuisce come un χ2 con 2 gradi di libertà
LA DIAGNOSTICA DI ROUTINE TEST DI WHITE Statistica LM utile per testare la presenza di Eteroschedasticità di qualche forma (sconosciuta). Si parta dal modello generico e si studi la regressione ausiliaria: Test sull’ipotesi congiunta sotto H0
LA DIAGNOSTICA DI ROUTINE TEST DI WHITE La statistica si distribuisce come un χ2 con r (restrizioni) gradi di libertà. In Eviews esiste anche la versione semplificata senza “cross-terms” In presenza di Heteroschedasticità uso la stima GLS. In Eviews trovate le stime Heteroschedasticity-consistent
LA DIAGNOSTICA DI ROUTINE RESET TEST (REGRESSION SPECIFICATION ERROR TEST) RAMSEY Si prenda in considerazione il modello generale: Il RESET test ipotizza l’esistenza di altre variabili (generiche) Se suppongo che la matrice Z sia composta di quadrati e altre potenze della Y avrò un test di corretta specificazione del modello
LA DIAGNOSTICA DI ROUTINE RESET TEST (REGRESSION SPECIFICATION ERROR TEST) RAMSEY Quindi il RESET è un test generale per i seguenti problemi: · Omitted variables; X does not include all relevant variables. · Incorrect functional form; some or all of the variables in Y and X should be transformed to logs, powers, reciprocals, or in some other way. · Correlation between X and e, which may be caused by measurement error in X, simultaneous equation considerations, combination of lagged y values and serially correlated disturbances.
LA DIAGNOSTICA DI ROUTINE TEST BREUSCH-GODFREY (LM) DI CORRELAZIONE SERIALE Test condotto con regressione ausiliaria; Bisogna specificare l’ordine di correlazione (si fissa un numero “sufficientemente elevato”; E’ valido anche in presenza di variabili dipendenti ritardate;
LA DIAGNOSTICA DI ROUTINE TEST BREUSCH-GODFREY (LM) DI CORRELAZIONE SERIALE Steps: Si conduca la regressione Si salvino i residui ; Si conduca la regressione ausiliaria: Il test è su un’ipotesi congiunta sui gamma…