La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Analisi di: I JUST RAN FOUR MILLION REGRESSIONS Xavier X. Sala-i-Martin A cura di Carmelina Pranteda.

Presentazioni simili


Presentazione sul tema: "1 Analisi di: I JUST RAN FOUR MILLION REGRESSIONS Xavier X. Sala-i-Martin A cura di Carmelina Pranteda."— Transcript della presentazione:

1 1 Analisi di: I JUST RAN FOUR MILLION REGRESSIONS Xavier X. Sala-i-Martin A cura di Carmelina Pranteda

2 2 Obiettivo : dimostrare che abbandonando extreme bounds test non si ottiene il pessimistico risultato niente è robusto bensì si trova un numero sostanziale di variabili fortemente correlate con la crescita. Strumenti: Osservare la distribuzione intera anziché i due limiti estremi della distribuzione dello stimatore del coefficiente di una particolare variabile nella regressione di crescita.

3 3 Seguendo il lavoro di Barro (1991) la recente letteratura sulla crescita economica ha identificato un insieme di variabili correlate con il tasso di crescita economica. La metodologia di base consiste in regressioni cross sectional: dove γ è il vettore dei tassi di crescita economica x 1, x 2,.. x n sono i vettori delle variabili esplicative le quali variano nei diversi paper.

4 4 Problemi: 1. La teoria della crescita economica non dice chiaramente quali variabili sono importanti per la crescita. Ad esempio pressoché tutte le teorie di crescita dicono che il livello della tecnologia è un fattore importante della crescita. Teorie neoclassiche dicono che il livello A colpisce il tasso di crescita lungo una transizione verso steady state. 2. Anche se la teoria fosse stata chiara riguardo i fattori determinanti della crescita la stima di questi ultimi non sarebbe stata immediata. Ad esempio di fronte ad una teoria che vede il governo efficiente come importante fattore della crescita, non sarebbe chiaro come misurarlo.

5 5 Quali variabili sono realmente correlate con la crescita? Una risposta iniziale fu data da Levine e Renelt (1992) mediante lapplicazione del test extreme bounds di Leamer (1983, 1985) al fine didentificare relazioni robuste nella letteratura della crescita.

6 6 Leamers extreme bounds test Si ha un pool di N variabili identificate precedentemente come correlate alla crescita. Si stima la regressione: Dove Y è vettore delle variabili fisse (nel paper di Levine e Renelt queste variabili sono il livello iniziale del reddito, tasso di investimento, tariffa discrizione alla scuola secondaria e tasso di crescita della popolazione) Z è variabile dinteresse X j è vettore di trii di variabili presi dal pool di N variabili disponibili. Si stima questa regressione per M possibili combinazioni di Xj, trovando per ogni modello j la stima ß zj e la deviazione standard σ zj. Il limite estremo inferiore è definito come il più basso valore di β zj -2 σ zj e quello estremo superiore è definito essere il più alto valore di β zj +2 σ zj.

7 7 Questo test, per la variabile z, sostiene che al verificarsi di: 1. il limite estremo inferiore è negativo; 2. il limite estremo superiore è positivo; è possibile identificare tale variabile come non robusta. Conclusione di Levine e Renelt: Poche (o nessuna) variabili sono robuste in realtà. Una possibile ragione di tale affermazione risiede nel fatto che poche variabili possono essere considerate come correlate sistematicamente alla crescita.

8 8 Xavier X. Sala-i-Martin preferisce non utilizzare il test e guardare allintera distribuzione dello stimatore β z. Poiché non si conosce la forma esatta della distribuzione, egli opera sotto due assunzioni diverse. CASO 1: La distribuzione delle stime è una normale. Si calcola la stima della media di β z come media ponderata delle stime puntuali β zj : Dove i pesi sono proporzionali alle probabilità

9 9 Il motivo per il quale si usa questo schema di pesi è che si vuole dare più importanza alle regressioni che costituiscono con maggior probabilità il vero modello. Si calcola la varianza media come media ponderata delle variazioni stimate Dove i pesi sono dati dallequazione (5) Una volta note la media e la varianza della distribuzione di una normale si calcola CDF (funzione di distribuzione cumulativa) usando le tavole statistiche.

10 10 CASO II: La distribuzione delle stime non è una normale In questo caso lautore calcola CDF aggregata di β z come la media ponderata di tutte dove i pesi sono le probabilità, cioè

11 11 Potenziale problema con questo metodo: È possibile che la bontà di adattamento del modello j non costituisca un buon indicatore della probabilità che il modello sia vero. Questo può succedere quando alcune variabili esplicative sono endogene. In presenza di questo problema la media non ponderata di tutti i modelli è superiore alla media ponderata vista precedentemente. Perciò si utilizza come termine di paragone la media semplice di CDF dei modelli M :

12 12 Specificazione Xavier X. Sala-i-Martin utilizza un modello in cui sono presenti variabili fisse y, variabile dinteresse z ed il trio xj preso dal pool X di variabili rimanenti proposte in letteratura. Egli trova nella letteratura 63 variabili più il tasso di crescita del PIL. Nellarticolo fa notare che se avesse esaminato una variabile permettendo alle rimanenti di essere combinate in gruppi da sei (o gruppi da sette) allora avrebbe impiegato circa quattro anni (o ventinove anni) per valutare tutti i modelli. Perciò decise di seguire Levine e Renelt permettendo a tutti i modelli dincludere tre variabili fisse.

13 13 Dati Lautore prende in considerazione sessantatre variabili più il tasso di crescita del PIL pro-capite tra il 1960 e Inoltre sceglie tre variabili fisse le quali devono possedere delle proprietà: Essere ampiamente utilizzate in letteratura; Essere valutate allinizio del periodo 1960; Essere significative in tutte le regressioni effettuate in letteratura. Variabili fisse : Livello del reddito nel 1960; Vita attesa nel 1960; Tariffa discrizione alla scuola elementare nel 1960

14 14 Tasso dinvestimento medio? Linterpretazione della correlazione tra la crescita ed una variabile x differisce in funzione del fatto se il tasso dinvestimento è incluso o meno nella regressione. Nel primo caso se la variabile x è correlata con la crescita allora si pensa che la variabile colpisce il livello di efficienza nel senso che ha effetti sulla crescita oltre i suoi effetti sugli incentivi ad investire. Nel secondo caso se vi è correlazione allora non si sa se la variabile colpisce direttamente la crescita o attraverso gli incentivi per investire. Lautore effettua prima la regressione senza includere il tasso dinvestimento medio e dopo la ripete includendo il tasso come variabile fissa. Nella prima parte, trascurando il tasso dinvestimento si avranno 62 variabili di cui tre fisse. Per ciascuna variabile, si combinano le rimanenti 58 in set da 3 effettuando quindi per ogni variabile M=58!/(3!55!)=30,856

15 15

16 16 Risultati Le colonne (1) e (2) riportano i due limiti estremi in corrispondenza di ogni variabile dinteresse. Osservando le colonne si nota subito che per tutte le variabile (eccetto per una) il limite estremo inferiore è negativo e quello superiore è positivo quindi secondo il test, possono essere identificate come non robuste. Leccezione è la frazione della popolazione che segue la religione di Confucio. La colonna (3) riporta la frazione delle regressioni nella quale la variabile esaminata era significativamente diversa da zero ( definita come t-statistic con valore assoluto più grande di due). Nonostante la presenza di alcune variabili significative, il test diede a tutte le variabili la stessa etichetta, ossia non robuste. La colonna (4) riporta la stima della media ponderata di β z per ogni variabile z. Questa può essere utilizzata per controllare il segno della correlazione tra la variabile e la crescita. La colonna (6) riporta il livello di significatività sotto lassunzione di normalità mentre la colonna (7) non assume normalità. La correlazione tra le due colonne è 0,98 la quale può essere interpretata come unindicazione che la funzione di densità delle stime di β z è abbastanza vicina ad una normale.

17 17 Variabili che sono fortemente correlate con la crescita: 1. Variabili regionali: Latin American Dummy, Sub-Sahara African Dummy (correlati negativamente alla crescita) latitudine assoluta (la lontananza dallequatore è buona per la crescita). 2. Variabili politiche: Legge,libertà civili e diritti politici (buoni per la crescita) numero di rivoluzioni e colpi di Stato, guerra (cattive per la crescita). 3. Variabili religiose: Buddista,musulmano,(positiva) protestante e cattolico( negativo). Alcune variabili religiose tendono ad essere dummy regionali in quanto assumono valore zero per la maggiore parte dei paesi 4. Distorsioni e performance del mercato: distorsioni del tasso di cambio e la deviazione standard del Black Market Premium (entrambi negativi )

18 18 5. Tipo dinvestimento: La distinzione tra investimenti in attrezzature e non è stata enfatizzata recentemente. Entrambi sono positivi (il coefficiente dellinvestimento in non attrezzature è pari ad ¼ di quello dellinvestimento in attrezzature). 6. Settore della produzione primaria: è la frazione dei prodotti primari sul totale delle esportazioni ( correlazione negativa con la crescita) 7. Apertura: Numero di anni in cui uneconomia è stata aperta tra il 1950 e 1990 (positiva) 8. Tipo di organizzazione economica: La variabile grado di capitalizzazione dà ai paesi uno dei sei valori a seconda di quanto sia importante limpresa privata nellorganizzazione economica.(Per esempio allItalia dà valore 3). La colonna (4) suggerisce che più uneconomia è vicina alla forma di capitalismo più cresce.

19 19 Variabili che non sono fortemente correlate con la crescita Nessuna misura della spesa del governo sembra colpire la crescita in modo significativo. La percentuale dinflazione e la sua variazione non appaiono molto significative (secondo alcuni autori queste variabili colpiscono la crescita in modo non lineare). Altre variabili sono misure dell apertura e misure degli effetti di scala.

20 20 Analisi di variabili fisse Log GDP: Secondo il test di Leamer questa variabile è non robusta. Le colonne (6) (7) e (8) suggeriscono invece che è fortemente correlata con la crescita (nei tre casi il livello di significatività è più di 0,9999). Iscrizione nel 1960 Anche questa variabile è non robusta secondo il test mentre guardando le colonne (6) e (7) si comprende che è positivamente correlata con la crescita. Vita attesa Risultata anchessa non significativa secondo il test, in realtà è significativa nel 96% delle regressioni.

21 21

22 22 Introduzione del tasso dinvestimento medio come variabile fissa Le differenze, rispetto al caso precedente, imputabili allintroduzione del tasso dinvestimento medio sono: Alcune variabili che erano significative quando linvestimento era escluso ora diventano maggiormente significative: 1. Dummy guerra ; 2. Rivoluzioni e colpi di stato. Altre variabili diventano significative al contrario di prima: 1. età; 2. Investimenti in azione pubblica. Questa variabile è correlata negativamente con la crescita. Linvestimento pubblico è meno efficiente dellinvestimento privato cosi tenendo costante il globale una frazione più grande dinvestimento pubblico è cattiva. Altre non sono più significative dopo linclusione del tasso: 1. Investimento in non attrezzature.

23 23 Confronto tra i due articoli di Xavier X. Sala-i- Martin L articolo I JUST RAN FOUR MILLION REGRESSIONS è più informativo rispetto allaltro articolo, ossia I JUST RAN TWO MILLION REGRESSIONS in quanto prende in considerazione lintroduzione del tasso dinvestimento medio come variabile fissa nella regressione ed inoltre fornisce i risultati ottenuti per intero.

24 24 LANALISI DI: We Ran One Regression David F. Hendry and Hans-Martin Krolzig

25 25 Obiettivo: dimostrare che la valutazione di milioni di regressioni comporta uno spreco di risorse e di tempo sia per i lettori che per i ricercatori. In realtà è necessaria soltanto una regressione, cioè un modello senza restrizioni e generale. Il numero di regressioni della crescita è cresciuto più velocemente delle economie che loro analizzano. Letteralmente milioni di regressioni sono state valutate, ad esempio da Barro e Sala-i-Martin (1995), Levine e Renelt (1992), Sala-i-Martin (1997a, 1997b), Tempio (2000), Al di et di Fern´andez. (2001) e Hoover e Perez (2004).

26 26 I principi della selezione di un modello. Si considera un insieme di dati contenente n+1 variabili il quale definisce luniverso delle osservazioni disponibili. Un ricercatore interessato a modellare una variabile y t decide dincludere tutte le rimanenti n variabili z t come regressori. Con Le stime di β e σ 2 sono:

27 27 I quali sono stimatori non distorti dei loro rispettivi parametri ed hanno distribuzioni indipendenti: E Linferenza nella (1) sulla base della (3) e (4) è valida ma può essere inefficiente se molti dei coefficienti β sono zero nella popolazione. Si prende in considerazione uno stimatore di σ 2 non corretto per gradi di libertà:

28 28 Gli autori considerano tre approcci di selezione del modello: 1. criterio d informazione come quello proposto da Akaike (1973) (denotato AIC), Hannan-Quinn (denotato HQ) e Schwarz (denotato BIC); 2. setacciando attraverso tutti i possibili modelli; 3. applicando la procedura PcGets. Selezione del modello basato sul criterio dinformazione Prima si considera la selezione di un modello basata su un criterio d informazionie, ( il quale penalizza modelli con parametri aggiuntivi) come il più piccolo valore di AIC BIC, o HQ. Poi viene fatta una selezione asintoticamente efficiente (AIC) o consistente (BIC, HQ). Ognuno di questi tre criteri penalizza la log-verosimiglianza entro 2nf (T) / T per n parametri ed una dimensione del campione di T, dove:

29 29 La funzione di penalità riflette il costo di utilizzare un numero elevato di parametri. Si considera BIC: ci sono 2 n = M possibili modelli. Se n = 41 ( come in Hoover e Perez 1999) allora M = × il quale è rudemente due bilioni di possibili modelli. Hoover e Perez (2004) prendono n = 62 per T = 138, così M = 4.6 × (un miliardo di possibili modelli). Gli autori si pongono la seguente domanda: E linferenza statistica in grado di contestare la valutazione degli M modelli? La funzione di penalità, operando secondo lequazione (7) indirizza questo problema e lascia cadere da 1.15 a 0.03 per AIC; 2.4 a 0.06 per BIC; e 1.7 a 0.04 per HQ. Comunque, la dimensione del campione sembra troppo piccola per giustificare la selezione di un modello basata su tale criterio. Tuttavia, è possibile affermare che la valutazione di enormi numeri di regressioni non preclude una selezione consistente.

30 30 Setacciatura attraverso tutti i possibili modelli Si considera un ricercatore che cerca attraverso tutti M modelli quello che conferma punti di vista teorici o pregiudizi politici. Ci sono circa n/2 coefficienti in media in questi modelli, effettuando approssimativamente N = n2 n /2 test in totale. Poichè non c'è un legame perfetto fra la regione di confidenza e test allora per un dato livello di significatività α, usando una t- test basata sulla strategia di tenere/eliminare la variabile, αn regressori saranno trattenuti per caso nel modello finale. Ad esempio se α=0.025 allora per n=41 si è nel caso di un regressore mentre se α=0.05 per n=62 si tratta di tre regressori.

31 31 Gets-based selection Questo approccio consiste nel modellare automaticamente un dato econometrico quando l'equazione che si sta analizzando non è conosciuta a priori. The Properties of Automatic Gets Modelling David F. Hendry and Hans-Martin Krolzig October 2004 La teoria di selezione dei modelli pone elevate difficoltà: tutte le statistiche, utilizzate per la selezione dei modelli e la valutazione delle loro specificazioni, hanno distribuzioni, di solito, interdipendenti alterate da ogni decisione di modellazione. Fortunatamente, i recenti sviluppi nell'automazione del computer di algoritmi di selezione ha permesso di superare questo vecchio problema, permettendo studi operativi di alternative strategie: Hoover e Perez (1999) e Krolzig e Hendry (2001). Loro descrivono le strategie di selezione ed enfatizzano la distinzione tra i costi di inferenza i quali sono una conseguenza inevitabile del livello di significatività non nullo ed i costi di ricerca che sono aggiuntivi a quelli affrontati quando si inizia da un processo di generazione dei dati (DGP).

32 32 L'algoritmo di selezione PcGets ha quattro tappe di base: L esame della GUM: Formulazione del modello basandosi sulla teoria, l'evidenza precedente, e conoscenza istituzionale, Verifica del modello se cattura o meno le caratteristiche essenziali dei dati (la congruenza). il secondo è il processo di pre-ricerca: eliminazione delle variabili insignificanti per ridurre la complessità di ricerca.

33 33 il terzo è la procedura di ricerca di multi-percorso: controllo della validità di ogni riduzione, assicurando la congruenza del finale modello in particolare se ogni riduzione è accettabile e tutte le variabili rimanenti sono significative allora quel modello diviene una selezione finale, e la prossima ricerca di percorso comincia. Quando tutti i percorsi sono stati esplorati e tutti i modelli finali sono stati trovati, vengono esaminati ripetutamente fino ad arrivare ad una scelta unica ossia General unrestrected model la quarta è la valutazione di post-ricerca: Controllo dell'affidabilità della selezione. Molti cambiamenti di questo algoritmo di base sono stati effettuati da Hendry e Krolzig (2001), ad esempio alterarono leggermente il funzionamento del programma.

34 34 Se ci sono n regressori in (1), per un valore critico c α, per t-test allora αn regressori saranno trattenuti per caso in media. Se tutti i regressori fossero mutuamente ortogonali, allora le t-statistiche quadrate ed ordinate dalla GUM: basterebbero per la decisione di selezione dove

35 35 I modelli di crescita empirica: Caso: Hoover-Perez Una complicazione di questo contesto è limputazione multipla dei dati mancanti discussa in Hoover-Perez (2004) la quale richiede una strategia di selezione mista. Per ognuna delle cinque versioni del data set gli autori applicano PcGets per selezionare un lineare GUM. Questo consegna cinque distinte selezioni dalle quali loro formeranno linsieme di 24 variabili candidate. Successivamente considerano i cinque insiemi di dati come uno, valutando il modello ed applicando PcGets al fine di adottare la scelta finale. Loro effettuarono una selezione identica ad Hoover -Perez

36 36 La costanza del parametro e la normalità sono state accettate, ma c'era una considerevole eteroschedasticità a causa dell'accatastamento. Il risultato in (10) è identico a quello della procedura in Hoover e Perez (2004) nonostante si è utilizzato un livello di significatività del 2,5% piuttosto che il 5% da loro utilizzato ( il quale potrebbe aver trattenuto qualche altro effetto dellapproccio di accatastamento). Tuttavia, le incertezze calcolate in (10) differiscono leggermente da quelle riportate da Hoover-Perez, probabilmente a causa dellutilizzo di metodi diversi per occuparsi dei cinque insiemi di dati. In questo caso gli autori ripetono la selezione che usa i dati aggregati, applicando prima lapproccio PcGets e poi quello PcGive per correggere i valori critici ed ottenere precisamente la stessa specificazione come (10). La probabilità che nessun coefficiente sia per caso significativo date le 62 variabili candidate, per il criterio | t |> è: Così, non può essere precluso che tutte le variabili in (10) siano sinceramente ' significative. In generale si ha:

37 37 Se α=0.01 cosi c α=2,165 allora REVCOUP e PROT vengono eliminate ma la prima riga in (10) rimane quindi è piuttosto probabile che sia reale. Il processo di imputazione certamente incita comunque, errori di misurazione delle variabili. Questo influenzerebbe in maniera discendente i coefficienti, e così probabilmente si avrebbe deviazione discendente dei t-rapporti, conducendo a sotto-selezione. Al contrario., endogeneità delle variabili agirebbe nella direzione opposta. Caso: Fern´andez et al I test diagnostici non hanno rifiutato né la costanza né la normalità. C'è sovrapposizione considerevole con le scoperte in al di et di Fern´andez. (2001), ma gli autori non confermano alcuna delle variabili da loro richiesta. Forse la differenza più saliente è il grande numero di variabili selezionato per il sottoinsieme di paesi dove tutte le osservazioni sono disponibili per i 41 regressori. Questo potrebbe riflettere una differente fonte di distorsione della selezione ( ad esempio scelta delle osservazioni), grande endogeneità nel sub campione o limitazioni dellimputazione multipla.

38 38 Conclusioni: L'efficienza ottenibile dalle procedure automatiche, per ricercatori che desiderano intraprendere la selezione di un modello è potenzialmente enorme. Questi autori effettuarono una regressione di base per ogni insieme di dati. Questo si contrappone col milione di regressioni valutato da Sala-i-Martin (1997a, 1997b). Il punto principale è che quando il processo di generazione di dati è un caso speciale del modello generale postulato all'inizio ed approccio Gets è adottato, nonostante sia possibile effettuare un gran numero di specificazioni del modello, trovare che molte variabili significative siano dovute al caso,è improbabile. Si richiede la ripetizione di un algoritmo di selezione. I due punti principali del commento sono: il collaudo ripetuto è non molto dannoso; ed i metodi automatici possono eliminare quello che sarebbe altrimenti calcolo intollerabile.


Scaricare ppt "1 Analisi di: I JUST RAN FOUR MILLION REGRESSIONS Xavier X. Sala-i-Martin A cura di Carmelina Pranteda."

Presentazioni simili


Annunci Google