La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

IDENTIFICAZIONE Quale è il problema ? La teoria suggerisce due (o più) modelli interpretativi della realtà, diversi tra loro (teoria A e teoria B). Ma.

Presentazioni simili


Presentazione sul tema: "IDENTIFICAZIONE Quale è il problema ? La teoria suggerisce due (o più) modelli interpretativi della realtà, diversi tra loro (teoria A e teoria B). Ma."— Transcript della presentazione:

1 IDENTIFICAZIONE Quale è il problema ? La teoria suggerisce due (o più) modelli interpretativi della realtà, diversi tra loro (teoria A e teoria B). Ma a livello di ciò che è osservabile, non ci sono differenze. E allora come si fa a dire che una delle due teorie è quella “giusta” e l’altra sbagliata ? Non si può..... UN ESEMPIO (tra mille possibili): Il reddito individuale dipende dal livello di istruzione ? oppure è il livello di istruzione acquisito che dipende dal reddito ? Come vedremo qui di seguito, a questo quesito si può rispondere solo in parte.

2 Identificazione Esempio 1: la relazione tra scolarità e reddito. Supponiamo di disporre di un campione casuale di osservazioni relative a giovani ventenni, a cui sono state chieste informazioni sul loro livello di scolarità (S) e sul proprio reddito (R). Ci si chiede se esista una relazione causale tra S e R. In prima istanza si può supporre che a maggiore scolarità (causa) corrisponda maggiore reddito (effetto), e cioè, per l’i-mo individuo R(i) = a + b S(i) + u(i) b > 0 Ma a ben vedere è possibile che valga anche una relazione di causa-effetto in senso contrario: chi ha (avuto) maggiore disponibilità di reddito, ha (avuto) più possibilità di completare un iter scolastico. E cioè: S(i) = c + d R(i) + v(i) d > 0 Le osservazioni campionarie si disporranno nello spazio R-S più o meno nel seguente modo:

3 Così “vediamo” le osservazioni campionarie: al crescere di R, cresce anche S….. ….ma queste osservazioni potrebbero essere “generate” sia dalla relazione fuchsia (che “spiega” la scolarità con il reddito), sia da quella bleu, che “spiega” il reddito per mezzo della scolarità. Come si fa a stimare i parametri dell’una e/o dell’altra relazione se ciò che osserviamo è compatibile con ambedue le relazioni ? Abbiamo un problema di IDENTIFICAZIONE

4 In un caso come questo (sia var(u) che var(v) sono relativamente “grandi”), non è possibile identificare alcunchè. Qualsiasi stima potrebbe riflettere l’una o l’altra relazione. In questo caso, invece, la situazione è diversa: var (u) << var (v) Ciò che osserviamo è contenuto nel romboide stretto. Se stimiamo “identifichiamo” qualcosa di molto simile alla relazione R = a + bS. Non certo alla S = c + d R. L’area giallina rappresenta ciò che è osservabile se supponiamo che nel campione entrino osservazioni comprese entro +/- 2 deviazioni standard per ciascuna delle due variabili R e S.

5 Se il livello di scolarità S dipende anche – positivamente - da quello dei genitori (G)), il modello diventa così: R(i) = a + b S(i) + u(i) S(i) = c + d R(i) + e G(i) + v(i) e non vi è dubbio che G sia una variabile esogena, non determinata all’interno del modello. Se G varia - e con G si sposta il livello di scolarità S - è possibile “identificare” la relazione che spiega R (reddito) in funzione di S (scolarità). Introducendo delle informazioni a priori, nel caso specifico una variabile esogena nell’equazione della scolarità, otteniamo l’identificabilità della equazione del reddito. Anche nel caso precedente, si otteneva l’identificabilità (parziale) del modello, con informazioni a priori sull’ordine di grandezza delle varianze dei residui nelle due equazioni del modello. UN’ALTRA POSSIBILITA’ DI IDENTIFICAZIONE

6 Consideriamo il problema dell’identificazione sotto un altro aspetto, che ci porterà, tuttavia, alle stesse conclusioni. Il modello “in forma strutturale” è quello di prima, così come ce lo suggerisce la teoria: il reddito individuale dipende dal livello di scolarità, ma è anche vero che la scolarità dipende dal reddito, e anche dalla scolarità dei genitori. Lo avevamo scritto come un sistema simultaneo di due equazioni, una per ciascuna variabile endogena R e S (ambedue determinateall’interno del modello). La G è invece esogena. R(i) = a + b S(i) + u(i) S(i) = c + d R(i) + e G(i) + v(i) Conviene – per più semplicità – scrivere le variabili in termini di scarti dalle loro medie. In tal modo si eliminano le costanti (a) e (c). Tralasciamo anche gli indici. 1) r = b s + u 2) s = d r + e g + v Se dovessimo stimare i parametri (b, d, e) di questo modello, avremmo subito il problema della correlazione tra regressori e residui. Infatti s è endogena nella eq. (1), e r lo è nella (2). Uno shock nei residui u si trasmette a r nella (1), e da r si trasmette a s nella (2). Quindi E (u * s) =/= 0.

7 Nella forma ridotta il problema della stima non dovrebbe più sussistere perché a destra di ogni equazione ci sono solo elementi esogeni. Quindi non c’ è correlazione tra l’unico regressore (g) – la sola variabile esogena che compare nel modello strutturale - e residui (combinazioni lineari di u e v). Proviamo a immaginare di stimare separatamente le due equazioni, cominciando dalla prima, che possiamo riscrivere: r = α g + w dove α = [ b e / (1 – d b)] ; w = residui = [1 / (1 – d b)] u + [b / (1 – d b)] v Da questa stimeremo α (nonché la varianza dei residui w). Una volta ottenuto lo stimatore α^ (a minimi quadrati), vediamo se, partendo da questo stimatore, possiamo ricavare uno stimatore (consistente) anche per b (il parametro che compare nella equazione (1) del modello strutturale, e che – abbiamo visto prima – non è altrimenti identificabile). FORMA RIDOTTA E’ la soluzione algebrica del modello in forma strutturale. A sinistra ci sono le due endogene: r e s. A destra solo elementi esogeni: la variabile g; i residui u e v. I parametri del modello (b,d,e), sono scritti in maiuscolo (B, D, E) solo perché si vedano meglio.

8 Scriviamo la seguente equazione [3]α^ = [ b^ e / (1 – d b^)] la cui unica incognita è b^. Perché non consideriamo incognite anche gli altri due parametri (e, d) ? Perché “appartengono” all’altra equazione (2), e quindi possiamo supporre che ci siano dati. La [3] può essere risolta e ci fornisce una soluzione unica per b^ b^ = α^ / (e + α^ d ) b^ così ottenuto è uno stimatore consistente di b. Perché solo consistente e non anche “corretto” ? Essendo b^ una funzione non lineare di α^ (questo sì anche corretto), si può solo dimostrare che plim b^ = b. Passiamo ora alla seconda equazione del sistema (1) – (2): s = β g + z dove β = [e / (1 – d b)]; z = residui = [d /(1 – db)] u + [1 / (1 – db)] v Procediamo come prima. Stimiamo β^ a minimi quadrati, ponendoci come obiettivo quello di ottenere da quì stime dei parametri (e, d) che compaiono nella equazione (2). E – come prima – supporremo di avere come dato b che appartiene alla (1). Se scriviamo β ^ = [e^ / (1 – d^ b) ci accorgiamo subito che c’è un problema. Anche qui abbiamo UNA sola equazione, ma con DUE incognite (e^, d^). Non c’è una soluzione unica per (e^, d^); ci sono infinite soluzioni. Non possiamo stimare (e, d) neanche per questa via. Il problema della identificazione salta fuori anche se passiamo per la forma ridotta !

9 Se nel modello in forma strutturale (1) – (2) non comparisse la variabile esogena g - il chè equivale a dire che il parametro e = 0 - la forma ridotta si presenterebbe senza regressori, con solo residui a destra. Non sarebbe quindi possibile stimare né b né d passando attraverso la forma ridotta. Il modello sarebbe tutto non identificabile. E se invece il modello strutturale fosse così: (4)R(i) = a + b S(i) + f X(i) + u(i) (5)S(i) = c + d R(i) + e G(i) + v(i) con una variabile esogena in più anche nell’equazione di R (per esempio X = patrimonio familiare) ? La forma ridotta sarà di questo tipo (scrivendo le variabili in scarti dalla media): r = θ X + λ g + residui (i) s = ρ X + σ g + residui (ii) con tutti i parametri della forma ridotta esprimibili in funzione di quelli del modello strutturale (b, d, f, e), nonché dei residui (i) e (ii). Una volta stimati a M.Q. (Θ^, λ^, ρ^, σ^) avremo QUATTRO equazioni in quattro incognite (b, d, e, f), che ammetteranno una soluzione unica (ancorchè non lineare) e il modello (4) – (5) risulta identificabile. αθλρσβπ

10 Pannello I – ogni osservazione quantità- prezzo corrisponde all’equilibrio (p, q) che ogni coppia di compratori-venditori trovano lungo la rispettiva curva di domanda e di offerta Pannello II - in un mercato coesistono tanti compratori e tanti venditori. Ciascuno ha la sua curva di domanda e di offerta. Supponiamo che tutti / o la maggior parte degli spostamenti delle curve di domanda e offerta siano contenuti nella zona in giallo (la cui ampiezza dipende dalla variabilità intorno alle due curve). Ogni punto all’interno del romboide giallo corrisponde all’incrocio tra una curva di domanda e una di offerta (e cioè denota una transazione avvenuta). Le osservazioni (coppie (p,q) ) sono tutte comprese nella zona gialla. Se si regredisce q = f(p) può venirne fuori qualsiasi cosa, che non rappresenta né la curva di domanda, né quella di offerta, ma un miscuglio delle due. Pannello III – L’offerta varia anche con l’esito del raccolto (esogeno): buono, medio, cattivo. Le intersezioni tra domanda e offerta sono rappresentabili dalle zone bleu. Le osservazioni consentono di identificare la curva di domanda. Non quella di offerta. IDENTIFICAZIONE: modello di domanda e offerta

11 REGOLA GENERALE (condizione necessaria, ma non sufficiente per la identificabilità di ogni equazione di un modello strutturale) K** >/= G* -1 dove K = K* + K** = numero di variabili esogene nel modello; K* esogene incluse nell’equazione da identificare; K** escluse; G = G* + G** = numero di endogene nel modello; G* endogene incluse nell’equazione da identificare; G** escluse. Nell’esempio (1) - (2) vediamo Equazione (1)  K** = 1 (la g); G* = 2 (r, s); 1 = 2 – 1 = 1  identificata Equazione (2)  K**= 0; G* = 2 (r, s); 0 < 2 -1 = 1  non identificata. Nell’esempio (4) – (5) vediamo Equazione (4)  K** = 1 (la G); G*= 2 (le R, S); 1 = 2-1 = 1  identificata Equazione (5)  K** = 1 (la X); G*= 2 (le R, S); 1 = 2-1 = 1  identificata

12 Conseguenze pratiche della regola generale: La praticaccia è la seguente: introdurre un “buon numero” di variabili esogene nel modello, in modo che quelle che compaiono in una equazione non compaiano nelle altre. (*) In questo modo K** sarà sempre “abbastanza grande” per soddisfare la condizione necessaria per l’identificazione. Il tutto da fare con molto “granu salis”: (1) le esogene da includere devono essere veramente rilevanti per contribuire a spiegare la variabile endogena che si sta trattando. Se non lo fossero, il loro potere esplicativo è zero, e quindi è come non metterle; (2) devono inoltre avere sufficiente variabilità. Se non ne avessero abbastanza, non servono. Guardate le figure relative ai modelli reddito-scolarità e/o domanda-offerta per rendervene conto. (*) In letteratura si trova a volte scritto “we build a generous model”, intendendo con “generous” che vi siano incluse un bel numero (generoso) di variabili esogene.

13 STIMA DI UN MODELLO IDENTIFICABILE Abbiamo appurato che nel modello (4)R(i) = a + b S(i) + f X(i) + u(i) (5)S(i) = c + d R(i) + e G(i) + v(i) ambedue le equazioni sono identificabili. Come conviene stimarle ? Una strada percorribile è quella di stimare in due stadi: prima attraverso la forma ridotta, per poi recuperare stimatori consistenti dei parametri (b, d, e, f) come spiegato con l’equazione (3). Un’altra strada è quella di stimarli direttamente, sapendo che esiste un problema di correlazione tra regressori e residui - (S, u) nella (4); (R, v) nella (5). Come si aggira il problema ? Una via è quella di “strumentare” il regressore endogeno S nella (4) e R nella (5). Le variabili strumentali disponibili sono X e G, ambedue esogene (quindi incorrelate con i residui), e presumibilmente sufficientemente correlate con i regressori S e R. Quale delle due usare ? Il problema si pone davvero perché, ovviamente, si otterranno stime diverse per b e per d a seconda della nostra scelta. Un’altra possibilità è quella di usare una stima a MINIMI QUADRATI A DUE STADI (TSLS = two-stage least squares).

14 MINIMI QUADRATI A DUE STADI (TSLS) Anche questa è una stima a variabili strumentali che si svolge in due stadi. L’idea è semplice: si costruisce una variabile strumentale più adatta e la si applica. STADIO1 - Per ciascun regressore endogeno - ad esempio S nella (4) – se ne stima a M.Q. la forma ridotta usando come regressori tutte le variabili esogene presenti nel modello: S = θ + λ G + ρ X + residui e si calcolano i valori stimati S^ = θ^ + λ^ G + ρ^ X. STADIO 2 - Si ritorna all’equazione (4) e si sostituisce il regressore S con i valori stimati S^ del primo stadio: R(i) = a + b S^(i) + f X(i) + u(i) quindi si riapplicano i M.Q. su questa nuova specificazione. Gli stimatori che si ottengono a^^, b^^, f^^ (stimatori TSLS) sono consistenti. L’idea sottostante è che S^ ottenuto nel primo stadio è una variabile strumentale con le caratteristiche giuste: (i) sicuramente correlata con S; (ii) incorrelata con i residui u perché è una funzione lineare di variabili tutte esogene. In più si risolve il problema di quale variabile strumentale scegliere, perché si usano tutte quelle disponibili nel modello. ATTENZIONE COMUNQUE: verificare prima che l’equazione da stimare sia identificata. αθλρσβπ


Scaricare ppt "IDENTIFICAZIONE Quale è il problema ? La teoria suggerisce due (o più) modelli interpretativi della realtà, diversi tra loro (teoria A e teoria B). Ma."

Presentazioni simili


Annunci Google