La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Corso di ECONOMETRIA A.A. 2011-2012 Dispensa n.2.

Presentazioni simili


Presentazione sul tema: "Corso di ECONOMETRIA A.A. 2011-2012 Dispensa n.2."— Transcript della presentazione:

1 Corso di ECONOMETRIA A.A Dispensa n.2

2 Il nome “normale” deriva dalla convinzione che molti fenomeni fisico-biologici, si distribuiscono con frequenze più elevate nei valori centrali e con frequenze progressivamente minori verso gli estremi della variabile. E’ anche detta curva degli errori accidentali, in quanto, soprattutto nelle discipline fisiche, la distribuzione degli errori commessi nel misurare ripetutamente la stessa grandezza, e molto bene approssimata da questa curva. Per comprendere la formulazione teorica della distribuzione normale, può risultare utile un esempio: Questi dati si riferiscono al diametro in millimetri della testa di n = 500 bottoni, classificati in k = 15 intervalli, ognuno dell'ampiezza di h = 0.05 mm. Le frequenze riportate nella tabella si riferiscono al numero di misurazioni che rientrano nell'intervallo indicato dal corrispondente valore nella prima colonna. Il lotto dei 500 bottoni può essere considerato un semplice campione casuale preso da una distribuzione di probabilità. La distribuzione normale è simmetrica intorno alla sua media . La distribuzione è più alta in corrispondenza della media, e decade agli estremi. Guardando la figura, diremo che la probabilità che un bottone abbia un diametro di mm. è molto bassa. diametro frequenza 13.07 1 13.12 4 13.17 13.22 18 13.27 38 13.32 56 13.37 69 13.42 96 13.47 72 13.52 68 13.57 41 13.62 13.67 12 13.72 2 13.77

3 Distribuzioni Importanti
La distribuzione Normale La curva cosiddetta normale venne sviluppata nel 1733 da DeMoivre, come un'approssimazione alla distribuzione binomiale. I suoi scritti vennero persi fino al 1924, quando Karl Pearson li ritrovò. Laplace utilizzò la curva normale nel 1783 per descrivere la distribuzione degli errori. Nel 1809, Gauss la impiegò nell'analisi di dati astronomici. La curva normale viene spesso chiamata "distribuzione gaussiana”. La normale è la distribuzione statistica più famosa ed utilizzata.

4 Approssimativamente il 68% dell’area sotto la curva normale
si trova tra i valori , circa il 95% dell’area si trova tra , e il 99.7% dell’area si trova tra Per notazione convenzionale, la distribuzione normale viene così denotata.

5 La distribuzione Normale Standardizzata
dove  significa si distribuisce, N significa distribuzione normale, e le due quantità dentro la parentesi sono i parametri della distribuzione, chiamati: media, o valore atteso () e varianza La distribuzione Normale Standardizzata Ogni distribuzione normale è a se stante perché dipende dai valori della V.C di riferimento. Ma come è possibile comparare due distribuzioni normali diverse tra loro? Volendo una distribuzione normale standardizzata, ossia che non dipenda dall’unità di misura della variabile, si può trasformare quest’ultima mediante la relazione:

6 La ditribuzione t se x ~ N (, 2), z ~ N (0, 1) dove
La variabile Z ha La ditribuzione t Conosciuta anche come distribuzione t di Student. Si è visto in precedenza che se ad una variabile gaussiana (x) sottraiamo la media () e dividiamo tale differenza per la deviazione standard (σ) otteniamo una deviata gaussiana standard (z) con media 0 e varianza 1: Poiché le medie campionarie ( ), calcolate su campioni tratti dalla variabile x ~ N (, 2), hanno distribuzione gaussiana con media  e varianza s2/n, se standardizziamo la variabile media campionaria otteniamo una deviata gaussiana standard z con media 0 e varianza 1: Quando il parametro 2 è ignoto, possiamo sostituirlo con la sua stima campionaria s2, ed ottenere il rapporto Qual è la distribuzione di tale rapporto ? se x ~ N (, 2), z ~ N (0, 1) dove

7 ~ t di Student (con n=n-1 g.d.l.)
Si può dimostrare che, per campioni tratti da una variabile gaussiana, il rapporto "t" è una variabile casuale la cui distribuzione è descritta da una funzione simmetrica la cui forma dipende da i gradi di libertà della stima campio-naria della varianza ed è nota con il nome di "t" di Student. ~ t di Student (con n=n-1 g.d.l.) all' aumentare dei gradi di libertà la distribuzione "t" di Student tende rapidamente alla Gaussiana standard.

8 La distribuzione Chi-quadrato 2
Date X1 ,..., Xn variabili aleatorie indipendenti ciascuna con distribuzione normale standard N(0,1), diciamo variabile aleatoria chi-quadro con n gradi di libertà la variabile aleatoria La distribuzione F di Fisher Se da una popolazione normale N( ) estraiamo due campioni indipendenti otteniamo due stime s1 ed s2 della deviazione standard . Se operiamo infinite volte l'estrazione di coppie di campioni e ogni volta misuriamo la quantita otteniamo la variabile casuale F di Fisher, con ni1 gradi di liberta al numeratore (relativi ad s1) e ni2 gradi di liberta al denominatore (relativiad s2). La distribuzione F e fortemente asimmetrica, con mediana pari ad 1.Viene impiegata nell'analisi della varianza e in generale per l'omonimo test F.

9 MODELLO DI REGRESSIONE LINEARE SEMPLICE
Introduzione al modello di regressione lineare (da deterministico a stocastico) Modello di regressione lineare semplice (ipotesi di base, stima OLS dei parametri, stimatori BLUE, test, intervalli di confidenza, previsione, scomposizione devianza, coeff. determinazione

10 RELAZIONI TRA VARIABILI
DI TIPO DETERMINISTICO VARIABILI ESPLICATIVE O INDIPENDENTI VARIABILE DIPENDENTE UNA VOLTA ESPLICITATO IL LEGAME FUNZIONALE, SI DETERMINA IL VALORE DELLA VARIABILE DAI VALORI DELLE VARIABILI ESPLICATIVE SE IL LEGAME È DI TIPO LINEARE ED IL NUMERO DELLE ESPLICATIVE È PARI AD UNO, IL MODELLO DIVIENE: CHE IN UN SISTEMA DI ASSI CARTESIANI RAPPRESENTA UNA RETTA CON COEFFICIENTE ANGOLARE ED INTERCETTA (ORDINATA ALL’ORIGINE)

11 BISETTRICE 1° e 3° QUADRANTE
y = X BISETTRICE 1° e 3° QUADRANTE Y1 Y2 X X2 Y Y5 Y4 Y3 Y2 Y1 } } } X1 X X X X

12 SE SI CONOSCONO E , AD OGNI VALORE DI X CORRISPONDE UN SOLO VALORE DI Y;
PUÒ DARSI PERÒ CHE E NON SIANO NOTI E CHE SI CONOSCANO ALCUNI VALORI DELLE VARIABILI X ED Y. RIPORTANDO TALI VALORIIN UN PIANO CARTESIANO SI NOTA CHE ESSI POSSANO NON SEGUIRE UN ANDAMENTO LINEARE. A TALE ANDAMENTO, PERALTRO SI PUÒ SE LO SI DESIDERA, GIUNGERE SEGUENDO ALCUNI CRITERI, TRA CUI QUELLO NOTO DEI MINIMI QUADRATI ORDINARI (OLS) BASATO SULLA MINIMIZZAZIONE DELLA FUNZIONE AUSILIARIA:

13 CHE PORTA ALLA DETERMINAZIONE DEI PARAMETRI
E IN BASE ALLE RELAZIONI: CON

14 RELAZIONI TRA VARIABILI
DI TIPO STOCASTICO (LINEARE CON UNA SOLA VARIABILE INDIPENDENTE) ERRORE COMPONENTE DETERMINISTICA COMPONENTE STOCASTICA TERMINE DI ERRORE 14

15 UN MODELLO DI TIPO STOCASTICO SI ADEGUA MOLTO MEGLIO DI UN MODELLO DETERMINISTICO AL TIPO DI REALTÀ RAPPRESENTATA DA n COPPIE DI OSSERVAZIONI Xi E Yi NON ESATTAMENTE ALLINEATE SU DI UNA RETTA. OVVIAMENTE L’INTRODUZIONE DI PROVOCA NOTEVOLI COMPLICAZIONI, MA ANCHE RISULTATI FORTEMENTE PIÙ UTILI E DENSI DI SIGNIFICATO. PRIMA CONSIDERAZIONE: È LEGITTIMO INTRODURRE UNA COMPONENTE STOCASTICA IN UN LEGAME FUNZIONALE DI TIPO DETERMINISTICO? -SI PER TRE ORDINI DI MOTIVI: 1. PRESENZA DI ERRORI NEL MODELLO 1.1 LIMITATEZZA NEL NUMERO DELLE VARIABILI ESPLICATIVE (REGRESSORI); 1.2 CASUALITÀ DERIVANTE PREVALENTEMENTE DALLA RILEVAZIONE CAMPIONARIA DELLE OSSERVAZIONI EMPIRICHE; 2. PRESENZA DI ERRORI DI MISURA

16 SECONDA CONSIDERAZIONE:
L’INTRODUZIONE DI PROVOCA LA RIDEFINIZIONE DI Y IN TERMINI DI VARIABILE CASUALE (V.C.) LASCIANDO INVECE INALTERATA LA NATUTA DETERMINISTICA DI X. NON SOLO, MA OGNI VALORE ESPRESSO IN FUNZIONE DI Y, DIVIENA ANCH’ESSO V.C. QUESTO, APPARENTEMENTE COMPLICANDO LE COSE, HA INVECE IMPORTANTI CONSEGUENZE SUL PIANO DELLA COSTRUZIONE DEI MODELLI, SULLA LORO VERIFICA E SULLA LORO INTERPRETAZIONE. TERZA CONSIDERAZIONE: DEVONO ESSERE INTRODOTTE ALCUNE ASSUNZIONI, TALUNE INVERO POCO REALISTICHE, E CIOÈ: 1. LINEARITÀ DELLA RELAZIONE FUNZIONALE 2. NATURA DETERMINISTICA DEI REGRESSORI 3. NORMALITÀ DELLA DISTRIBUZIONE DEI TERMINI DI ERRORE 4. VALORE ATTESO NULLO DI TALI ERRORI: 5. OMOSCHEDASTICITÀ DEI MEDESIMI: 6. INDIPENDENZA TRA GLI STESSI

17 A questo punto l’obiettivo è determinare l’equazione della retta che meglio approssima i punti di coordinate (X, Y). Per determinare l’equazione della retta è sufficiente stimare I parametri intercetta coefficiente angolare Per questo si adotta il METODO DEI MINIMI QUADRATI ORDINARI (Ordinary Least Square-OLS) BASATO SULLA MINIMIZZAZIONE DELLA FUNZIONE AUSILIARIA: Il minimo della funzione ausiliaria si ottiene derivando rispetto ai parametri incogniti e ponendo pari a zero le due equazioni e risolvendo il sistema. Le soluzioni che si ottengono sono:

18 CON Se ad esempio Y fosse il numero di sigarette fumate al giorno e X l’età dell’individuo, è plausibile che, nel campione osservato, per ogni valore di X (per ogni età) vi siano molti valori di Y (numero di sigarette fumate al giorno). Quando, per questo esempio, si specifica un modello probabilistico è come se si assumesse che ogni età, il consumo di sigarette varia in ‘modo casuale’.

19 SI CONSIDERINO GLI STIMATORI OLS
TEOREMA DI GAUSS-MARKOV : Date le assunzioni 1., 2., 4., 5., gli stimatori OLS sono i MIGLIORI (più efficienti) STIMATORI LINEARI e CORRETTI (BLUE – BEST LINEAR UNBIASED ESTIMATOR) dei parametri Il senso del teorema è che tali stimatori sono quelli a varianza minima nella classe degli stimatori lineari e corretti.

20 DISTRIBUZIONE DEGLI STIMATORI OLS
Poiché è una media pesata di y e le y sono normalmente distribuite, ha una distribuzione normale OLS = ML OLS SONO MIGLIORI, LINEARI, CORRETTI E ASINTOTICAMENTE CONSISTENTI analogamente

21 STIMA DELLA VARIANZA DELL’ERRORE
L’analisi non è ancora completa, resta da stimare la varianza del termine stocastico del modello. Riportiamo direttamente lo stimatore varianza residua rappresenta il residuo La varianza residua è uno stimatore corretto e consistente della varianza del termine di errore.

22 STANDARD ERROR DEGLI STIMATORI OLS
Avendo ottenuto una stima della varianza del termine stocastico del modello di regressione si sostituisce nell’espressione della varianza degli stimatori OLS per ottenere gli errori standard (standard error) Gli errori standard FORNISCONO UNA MISURA DELLA DISPERSIONE DELLE STIME INTORNO ALLE RISPETTIVE MEDIE.

23 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
E’ necessaria l’ipotesi di normalità dei termini stocastici Interpretazione dell’intervallo di confidenza, fissato il livello di significatività  (ad esempio per ). Se estraessi più campioni; ognuno fornirebbe valori diversi della stima OLS di  e quindi diversi intervalli di confidenza; l’(1-)% di questi intervalli includerebbe , mentre solo nell’ % dei casi devierebbe da  per più di un certo .

24 Verifica d’ipotesi, fissato il livello di significatività  (ad esempio per ).
Sia data una congettura (ipotesi nulla), che si assume vera, attraverso la verifica d’ipotesi si valuta l’entità della discrepanza tra quanto osservato nei dati campionari e quanto previsto sotto ipotesi nulla. Se, fissato il livello di significatività , la “discrepanza” è significativa l’ipotesi nulla viene rifiutata, altrimenti l’ipotesi nulla non può essere rifiutata.

25 INTERVALLI DI CONFIDENZA
SICCOME standardizzando /g.l. OVVERO: T-Student con (n-2) g.l.

26 Quindi l’intervallo di confidenza per 
all’(1-)% si determina nel seguente modo: Limite inferiore Limite superiore In sostanza l’intervallo di confidenza fornisce il range di valori in cui verosimilmente cade il vero valore del parametro

27 Regione di Accettazione o di Rifiuto del test
VERIFICA DI IPOTESI Fissato il livello di significatività  Ipotesi nulla Ipotesi alternativa Statistica test Regione di Accettazione o di Rifiuto del test

28 VERIFICA DI IPOTESI: SIGNIFICATIVITA’ di 
NON ESISTE RELAZIONE LINEARE TRA X ED Y STATISTICA TEST REGIONE CRITICA SI RESPINGE L’IPOTESI NULLA SE: REGOLA D’ORO QUANDO n è grande, t-student ad una Normale, quindi se fissiamo il 5% come livello di significatività, possiamo adottare la “regola d’oro”: se ALLORA SI RIFIUTA L’IPOTESI NULLA:

29 VERIFICA DI IPOTESI H0: = 0
Se 0 è una costante si può verificare: H0: = 0 STATISTICA TEST SI RESPINGE L’IPOTESI NULLA SE: N.B. ancora una volta se n è grande la distribuzione t-Student si approssima alla distribuzione normale standardizzata

30 Significato del coefficiente 
 esprime di quanto varia mediamente Y in conseguenza di una variazione unitaria di X. Se >0, al crescere di X cresce anche Y (relazione lineare diretta) Se <0, al crescere di X, Y decresce (relazione lineare inversa)

31 • • • • • • • • • • • • • • • • • PROPRIETÀ DEI RESIDUI Y P(xi,yi) Q R
RESIDUO S X Sono somme degli scarti dalla media, quindi sono zero

32

33 SCOMPOSIZIONE DELLA DEVIANZA
Dal precedente grafico: DEVIANZA DEVIANZA DEVIANZA TOTALE RESIDUA SPIEGATA TSS = RSS + ESS Total Sum = Residual Sum Explained Sum Square Square Square

34 Dividendo tutto per TSS si ottiene:
Si definisce COEFFICIENTE DI DETERMINAZIONE Tale coefficiente rappresenta la proporzione di devianza totale spiegata dal modello di regressione lineare di Y su X. Dato che Quando il modello non spiega niente della variabilità di Y Tutta la variabilità di Y è spiegata dal modello

35 SE R²=0 SIGNIFICA CHE IL CONTRIBUTO ESPLICATIVO ALLA DEVIANZA COMPLESSIVA APPORTATO DAL MODELLO È IDENTICAMENTE NULLO; LA DEVIANZA COMPLESSIVA È SOLO SPIEGATA DALLA COMPONENTE CASUALE (RESIDUO). SE R²=1 TUTTI GLI N VALORI EMPIRICI OSSERVATI GIACCIONO ESATTAMENTE SULLA RETTA DI REGRESSIONE; IL CONTRIBUTO ALLA DEVIANZA COMPLESSIVA È SOLO FORNITO DAL MODELLO. NEI CASI INTERMEDI, QUANTO PIÙ R² È PROSSIMO AD UNO O A ZERO, TANTO PIÙ/MENO LA VARIABILITÀ COMPLESSIVA È SPIEGATA DAL MODELLO PRESCELTO. AD ESEMPIO, UN VALORE r²=0.80 SIGNIFICA CHE IL MODELLO PRESCELTO RIESCE A SPIEGARE L’80 PER CENTO DELLA VARIABILITÀ COMPLESSIVA.

36 PREVISIONE Il modello di regressione stimato spesso viene utilizzato a fini previsivi, ovvero per stimare il valore della variabile dipendente che corrisponde ad un determinato valore della variabile indipendente Lo standard error di tale valore previsto è Pertanto i limiti dell’intervallo di confidenza per il valore previsto, fissato un livello di confidenza pari a 1-

37 Si osservi che il valore dello s. e
Si osservi che il valore dello s.e. aumenta al crescere della distanza tra X0 e il valor medio di X, pertanto la qualità della previsione diverrà sempre peggiore. Inoltre può accadere che la linearità della relazione tra Y e X sia limitata alla nuvola di punti osservati e che fuori tale relazione non sia valida, pertanto può essere totalmente fuorviante prevedere un valore di Y partendo da un valore di X che è al di fuori del range dei valori osservati

38 Aprire il programma GRETL.
ESEMPIO NUMERICO ANNI Y X 1947 166 352 1948 153 373 1949 177 411 1950 201 441 1951 216 462 1952 208 490 1953 227 529 1954 238 577 1955 268 641 1956 692 1957 274 743 Copiare su un foglio Excel i seguenti dati. Salvar eil file col nome ESEMPIO. Aprire il programma GRETL.

39 Modello 1: OLS, usando le osservazioni 1-11
Variabile dipendente: Y coefficiente errore std. rapporto t p-value const , , , , *** X , , , ,11e-06 *** Media var. dipendente 217, SQM var. dipendente ,97575 Somma quadr. residui ,168 E.S. della regressione 11,17621 R-quadro , R-quadro corretto ,929109 F(1, 9) , P-value(F) ,11e-06 Log-verosimiglianza , Criterio di Akaike ,11259 Criterio di Schwarz , Hannan-Quinn ,61095 Note: SQM = scarto quadratico medio; E.S. = errore standard

40 VERIFICA D’IPOTESI DISGIUNTA PER β
INTERVALLO DI CONFIDENZA ES della regressione 95 VOLTE SU 100 IL VALORE DI β È COMPRESO TRA 0.25 E 0.37 VERIFICA D’IPOTESI DISGIUNTA PER β È RESPINTA

41 Avrete sicuramente notato che tra i risultati del metodo dei minimi quadrati ordinari prodotti da GRETL vi sono alcuni test come il criterio di Akaike, il criterio di Schwarz, il criterio di Hannan-Quinn. Questi test sono molto utili perché ci aiutano a trovare il modello migliore. Il criterio di Akaike - A.I.C. (Akaike Information Criterion) è una statistica che permette di scegliere il modello con la somma degli errori al quadrato più piccola (cioè con l’A.I.C. più piccolo) Il criterio di Schwarz - B.I.C. (Bayesian Information Criterion): tra due modelli dobbiamo preferire con il valore dell’B.I.C. più piccolo. Il criterio di Hannan-Quinn è simile ai due criteri precedenti e, in quanto tale, va interpretato nello stesso modo: la migliore specificazione di un modello empirico sarà quella per cui il criterio di Hannan-Quinn è minimizzato. Log-verosimiglianza è il logaritmo della funzione di verosimiglianza: come criterio di scelta della specificazione migliore dovremmo preferire il modello che massimizza la Log-verosimiglianza.

42 Cliccando su Test nella finestra dove sono i risultati delle stime si ha l’opportunità di condurre altri test. Uno dei test più utilizzati è il Lagrange multiplier test o anche il test LM. Ci sono due test LM, uno per verificare l’omoschedasticità dei residui, l’altro per verificare la presenza di autocorrelazione dei residui (anche di ordine superiore a uno). Se l’ipotesi di omoschedasticà è violata, nel senso che la varianza degli errori dipende - ad esempio - dal livello della variabile esplicativa, le stime OLS dei parametri producono delle varianze dei coefficienti distorte: saremo portati a rifiutare o ad accettare l’ipotesi nulla relativa a ciascun coefficiente troppo spesso. Tra i vari test disponibili c’è il test di normalità degli errori. Questo test, test di Jarque-Bera (JB), aggrega le informazioni contenute nei dati circa la normalità degli errori grazie alle due statistiche di asimmetria (skewness) e di curtosi (kurtosis).

43 Cerchiamo di riassumere la lista di cose da controllare dopo aver effettuato una stima.
Si può partire dalla significatività dei coefficienti stimati: le variabili considerate vanno tutte tenute all’interno del modello? Un metodo da seguire è quello di partire con poche variabili e via via aggiungerne altre verificandone gli effetti sui coeff stimati e sui valori dell’R2 e di R2. Il segno dei coefficienti è coerente con la teoria o con i valori attesi? Quali conclusioni posso trarre sulla specificazione del modello sulla base dei vari test Akaike, B.I.C., ecc.? Le stime sono influenzate dall’autocorrelazione dei residui? E dalla eteroschedastictà?

44 MULTICOLLINEARITÀ UNA DELLE ASSUNZIONI DEL MODELLO LINEARE CLASSICO POSTULA CHE NESSUN REGRESSORE SIA PERFETTAMENTE CORRELATO CON UN ALTRO REGRESSORE O CON NESSUNA COMBINAZIONE LINEARE DI ALTRI REGRESSORI. SE TALE ASSUNZIONE È VIOLATA SI PARLA DI PRESENZA DI MULTICOLLINEARITÀ. ALLORA SE L’ASSUNZIONE È RISPETTATA SI È IN CONDIZIONI DI ASSENZA DI MULTICOLLINEARITÀ. EVIDENTEMENTE TRA QUESTI DUE CASI ESTREMI SI POSSONO TROVARE SITUAZIONI DI VARI GRADI DI MULTICOLLINEARITÀ A SECONDA DELL’INTENSITÀ DEI LEGAMI LINEARI TRA I REGRESSORI. È IMPORTANTE CHIARIRE SUBITO CHE LA MULTICOLLINERITÀ NON È TANTO UN PROBLEMA DI SPECIE QUANTO DI GRADO. INFATTI È BEN DIFFICILE INCORRERE IN PRATICA NEI CASI ESTREMI MENTRE È MOLTO FACILE CHE I REGRESSORI POSSEGGANO UN QUALCHE GRADO DI LEGAME LINEARE. PERTANTO NON SI PROCEDE A VERIFICARE IPOTESI STATISTICHE DI PRESENZA/ASSENZA DI MULTICOLLINEARITÀ QUANTO SI TENTA DI MISURARE L’EVENTUALE GRADO DI ESISTENTE MULTICOLLINEARITÀ TRA I REGRESSORI PERCHÈ, COME VEDREMO IN CASO DI ELEVATA MULTICOLLINEARITÀ, LA QUALITÀ DELLE STIME È SERIAMENTE INFICIATA.

45 ANALISI DELLA REGRESSIONE
Cosa succede se le variabili esplicative sono tra loro correlate? Consideriamo un semplice esempio Y (quantità) X2 (prezzo) X3 (reddito settimanale) X4 (guadagni settimanali) 49 1 298 297.5 45 2 296 294.9 44 3 294 293.5 39 4 292 292.8 38 5 290 290.2 37 6 288 289.7 34 7 286 285.8 33 8 284 284.6 30 9 282 281.1 29 10 280 278.8

46 Nella precedente tabella vengono presentati due tipi di reddito
Stimati da due diversi ricercatori. A questo punto possiamo scrivere le due diverse funzioni di domanda (1) (2) Eseguiamo ora la regressione sulla equazione (1). Noteremo subito come non sia possibile stimare la regressione. Analizziamo il grafico di X2 e reddito X3 abbiamo il seguente risultato: X3=300-2X2 1

47 Cercando di regredire X3 su X2 ecco cosa otteniamo:
(3) In altre parole X2 e X3 sono perfettamente collineari. Visto i risultati avuti nella (3), non è possibile stimare la regressione (1), Se sostituiamo l’equazione (3) nella (1), otteniamo: (4) I risultati della regressione (4) sono: (5) In caso di perfetta multicollinearità, la stima e i test di ipotesi su di una regressione individuale non è possibile. Come abbiamo visto nella regressione (4), possiamo ottenere stime da una combinazione lineare (ossia la somma, o la differenza) dei coefficienti originali, ma non individualmente.

48 ELEVATA MULTICOLLINEARITÀ
MODELLO A 2 REGRESSORI RELAZIONE LINEARE TRA I REGRESSORI COSTANTI RESIDUI NON STOCASTICI TALI CHE SIA: ALLORA: SI VERIFICA IN PRESENZA DI MULTICOLLINERITÀ PERFETTA SI VERIFICA IN ASSENZA DI MULTICOLLINERITÀ INOLTRE: 48

49 PER CUI LE EQUAZIONI OLS NORMALI SONO:
ED: SE ; E SE INOLTRE, DALLA CON PER CUI LE EQUAZIONI OLS NORMALI SONO: CHE PORTANO A STIME INDETERMINATE PER (E QUINDI PER ). LE STIME DEI PARAMETRI ESISTONO PER TUTTI I VALORI DI RICORDANDO CHE: 49

50 MISURE DI MULTICOLLINEARITÀ
NELLA FATTISPECIE AVREMO: PERTANTO SE È PROSSIMO AD UNO LE VARIANZE DEI PARAMETRI SARANNO MOLTO ELEVATE. QUINDI UN’ELEVATA MULTICOLLINEARITÀ RENDE LE STIME OLS QUALITATIVAMENTE POCO BUONE PERCHÈ MOLTO INSTABILI MISURE DI MULTICOLLINEARITÀ SICCOME LA QUALITÀ DELLE STIME PEGGIORA ALL’AUMENTARE DEL GRADO DI MULTICOLLINEARITÀ, SAREBBE IMPORTANTE POTER DISPORRE DI UNA MISURA DI TALE GRADO. CIÒ È ABBASTANZA DIFFICILE DA OTTENERE PERCHÈ NON ESISTONO MISURE UNIVOCHE. UNA MISURA TALORA USATA È DATA DAL DETERMINANTE DELLA MATRICE “CROSS-PRODUCT”, PERCHÈ IN CASO DI ELEVATA MULTICOLLINEARITÀ TALE DETERMINANTE DOVREBBE ESSERE PROSSIMO A ZERO, DAL MOMENTO CHE È PRECISAMENTE ZERO IN CASO DI PERFETTA MULTICOLLINEARITÀ. 50

51 UNA TECNICA USATA PER MISURARE IL GRADO DI MULTICOLLINEARITÀ CONSISTE NEL COSIDDETTO “ RIMOSSO”, CHE SI OTTIENE APPUNTO RIMUOVENDO VIA VIA UNA VARIABILE DOPO L’ALTRA E CALCOLANDO OGNI VOLTA IL RELATIVO . IL GRADO DI MULTICOLLINEARITÀ DOVREBBE ESSERE ELEVATO SE LA DIFFERENZA TRA COMPLESSIVO ED IL MASSIMO VALORE DEGLI RIMOSSI È PICCOLA. QUESTO PERCHÈ SE ALMENO UNA VARIABILE INDIPENDENTE È MULTICOLLINEARE LA SUA VARIABILITÀ DOVREBBE FORTEMENTE VARIARE INSIEME A QUELLE DELLE ALTRE VARIABILI E QUINDI L’INTRODUZIONE DELLA STESSA NEL MODELLO DOVREBBE INCREMENTARE DI POCO COMPLESSIVO. COME IDENTIFICARE LA MULTICOLLINEARITA’. ELEVARO R2 E ALCUNI T-RATIOS SIGNIFICANTI ALTA CORRELAZIONE TRA LE VARIABILI ESPLICATIVE UN INDICATORE DI MULTICOLLINEARITA’ SPESSO UTILIZZATO NELLA PRATICA E’ IL VARIANCE INFLATION FACTOR (FATTORE DI INFLAZIONE DELLA VARIANZA) O VIF. IL VIF E’ CALCOLATO PER CIASCUNA VARIABILE DEL MODELLO IN BASE ALL’ESPRESSIONE:

52 Dunque un VIF elevato comporterà una
minore significatività del coefficiente , andando a ridurre il valore della statistica t di Student associata. Un elevato è indice di dipendenza lineare tra la colonna i-esima e le restanti colonne della matrice , ossia è un indice di multicollinearità. Non esiste, tuttavia, un particolare valore soglia del VIF che determina inequivocabilmente la multicollinearità; sta alla sensibilità del ricercatore valutare, con l'ausilio dell'indicazione del VIF, se sussista o meno multicollinearità, nel qual caso è opportuno rimuovere il regressore i-esimo (colonna i-esima della matrice sulla quale si è riscontrata multicollinearità). I RIMEDI: eliminare uno o più variabili che causano multicollinearità; trasformare le variabili che causano multicollinearità: formare una combinazione lineare delle variabili multicollineari; Trasformare l’equazione in differenze prime. Se ad esempio X2 e X3 sono multicollineari si sostituiscono con una nuova variabile X4 combinazione lineare delle due (X4 = k1X1 + k2X2. aumentare la dimensione del campione.

53 PARAMETRI ERRORI VARIABILE DIPENDENTE REGRESSORI ASSUNZIONI PER OLS - REGRESSORI: • NON STOCASTICI • ASSENZA DI MULTICOLLINEARITÀ (già visto) - ERRORI: • INDIPENDENTI • DISTRIBUITI NORMALMENTE • MEDIA ZERO • VARIANZA COSTANTE SE NON → AUTOCORRELAZIONE SE NON → ETEROSCHEDASTICITÀ SE NON → CONSEGUENZE DI LIMITATO INTERESSE ECONOMETRICO, INFATTI: - CON ERRORI NON NORMALI GLI STIMATORI OLS SONO BLUE E SEBBENE NON SIA LEGITTIMO USARE I TEST STANDARD SI PUÒ DIMOSTRARE VIA TEOREMA DEL LIMITE CENTRALE CHE CON NUMEROSITÀ CAMPIONARIE RAGIONEVOLMENTE ALTE I TEST t ED F SONO ANCORA UTILIZZABILI.

54 - SE LA MEDIA DEGLI ERRORI È ≠ 0 I PARAMETRI DI PENDENZA NON CAMBIANO E PERTANTO, SICCOME IL PARAMETRO DI INTERCETTA HA SCARSO SIGNIFICATO INTERPRETATIVO, I SUOI CAMBIAMENTI NON INTERESSANO GRAN CHE. QUINDI CI OCCUPEREMO IN ORDINE DELLE SEGUENTI PROBLEMATICHE DI VIOLAZIONE DI IPOTESI: ETEROSCHEDASTICITÀ → SE COSI’ NON FOSSE, SI RIENTREREBBE NEL CONCETTO DI OMOSCHEDASTICITA’ CHE E’ UN’ASSUNZIONE POCO REALISTICA IN CASO DI DATI CROSS-SECTION ESEMPIO: CROSS-SECTION DI IMPRESE È PROBABILE CHE LE IMPRESE MINORI ABBIANO VARIANZA DI ERRORI PIÙ RIDOTTA DI QUELLA DI IMPRESE PIÙ GRANDI ESEMPIO: CROSS-SECTION DI REDDITI È PROBABILE CHE I REDDITI BASSI SIANO PIÙ VARIABILI DI QUELLI PIÙ ALTI NELLE COMPONENTI DI ERRORE AUTOCORRELAZIONE → ASSUNZIONE POCO REALISTICA IN CASO DI DATI TEMPORALI (SERIE STORICHE). GLI ERRORI POSSONO CUMULARSI NEL TEMPO O COMUNQUE RIPETERSI CON LE STESSE MODALITÀ. 54

55 ETEROSCHEDASTICITÀ DIVERSA PER OGNI i
LO STIMATORE È ANCORA CORRETTO (LA VARIANZA NON COSTANTE NON GIOCA ALCUN RUOLO NELLA DIMOSTRAZIONE). =0 QUINDI È CORRETTO SE E ETEROSCHEDASTICITÀ 55

56 QUESTO PERCHÈ PER MINIMIZZARE SI DEVONO TROVARE QUEI VALORI PER CUI TALE ESPRESSIONE È MINIMA. RICORRENDO ALLA MINIMIZZAZIONE VINCOLATA, LA FUNZIONE DEVE ESSERE DERIVATA PARZIALMENTE RISPETTO AD D E POI DEVE ESSERE RISOLTO IL SISTEMA DI N+2 EQUAZIONI OTTENUTO UGUAGLIANDO A ZERO LE DERIVATE PARZIALI. RISOLVENDO SI TROVA (K MENTA, page 252) CON E PERTANTO: 56

57 CORREZIONI PER LA ETEROSCHEDASTICITÀ
CHE È DIFFERENTE DALL’ESPRESSIONE DI PER IL CASO OLS ORTODOSSO (SENZA ETEROSCHEDASTICITÀ). SI PUÒ DIMOSTRARE CHE COMUNQUE GLI STIMATORI SONO CONSISTENTI ANCHE IN CASO DI ERRORI ETEROSCHEDASTICI. MA NON SONO ASINTOTICAMENTE EFFICIENTI. COMUNQUE LA MOSTRA CHE NON È COSTANTE E PERTANTO NON È CORRETTO APPLICARE I TEST E COSTRUIRE GLI INTERVALLI DI CONFIDENZA CHE INVECE RICHIEDONO VARIANZA COSTANTE. INFATTI: COSTANTE CORREZIONI PER LA ETEROSCHEDASTICITÀ (MINIMI QUADRATI PONDERATI) SI SUPPONGA DI CONOSCERE LE SINGOLE VARIANZE DI OGNI ERRORE (CASO MOLTO IRREALE), CIOÈ: NOTA PER OGNI I SE SI RISCRIVE IL MODELLO LINEARE COME: 57

58 CIOÈ SE SI USA LA TRASFORMAZIONE DI VARIABILI ORIGINARIE:
DOVE: CIOÈ SE SI USA LA TRASFORMAZIONE DI VARIABILI ORIGINARIE: LA RIVIENE COSTANTE SICCOME: E PERTANTO SI RIENTRA IN CONDIZIONI DI OMOSCHEDASTICITÀ. SICCOME NOTO PER OGNI i È IRREALISTICA, VEDIAMO CHE SUCCEDE SE ALMENO SI CONOSCE CIOÈ UN QUALCHE LEGAME TRA LA E UN REGRESSORE. RISCRIVENDO IL MODELLO COME: SI VEDE CHE: (1) (2) 58

59 ACCERTAMENTO DELLA ETEROSCHEDASTICITÀ TEST BARTLETT
CHE È COSTANTE E PERTANTO CI RIPORTA AL CASO DI OMOSCHEDASTICITÀ. TALE TRASFORMAZIONE IMPLICA CHE L’INTERCETTA ORIGINARIA (1) DIVENTA UN REGRESSORE MENTRE DIVIENE L’INTERCETTA (2). ACCERTAMENTO DELLA ETEROSCHEDASTICITÀ TEST BARTLETT TEST GOLDFELD & QUANDT TEST PARK – GLEJSER AUTOCORRELAZIONE METODI DI GENERAZIONE DI AUTOCORRELATI MODELLO AUTOREGRESSIVO DI PRIMO ORDINE COEFFICIENTE DI ERRORE AUTOCORRELAZIONE “ORTODOSSO” 59

60 DATI “CROSS-SECTION” → FACILMENTE REALIZZABILE
AUTOCORRELAZIONE SICCOME SE → AUTOCORRELAZIONE DATI “CROSS-SECTION” → FACILMENTE REALIZZABILE DATI SERIE STORICHE → DIFFICILE DA REALIZZARSI 60

61 SCHEMA AUTOREGRESSIVO DI PRIMO ORDINE
COEFFICIENTE DI CORRELAZIONE TRA VARIABILE CASUALE, ALLORA 61

62 ANALOGAMENTE SI VEDE CHE:
QUINDI IN GENERALE: 62

63 E LA CUI VARIANZA RISULTA:
QUINDI SE LA È GENERATA DA UNO SCHEMA AUTOREGRESSIVO DI PRIMO ORDINE, ED . VEDIAMO COSA SUCCEDE NEL MODELLO LINEARE CONSIDERANDO PER SEMPLICITÀ UNA SOLA VARIABILE ESPLICATIVA SICCOME LE IPOTESI SU E NON CAMBIANO, LE STIME OLS SARANNO ANCORA E TALI STIME SARANNO ANCHE CORRETTE. VEDIAMO SE SONO ANCHE BLUE. PER FAR CIÒ CONSIDERIAMO LA STIMA LINEARE QUALSIASI CHE È CORRETTA SE: E LA CUI VARIANZA RISULTA: 63

64 MOLTIPLICANDO PER E SOTTRAENDOLA ALL’ALTRA, SI HA:
IL MODELLO È: MOLTIPLICANDO PER E SOTTRAENDOLA ALL’ALTRA, SI HA: CHE RICORDANDO L’ASSUNTO PER NELLO SCHEMA AUTOREGRESSIVO DI PRIMO ORDINE, DIVIENE: VARIABILE PARAMETRI VARIABILE DIPENDENTE INDIPENDENTE CHE È UNA RELAZIONE LINEARE PER CUI VALGONO TUTTE LE IPOTESI OLS, A MENO CHE SI PERDE UNA OSSERVAZIONE INIZIALE (→ STIME QUASI BLUE) 64

65 QUINDI OCCORRE CONOSCERE IL PARAMETRO .
ALLORA: DOVE: QUINDI OCCORRE CONOSCERE IL PARAMETRO 65

66 ACCERTAMENTO DELL’AUTOCORRELAZIONE
ANALISI GRAFICA DEI RESIDUI AUTOCORRELAZIONE AUTOCORRELAZIONE NEGATIVA POSITIVA AUTOCORR AUTOCORR. POSITIVA NEGATIVA NO AUTOCORR. 66

67 SOLO SCHEMA AUTOREGRESSIVO DI PRIMO ORDINE
TEST DI DURBIN – WATSON SOLO SCHEMA AUTOREGRESSIVO DI PRIMO ORDINE TEST: SE n → GRANDE, ALLORA: QUINDI CON: CONSISTE NEL SOTTOPORRE A TEST L’IPOTESI NULLA DELLO SCHEMA AUTOREGRESSIVO DEL PRIMO ORDINE 67

68 QUINDI SE È UNO STIMATORE DI , → NO AUTOCORRELAZIONE
ALLORA, SE: QUINDI SE È UNO STIMATORE DI , → NO AUTOCORRELAZIONE → AUTOCORRELAZIONE POSITIVA → AUTOCORRELAZIONE NEGATIVA NEI CASI INTERMEDI OCCORREREBBE CONOSCERE LA DISTRIBUZIONE DI , COSA QUESTA IMPOSSIBILE PERCHÈ DURBIN & WATSON HANNO PERÒ RICAVATO I LIMITI SUPERIORE ED INFERIORE PER LIVELLI DI SIGNIFICATIVITÀ DI CHE POSSONO CONSENTIRE DI VERIFICARE LE IPOTESI DI AUTOCORRELAZIONE NULLA. ESISTE UNA TABELLA DI TALI VALORI AL 5% ED ALL’11%. TEST INCONCLUDENTE AUTOCORR AUTOCORR. POSITIVA NEGATIVA NO AUTOCORRELAZIONE 68


Scaricare ppt "Corso di ECONOMETRIA A.A. 2011-2012 Dispensa n.2."

Presentazioni simili


Annunci Google