La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 MODELLO DI REGRESSIONE LINEARE MULTIPLA 1.Modello e assunzioni 2.Stimatori OLS e proprietà 3.R 2, variabilità totale, spiegata, residua 4.Previsione.

Presentazioni simili


Presentazione sul tema: "1 MODELLO DI REGRESSIONE LINEARE MULTIPLA 1.Modello e assunzioni 2.Stimatori OLS e proprietà 3.R 2, variabilità totale, spiegata, residua 4.Previsione."— Transcript della presentazione:

1 1 MODELLO DI REGRESSIONE LINEARE MULTIPLA 1.Modello e assunzioni 2.Stimatori OLS e proprietà 3.R 2, variabilità totale, spiegata, residua 4.Previsione 5.Test per la verifica di ipotesi 6.Vincoli lineari e variabili dummy 7.Eteroschedasticità 8.Multicollinearità 9.Autocorrelazione dei residui

2 2 REGRESSIONE LINEARE MULTIPLA: IL PROBLEMA Ricerca di un modello matematico in grado di esprimere la relazione esistente tra una variabile di risposta y (quantitativa) e ( ad esempio) k variabili esplicative Si tratta di una relazione asimmetrica del tipo Nel caso del modello di regr.lineare multipla abbiamo che: che geometricamente corrisponde ad un iperpiano a k dimensioni Perché si studia tale modello i)facilità con cui può essere interpretato un iperpiano a k dimensioni ii)ii) Facilità di stima dei parametri incogniti j ( j = 1…k) Nella realtà studiamo un modello del tipo Componente componente sistematica casuale

3 3 IL MODELLO In forma matriciale dove : vettore (n x 1) di osservazioni sulla variabile dipendente : matrice (n x k) di osservazioni su k regressori : vettore (k x 1) di parametri incogniti : vettore (n x 1) di disturbi stocastici

4 4 N.B. La matrice X ha la prima colonna unitaria nel caso in cui si consideri un modello con intercetta 1 nel sistema di riferimento multidimensionale Le matrici e i vettori sono così definiti

5 5 ASSUNZIONI DEL MODELLO 1)Esiste legame lineare tra variabile dipendente e regressori 2)Le variabili sono tutte osservabili 3)I coefficienti i non sono v.c. 4)I regressori X sono non stocastici 5)Il termine u non è osservabile 6) 7) le u i sono omoschedastiche ed incorrelate 8)X ha rango pieno rank (X) = k condizione necessaria 9) hp aggiuntiva da utilizzare nellanalisi inferenziale

6 6 STIMATORE OLS Y = X + u Si cercherà quel vettore che minimizza gli scarti al quadrato: dove X i è la riga i-esima di X In forma matriciale = perché scalare (1)

7 7 è uno scalare dalla (1) si ottiene pre-moltiplicando ambo i membri perché rank (XX) = rank (X) = k XX è a rango pieno ovvero invertibile stimatore OLS di perché

8 8 CARATTERISTICHE STIMATORE OLS Teorema di Gauss-Markov è uno stimatore di tipo BLUE Best Linear Unbiased Estimator ovvero ha varianza minima nella classe degli stimatori Lineari e Corretti 1. La matrice è formata da elementi costanti per cui è una trasformazione lineare di y. 2. È uno stimatore corretto Inoltre:

9 9 Si consideri più in dettaglio Pertanto la varianza di ogni parametro si desume prendendo il corrispondente valore sulla diagonale principale della, moltiplicato per : 3.

10 10 Definiamo uno stimatore alternativo lineare e corretto dove C è una matrice (n x k) ma Pertanto la è la minima nella classe degli stimatori lineari e corretti, e risulta provato il teorema di Gauss-Markov.

11 11 STIMA DI M X è simmetrica e idempotente, cioè: Da queste proprietà di M X si ottiene perché scalare tr(ABC)= tr(BCA)= tr(BAC)

12 12 è uno stimatore corretto ESEMPIO (Greene p.200) i : 1960 … 1986, n = 27 G i = consumo di benzina in $ P gi = indice dei prezzi benzina Y i = reddito pro-capite in $ P qi = indice dei prezzi auto nuove Se definiamo

13 13 Vettore y x 1 1 x x x Matrice XX; e Matrice inv (XX); e e e Stime b=inv(XX) * Xy;

14 14 Y n=10 X (XX) Inv (XX) Beta = inv(XX)*Xy X X e e X

15 15 ANOVA Analisi della varianza Se vogliamo testare simultaneamente ipotesi su tutti i parametri o coefficienti dei regressori andiamo a considerare la statistica F di Fisher-Snedecor. Considerando il modello in forma di scarti

16 16 Si può dimostrare che e ricordando che F p,q Sotto

17 17 TABELLA ANOVA Causa var.DevianzaG.L.Stime var. Modello x 2 …..x k k-1 Residuo n-k Totale n-1 Si costruisce la statistica F Si individua il 95% o il 99% quantile della distribuzione F (k-1),(n-k) Se si rifiuta H 0

18 18 SCOMPOSIZIONE DELLA DEVIANZA TOTALE 1)CASO. Modello senza intercetta La colonna della matrice X relativa alla variabile X 1 non è formata da tutte unità Possiamo scrivere i valori stimati del modello come da cui Notiamo che M simmetrica e idempotente P simmetrica e idempotente =0 =0

19 19 Ma TSS ESS RSS Somma quadr. Somma quadr. Somma quadr. totale modello residui

20 20 2. CASO. Modello con intercetta Perché Se consideriamo otteniamo che :

21 21 Possiamo così scomporre la variabilità o devianza della variabile dipendente Y dove: Devianza totale TSS Devianza dovuta al modello ESS Devianza residua o non spiegata RSS COEFFICIENTE DI CORRELAZIONE MULTIPLA

22 22 Il coefficiente di correlazione è un indicatore del legame lineare tra Y e i regressori. Ha però un difetto: Esso può aumentare anche se viene aggiunto un regressore che non spiega y. Se dividiamo le devianze per i gradi di libertà andiamo a pesare il contributo a R 2 di ogni regressore

23 23 Consideriamo ancora gli scarti (*) In forma matriciale 1.Gli elementi di Y e X sono scarti 2.Nella matrice X n x (k-1) non appare più la colonna delle unità 3.I vettori e sono (k-1) x 1 e non contengono più lintercetta

24 24 Sviluppando gli OLS è sempre uno stimatore BLUE poiché = 0 Dalla (*) si ottiene

25 25 Lunico cambiamento si nota nella definizione di R 2

26 26 APPLICAZIONE n = 12 k = 3 Facendo riferimento ai valori Determinare il vettore di stime OLS

27 27 Se consideriamo il modello in forma di scarti dalle medie Dove

28 28 da cui

29 29 RICAPITOLANDO Fino ad ora nessuna ipotesi è stata posta per la distribuzione degli errori nel problema della stima. Aggiungiamo :

30 30 STIMATORE DI MAX VEROSIMIGLIANZA Determiniamo il max lg L rispetto al vettore e rispetto a 2 : Equivale al

31 31 Otteniamo quindi Lo stimatore M.L. di equivale allo stimatore OLS di Stimatore M.L. di 2, che sappiamo essere non corretto Nota: Lo stimatore M.L. di gode (ovviamente) di tutte le buone proprietà viste per lo stimatore OLS di b, Quindi è BLUE

32 32 TEST PER LA VERIFICA DI IPOTESI Dal teorema di GAUSS-MARKOV : Vogliamo testare Ovvero vogliamo verificare se il regressore X i spiega effettivamente la variabile dipendente Y nel caso (improbabile) che sia nota 2 Sotto andiamo a considerare la statistica

33 33 Se il valore cade allesterno dellintervallo di confidenza al 95% della, rifiutiamo H 0 ed il parametro i sarà significativamente diverso da zero. In generale rifiuto H 0 al livello 100 % di significatività quando

34 34 QUANDO 2 NON E NOTA Utilizziamo la sua stima Abbiamo già visto che M X e idempotente con tr(M X ) = n-k da cui rank (M X ) = (n-k) Per il teorema spettrale esiste una matrice ortogonale P : PP = I n

35 35 dove (n-k) k (n-k) k E una matrice diagonale con (n-k) unità e k zeri sulla diagonale principale Esempio n = 6 k = 2 Sulla base di P u può essere trasformato

36 36 con P ortogonale Inoltre dimostriamo che e sono indipendenti: Si dimostra verificando che e è incorrelato da

37 37 e e sono Normali e incorrelate quindi indipendenti ; lo saranno anche e N.B. Quindi

38 38 (*) elemento generico di posto ii nella diagonale della (XX) Le ipotesi su i possono essere verificate sostituendo i valori nella (*) e controllando poi che la statistica superi o meno i valori della regione critica della distribuzione t n-k.

39 39 priceBDRFLRFPRMSSTLOTTAXBTHCONGaRCDNL1L Price=selling price of house in thousands of dollars *BDR= Number of bedrooms *FLR= Floor space in sq.ft(computed bfrom dimension of each room and then augmented by 10%) *FP=Number of fireplaces ; * RMS=Number of rooms *ST=Storm windows (1 if present, 0 if absent) LOT=Front footage of lot in feet ; TAX=Annual taxes BTH=Number of bathrooms GAR=Garage size (0=no garage, 1=one-car garage,…) CDN=Condition (1=needs work, 0 otherwise) L1=Location (L1=1 if property is in zone A, L1=0 otherw.) L2=Location (L2=1 if property is in zone B, L2=0 otherw.) R=14, n=26 SOURCE: Ms.Terry Tasch of Long-Kogan Realty, Chicago.

40 40 MULTIPLE REGRESSION dependent variable : Price Var-Covar matrix of Regression Coefficients (B) Below diagonal : Covariance. Above : Correlation FLR ST FP BDR RMS FLR 1.116E ST 5.112E FP E BDR 7.452E RMS Variables in the Equation Variable B SE B 95%Conf. Intrvl B Beta FLR ST FP BDR RMS Const in Variable T Sig T FLR ST FP BDR RMS (Const.) End Block Number 1 PIN=.050 Limits reached PRICE= *FLR *ST *FP-7.827*BDR *RMR= *(100) *(1) *(0) *(3)+4.864*(6)= (prezzo stimato)

41 41 RIPRENDIAMO LESERCIZIO (Applicazione lucidi precedenti) ( F 0.01, 2, 9 = 8.02) Ricordiamo: n = 12 k = 3 con intercetta 2 var. esplicative in forma di scarti valore empirico di F Si rifiuta H 0 con un livello di significatività del 99% F empirico = >F 0.01,2,9 = 8.02

42 42 Se avessimo voluto testare Ovvero la significatività di X 2 (t 99.9 = 2.82) valore empirico di t Anche adesso rifiutiamo H 0 il regressore X 2 è significativo

43 43 PROBLEMI DI PREVISIONE Si vuole prevedere il valore di Y n+1 per un insieme di valori X osservati. Supponiamo però per X i valori E possibile fare una previsione puntuale o stimare un intervallo di previsioni. Utilizzando le proprietà BLUE di avremo il PREVISORE PUNTUALE sarà BLUFF Best Linear Unbiased Forecasting Function

44 44 Per ottenere un intervallo di previsione è necessario individuare la distribuzione di Quindi una stima intervallare con un livello fiduciario del 100(1- )% :

45 45 APPLICAZIONE Voglio prevedere Y da X 0. Per calcolare lintervallo devo determinare Infatti.

46 46 Lintervallo fiduciario sarà A parità di dati osservati lintervallo sarà tanto più largo quanto più X 0 è distante da

47 47 CENNI SULLE VARIABILI DUMMY (Variabili di comodo) Fino ad ora abbiamo assunto che nella equazione generale Y = X + u Le variabili X siano variabili cardinali date dalla teoria economica. E possibile introdurre variabili cosiddette di comodo che riescano a rappresentare diversi fattori : – EFFETTI TEMPORALI – EFFETTI SPAZIALI – VARIABILI QUALITATIVE

48 48 È possibile che un modello economico possa subire mutamenti strutturali : FUNZIONE DI CONSUMO Tempo di guerra Tempo di pace Si ipotizza comunque che la propensione marginale al consumo rimanga invariata in entrambi i periodi

49 49 Invece di considerare i due modelli separatamente (stime meno precise) vengono uniti in una sola relazione Dove X 1 e X 2 sono variabili dummy : La matrice dei coefficienti sarà e la matrice dei dati

50 50 La trappola delle variabili di comodo Quando utilizziamo le variabili dummy è necessariob fare attenzione a come viene costruito il modello, per non rendere la matrice (XX) singolare. Infatti se nel modello precedente lasciavamo una intercetta : Abbiamo che le 4 colonne di X sono linearmente dipendenti (XX) non è invertibile

51 51 Volendo utilizzare una regressione con intercetta si utilizzerà così solo una dummy : = PMC in entrambi i periodi 1 = 1 = intercetta anni di guerra 2 = = intercetta anni di pace 1 – 2 = 2 = differenza tra lintercetta del periodo guerra e pace Cambiamento di coefficiente angolare 2 – 1 = differenza propensione marginale al consumo nei due periodi

52 52 APPLICAZIONE (p.255 Maddala) Y = SVA + u Y = km / litro SVA = Stima Vita Auto in anni W = peso in Kg

53 53 MULTICOLLINEARITA Quando tra due o più variabili esplicative vi è perfetta collinearità o multicollinearità, la matrice (XX) non è più a rango pieno e le stime OLS non possono essere calcolate. Si può però facilmente fare una sostituzione di variabile Es :

54 54 Il problema della multicollinearità esiste quindi quando due o più regressori sono quasi-collineari ovvero quando il coefficiente di correlazione tra i regressori è alto. MODELLO A 3 VARIABILI

55 55 È facile vedere che valori molto alti di rendono le stime OLS molto imprecise. Inoltre piccole variazioni nella matrice dei dati provocano o possono provocare grandi variazioni nella stima dei parametri.

56 56 ESEMPIO-APPLICAZIONE: instabilità delle stime Dati :

57 57 Togliendo solo una osservazione: Si modificano molto le stime

58 58 ETEROSCHEDASTICITA Avevamo ipotizzato che tale assunzione è in molte situazioni non valida dobbiamo quindi riformulare il problema nella forma

59 59 Sono ancora corretti ma non efficienti

60 60 GOLDFELD – QUANDT TEST - Si ordinano le osservazioni secondo la variabile X j che si ipotizza sia la causa delleteroschedasticità - Si divide il campione in tre parti di numerosità n 1 n 2 n 3. - Dopo la stima OLS nei tre sottocampioni si calcola e Sotto H 0 : omoschedasticità : (il valore di F è piccolo)

61 61 RIMEDI i i = 1, …, n siano valori noti. si applicano i MINIMI QUADRATI PESATI (WLS) ovvero si applica OLS al modello trasformato Ovvero Dove 2.relazione tra la componente stocastica e uno dei regressori Es.

62 62 Trasformiamo il modello Dove Applico OLS

63 63 ESERCIZIO La stima di un modello lineare sulla base dei valori del Reddito e del Consumo di 30 famiglie americane fornisce i seguenti valori : La stima dello stesso modello sulle prime 12 e sulle ultime 12 osservazioni fornisce i seguenti valori: Verificare lipotesi di presenza di eteroschedasticità ed in caso affermativo indicare la procedura di correzione. Cè presenza di eteroschedasticità

64 64 AUTOCORRELAZIONE DEI RESIDUI Molto spesso la assunzione cade perché gli errori sono autocorrelati, effetto molto usuale nelle serie storiche. Per illustrare il problema consideriamo una semplice relazione a due variabili

65

66 66

67 67 CONSEGUENZE 1.Stime OLS di corrette 2.Varianze di molto grandi ovvero 3.Sottostima di tali varianze inefficienti 4.Conseguente non validità dei test t ed F Infatti si può dimostrare che Solo se 2 = 0 Con N=20 ; = 0.5 : sottostima 4% Con N=20 ; = 0.8 sottostima 19%

68 68 TEST DI DURBIN - WATSON residui nella stima OLS per n grande 0 d L d H 2 4-d H 4-d L 4 autocorr.(+) ? No autocorr. ? Autocorr.(-) Il limite tra la zona di accettazione e quella di rifiuto è funzione della matrice X. D – W hanno costruito delle bande valide sempre.

69 69 METODI RISOLUTIVI 1.GLS : se ho una stima di Riesco a trovare la matrice e trasformo il modello in stima OLS 2.Procedura iterativa per stimare Avendo: E (1) t (2) Procedura: - Da (1) stimo e con OLS (partendo da un valore iniziale per ) - Sostituisco e in (2)


Scaricare ppt "1 MODELLO DI REGRESSIONE LINEARE MULTIPLA 1.Modello e assunzioni 2.Stimatori OLS e proprietà 3.R 2, variabilità totale, spiegata, residua 4.Previsione."

Presentazioni simili


Annunci Google