La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

MODELLO DI REGRESSIONE LINEARE MULTIPLA

Presentazioni simili


Presentazione sul tema: "MODELLO DI REGRESSIONE LINEARE MULTIPLA"— Transcript della presentazione:

1 MODELLO DI REGRESSIONE LINEARE MULTIPLA
Modello e assunzioni Stimatori OLS e proprietà R2, variabilità totale, spiegata e residua Previsione Test per la verifica di ipotesi Variabili dummy Eteroschedasticità Multicollinearità Autocorrelazione dei residui

2 REGRESSIONE LINEARE MULTIPLA: IL PROBLEMA
Ricerca di un modello matematico in grado di esprimere la relazione esistente tra una variabile di risposta y (quantitativa) e ( ad esempio) k variabili esplicative Si tratta di una relazione asimmetrica del tipo Nel caso del modello di regr.lineare multipla abbiamo che: che geometricamente corrisponde ad un iperpiano a k dimensioni Perché si studia tale modello facilità con cui può essere interpretato un iperpiano a k dimensioni ii) Facilità di stima dei parametri incogniti bj ( j = 1…k) Nella realtà studiamo un modello del tipo Componente componente sistematica casuale

3 : vettore (n x 1) di osservazioni sulla variabile dipendente
IL MODELLO In forma matriciale dove : vettore (n x 1) di osservazioni sulla variabile dipendente : matrice (n x k) di osservazioni su k regressori : vettore (k x 1) di parametri incogniti : vettore (n x 1) di disturbi stocastici

4 Le matrici e i vettori sono così definiti
N.B. La matrice X ha la prima colonna unitaria nel caso in cui si consideri un modello con intercetta b1 nel sistema di riferimento multidimensionale

5 ASSUNZIONI DEL MODELLO
Esiste legame lineare tra variabile dipendente e regressori Le variabili sono tutte osservabili I coefficienti bi non sono v.c. I regressori X sono non stocastici Il termine u non è osservabile 7) le ui sono omoschedastiche ed incorrelate X ha rango pieno rank (X) = k condizione necessaria hp aggiuntiva da utilizzare nell’analisi inferenziale

6 Si cercherà quel vettore che minimizza gli scarti al quadrato:
STIMATORE OLS Y = Xb + u Si cercherà quel vettore che minimizza gli scarti al quadrato: dove Xi è la riga i-esima di X In forma matriciale = perché scalare (1)

7 perché è uno scalare dalla (1) si ottiene pre-moltiplicando ambo i membri perché rank (X’X) = rank (X) = k X’X è a rango pieno ovvero invertibile stimatore OLS di b

8 CARATTERISTICHE STIMATORE OLS
Teorema di Gauss-Markov è uno stimatore di tipo BLUE Best Linear Unbiased Estimator ovvero ha varianza minima nella classe degli stimatori Lineari e Corretti La matrice è formata da elementi costanti per cui è una trasformazione lineare di y . 2. È uno stimatore corretto Inoltre:

9 Si consideri più in dettaglio Pertanto la varianza di ogni parametro si desume prendendo il corrispondente valore sulla diagonale principale della , moltiplicato per : 3.

10 MX è simmetrica e idempotente, cioè: 1. 2.
STIMA DI MX è simmetrica e idempotente, cioè: 1. 2. Da queste proprietà di MX si ottiene perché scalare tr(ABC)= tr(BCA)= tr(BAC)

11 è uno stimatore corretto ESEMPIO (Greene p
è uno stimatore corretto ESEMPIO (Greene p.200) i : 1960 … 1986 , n = 27 Gi = consumo di benzina in $ Pgi = indice dei prezzi benzina Yi = reddito pro-capite in $ Pqi = indice dei prezzi auto nuove Se definiamo

12 Vettore y x1 1 x2 x3 x4 Matrice X’X; e Matrice inv (X’X); e e e Stime b=inv(X’X) * X’y;

13 Y n=10 X1 (X’X) Inv (X’X) Beta = inv(X’X)*X’y X2 X3 e+08 e-06 X4

14 ANOVA Analisi della varianza
Se vogliamo testare simultaneamente ipotesi su tutti i parametri o coefficienti dei regressori andiamo a considerare la statistica F di Fisher-Snedecor. Considerando il modello in forma di scarti

15 e ricordando che Fp,q Sotto
Si può dimostrare che e ricordando che Fp,q Sotto

16 TABELLA ANOVA Causa var. Devianza G.L. Stime var. Modello x2…..xk k-1 Residuo n-k Totale n-1 Si costruisce la statistica F Si individua il 95% o il 99% quantile della distribuzione F(k-1),(n-k) Se si rifiuta H0

17 COEFFICIENTE DI CORRELAZIONE MULTIPLA
Il coefficiente di correlazione è un indicatore del legame lineare tra Y e i regressori. Ha però un difetto: Esso può aumentare anche se viene aggiunto un regressore che non “spiega” y. Se dividiamo le devianze per i gradi di libertà andiamo a pesare il contributo a R2 di ogni regressore

18 è sempre uno stimatore BLUE poiché = 0 Dalla (*) si ottiene
Sviluppando gli OLS è sempre uno stimatore BLUE poiché = 0 Dalla (*) si ottiene

19 Facendo riferimento ai valori
APPLICAZIONE n = 12 k = 3 Facendo riferimento ai valori Determinare il vettore di stime OLS

20 Se consideriamo il modello in forma di scarti dalle medie
Dove

21 da cui

22 RICAPITOLANDO Fino ad ora nessuna ipotesi è stata posta per la distribuzione degli errori nel problema della stima. Aggiungiamo :

23 TEST PER LA VERIFICA DI IPOTESI
Dal teorema di GAUSS-MARKOV : Vogliamo testare Ovvero vogliamo verificare se il regressore Xi spiega effettivamente la variabile dipendente Y nel caso (improbabile) che sia nota s2 Sotto andiamo a considerare la statistica

24 Se il valore cade all’esterno dell’intervallo di
confidenza al 95% della rifiutiamo H0 ed il parametro bi sarà “significativamente” diverso da zero. In generale rifiuto H0 al livello 100e% di significatività quando

25 Per il teorema spettrale
QUANDO s2 NON E’ NOTA Utilizziamo la sua stima Abbiamo già visto che MX e idempotente con tr(MX) = n-k da cui rank (MX) = (n-k) Per il teorema spettrale esiste una matrice ortogonale P : P’P = In

26 Sulla base di P u può essere trasformato dove
(n-k) k (n-k) k E’ una matrice diagonale con (n-k) unità e k zeri sulla diagonale principale Esempio n = 6 k = 2 Sulla base di P u può essere trasformato dove

27 con P ortogonale Inoltre dimostriamo che e sono indipendenti: Si dimostra verificando che e è incorrelato da

28 e e sono Normali e incorrelate quindi
indipendenti ; lo saranno anche e N.B. Quindi

29 (*) elemento generico di posto ii nella diagonale della (X’X) Le ipotesi su bi possono essere verificate sostituendo i valori nella (*) e controllando poi che la statistica superi o meno i valori della regione critica della distribuzione tn-k .

30 RIPRENDIAMO L’ESERCIZIO (Applicazione lucidi precedenti 26-28)
( F0.01 , 2 , 9 = 8.02) Ricordiamo: n = 12 k = 3 con intercetta 2 var. esplicative in forma di scarti valore empirico di F Si rifiuta H0 con un livello di significatività del 99% F empirico = >F0.01,2,9 = 8.02

31 Se avessimo voluto testare
Ovvero la significatività di X2 (t99.9 = 2.82) valore empirico di t Anche adesso rifiutiamo H il regressore X2 è significativo

32 PROBLEMI DI PREVISIONE
Si vuole prevedere il valore di Yn+1 per un insieme di valori X osservati. Supponiamo però per X i valori E’ possibile fare una previsione puntuale o stimare un intervallo di previsioni. Utilizzando le proprietà BLUE di avremo il PREVISORE PUNTUALE sarà BLUFF Best Linear Unbiased Forecasting Function

33 Per ottenere un intervallo di previsione
è necessario individuare la distribuzione di Quindi una stima intervallare con un livello fiduciario del 100(1-e)% :

34 Voglio prevedere Y da X0. Per calcolare l’intervallo devo determinare
APPLICAZIONE Voglio prevedere Y da X0. Per calcolare l’intervallo devo determinare Infatti

35 L’intervallo fiduciario sarà
A parità di dati osservati l’intervallo sarà tanto più largo quanto più X0 è distante da

36 CENNI SULLE VARIABILI DUMMY (Variabili di comodo)
Fino ad ora abbiamo assunto che nella equazione generale Y = Xb + u Le variabili X siano variabili cardinali date dalla teoria economica. E’ possibile introdurre variabili cosiddette “di comodo” che riescano a rappresentare diversi fattori : EFFETTI TEMPORALI EFFETTI SPAZIALI VARIABILI QUALITATIVE

37 È possibile che un modello economico possa subire mutamenti strutturali :
FUNZIONE DI CONSUMO Tempo di guerra Tempo di pace Si ipotizza comunque che la propensione marginale al consumo rimanga invariata in entrambi i periodi

38 Invece di considerare i due modelli separatamente (stime meno precise) vengono uniti in una sola relazione Dove X1 e X2 sono variabili dummy : La matrice b dei coefficienti sarà e la matrice dei dati

39 La trappola delle variabili di comodo
Quando utilizziamo le variabili dummy è necessariob fare attenzione a come viene costruito il modello, per non rendere la matrice (X’X) singolare . Infatti se nel modello precedente lasciavamo una intercetta : Abbiamo che le 4 colonne di X sono linearmente dipendenti (X’X) non è invertibile

40 Volendo utilizzare una regressione con intercetta si utilizzerà così solo una dummy :
= PMC in entrambi i periodi a1 = g1 = intercetta anni di guerra a2 = g1 + g2 = intercetta anni di pace a1 – a2 = g2 = differenza tra l’intercetta del periodo guerra e pace Cambiamento di coefficiente angolare b2 – b1 = differenza propensione marginale al consumo nei due periodi

41 APPLICAZIONE (p.255 Maddala)
Y = b1 + b2 SVA + u Y = km / litro SVA = Stima Vita Auto in anni W = peso in Kg

42 Si può però facilmente fare una sostituzione di variabile
MULTICOLLINEARITA’ Quando tra due o più variabili esplicative vi è perfetta collinearità o multicollinearità, la matrice (X’X) non è più a rango pieno e le stime OLS non possono essere calcolate. Si può però facilmente fare una sostituzione di variabile Es :

43 Il problema della multicollinearità esiste quindi quando due o più regressori sono quasi-collineari ovvero quando il coefficiente di correlazione tra i regressori è alto . MODELLO A 3 VARIABILI

44 È facile vedere che valori molto alti di rendono le stime OLS molto imprecise.
Inoltre piccole variazioni nella matrice dei dati provocano o possono provocare grandi variazioni nella stima dei parametri.

45 ESEMPIO-APPLICAZIONE: instabilità delle stime
Dati :

46 Togliendo solo una osservazione: Si modificano molto le stime

47 ETEROSCHEDASTICITA’ Avevamo ipotizzato che tale assunzione è in molte situazioni non valida dobbiamo quindi riformulare il problema nella forma

48 Sono ancora corretti ma non efficienti (ovvero non sono necessariamente a varianza minima)

49 GOLDFELD – QUANDT TEST - Si ordinano le osservazioni secondo la variabile Xj che si ipotizza sia la causa dell’eteroschedasticità - Si divide il campione in tre parti di numerosità n1 n2 n Dopo la stima OLS nei tre sottocampioni si calcola e Sotto H0 : omoschedasticità : (il valore di F è piccolo)

50 si i = 1 , … , n siano valori noti.
RIMEDI si i = 1 , … , n siano valori noti. si applicano i MINIMI QUADRATI PESATI (WLS) ovvero si applica OLS al modello trasformato Ovvero Dove relazione tra la componente stocastica e uno dei regressori Es.

51 Trasformiamo il modello Dove Applico OLS

52 Verificare l’ipotesi di presenza di
ESERCIZIO La stima di un modello lineare sulla base dei valori del Reddito e del Consumo di 30 famiglie americane fornisce i seguenti valori : La stima dello stesso modello sulle prime 12 e sulle ultime 12 osservazioni fornisce i seguenti valori: Verificare l’ipotesi di presenza di eteroschedasticità ed in caso affermativo indicare la procedura di correzione. C’è presenza di eteroschedasticità

53 AUTOCORRELAZIONE DEI RESIDUI
Molto spesso la assunzione cade perché gli errori sono autocorrelati, effetto molto usuale nelle serie storiche. Per illustrare il problema consideriamo una semplice relazione a due variabili

54

55

56 Varianze di molto grandi ovvero
CONSEGUENZE Stime OLS di b corrette Varianze di molto grandi ovvero Sottostima di tali varianze inefficienti Conseguente non validità dei test t ed F Infatti si può dimostrare che Solo se r2 = 0 Con N=20 ; r = 0.5 : sottostima 4% Con N=20 ; r = 0.8 sottostima 19%

57 D – W hanno costruito delle bande valide sempre.
TEST DI DURBIN - WATSON residui nella stima OLS per n grande dL dH dH dL 4 autocorr.(+) ? No autocorr ? Autocorr.(-) Il limite tra la zona di accettazione e quella di rifiuto è funzione della matrice X . D – W hanno costruito delle bande valide sempre.

58 Riesco a trovare la matrice e trasformo il modello in stima OLS
METODI RISOLUTIVI GLS : se ho una stima di r Riesco a trovare la matrice e trasformo il modello in stima OLS Procedura iterativa per stimare r Avendo: E (1) et (2) Procedura: - Da (1) stimo a e b con OLS (partendo da un valore iniziale per r ) - Sostituisco e in (2)


Scaricare ppt "MODELLO DI REGRESSIONE LINEARE MULTIPLA"

Presentazioni simili


Annunci Google