MODELLO DI REGRESSIONE LINEARE MULTIPLA

Slides:



Advertisements
Presentazioni simili
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Advertisements

8) GLI INTERVALLI DI CONFIDENZA
Statistica Economica I
Come organizzare i dati per un'analisi statistica al computer?
Dipartimento di Economia
Intervalli di confidenza
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Capitolo 8 Sistemi lineari.
La teoria di portafoglio: cap.7-9
Analisi dei dati per i disegni ad un fattore
La regressione lineare trivariata
ANALISI DELLA COVARIANZA
Dipartimento di Economia
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
MODELLO DI REGRESSIONE LINEARE MULTIPLA: USO DELLE VARIABILI DUMMY (parte 2) In alcune circostanze è opportuno inserire, come variabili esplicative, delle.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Dip. Economia Politica e Statistica
Analisi della varianza (a una via)
La logica della regressione
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Modello di regressione lineare semplice
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
1 Y Modello di regressione semplice Supponiamo che una variabile Y sia funzione lineare di unaltra variabile X, con parametri incogniti 1 e 2 che vogliamo.
STATISTICA PER LE DECISIONI DI MARKETING
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
La regressione come strumento di sintesi delle relazioni tra variabili
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
IL CAMPIONE.
Riassumendo: ipotesi per OLS 1.Modello lineare 2.X e Y sono frutto di osservazioni indipendenti 3.X è di rango pieno 4.I residui hanno media = 0 5.I residui.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Test basati su due campioni Test Chi - quadro
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE
Intervalli di confidenza
Metodologia della ricerca e analisi dei dati in (psico)linguistica 24 Giugno 2015 Statistica inferenziale
Il modello di regressione lineare multivariato
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Statistica per l’economia e l’impresa Capitolo 4 MODELLO DI REGRESSIONE LINEARE SEMPLICE.
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Test di ipotesi.
Transcript della presentazione:

MODELLO DI REGRESSIONE LINEARE MULTIPLA Il problema Specificazione del modello Le assunzioni Stimatori OLS e proprietà R2 , variabilità totale , spiegata , residua Previsione Variabili dummy Violazioni delle ipotesi del modello

Si tratta di una relazione asimmetrica del tipo 1. IL PROBLEMA Ricerca di un modello matematico in grado di esprimere la relazione esistente tra una variabile di risposta y (quantitativa) e ( ad esempio) k variabili esplicative Si tratta di una relazione asimmetrica del tipo Nel caso del modello di regr.lineare multipla abbiamo che: che geometricamente corrisponde ad un iperpiano a k dimensioni Perché si studia tale modello facilità con cui può essere interpretato un iperpiano a k dimensioni Facilità di stima dei parametri incogniti bj ( j = 1…k) Nella realtà studiamo un modello del tipo Componente componente sistematica casuale

: vettore (n x 1) di osservazioni sulla variabile dipendente 2. IL MODELLO In forma matriciale dove : vettore (n x 1) di osservazioni sulla variabile dipendente : matrice (n x k) di osservazioni su k regressori : vettore (k x 1) di parametri incogniti : vettore (n x 1) di disturbi stocastici

Le matrici e i vettori sono così definiti N.B. La matrice X ha la prima colonna unitaria nel caso in cui si consideri un modello con intercetta b1 nel sistema di riferimento multidimensionale

3. LE ASSUNZIONI DEL MODELLO Esiste legame lineare tra variabile dipendente e regressori Le variabili sono tutte osservabili I coefficienti bi non sono v.c. I regressori X sono non stocastici Il termine u non è osservabile 7) le ui sono omoschedastiche ed incorrelate X ha rango pieno rank (X) = k condizione necessaria hp aggiuntiva da utilizzare nell’analisi inferenziale

Si cercherà quel vettore che minimizza gli scarti al quadrato: 4. STIMATORE OLS y = Xb + u Si cercherà quel vettore che minimizza gli scarti al quadrato: dove Xi è la riga i-esima di X In forma matriciale = perché scalare (1)

perché è uno scalare dalla (1) si ottiene pre-moltiplicando ambo i membri perché rank (X’X) = rank (X) = k X’X è a rango pieno ovvero invertibile stimatore OLS di b

CARATTERISTICHE STIMATORE OLS Teorema di Gauss-Markov è uno stimatore di tipo BLUE Best Linear Unbiased Estimator ovvero ha varianza minima nella classe degli stimatori Lineari e Corretti La matrice è formata da elementi costanti per cui è una trasformazione lineare di y . 2. È uno stimatore corretto Inoltre:

Si consideri più in dettaglio Pertanto la varianza di ogni parametro si desume prendendo il corrispondente valore sulla diagonale principale della , moltiplicato per : 3.

Definiamo uno stimatore alternativo lineare e corretto dove C è una matrice (n x k) ma Pertanto la è la minima nella classe degli stimatori lineari e corretti, e risulta provato il teorema di Gauss-Markov .

MX è simmetrica e idempotente, cioè: 1. 2. STIMA DI MX è simmetrica e idempotente, cioè: 1. 2. Da queste proprietà di MX si ottiene perché scalare tr(ABC)= tr(BCA)= tr(BAC)

è uno stimatore corretto ESEMPIO (Greene p è uno stimatore corretto ESEMPIO (Greene p.200) i : 1960 … 1986 , n = 27 Gi = consumo di benzina in $ Pgi = indice dei prezzi benzina Yi = reddito pro-capite in $ Pqi = indice dei prezzi auto nuove Se definiamo

Vettore y 121.01034 130.20306 136.62968 134.39852 150.34150 171.88391 175.44395 172.03874 198.65222 208.37573 214.38531 228.52113 237.37202 234.34193 222.32567 228.16247 242.33362 248.32557 240.93266 229.58893 227.13648 210.44373 236.85998 255.36365 243.75057 277.31965 x1 1 x2 0.9250000 0.9140000 0.9190000 0.9180000 0.9490000 0.9700000 1.0000000 1.0470000 1.0560000 1.0630000 1.0760000 1.1810000 1.5990000 1.7080000 1.7790000 1.8820000 1.9630000 2.6560000 3.6910000 4.1090000 3.8940000 3.7640000 3.7070000 3.7380000 2.9210000 x3 6036.0000 6113.0000 6271.0000 6378.0000 6727.0000 7027.0000 7280.0000 7513.0000 7891.0000 8134.0000 8322.0000 8562.0000 9042.0000 8867.0000 8944.0000 9175.0000 9381.0000 9735.0000 9829.0000 9722.0000 9769.0000 9725.0000 9930.0000 10421.000 10563.000 10780.000 x4 1.0450000 1.0410000 1.0350000 1.0320000 1.0090000 0.9910000 1.0440000 1.1200000 1.1100000 1.1110000 1.1750000 1.2760000 1.3570000 1.4290000 1.5380000 1.6600000 1.7930000 1.9020000 1.9760000 2.0260000 2.0850000 2.1520000 2.2400000 Matrice X’X; 27.000000 51.357000 229865.00 37.296000 51.357000 133.15081 473127.10 83.319118 229865.00 473127.10 2.0120502e+09 331319.22 37.296000 83.319118 331319.22 56.280428 Matrice inv (X’X); 2.6605735 0.51586178 -0.00029970528 -0.76246362 0.51586178 0.30384762 -6.4047001e-07 -0.78790617 -0.00029970528 -6.4047001e-07 6.6199636e-08 -0.00019015563 -0.76246362 -0.78790617 -0.00019015563 2.8089108 Stime b=inv(X’X) * X’y; -89.761482 -12.588147 0.039938109 -14.443884

Y 121.01034 130.20306 136.62968 134.39852 150.34150 171.88391 175.44395 172.03874 198.65222 208.37573 n=10 X1 1.0000000 (X’X) 10.000000 9.6120000 69370.000 10.318000 Inv (X’X) 197.12839 -30.407072 0.00072941000 -167.53347 Beta = inv(X’X)*X’y -131.78025 -90.513381 0.045503884 61.076792 X2 0.92500000 0.91400000 0.91900000 0.91800000 0.94900000 0.97000000 1.00000000 1.04700000 1.05600000 9.2665480 67031.717 9.9199470 489.93203 -0.034015993 -198.24254 X3 6036.0000 6113.0000 6271.0000 6378.0000 6727.0000 7027.0000 7280.0000 7513.0000 7891.0000 8134.0000 4.8631105e+08 71575.421 2.558142e-06 0.013782628 X4 1.0450000 1.0410000 1.0350000 1.0320000 1.0090000 0.9910000 1.0440000 1.0760000 10.651854 254.38467

RICAPITOLANDO Fino ad ora nessuna ipotesi è stata posta per la distribuzione degli errori nel problema della stima. Aggiungiamo :

Dal teorema di GAUSS-MARKOV : TEST PER LA VERIFICA DI IPOTESI Dal teorema di GAUSS-MARKOV : Vogliamo testare Ovvero vogliamo verificare se il regressore Xi è effettivamente sulla variabile dipendente Y. Nel caso (improbabile) che sia nota s2 la statistica test è: Sotto si distribuisce come una normale standardizzata.

Se il valore cade all’esterno dell’intervallo di confidenza, per esempio al 95%, della N(0,1) rifiutiamo H0 ed il parametro bi sarà “significativamente” diverso da zero; altrimenti non rifiutiamo H0 e concludiamo che il parametro bi non sarà “significativo” In generale per un sistema di ipotesi H0 : bi =c contro H0 : bi c rifiuto, al livello 100e% di significatività, quando

Utilizziamo la sua stima QUANDO s2 NON E’ NOTA Utilizziamo la sua stima In questo caso la statistica test è dove è l’elemento generico di posto ii nella diagonale della (X’X) Le ipotesi su bi possono essere verificate sostituendo i valori nella statistica test e controllando poi che la statistica superi o meno i valori della regione critica della distribuzione tn-k .

H0 : bi =0 contro H1 : bi 0 Statistica test: Quindi per verificare la significatività di bi procederò nel seguente modo: H0 : bi =0 contro H1 : bi 0 Statistica test: Che sotto H0 si distribuisce come una t(n-k). Pertanto fissato  se il valore della statistica test cade all’esterno dell’intervallo di confidenza Rifiuto H0 di non significatività del parametro, altrimenti non rifiuto H0 e concludo che il parametro non è significativo.

5. ADATTAMENTO DEL MODELLO Come nel caso del modello di regressione semplice, il coefficiente di determinazione rappresenta la proporzione di variabilità totale spiegata dal modello, ovvero una misura dell’adattabilità del modello ai dati osservati. La formula per esprimere il coefficiente è analoga a quella dell regressione semplice, solo che in questo caso per variabilità spiegata dal modello si intende la variabilità spiegata dall’insieme dei regressori

Alternativamente si può scrivere: §       ΣTSS, total sum of squares: somma totale dei quadrati degli scarti della variabile dipendente rispetto alla media §  RSS, residual sum of sqares:somma dei quadrati residua o non spiegata dal modello §  ESS, explained sum of squares: somma dei quadrati spiegata dal modello Alternativamente si può scrivere:

Il coefficiente di determinazione è un indicatore del legame lineare tra Y e i regressori. Ha però un difetto: Esso può aumentare anche se viene aggiunto un regressore anche se non “spiega” y. Se dividiamo le devianze per i gradi di libertà andiamo a pesare il contributo a R2 di ogni regressore

TABELLA ANOVA Causa var. Devianza G.L. Stime var. Modello x2…..xk k-1 Residuo n-k Totale n-1 Nota: direttamente dalla tabella ANOVA si può costruire il coefficiente di determinazione.

Per valutare la significatività del modello si ricorre a: H1 : almeno uno dei bi 0 Si costruisce la statistica test F Si individua il quantile 95% o il 99% della distribuzione F(k-1),(n-k) Se si rifiuta H0 ovvero si accetta la significatività congiunta di tutte le variabili esplicative.

APPLICAZIONE (calcolo non matriciali) k = 3 Facendo riferimento ai valori Determinare il vettore di stime OLS

Se consideriamo il modello in forma di scarti dalle medie Dove

da cui

Price=selling price of house in thousands of dollars BDR FLR FP RMS ST LOT TAX BTH CON GaR CDN L1 L2 53 55 56 58 64 44 49 70 72 82 85 45 47 60 62 66 35 38 43 46 50 65 2 3 4 5 8 967 815 900 1007 1100 897 1400 2261 1290 2104 2240 641 862 1043 1325 782 1126 1226 929 1137 743 596 803 696 691 1023 1 6 7 9 12 39 33 24 25 30 29 40 37 27 652 1000 964 1099 960 678 2700 800 1038 1200 860 600 676 1287 834 734 551 1355 561 489 752 774 440 549 1.5 1.0 2.0 2.5 3.0 0.0 Price=selling price of house in thousands of dollars *BDR= Number of bedrooms *FLR= Floor space in sq.ft(computed bfrom dimension of each room and then augmented by 10%) *FP=Number of fireplaces ; * RMS=Number of rooms *ST=Storm windows (1 if present, 0 if absent) LOT=Front footage of lot in feet ; TAX=Annual taxes BTH=Number of bathrooms GAR=Garage size (0=no garage, 1=one-car garage,…) CDN=Condition (1=‘needs work’, 0 otherwise) L1=Location (L1=1 if property is in zone A , L1=0 otherw.) L2=Location (L2=1 if property is in zone B , L2=0 otherw.) R=14 , n=26 SOURCE: Ms.Terry Tasch of Long-Kogan Realty, Chicago.

MULTIPLE REGRESSION dependent variable : Price Var-Covar matrix of Regression Coefficients (B) Below diagonal : Covariance . Above : Correlation FLR ST FP BDR RMS FLR 1.116E-05 .06523 -.02657 .01127 -.41096 ST 5.112E-04 5.50163 .06414 -.03717 -.08660 FP -2.529E-04 .42872 8.11969 .00430 -.06912 BDR 7.452E-05 -.17250 .02423 3.91444 -.83394 RMS -.00230 -.33964 -.32930 -2.75873 2.79561 ----------------------Variables in the Equation----------------------------- Variable B SE B 95%Conf. Intrvl B Beta FLR .019124 .003341 .012155 .026092 .696273 ST 11.253185 2.345555 6.360443 16.145926 .404586 FP 10.295264 2.849507 4.351296 16.239232 .301084 BDR -7.826966 1.978493 -11.954030 -3.699901 -.812218 RMS 4.863990 1.672008 1.376242 8.351738 .658351 Const. 24.172544 4.903762 13.943476 34.401612 ----------------in----------------- Variable T Sig T FLR 5.724 .0000 ST 4.798 .0001 FP 3.613 .0017 BDR -3.956 .0008 RMS 2.909 .0087 (Const.) 4.929 .0001 End Block Number 1 PIN=.050 Limits reached PRICE=24.17+0.019*FLR +11.253*ST+10.295*FP-7.827*BDR+ +4.864*RMR=24.17+0.019*(100)+11.253*(1)+10.295*(0)- -7.827*(3)+4.864*(6)=43.026 (prezzo stimato)

RIPRENDIAMO L’ESERCIZIO (Applicazione lucidi precedenti) ( F0.01 , 2 , 9 = 8.02) Ricordiamo: n = 12 k = 3 con intercetta 2 var. esplicative in forma di scarti valore empirico di F Si rifiuta H0 con un livello di significatività del 99% F empirico = 51.75 >F0.01,2,9 = 8.02

Se avessimo voluto testare Ovvero la significatività di X2 (t99.9 = 2.82) valore empirico di t Anche adesso rifiutiamo H0 il regressore X2 è significativo

6. PROBLEMI DI PREVISIONE Si vuole prevedere il valore di Yn+1 per un insieme di valori X non osservati come: E’ possibile fare una previsione puntuale o stimare un intervallo di previsioni. Utilizzando le proprietà BLUE di avremo il PREVISORE PUNTUALE sarà BLUFF Best Linear Unbiased Forecasting Function

Per ottenere un intervallo di previsione è necessario individuare la distribuzione di Quindi una stima intervallare con un livello fiduciario del 100(1-e)% :

APPLICAZIONE Voglio prevedere Y dato X= X0. Per calcolare l’intervallo devo determinare Infatti .

L’intervallo fiduciario sarà

A parità di dati osservati l’intervallo sarà tanto più largo quanto più X0 è distante da

7. CENNI SULLE VARIABILI DUMMY (Variabili di comodo) Fino ad ora abbiamo assunto che nella equazione generale Y = Xb + u Le variabili X siano variabili cardinali date dalla teoria economica. E’ possibile introdurre variabili cosiddette “di comodo” che riescano a rappresentare diversi fattori : EFFETTI TEMPORALI EFFETTI SPAZIALI VARIABILI QUALITATIVE

È possibile che un modello economico possa subire mutamenti strutturali : FUNZIONE DI CONSUMO Tempo di guerra Tempo di pace Si ipotizza comunque che la propensione marginale al consumo rimanga invariata in entrambi i periodi

Invece di considerare i due modelli separatamente (stime meno precise) vengono uniti in una sola relazione Dove X1 e X2 sono variabili dummy : La matrice b dei coefficienti sarà e la matrice dei dati

La trappola delle variabili di comodo Quando utilizziamo le variabili dummy è necessario fare attenzione a come viene costruito il modello, per non rendere la matrice (X’X) singolare . Infatti se nel modello precedente lasciavamo una intercetta : Abbiamo che le 4 colonne di X sono linearmente dipendenti (X’X) non è invertibile

Volendo utilizzare una regressione con intercetta si utilizzerà così solo una dummy : = PMC in entrambi i periodi a1 = g1 = intercetta anni di guerra a2 = g1 + g2 = intercetta anni di pace a1 – a2 = g2 = differenza tra l’intercetta del periodo guerra e pace Cambiamento di coefficiente angolare b2 – b1 = differenza propensione marginale al consumo nei due periodi

APPLICAZIONE (p.255 Maddala) Y = b1 + b2 SVA + u Y = km / litro SVA = Stima Vita Auto in anni W = peso in Kg

La scelta della forma funzionale La scelta dei regressori 8. SPECIFICAZIONE DEL MODELLO In ogni studio econometrico, la scelta del modello è la prima fase del lavoro. Gli aspetti fondamentali sono: La scelta della forma funzionale La scelta dei regressori La verica sulle assunzioni del modello.

Ln(Y)=ln()+ ln(L)+ ln(K) La scelta della forma funzionale Abbiamo parlato di modelli di regressione lineari, intendendo lineari nei parametri, ovvero anche di quei modelli che possono essere resi lineari tramite una opportuna trasformazione delle variabili. Ad esempio si consideri la funzione di produzione Cobb- Douglas (Y produzione, L lavoro, K capitale: Y=L^K^ Potrebbe sembrare non lineare, tuttavia dopo aver applicato la trasformazione logaritmica otteniamo: Ln(Y)=ln()+ ln(L)+ ln(K) Il modello così trasformato è lineare nei parametri e può essere facilmente trattato ed interpretato.

Esistono forme di modelli che risultano lineari nei parametri, ma sui quali fare attenzione soprattutto in fase di interpretazione. Modelli polinomiali: consideriamo un esempio. In microeconomia si studiano funzioni di produzione, se consideriamo la relazione tra prodotto medio ottenuto da aziende produttrici di materiale elettrico (AP: average product) e l’input (I) necessario alla produzione AP

È evidente che la relazione non è costante e quindi non può essere rappresentata da un modello “linearenella variabili”. La relazione può essere espressa da un polinomio: Questa forma funzionale ha una forma non lineare ma risulta ancora un modello di regressione lineare essendo lineare nei parametri. Tali parametri si stimano con OLS e gli stimatori hanno tutte le “buone” proprietà; ma attenzione all’interpreatazione! I parametri che si stimano non sono di per se’ le pendenze, che invece sono date da E pertanto cambia per ogni valori di I con i parametri  e .

Modelli con interazioni: quando in un modello si inserisce ilprodotto tra due variabili esplicative (interazione) l’effeto che si ottiene è quello di alterare la relazione di ognuna di esse con la variabile dipendente del modello. Per capire l’effetto consideriamo un esempio: studiamo l’effetto di reddito (Y) ed età (AGE) sul consumo di pizza C, supponiamo di avere i dati su un campione di individui con età superiore a 17 anni. Il modello senza interazione: C=+ AGE+ Y+e dE(C)/dAGE=  per qualsiasi livello di reddito la spesa attesa per pizza varia di  per un incremento di un anno di età (si presume <0). dE(C)/dY=  per qualsiasi età la spesa attesa per pizza varia di  per un incremento di un euro di reddito (si presume >0).

C=+ AGE+ Y+(AGE*Y)+e In realtà sembrerebbe più ragionevole pensare che da una certa età in poi, con il crescere dell’età, la propensione marginale a spendere in pizza diminuisca. Siamo cioè nel caso in cui l’effetto di una variabile è modificato da un’altra. Per tenere conto di ciò il modello che dobbiamo specificare è il seguente: C=+ AGE+ Y+(AGE*Y)+e Gli effetti di Y e AGE sono: dE(C)/dAGE=  + Y al crescere dell’età ci si aspetta che la spesa pe pizza si riduca, inoltre siccome presumibilmente <0, maggiore è il reddito, maggiore è la riduzione della spesa per pizza. dE(C)/dY=  + AGE la propensione marginale a spendere in pizza dipende da AGE, quindi la propensione diminuisce sempre più al crescere dell’età.

b. La scelta dei regressori Nella scelta delle variabili esplicative di un modello di regressione, si cerca di seguire i principi esistenti sull’argomento trattato, la logica e l’esperienza.Tuttavia può accadere che nella scelta si siano omesse importanti variabili o inserite variabili irrilevanti, vediamo quali problemi si incontrano in questi casi. Variabili rilevanti omesse: è come introdurre restrizioni (parametro=0) non vere sul modello. La stima OLS dei restanti parametri del modello risulta generalmente distorta, inoltre gli standard error di tali parametri sono sottostimati. Il caso in cui gli stimatori OLS non sono distorti si ha quando le variabili omesse sono incorrelate con le variabili inserite. Per realizzare che alcune variabili rilevanti del modello sono state omesse si deve

proprio fare attenzione a segni o valori dei coefficienti inaspettati proprio fare attenzione a segni o valori dei coefficienti inaspettati. Si potrebbe pensare che per ovviare a questo problema il ricercatore dovrebbe inserire nel modello tutte le variabili che ha a disposizione; in questo modo tuttavia si potrebbe complicare il modello eccessivamente ed inoltre introdurre variabili irrilevanti. Variabili irrilevanti inserite: gli stimatori OLS che si ottengono sono corretti, tuttavia la varianza degli stimatori dei parametri relativi alle variabili “buone” risulta maggiore di quella che avremmo ottenuto specificando il modello correttamente. Il motivo di questa sovrastima è legato al fatto che il Teorema di Gauss Markov dice che lo stimatore b.l.u.e. è lo stimatore OLS relaivo ad un modello correttamente specificato.

9. VIOLAZIONI DELLE IPOTESI DEL MODELLO Multicollinearità Etroschedasticità Autocorrelazione dei residui

a. MULTICOLLINEARITA’ Quando due o più variabili esplicative di un modello di regressione lineare si muovono sistematicamente “insieme” esiste un problema di multicollinearità. Le conseguenze di una tale situazione in un modello econometrico possono essere riassunte così: Se esiste una relazione lineare esatta tra le variabili esplicative (due o più) si parla di esatta multicollinearitànon si possono determinare le stime OLS dei parametri. Se la dipendenza lineare tra le variabili è quasi perfetta, ma non perfetta (coefficiente di correlazione prossimo a 1),siamo nel caso di quasi multicollinearità le stime OLS si determinano ma sono molto instabili a causa degli elevati standard error, si determinano intervalli di confidenza molto larghi.

Cosa fare? Nel caso di esatta multicollinearità si può fare una sostituzione di variabile. Esempio:

Nel caso in cui due o più regressori siano quasi-collineari, si incontrano i problemi maggiori: Varianze campionarie molto alte Covarianze sovrastimate Forte instabilità dei coefficienti stimati per piccole variazioni dei dati. Per comprendere il perché di questi effetti si consideri il modello di regressione a tre variabili:

È facile vedere che valori molto alti di rendono le stime OLS molto imprecise. Inoltre, nell’esempio che segue vediamo che piccole variazioni nella matrice dei dati possono provocare grandi variazioni nella stima dei parametri.

ESEMPIO-APPLICAZIONE: instabilità delle stime Dati :

Togliendo solo una osservazione: Si modificano molto le stime

Come identificare un problema di multicollinearità? La via più intuitiva è quella di osservare la matrice di correlazione delle variabili, se identifichiamo coefficienti di correlazione prossimi a 0.9 (in valore assoluto) abbiamo ragione di credere che il problema della quasi multicollinearità sia presente. Tuttavia con il suddetto metodo si identificano problemi per coppie di variabili, resta il dubbio su cosa fare se sono più di due le variabili a creare multicollinearità. Una strategia è quella di fare “regressioni ausiliarie” tra una variabile “sospetta” e le altre esplicative; se il coefficiente di determinazione che si ottiene è prossimo a 1 sicuramente il coefficiente di regressione della variabile sospetta –nella regressione originale- risente del problema della multicollinearità.

b.ETEROSCHEDASTICITA’ Avevamo ipotizzato che tale assunzione è in molte situazioni non valida. In effetti, se noi consideriamo come variabile dipendente di un modello la spesa per alimenti Y e come variabile indipendente il reddito X, è poco plausibile assumere omoschedasticità perché al crescere del reddito ci sono molti più fattori di soggettività nella scelta degli alimenti e quindi nella relativa spesa. Il modo più semplice per valutare la validità dell’ipotesi di omoschedasticità è considerare i residui OLS del modello stimato e tracciare un diagramma cartesiano in cui in corrispondenza di ogni valore di X si riporta il corrispondente residuo stimato.Se i residui risultano casualmente dispersi attorno allo zero, si può supporre che l’ipotesi di omoschedasticità sia plausibile, se essi hanno un andamento sistematico a ventaglio o quadratico o sinusoidale la nostra ipotesi

Risulta presumibilmente non vera Risulta presumibilmente non vera. Nel nostro esempio i residui saranno disposti a ventaglio, dato che al crescere del reddito essi cresceranno. Quali sono le conseguenze dell’eteroschedasticità negli stimatori OLS dei parametri? Innanzi tutto è opportuno comprende quale diventa la nuova formulazione dell’ipotesi sul termine stocastico: Le stime OLS dei parametri sono:

Quindi STIMATORI OLS ancora lineri e corretti, tuttavia vediamo che si perde l’efficienza, infatti: Ne consegue che gli intervalli di confidenza e risultati della verifica di ipotesi possono essere fuorvianti. Per individuare la presenza di eteroschedasticità la via più intuitiva è quella di fare un’analisi dei residui, tuttavia essa può essere complessa se le variabili esplicative sono molte. Ci sono inoltre alcuni test che si basano in generale sempre sui residui.

GOLDFELD – QUANDT TEST - Si ordinano le osservazioni secondo la variabile Xj che si ipotizza sia la causa dell’eteroschedasticità - Si divide il campione in tre parti di numerosità n1 n2 n3 . - Dopo la stima OLS nei tre sottocampioni si calcola Sotto H0 : omoschedasticità : (il valore di F è piccolo)

si i = 1 , … , n siano valori noti. RIMEDI si i = 1 , … , n siano valori noti. si applicano i MINIMI QUADRATI PESATI (WLS) ovvero si applica OLS al modello trasformato Ovvero Dove Nella pratica si non sono noti quindi il metodo non è applicabile in pratica

relazione tra la componente stocastica e uno dei regressori, ad esempio Trasformiamo il modello

applico OLS e ottengo stimatori B.L.U.E. per i parametri di interesse. 3. Si stima il modello originale ottenendo stimatori lineari e corretti, per il calcolo degli s.e. dei parametri si ricorre allo stimatore di White che tutti i software prevedono.

Verificare l’ipotesi H0 di omoschedasticità ESERCIZIO La stima di un modello lineare sulla base dei valori del Reddito e del Consumo di 30 famiglie americane fornisce i seguenti valori : La stima dello stesso modello sulle prime 12 e sulle ultime 12 osservazioni fornisce i seguenti valori: Verificare l’ipotesi H0 di omoschedasticità Rifiuto H0: c’è eteroschedasticità

c.AUTOCORRELAZIONE DEI RESIDUI Nelle analisi di dati cross-sectional le osservazioni sono generalmente individui o famiglie o aziende che costituiscono un campione casuale di una popolazione. Il fatto che il campione sia casuale, generalmente implica l’incorrelazione dei termini casuali. Quando si hanno invece serie storiche o comunque osservazioni che seguono un ordine temporale tale ipotesi si altera ed i termini di errore risultano generalmente tra loro correlati. Per illustrare il problema consideriamo una semplice relazione a due variabili

Le ipotesi aggiuntive su tale modello, detto modello autoregressivo del primo ordine AR(1) sono: Quindi:

0 0

Stime OLS di b lineari e corrette Varianze di molto grandi ovvero CONSEGUENZE per OLS Stime OLS di b lineari e corrette Varianze di molto grandi ovvero Sottostima di tali varianze inefficienti Conseguente non validità dei test t ed F Infatti si può dimostrare che Solo se r2 = 0 Con N=20 ; r = 0.5 : sottostima 4% Con N=20 ; r = 0.8 sottostima 19%

D – W hanno costruito delle bande valide sempre. TEST DI DURBIN - WATSON residui nella stima OLS per n grande 0 dL dH 2 4-dH 4-dL 4 autocorr.(+) ? No autocorr. ? Autocorr.(-) Il limite tra la zona di accettazione e quella di rifiuto è funzione della matrice X . D – W hanno costruito delle bande valide sempre.

Riesco a trovare la matrice e trasformo il modello in stima OLS METODI RISOLUTIVI GLS : se ho una stima di r Riesco a trovare la matrice e trasformo il modello in stima OLS