Struttura dei dati panel

Slides:



Advertisements
Presentazioni simili
Incidenza del mesotelioma in Liguria
Advertisements

Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
Dipartimento di Economia
Proprietà degli stimatori
Parametri dinteresse IUT Nice – Côte dAzur Département STID 6 Janvier 2006 Sondages Corso di campionamento.
“Teoria e metodi della ricerca sociale e organizzativa”
Lez. 3 - Gli Indici di VARIABILITA’
Tratto dal sito Il carteggio nautico Tratto dal sito 27/03/2017.
ANALISI DELLA COVARIANZA
Dipartimento di Economia
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
L’elasticità della domanda rispetto al “proprio prezzo”
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Dip. Economia Politica e Statistica
INTERVALLO DI CONFIDENZA PER UNA PROPORZIONE (1)
Varianza campionaria Errore standard della varianza campionaria
Campionamento casuale semplice
DIFFERENZA TRA LE MEDIE
E(’)= Riassumendo: ipotesi per OLS Modello lineare
Processi Aleatori : Introduzione – Parte I
Corso di Fondamenti di Chimica
1 Perugia, 16 giugno 2005 ~ X Consumo nei due mesi ~ Spesa in euro: Avvertenza: i testi qui proposti sono, talvolta, modificati rispetto alla formulazione.
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
Canale A. Prof.Ciapetti AA2003/04
Indagine trimestrale sulla industria manifatturiera in provincia di Ravenna I trimestre 2003 Ravenna, 5 giugno 2003 Associazione degli Industriali della.
Indagine trimestrale sulla industria manifatturiera in provincia di Ravenna - Imprese con oltre 10 addetti - IV trimestre e consuntivo 2003 Ravenna, 19.
Indagine trimestrale sulla industria manifatturiera in provincia di Ravenna - Imprese con oltre 10 addetti - I trimestre 2004 Ravenna, 24 maggio 2004 Associazione.
Immigrazione e integrazione: a che punto siamo?
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 6: la funzione c2
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
Risk and Accounting Bilancio delle banche Marco Venuti 2013.
Già primario f.f. U.O. di neurochirurgia
Generazione Italia Osservatorio Roma, 9 Settembre 2010.
Cos’è un problema?.
Lezione 6 Inferenza statistica
Lezione 7 i Test statistici
Rappresentazione di grafici in carta semilogaritmica
Le prime 30 professioni di sbocco per i diplomati in Italia Anno 2012 (valori assoluti e incidenze percentuali) Assunzioni di diplomati (v.a.)* Incidenza.
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
Rapporto socio-demografico della provincia di Lecco 2004/2008
Un trucchetto di Moltiplicazione per il calcolo mentale
Il “parallel indexing” nella maggior parte dei radar è costituito da 6 linee parallele fra loro, distanti l’una dall’altra 1/6 della scala, che possono.
STATISTICA PER LE DECISIONI DI MARKETING
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
COVARIANZA e CORRELAZIONE.
Classificazione (aka Cluster Analysis)
MODELLI A COMPONENTI DI VARIANZA EFFETTI CASUALI - RANDOM EFFECTS
Minimo comune multiplo
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
DATA MINING PER IL MARKETING
Analisi Bivariata: Test Statistici
Compito 1: 1) La seguente distribuzione riporta i punteggi di depressione su individui con disturbo post- traumatico da stress: a)Costruire.
CDD Classificazione Decimale Dewey
Regressione Lineare parte 2 Corso di Misure Meccaniche e Termiche David Vetturi.
DIRETTIVI UNITARI SPI-CGI – FNP-CISL - UILP-UIL TERRITORIO LODIGIANO Lunedì 23 marzo 2015 dalle ore 9,00 alle ore 13,00 Presso la sala Conferenze Confartigianato.
1 Ministero dell’Istruzione, dell’Università e della Ricerca Dipartimento per la Programmazione e la Gestione delle risorse umane, finanziarie e strumentali.
ANNI POLIZZA 1 IMPORTO PREMIO UNICO INTERESSE NETTO ANNUO (%) TOTALE INTERESSI (€) POLIZZA 2 IMPORTO PREMIO ANNUO (INDICIZZATO) POLIZZA 3 IMPORTO PREMIO.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Lezione B.10 Regressione e inferenza: il modello lineare
IL CAMPIONE.
Riassumendo: ipotesi per OLS 1.Modello lineare 2.X e Y sono frutto di osservazioni indipendenti 3.X è di rango pieno 4.I residui hanno media = 0 5.I residui.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Transcript della presentazione:

Struttura dei dati panel Variabile dipendente osservata in N unità in T occasioni K variabili indipendenti osservate in N unità in T occasioni Residuo pertinente all’unità i e all’occasione t Di solito “incolloniamo” i dati: Var.1 Var.k Occasione 1 Unità 1 Occasione 2 Occasione t Unità n

Stessa “pendenza” diverse “intercette”!!!! Vediamo un esempio: C=40+0.45 R C=30+0.45 R C=20+0.45 R C=10+0.45 R C=1.5+4.12 R Stessa “pendenza” diverse “intercette”!!!!

In altri termini la elasticità del consumo rispetto al reddito sono le stesse per tutti gli individui, ciò che cambia è il “punto di partenza, cioè il consumo che corrisponde ad un reddito 0 I dati sezionali “nascondono” questo fatto: Sottostimano il “punto di partenza” (l’intercetta) Sovrastimano l’elasticità (la pendenza) Vi è Distorsione: essa distorsione si annulla solo se l’intercetta per ogni individuo è la STESSA Cioè una stima sezionale ipotizza un MODELLO di comportamento in cui la parte non spiegata della relazione (l’intercetta) è la stessa per tutti gli individui Cioè nega l’ETEROGENEITA’ tra individui

1) E’ venuta alla luce una ipotesi del modello che non era stata esplicitata: l’omogeneità tra le parti non osservate di ciascun individuo. 2) Solo una certa configurazione dei dati (osservazioni in più occasioni) consente di esplicitare ed affrontare l’eterogeneità 3) Il modo in cui rappresentiamo con dati (simboli) il fenomeno (modello) hanno una influenza diretta sulle leggi che regolano il linguaggio (la tecnica ) e quindi sulle conclusioni 4) Dobbiamo sempre occuparci del processo che ha generato i dati che può non essere neutrale per il modello

Casistica di non neutralità delle misure. Consideriamo un collettivo di unità statistiche, il DGP ha tra le sue caratteristiche più importanti la relazione (se c’è) che lega le misure effettuate sulle diverse unità. La casistica possibile è ampia, tra le assunzioni più comuni: Indipendenza (nota e utile, tuttavia un DGP poco verosimile: ad es: imprese di uno stesso settore, pazienti di una stessa città….) Di solito misure ripetute relative ad una stessa unità sono più “simili” di quelle tra unità diverse Di solito misure vicine nel tempo e nello spazio tendono ad essere più simili di quelle più lontane

Un problema dei dati sezionali: l’eterogeneità non osservata Molte caratteristiche individuali non sono osservate, alcune sono anche non osservabili (es. Capacità imprenditoriale, entusiasmo, propensione al rischio) Queste variano tra gli individui e sono denominate “eterogeneità non osservata” Se queste caratteristiche sono correlate con la variabile di interesse e/o con le variabili osservate, allora la stima dei coefficienti è DISTORTA DISTORSIONE DA VARIABILE OMESSA. I dati di panel consentono di correggere questo BIAS

(digressione sulle variabili omesse) Supponiamo che il modello “vero” sia (in forma vettoriale): Se ignoriamo X2 La matrice P contiene le pendenze OLS di X2 su X1. Ad esempio nella relazione

Sulla matrice di var-covar il discorso è più complesso: Con due variabili: Distorsione nella stima sia sui coefficienti che sulla Var

Dobbiamo specificare la forma della eterogeneità, ciò implica ipotesi sulla matrice di varianza-covarianza, cioè sulla struttura dei residui del modello In generale le varianze dei (residui) del modello non saranno omoschedastiche saranno caratterizzate da diverse componenti che vanno “scorporate” in modo ottenere stime corrette. Questo tipologia di modelli è detta “a componenti di varianza”. Naturalmente si avranno diversi tipi di modelli a seconda delle ipotesi sulle componenti di varianza che potranno essere, in prima istanza, di tipo deterministico o stocastico Un discorso analogo vale anche per la Covarianza che, però, definisce modelli Diversi, in gran parte legati alla analisi di serie storiche

Un esempio Costi e produzione di 6 imprese per 4 anni:

Adattiamo un modello lineare: ln(Y)=a+bln(X)+ OLS: a=-4.18 b=0.89 Var=0.04 r²=0.98

Calcolando l’autocorrelazione con lag=1 Abbiamo una PRIMA stima del modello quindi possiamo stimare i residui E dai residui Varianze individuali e correlazioni Ovviamente dobbiamo ipotizzare una “forma” per Varianze e Covarianze IPOTESI: Per le varianze individuali: Costanti nel tempo Per le correlazioni: processo AR(1) Sotto queste ipotesi la stima è possibile mediando (rispetto al tempo) i quadrati dei residui per ogni individuo Calcolando l’autocorrelazione con lag=1

Consideriamo i residui per per ciascuna impresa:

(significatività test F per l’uguaglianza delle varianze) Scopriamo che le varianze per impresa sono diverse cioè c’è eteroschedasticità: (significatività test F per l’uguaglianza delle varianze) E che le autocorrelazioni tra i residui della stessa impresa sono MOLTO diverse da 0

Infatti se utilizziamo GLS (con stima elementare della matrice Var/covar) (varianze residui sulla diagonale e AR1 nei blocchi di impresa) Otteniamo stime diverse per i coefficienti: a= -5.91 b=1.10 NB. Non è stima FGLS! Dimostra solo che i residui non sono omoschedastici e incorrelati

ETEROSCHEDASTICA e/o correlata, DETERMINISTICA o STOCASTICA Avvertenze sulla notazione: D’ora in poi i simboli utilizzati nella notazione indicheranno VETTORI/MATRICI Per i residui, in generale il simbolo u indicherà residui OMOSCHEDASTICI e INCORRELATI Il simbolo  indicherà un residuo “composto” da u e una componente ETEROSCHEDASTICA e/o correlata, DETERMINISTICA o STOCASTICA

Componente individuale Deterministica o stocastica Costante nel tempo A questo punto dobbiamo modificare il modello semplice: Formuliamo una ipotesi di dipendenza: Sviluppiamo un modello: (a componenti di varianza) Variabili esplicative Componente individuale Deterministica o stocastica Costante nel tempo Errore “Composto”

Diversi modi per specificare l’errore (ce ne sono altri…) Effetto temporale Errore casuale Effetto Individuale

Effetto individuale Due possibilità di trattamento (due dgp): Effetti FISSI: li sono constanti e vengono trattati come una intercetta Effetti CASUALI: li sono estrazioni da una distribuzione di probabilità data e diventano componenti stocastiche dell’errore, cioè i li hanno una “loro” varianza

Il Modello “zero” nessun effetto Pooled regression Si suppone che non vi sia eterogeneità o che l’eterogeneità sia stata eliminata in qualche modo: li sono constanti tra gli individui e identificano una UNICA intercetta. Le procedure di stima possibili si differenziano per il trattamento “preliminare dei dati: OLS “usuale” sui dati non trattati : OLS sugli scarti per ciascun individuo (stima within) OLS sulle medie (nel tempo) di ciascun individuo (stima between) Altri trattamenti (ad. Es. Sulle variazioni nel tempo) Attenzione agli indici: Omoschedaticità e incorrelazione estesa a tutti gli individui, tutti i tempi e tutte le esplicative (irrealistico)

Prima strategia :OLS “usuale” Attenzione agli indici nelle ipotesi sulla varianza/covarianza: Per la Var si ipotizza che i residui siano omoschedastici per ogni individuo e per ogni occasione Per la Covar si suppone pari a 0 in ogni individuo e in ogni occasione

Naturalmente se c’è effetto individuale Si ottiene stima distorta Modello “vero” Modello stimato Con (ci torneremo) Si ha: Quindi il residuo stimato non è  ed ha una componente u che si “ripete” nel tempo per lo stesso individuo, quindi è ETEROSCHEDASTCO e CORRELATO (nel tempo sullo stesso individuo)

Seconda strategia : stimatore within: OLS sugli scarti dalla media calcolata in t per ciascun i In questo caso i i vengono eliminati e con essi la distorsione nella stima, ma non abbiamo stime per le intercette individuali. Quindi avremo problemi, ad esempio in termini di previsione.

Terza strategia : stimatore between OLS sulle media calcolata in t per ciascun i Stessi problemi del modello OLS “usuale per quanto riguarda la distorsione, In più forte perdita di dati, quindi perdita di efficienza

Altre strategie: stimatore alle differenze prime OLS sulle variazioni t per ciascun i i i vengono eliminati e con essi la distorsione nella stima, ma non è una strategia raccomandabile, ad esempio elimina tutte le variabili esplicative “time invariant” Cioè modifica la specificazione del modello

Effetti FISSI Abbiamo visto che alcune strategie eliminano le distorsoni ma, quantomeno, non forniscono una stima delle intercette individuali Occupiamoci, ora, esplicitamente della stima dei i cominciando dal caso in cui essi siano deterministici, cioè costanti nel tempo e variabili tra gli individui

Stima delle intercette individuali: Least Square Dummy Variables (LSDV) I metodi di eliminazione non stimano i li,cioè non forniscono una misura delle caratteristiche non osservate. Se si è interessati alla stima dei li è necessario adottare un altro stimatore.:

Riassumendo: EFFETTI FISSI 4 stimatori

I coefficienti della X Pooled 3.4974 Within 0.7691 Between 4.1195 LSDV 2 considerazioni: LSDV=Within per quanto riguarda le “pendenze Overall = media ponderata (within e between)

Abbiamo visto che 3 delle strategie proposte hanno diversi limiti, tuttavia esse rimangono importanti perché forniscono la base per test inferenziali sul modello LSDV Infatti collegati a ciascuna strategia è possibile ottenere una valutazione dell’errore di stima fondata sulle ipotesi di ciascuna strategia Tali quantità si prestano ad un insieme di test, sostanzialmente ispirati dallo schema di Analisi della varianza.

Esempio e test di ipotesi Procedimento: 1 calcolo RSS per il modello within 2. Calcolo RSS per il modello “totale” 3 Trovo per differenza RSS between NB. Dati lievemente diversi Rispetto all’esempio precedente

0,266 Stima within: incolonniamo i dati: Stima within: a -3,79E-16 b 0,676531 Dati Media di impresa Scarti impresa RSS within= 0,266 impresa Occas. Y X Residui Residui^2 1 1,15 5,37 1,47 6,18 -0,32 -0,81 0,23 0,05 2 1,45 6,04 -0,02 -0,14 0,07 0,01 3 1,52 6,38 0,20 -0,09 4 1,77 6,93 0,30 0,75 -0,21 0,04 1,35 6,55 1,89 7,12 -0,54 -0,57 -0,15 0,02 1,71 6,7 -0,18 -0,42 0,11 2,1 7,4 0,21 0,28 0,00 2,39 7,83 0,50 0,71 2,95 8,07 3,35 8,59 -0,40 -0,52 -0,05 3,26 8,48 -0,11 3,48 8,67 0,13 0,08 3,72 9,14 0,37 0,55 3,56 8,64 3,99 9,09 -0,43 -0,44 -0,13 3,93 8,94 -0,06 4,11 9,23 0,12 0,15 4,36 9,53 0,45 5 3,5 8,7 3,75 8,99 -0,25 -0,29 3,69 9,01 -0,07 3,76 9,05 0,06 -0,03 4,06 9,21 0,31 0,22 0,16 0,03 6 4,29 9,38 4,77 9,90 -0,48 -0,51 4,59 9,65 -0,24 -0,01 4,93 10,21 0,32 5,26 10,34 0,49 0,19

1,013 Stima “Overall”: incolonniamo i dati: Stima within: a 1,85E-17 b 0,8884514 Dati media "totale" Scarti impresa RSS within= 1,013 impresa Occas. Y X Residui Residui^2 1 1,15 5,37 3,20 8,31 -2,05 -2,94 0,56 0,31 2 1,45 6,04 -1,75 -2,27 0,26 0,07 3 1,52 6,38 -1,68 -1,93 0,03 0,00 4 1,77 6,93 -1,43 -1,38 -0,21 0,04 1,35 6,55 -1,85 -1,76 -0,29 0,08 1,71 6,7 -1,49 -1,61 -0,06 2,1 7,4 -1,10 -0,91 0,09 2,39 7,83 -0,81 -0,48 -0,39 0,15 2,95 8,07 -0,25 -0,24 -0,04 3,26 8,48 0,06 0,17 -0,09 0,01 3,48 8,67 0,28 0,36 3,72 9,14 0,52 0,83 -0,22 0,05 3,56 8,64 0,33 3,93 8,94 0,73 0,63 4,11 9,23 0,91 0,92 4,36 9,53 1,16 1,22 5 3,5 8,7 0,30 0,39 -0,05 3,69 9,01 0,49 0,70 -0,14 0,02 3,76 9,05 0,74 -0,10 4,06 9,21 0,86 0,90 6 4,29 9,38 1,09 1,07 0,14 4,59 9,65 1,39 1,34 0,20 4,93 10,21 1,73 1,90 5,26 10,34 2,06 2,03 0,25

Definiamo 3 stime corrette di RSS secondo tre ipotesi di modello Dev. within Dev. «spiegata» - between Dev. Totale Divise per gli opportuni gradi di libertà si otterranno tre stime della Varianza: Vw = Varianza within Vb = Varianza beetwen Vt = Varianza totale

Rapportando le Varianze (test F), possiamo «testare» 3 ipotesi :

I test (F)

Il TEST dice che né le PENDENZE né le intercette sono significativamente diverse

S1 0,266126693 N= 6 S2 0,746846584 T= 4 S3 1,012973278 K= 2 NUM GDLNUM DEN GDLDEN VALORE Signif. F3 15 1,122542914 0,474252428 F1 0,480719891 10 1,08381437 0,482236631 F4 5 16 1,140268211 0,379585972

INFATTI i.v. PREVEDE “MEGLIO”

i coeff vanno letti come contrasti rispetti a t=1) INSERIAMO UN EFFETTO VARIABILE NEL TEMPO E COSTANTE TRA GLI INDIVIDUI: La matrice X si modifica così (vanno inseriti T-1 effetti tempo per evitare perfetta col linearità e quindi i coeff vanno letti come contrasti rispetti a t=1)

Ma se volessi stimare i valori medi…. Per impresa

TOGLIENDO IL “POOLED” I TEMPI FANNO PEGGIORARE LA STIMA

Valori medi per anno……. QUI, OVVIAMENTE, SONO LE INTERCETTE VARIABILI CHE PREVEDONO PEGGIO