MODELLO DI REGRESSIONE LINEARE SEMPLICE

Slides:



Advertisements
Presentazioni simili
Corso di ECONOMETRIA A.A Dispensa n.2.
Advertisements

Statistica Economica I
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
redditività var. continua classi di redditività ( < 0 ; >= 0)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Lezione B.10 Regressione e inferenza: il modello lineare
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Statistica per l’economia e l’impresa Capitolo 4 MODELLO DI REGRESSIONE LINEARE SEMPLICE.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
Disequazioni in una variabile. LaRegola dei segni La disequazione A(x) · B(x) > 0 è soddisfatta dai valori di per i quali i due fattori A(x) e B(x) hanno.
Precorso di Statistica per le Lauree Magistrali
x : variabile indipendente
Le funzioni matematiche e il piano cartesiano
Distribuzioni limite La distribuzione normale
Dip. Economia Politica e Statistica
Precorso di Statistica per le Lauree Magistrali
Definizione di logaritmo
GLI STRUMENTI AUSILIARI
Modello neoclassico di crescita esogena di R. Solow
La circonferenza nel piano cartesiano
Equazioni differenziali - introduzione
x : variabile indipendente
Algoritmi di stima con perdita di pacchetti in reti di sensori wireless: modellizzazione a catene di Markov, stima e stima distribuita Chiara Brighenti,
Misure Meccaniche e Termiche - Università di Cassino
Metodi Quantitativi per Economia, Finanza e Management Lezione n°12 Regressione Logistica: Le ipotesi del modello, la stima del modello.
G. Grossi Modelli e applicazioni
L’analisi della varianza:
DISTRIBUZIONI TEORICHE DI PROBABILITA’
La circonferenza nel piano cartesiano
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Regressione lineare con un singolo regressore
Analisi delle Traiettorie: Modelli di Crescita Latente (LGM)
x : variabile indipendente
Precorso di Statistica per le Lauree Magistrali
Dip. Economia Politica e Statistica
Equazioni differenziali
Insiemi di punti: altre caratteristiche
22) Funzioni (prima parte)
Le trasformazioni nel piano cartesiano
APPUNTI DI STATISTICA INFERENZIALE
FUNZIONI MATEMATICHE DANIELA MAIOLINO.
Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.
Precorso di Statistica per le Lauree Magistrali
Relazione sulla statistica
Fisica: lezioni e problemi
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Un esempio Una casa farmaceutica dichiara che un nuovo antidolorifico che sta per immettere sul mercato fa effetto mediamente in un tempo pari a 12,75.
La distribuzione campionaria: principi generali
Intervalli di confidenza
I sistemi di equazioni di I grado in due incognite
LA RETTA.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
I sistemi di equazioni di I grado in due incognite
ANALISI DI REGRESSIONE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
L’EQUAZIONE DI UNA RETTA
Dip. Economia Politica e Statistica
Precorso di Statistica per le Lauree Magistrali
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Corso di Analisi Statistica per le Imprese
Precorso di Statistica per le Lauree Magistrali
Test per campioni indipendenti
I sistemi di equazioni di I grado
Corso di Analisi Statistica per le Imprese
Dip. Economia Politica e Statistica
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
La retta Esercitazioni Dott.ssa Badiglio S..
Transcript della presentazione:

MODELLO DI REGRESSIONE LINEARE SEMPLICE Statistica per l’economia e l’impresa Capitolo 4 MODELLO DI REGRESSIONE LINEARE SEMPLICE

MODELLO DI REGRESSIONE LINEARE SEMPLICE Introduzione al modello di regressione lineare (da deterministico a stocastico) Modello di regressione lineare semplice (ipotesi di base, stima OLS dei parametri, stimatori BLUE, test, intervalli di confidenza, previsione, scomposizione devianza, coefficiente di determinazione 2

RELAZIONI DI TIPO DETERMINISTICO TRA VARIABILI VARIABILI ESPLICATIVE O INDIPENDENTI VARIABILE DIPENDENTE SE IL LEGAME È DI TIPO LINEARE ED IL NUMERO DELLE ESPLICATIVE È PARI AD UNO, IL MODELLO DIVIENE: CHE IN UN SISTEMA DI ASSI CARTESIANI RAPPRESENTA UNA RETTA CON COEFFICIENTE ANGOLARE ED INTERCETTA (ORDINATA ALL’ORIGINE) 3

BISETTRICE 1° e 3° QUADRANTE y = X BISETTRICE 1° e 3° QUADRANTE Y1 Y2 X1 X2 Y Y5 Y4 Y3 Y2 Y1 } } } X1 X2 X3 X4 X 4

La vera relazione tra Y e l’insieme di covariate X può essere approssimata tramite il modello di regressione Dove si ipotizza come l’errore casuale che rappresenta la discrepanza dell’approssimazione. Avendo introdotto il termine di errore il suddetto modello esprime una relazione STOCASTICA. Se f(.) esprime una funzione lineare, il modello di regressione è di tipo lineare e si presenta nella forma coefficienti di regressione o parametri di regressione 5

ANALISI DI REGRESSIONE La regressione è sostanzialmente un metodo per investigare relazioni funzionali tra variabili. La relazione viene espressa sotto forma di equazione o modello che lega la variabile dipendente ad una o più variabili indipendenti. ESEMPIO (ANALISI del CLIENTE): se vogliamo verificare se il consumo di sigarette è legato a variabili demografiche individuali ed a variabili socioeconomiche, possiamo specificare come Y il numero di sigarette fumate al giorno e come insieme di variabili X, l’età dell’individuo, il genere, il reddito, il titolo di studio, ecc. Se osserviamo tali variabili su un campione di n unità statistiche, avremo n osservazioni per ognuna delle variabili osservate. 6

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE La relazione tra la variabile dipendente (o di risposta) e la variabile indipendente è espressa da un modello lineare Dove rappresentano i coefficienti di regressione o parametri e rappresenta la componente casuale del modello. Si assume che relativamente alle osservazioni campionarie tra Y e X vi sia approssimativamente un legame lineare. Y X Y1 X1 … Yn Xn Per ogni singola osservazione i il modello può essere scritto così 7

Scatter plot A questo punto l’obiettivo è determinare l’equazione della retta che meglio approssima i punti di coordinate (X, Y). Per determinare l’equazione della retta è sufficiente stimare i parametri intercetta coefficiente angolare.

Per questo si adotta il METODO DEI MINIMI QUADRATI ORDINARI (Ordinary Least Square-OLS) BASATO SULLA MINIMIZZAZIONE DELLA FUNZIONE AUSILIARIA: Il minimo della funzione ausiliaria si ottiene derivando rispetto ai parametri incogniti , ponendo pari a zero le due equazioni e risolvendo il sistema. Le soluzioni che si ottengono sono: 9

CON Tornando alla natura probabilistica del modello ed all’esempio del consumo individuale di sigarette. Se ad esempio fosse Y il numero di sigarette fumate al giorno e X l’età dell’individuo, è plausibile che, nel campione osservato, per ogni valore di X (per ogni età) vi siano molti valori di Y (numero di sigarette fumate al giorno). Quando, per questo esempio, si specifica un modello probabilistico è come se si assumesse che ogni età, il consumo di sigarette varia in ‘modo casuale’. Cerchiamo di approfondire questa idea. 10

PRIMA CONSIDERAZIONE: UN MODELLO DI TIPO STOCASTICO SI ADEGUA MOLTO MEGLIO DI UN MODELLO DETERMINISTICO AL TIPO DI REALTÀ RAPPRESENTATA DA n COPPIE DI OSSERVAZIONI Xi E Yi NON ESATTAMENTE ALLINEATE SU DI UNA RETTA. OVVIAMENTE L’INTRODUZIONE DI PROVOCA NOTEVOLI COMPLICAZIONI, MA ANCHE RISULTATI FORTEMENTE PIÙ UTILI E DENSI DI SIGNIFICATO. PRIMA CONSIDERAZIONE: COME SI GIUSTIFICA L’INTRODUZIONE DELLA COMPONENTE STOCASTICA? 1.1 PRESENZA DI ERRORI NEL MODELLO; 1.2 LIMITATEZZA NEL NUMERO DELLE VARIABILI ESPLICATIVE (REGRESSORI); 1.3 CASUALITÀ DERIVANTE PREVALENTEMENTE DALLA RILEVAZIONE CAMPIONARIA DELLE OSSERVAZIONI EMPIRICHE; 1.4 PRESENZA DI ERRORI DI MISURA. 11

SECONDA CONSIDERAZIONE: L’INTRODUZIONE DI PROVOCA LA RIDEFINIZIONE DI Y IN TERMINI DI VARIABILE CASUALE (V.C.) NON SOLO, MA OGNI VALORE ESPRESSO IN FUNZIONE DI Y, DIVIENA ANCH’ESSO V.C. TERZA CONSIDERAZIONE: PER POTER UTILIZZARE AL MASSIMO LA PORTATA INTERPRETATIVA ED ESPLICATIVA DI UN MODELLO LINEARE STOCASTICO, DEVONO ESSERE INTRODOTTE ALCUNE ASSUNZIONI: 1. LINEARITÀ DELLA RELAZIONE FUNZIONALE 2. NATURA DETERMINISTICA DEI REGRESSORI 3. NORMALITÀ DELLA DISTRIBUZIONE DEI TERMINI DI ERRORE per ogni i=1….n 4. VALORE ATTESO NULLO DI TALI ERRORI: 5. OMOSCHEDASTICITÀ DEI MEDESIMI: Per ogni i diverso da j DATA LA NATURA NORMALE DEGLI ASSICURA ANCHE L’INDIPENDENZA 12

ANCORA SULLE ASSUNZIONI LA 1. È ABBASTANZA BANALE ANCHE SE SOLO PARZIALMENTE REALISTICA. VEDREMO CHE MOLTE RELAZIONI NON LINEARI POSSONO RIDURSI, CON OPPORTUNE TRASFORMAZIONI, A RELAZIONI LINEARI (ex. Cobb-Douglas!!). LA 2. È FORSE LA PIÙ IRREALISTICA IN AMBITO SOCIO-ECONOMICO MA MOLTO UTILE A FINI COMPUTAZIONALI infatti comporta: LA 3. DERIVA DALLA TEORIA DELLA PROBABILITÀ SULLA DISTRIBUZIONE DEGLI ERRORI. DATE LE CARATTERISTICHE DALLA V.C. NORMALE (CONTINUITÀ, DEFINIZIONE NEL DOMINIO INFINITO, SIMMETRIA, FORMA CAMPANULARE) RISULTA PLAUSIILE. LA 4. CI ASSICURA CHE L’ERRORE MASSIMAMENTE PROBABILE (DAL MOMENTO CHE IN UNA V.C. NORMALE IL VALOR MEDIO COINCIDE CON IL VALORE MODALE) È QUELLO DI ENTITÀ ZERO. LA 5. - POCO REALISTICA IN CASO DI OSSERVAZIONI “CROSS SECTION” - COMPORTA PROBLEMI DI ENTITÀ RILEVANTE, SE TRALASCIATA. ANALIZZEREMO COMUNQUE A FONDO TALE CIRCOSTANZA. LA 6. - POCO REALISTICA IN CASO DI OSSERVAZIONI DIPENDENTI DAL TEMPO (SERIE STORICHE) - COMPORTA PROBLEMI RILEVANTI SE TRALASCIATA. 13

VARIANZA FUNZIONE VARIANZA FUNZIONE DECRESCENTE DI X CRESCENTE DI X Y Y X X ETEROSCHEDASTICITÀ VARIANZA FUNZIONE VARIANZA FUNZIONE DECRESCENTE DI X CRESCENTE DI X Yt Yt Xt Xt AUTOCORRELAZIONE NEGATIVA POSITIVA 14

Esaminiamo le caratteristiche degli stimatori dei parametri incogniti della retta di regressione ottenuti con OLS. Per questo ricordiamo che le stime ottenute derivano da un’ennupla di osservazioni campionarie (estratte con campionamento probabilistico da una popolazione target) osservate sulle variabili (X, Y). Se estraessimo un altro campione dalla stessa popolazione di riferimento, il campione sarebbe diverso dal precedente e le stime dei parametri sarebbero diverse, quindi si può dire che quelle stime sono associate ad una variabile casuale. Concludendo quando si scrive si intende: i) il coefficiente angolare della retta di regressione, stimato a partire da una determinata un’ennupla di osservazioni campionarie, ii) lo stimatore che segue una certa distribuzione di probabilità. 15

SI CONSIDERINO GLI STIMATORI OLS TEOREMA DI GAUSS-MARKOV : Date le assunzioni 1., 2., 4., 5., 6. gli stimatori OLS sono i MIGLIORI (più efficienti) STIMATORI LINEARI e CORRETTI (BLUE – BEST LINEAR UNBIASED ESTIMATOR) dei parametri Il senso del teorema è che tali stimatori sono quelli a varianza minima nella classe degli stimatori lineari e corretti. 16

Dimostrazione del TEOREMA DI GAUSS-MARKOV: SI CONSIDERI LO STIMATORE OLS DI β E LO SI RISCRIVA COME: LINEARITA’ DELLO STIMATORE OSSERVAZIONI SISTEMA DI PESI CON PROPRIETÀ: 17

SI DIMOSTRA ANALOGAMENTE CHE: OSSERVAZIONI PESI COSTANTI MEDIA STIMATORI CORRETTEZZA DELLO STIMATORE 18

ANALOGAMENTE SI OTTIENE PER CHE QUINDI E SONO ENTRAMBI STIMATORI CORRETTI VARIANZA STIMATORI 19

DISTRIBUZIONE DEGLI STIMATORI OLS Poiché è una media pesata di y e le y sono normalmente distribuite, ha una distribuzione normale OLS = ML OLS SONO MIGLIORI, LINEARI, CORRETTI E ASINTOTICAMENTE CONSISTENTI analogamente In virtù del Teorema del Limite Centrale, anche se le y non fossero distribuite normalmente (sotto condizioni abbastanza generali) si avrebbe comunque una distribuzione asintoticamente normale per i suddetti parametri 20

STIMA DELLA VARIANZA DELL’ERRORE L’analisi non è ancora completa, resta da stimare la varianza del termine stocastico del modello. Il computo di questo stimatore coinvolge l’applicazione del Metodo della Massima Verosimiglianza (che omettiamo). Riportiamo direttamente lo stimatore varianza residua rappresenta il residuo La varianza residua è uno stimatore corretto e consistente della varianza del termine di errore. 21

OSSERVAZIONE Perché il denominatore della varianza residua deve essere pari a (n-2) per ottenere uno stimatore corretto? Perché le osservazioni campionarie sulle quali si basa la stima sono n, ma la stima dell’intercetta e del coefficiente angolare impongono 2 vincoli, quindi restano (n-2) gradi di libertà. 22

Osservazione sulla FUNZIONE DIRETTA DELLA ; ERRORI MOLTO VARIABILI PROVOCANO DIMINUZIONE DI PRECISIONE E DI AFFIDABILITÀ PER . FUNZIONE INVERSA DELLA ; SE LE Xi SONO CONCENTRATE IN UN PICCOLO INTERVALLO, PEGGIORA LA QUALITÀ DI . Xi 23

STANDARD ERROR DEGLI STIMATORI OLS Avendo ottenuto una stima della varianza del termine stocastico del modello di regressione si sostituisce nell’espressione della varianza degli stimatori OLS per ottenere gli errori standard (standard error) Gli errori standard FORNISCONO UNA MISURA DELLA DISPERSIONE DELLE STIME INTORNO ALLE RISPETTIVE MEDIE. 24