INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)

Slides:



Advertisements
Presentazioni simili
8) GLI INTERVALLI DI CONFIDENZA
Advertisements

Statistica Economica I
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
LA VARIABILITA’ IV lezione di Statistica Medica.
Intervalli di confidenza
Proprietà degli stimatori
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Variabili casuali a più dimensioni
Fondamenti della Misurazione
Analisi dei dati per i disegni ad un fattore
ANALISI DELLA COVARIANZA
Progetto Pilota 2 Lettura e interpretazione dei risultati
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 7-2: Test di significatività
Valutazione della stima: gli intervalli di confidenza
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 13 Equazione di Klein-Gordon Equazione di Dirac (prima parte)
METODI E CONTROLLI STATISTICI DI PROCESSO
Le distribuzioni campionarie
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
IL CAMPIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°7.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE
Intervalli di confidenza
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Transcript della presentazione:

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria un’ipotesi sulla distribuzione degli errori in modo da poter derivare una statistica con distribuzione nota per n finito. Si assume perciò che il vettore degli errori abbia una distribuzione normale multivariata. Di conseguenza qui diventa fondamentale l’ipotesi Da cui consegue che

Dove rappresenta l’elemento jj sulla diagonale principale della matrice Questa quantità non può essere utilizzata come statistica di riferimento perché la varianza non è nota. E’ necessario utilizzare lo stimatore della varianza. Per derivare la sua distribuzione si considerino le quantità: è indipendente da

Di conseguenza la quantità è il rapporto fra una normale standardizzata e la radice di una variabile casuale chi-quadrato con n−k gradi di libertà rapportata ai suoi gradi di libertà. Poiché il numeratore e il denominatore sono indipendenti essa ha una distribuzione t di Student con n−k gradi di libertà. Semplificando si ha

Il test di significatività sui parametri del modello di regressione E’ opportuno, dopo aver stimato un modello di regressione, sottoporre a test la significatività dei coefficienti per verificare se le singole variabili esplicative contribuiscono a spiegare le variazioni della variabile dipendente. E’ infatti prassi verificare l’ipotesi nulla H0: per j= 1, 2,…,k. H1: per j= 1, 2,…,k. Se essa non è respinta la j-esima variabile esplicativa non ha effetto sulla variabile dipendente. La statistica test di riferimento è la appena definita (detta t-ratio), che sotto ipotesi nulla diventa: ˆ

La regione critica del test è I software statistici generalmente per ogni parametro stimato forniscono il p-valore di un test bidirezionale. Per ciascuna ipotesi nulla di non significatività i software riportano la probabilità dove è il valore osservato della statistica test ossia del t-ratio. In altri termini, il p-valore è il minimo livello di significatività per il quale l’ipotesi nulla può essere respinta in un test bidirezionale.

Intervalli di confidenza sui parametri del modello di regressione Dall’ipotesi di normalità dei termini di errore del modello consegue che ha una distribuzione completamente nota (t-Student con (n-k) g.l), pertanto costituisce la quantità pivot di riferimento. Fissato il livello di confidenza 1−α si ha

Per cui, gli estremi dell’intervallo di confidenza sono: Limite inferiore Limite superiore

Significato dei coefficienti di regressione ed elasticità Il coefficiente esprime la variazione che subisce la variabile dipendente Y in seguito a una variazione unitaria della variabile esplicativa , mentre il valore delle altre variabili esplicative rimane costante. Attenzione però!!! I valori dei coefficienti dipendono dall’unità di misura delle variabili quindi la loro entità non fornisce informazione sull’importanza dei diversi regressori rispetto alla variabile Y. Informazioni sull’importanza dei diversi regressori possono essere desunte stimando l’elasticità della variabile dipendente rispetto ad essi. L'elasticità della Y rispetto alla variabile esplicativa è il rapporto fra la variazione percentuale della Y e la variazione percentuale della . Essa non dipende dall'unità di misura ed è quindi

facilmente interpretabile. L’elasticità è data da Che può essere agevolmente stimata nel seguente modo: Pertanto una variabile esplicativa ha un effetto maggiore sulla variabile dipendente, rispetto alle altre variabili esplicative, se il valore assoluto dell’elasticità della Y rispetto a è maggiore.

Si consideri una funzione di domanda del burro: funzione del prezzo del burro, della margarina, e del reddito Y delle famiglie. Per questo modello è possibile calcolare: Elasticità rispetto al prezzo Elasticità rispetto al prezzo della margarina Elasticità rispetto al reddito delle famiglie

Il valore dell'elasticità è diverso in ogni punto della funzione di regressione ed è quindi importante che i valori di Y e di utilizzati per calcolarla siano rappresentativi. Quando le osservazioni sono riferite ad un unico periodo è ragionevole considerare l’elasticità in corrispondenza dei valori medi; se invece i dati sono costituiti da serie storiche può essere utile considerare i valori più recenti.

Scomposizione della devianza e indice di determinazione Dopo aver stimato il modello di regressione è opportuno verificare l’adattamento ai dati. A tal fine si utilizza l’indice di determinazione. Per il calcolo di tale indice ripercorriamo la procedura vista per il modello di regressione semplice per i vincoli imposti dalle equazioni normali, il doppio prodotto si annulla, pertanto

Devianza residua (RSS) Devianza spiegata (ESS) L’accostamento del modello ai dati è tanto migliore quanto più elevata è la percentuale di devianza totale costituita dalla devianza spiegata. Di conseguenza l’adattamento può essere misurato mediante il rapporto fra la devianza spiegata e la devianza totale. Si ottiene così l’indice di determinazione

L’indice di determinazione esprime qual è la percentuale di devianza della variabile dipendente (TSS) spiegata dall’insieme delle variabili esplicative nel loro complesso. Questo indice varia nell’intervallo [0,1]; é uguale ad 1 quando la devianza residua è nulla ossia vi è un perfetto adattamento del modello ai dati. L’indice di determinazione invece è uguale a zero quando la devianza spiegata è nulla quindi i regressori non sono in grado di spiegare le variazioni della variabile dipendente.

Il test F sulla significatività del modello di regressione Dopo aver stimato un modello di regressione è opportuno verificarne l’utilità. La sua costruzione si giustifica se l’introduzione dei regressori migliora significativamente la spiegazione del fenomeno. L’utilità apportata dalla costruzione di un modello di regressione multipla può perciò essere verificata mediante un test congiunto sui parametri sottoponendo a test l’ipotesi nulla che implica che nessun regressore contribuisce a spiegare le variazioni della Y. L’ipotesi alternativa assume come modello quello di regressione, per cui

Il test quindi verifica se la devianza spiegata è sufficientemente ampia da giustificare la costruzione del modello. La statistica test è data da e sotto l’ipotesi nulla si distribuisce come una variabile casuale F di Fisher (Snedecor) con k −1 gradi di libertà al numeratore e n−k al denominatore. Al numeratore della statistica test c’è la devianza spiegata rapportata ai suoi gradi di libertà, che risultano k −1. Essa viene confrontata con la varianza dei residui. Il valore della statistica test aumenta al crescere della devianza spiegata. Di conseguenza l’ipotesi nulla risulta meno verosimile per valori elevati della statistica test e quindi la regione critica si trova nella coda destra della distribuzione.

Pertanto, al livello di significatività α la regione critica del test è Dove è il quantile della distribuzione F che isola alla sua sinistra un’area pari a (1- α). Si osservi che la statistica F contiene le stesse informazioni presenti nell'indice di determinazione e tra i due esiste la seguente relazione La differenza è costituita dal fatto che la valutazione dell’adattamento del modello ai dati mediante l’indice è realizzata con un approccio di tipo descrittivo, mentre nel test sulla significatività della regressione l’approccio è di tipo inferenziale.

TAVOLA ANOVA CAUSA DEVIANZE GRADI DI MSE VARIAZIONE LIBERTÀ MODELLO ESS k-1 ESS/(k-1) RESIDUO RSS (n-k) RSS/(n-k) TOTALE TSS (n-1)