INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.

Slides:



Advertisements
Presentazioni simili
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Advertisements

Statistica Economica I
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
Come organizzare i dati per un'analisi statistica al computer?
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Presupposti alla lezione
Analisi dei dati per i disegni ad un fattore
Regressione lineare Esercitazione 24/01/04.
ANALISI DELLA COVARIANZA
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DIFFERENZA TRA LE MEDIE
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
di cosa si occupa la statistica inferenziale?
Modello di regressione lineare semplice
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Analisi della varianza
Statistica Descrittiva
Le distribuzioni campionarie
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Strumenti statistici in Excell
IL CAMPIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Def : uno stimatore è una statistica T n le cui determinazioni servono a fornire delle stime del parametro ignoto  della v.c. X in cui sono state effettuate.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE
“Teoria e metodi della ricerca sociale e organizzativa”
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
TRATTAMENTO STATISTICO DEI DATI ANALITICI
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Transcript della presentazione:

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria un’ipotesi sulla distribuzione degli errori in modo da poter derivare una statistica con distribuzione nota per n finito. Si assume perciò che il vettore degli errori abbia una distribuzione normale multivariata. Per quanto già detto in merito alla verifica di significatività dei singoli parametri si considera la distribuzione t di Student TEST A DUE CODE H0: per j= 1, 2,…,k. H1: per j= 1, 2,…,k.

La statistica test di riferimento sotto ipotesi nulla diventa: Fissato il livello di significatività α, la regione critica del test è Ovvero le due code della distribuzione t di Student TEST A UNA CODA H0: per j= 1, 2,…,k. H1: per j= 1, 2,…,k. Fissato il livello di significatività α, la regione critica del test è ovvero la coda sinistra della distribuzione t di Student

TEST A UNA CODA H0: per j= 1, 2,…,k. H1: per j= 1, 2,…,k. Fissato il livello di significatività α, la regione critica del test è ovvero la coda destra della distribuzione t di Student Nelle applicazioni l’ipotesi alternativa, con l’eccezione dell’intercetta, è spesso unidirezionale perché la teoria alla base del modello solitamente fornisce indicazioni sul segno delle relazioni fra la variabile dipendente e le variabili esplicative. Ad esempio nel modello sulla domanda di burro è ragionevole verificare che il parametro che moltiplica il prezzo del burro sia di segno negativo quindi è ragionevole verificare un sistema di ipotesi del tipo

H0: H1: Se il segno della stima del parametro non è conforme alle aspettative, formulate sulla base della teoria, è possibile predire l’esito del test: la statistica test assumerà valore nella regione di accettazione e l’ipotesi nulla non sarà respinta. Quindi, dopo aver stimato un modello di regressione, il primo controllo da effettuare riguarda i segni dei coefficienti e la loro coerenza con le aspettative. NOTA: in generale un segno non conforme alle aspettative è anche un campanello di allarme riguardo alla validità delle ipotesi di base del modello (come vedremo più avanti).

Test sulla significatività di un sottoinsieme di parametri La struttura del test F per verificare la significatività del modello di regressione è un caso particolare del test congiunto sulla significatività di un sottoinsieme di coefficienti. Si consideri il modello di regressione e si supponga di voler sottoporre a test l’ipotesi che più parametri siano nulli H0: H1:

Il modello sotto l’ipotesi nulla è chiamato modello vincolato (restricted model) e risulta Per sottoporre a test questa ipotesi, si confronta la devianza dei residui del modello vincolato Dev(H0) con quella del modello completo, o non vincolato (unrestricted model) , Dev (H1) . La statistica test è Dove è la varianza dei residui sotto H1 . Sotto l’ipotesi nulla la statistica test ha una distribuzione F di Fisher con (k- m) gradi di libertà al numeratore e (n- k) al denominatore. I gradi di libertà del numeratore sono dati dal numero di vincoli imposti sotto l’ipotesi nulla ovvero dalla differenza fra il numero di parametri stimati nei due modelli.

Al numeratore della statistica test vi è la differenza fra le devianze residue sotto H0 e sotto H1 . Quanto maggiore è questa differenza tanto maggiore è il guadagno nella capacità esplicativa che si ottiene considerando i k- m regressori aggiuntivi. Di conseguenza è ragionevole individuare la regione critica nella coda di destra della distribuzione F, poiché valori elevati del numeratore della statistica test indicano che c’è una differenza statisticamente significativa fra la capacità esplicativa del modello vincolato e quella del modello non vincolato. Pertanto regione critica al livello di significatività α risulta percentile di una F di Fisher che isola nella coda sinistra un’are pari a (1- α)

CORRETTO (Adjusted R-square) Per la scelta fra modelli è necessario avere a disposizione degli indici che consentano di confrontarli. Si supponga di dover scegliere fra due modelli alternativi, il primo con k variabili esplicative e il secondo con k +1 variabili esplicative Se si utilizza il coefficiente di determinazione risulta sempre preferibile il modello con il maggior numero di regressori; di conseguenza l’indice non consente di operare una scelta fra modelli con un diverso numero di variabili esplicative.

Il coefficiente di determinazione aumenta al ridursi della devianza residua. Quest’ultima è il valore della funzione obiettivo, che si minimizza quando si stima il modello con i minimi quadrati. Quando si stima il secondo modello si esegue un’ottimizzazione su k +1 variabili, pertanto la devianza residua è quasi certamente minore di quella ottenuta stimando il primo modello con k variabili. La devianza residua del primo modello può infatti essere interpretata come il minimo vincolato della somma dei quadrati dei residui nel secondo modello quando si pone Ciò implica che l’indice è quasi certamente più elevato nel modello con il maggior numero di regressori.Un indice utile per confrontare modelli con un diverso numero di variabili esplicative è l’ corretto

Mentre il secondo termine dell’indice confronta la devianza residua con la devianza totale, il secondo termine dell’ confronta la stima non distorta della varianza degli errori con la stima non distorta della varianza della variabile dipendente. Nel confronto fra diversi modelli si sceglie quello per il quale l’indice è maggiore. Un’altra spiegazione è: se si aggiunge al modello un’ulteriore variabile la quantità diminuisce, ma il rapporto aumenta. La riduzione del termine misura il miglioramento nell’adattamento dovuto all’inserimento del nuovo regressore, mentre l’incremento nel rapporto impone una penalità perché, avendo aggiunto un regressore, il modello è più complicato e si deve stimare un ulteriore parametro. Se il miglioramento nell’adattamento compensa la penalità si preferisce il modello con un più elevato numero di regressori.