INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Slides:



Advertisements
Presentazioni simili
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Advertisements

Corso di ECONOMETRIA A.A Dispensa n.2.
8) GLI INTERVALLI DI CONFIDENZA
Statistica Economica I
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
Come organizzare i dati per un'analisi statistica al computer?
Intervalli di confidenza
Proprietà degli stimatori
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Analisi dei dati per i disegni ad un fattore
La regressione lineare trivariata
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Linee guida per la Chimica Analitica Statistica chemiometrica
Analisi della varianza
Le distribuzioni campionarie
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Elementi di Statistica medica Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera Copyright © 2007 – The McGraw-Hill Companies s.r.l. SIGNIFICATIVITÀ.
La verifica d’ipotesi Docente Dott. Nappo Daniela
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
IL CAMPIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE
“Teoria e metodi della ricerca sociale e organizzativa”
Intervalli di confidenza
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
Accademia europea dei pazienti sull'innovazione terapeutica Lo scopo e i fondamenti della statistica negli studi clinici.
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
Analisi delle osservazioni
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Transcript della presentazione:

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE E’ necessaria l’ipotesi di normalità dei termini stocastici Interpretazione dell’intervallo di confidenza, fissato il livello di significatività  (ad esempio per ). Se estraessi più campioni; ognuno fornirebbe valori diversi della stima OLS di  e quindi diversi intervalli di confidenza; l’(1-)% di questi intervalli includerebbe , mentre solo nell’ % dei casi devierebbe da  per più di un certo .

Verifica d’ipotesi, fissato il livello di significatività  (ad esempio per ). Sia data una congettura (ipotesi nulla), che si assume vera, attraverso la verifica d’ipotesi si valuta l’entità della discrepanza tra quanto osservato nei dati campionari e quanto previsto sotto ipotesi nulla. Se, fissato il livello di significatività , la “discrepanza” è significativa l’ipotesi nulla viene rifiutata, altrimenti l’ipotesi nulla non può essere rifiutata.

INTERVALLI DI CONFIDENZA SICCOME standardizzando /g.l. OVVERO: T-Student con (n-2) g.l.

Quindi l’intervallo di confidenza per  all’(1-)% si determina nel seguente modo: Limite inferiore Limite superiore In sostanza l’intervallo di confidenza fornisce il range di valori in cui verosimilmente cade il vero valore del parametro

Regione di Accettazione o di Rifiuto del test VERIFICA DI IPOTESI Fissato il livello di significatività  Ipotesi nulla Ipotesi alternativa Statistica test Regione di Accettazione o di Rifiuto del test

VERIFICA DI IPOTESI: SIGNIFICATIVITA’ di  NON ESISTE RELAZIONE LINEARE TRA X ED Y STATISTICA TEST REGIONE CRITICA SI RESPINGE L’IPOTESI NULLA SE: REGOLA D’ORO QUANDO n è grande, t-student ad una Normale, quindi se fissiamo il 5% come livello di significatività, possiamo adottare la “regola d’oro”: se ALLORA SI RIFIUTA L’IPOTESI NULLA:

VERIFICA DI IPOTESI H0: = 0 Se 0 è una costante si può verificare: H0: = 0 STATISTICA TEST SI RESPINGE L’IPOTESI NULLA SE: N.B. ancora una volta se n è grande la distribuzione t-Student si approssima alla distribuzione normale standardizzata

Significato del coefficiente   esprime di quanto varia mediamente Y in conseguenza di una variazione unitaria di X. Se >0, al crescere di X cresce anche Y (relazione lineare diretta) Se <0, al crescere di X, Y decresce (relazione lineare inversa)

REGRESSIONE E CORRELAZIONE N COPPIE DI PUNTI Y Q P V i=1, …, N S R B T 0 A X I QUADRANTE: IL PRODOTTO II QUADRANTE: IL PRODOTTO III QUADRANTE: IL PRODOTTO IV QUADRANTE: IL PRODOTTO

COEFFICIENTE DI CORRELAZIONE DI BRAVAIS-PEARSON LA FUNZIONE MISURA l’intensità del LEGAME LINEARE TRA X ED Y. COVARIANZA COEFFICIENTE DI CORRELAZIONE DI BRAVAIS-PEARSON R è un indice relativo, ossia non dipende dall’unità di misura delle variabili X, Y

SE SULLE N COPPIE DI OSSERVAZIONI STIMIAMO UN MODELLO LINEARE SICCOME ALLORA ABBIAMO: MISURA DEL LEGAME LINEARE TRA X ED Y MISURA DELLA DIPENDENZA LINEARE DI Y DA X Osservazione: SE SI È ACCERTATA L’ESISTENZA DI UN LEGAME LINEARE SONO POSSIBILI DUE TIPI DI DIPENDENZA LINEARE: QUELLO DI Y DA X E QUELLO DI X DA Y; CONSIDERAZIONE: NELL’ANALISI DI REGRESSIONE È NECESSARIO DECIDERE “EX ANTE” QUALE TIPO DI DIPENDENZA SI VUOLE CONSIDERARE;

CONSIDERAZIONE: L’ANALISI DI CORRELAZIONE PRESCINDE DA LEGAMI CAUSALI; QUELLA DI REGRESSIONE È BASATA SUI LEGAMI CAUSALI; CONSIDERAZIONE: CORRELAZIONE E CAUSALITÀ. ESEMPIO: NUMERO DI MALATI DI UNA DATA PATOLOGIA PER ZONA (X), NUMERO DI MEDICI PRESENTI PER ZONA (Y). SE r INDICA ALTA CORRELAZIONE QUESTO NON SIGNIFICA CHE UN ELEVATO NUMERO DI MEDICI CAUSA UN ELEVATO NUMERO DI MALATI MA SIGNIFICA SOLO CHE TRA LE DUE VARIABILI ESISTE UN ALTO LEGAME LINEARE;

• • • • • • • • • • • • • • • • • PROPRIETÀ DEI RESIDUI Y P(xi,yi) Q R RESIDUO S X Sono somme degli scarti dalla media, quindi sono zero

SCOMPOSIZIONE DELLA DEVIANZA Dal precedente grafico: DEVIANZA DEVIANZA DEVIANZA TOTALE RESIDUA SPIEGATA TSS = RSS + ESS Total Sum = Residual Sum + Explained Sum Square Square Square

Dividendo tutto per TSS si ottiene: Si definisce COEFFICIENTE DI DETERMINAZIONE Tale coefficiente rappresenta la proporzione di devianza totale spiegata dal modello di regressione lineare di Y su X. Dato che Quando il modello non spiega niente della variabilità di Y Tutta la variabilità di Y è spiegata dal modello

SE R²=0 SIGNIFICA CHE IL CONTRIBUTO ESPLICATIVO ALLA DEVIANZA COMPLESSIVA APPORTATO DAL MODELLO È IDENTICAMENTE NULLO; LA DEVIANZA COMPLESSIVA È SOLO SPIEGATA DALLA COMPONENTE CASUALE (RESIDUO). SE R²=1 TUTTI GLI N VALORI EMPIRICI OSSERVATI GIACCIONO ESATTAMENTE SULLA RETTA DI REGRESSIONE; IL CONTRIBUTO ALLA DEVIANZA COMPLESSIVA È SOLO FORNITO DAL MODELLO. NEI CASI INTERMEDI, QUANTO PIÙ R² È PROSSIMO AD UNO O A ZERO, TANTO PIÙ/MENO LA VARIABILITÀ COMPLESSIVA È SPIEGATA DAL MODELLO PRESCELTO. AD ESEMPIO, UN VALORE r²=0.80 SIGNIFICA CHE IL MODELLO PRESCELTO RIESCE A SPIEGARE L’80 PER CENTO DELLA VARIABILITÀ COMPLESSIVA.

Il coefficiente di determinazione rappresenta un indice di fitting (da prendere con cautela!), in quanto misura l’adattabilità del modello specificato ai dati. Vediamo che relazione c’è tra ed i parametri della retta di regressione. Per fare questo consideriamo il modello in forma di scarti Ogni osservazione della variabile dipendente può essere scomposta in

Ne consegue che QUINDI IL COEFFICIENTE DI DETERMINAZIONE È UGUALE AL QUADRATO DEL COEFFICIENTE DI CORRELAZIONE. UNA SEMPLICE ED EFFICIENTE RELAZIONE PER IL COEFFICIENTE DI DETERMINAZIONE SI PUÒ RICAVARE ANCHE DA:

ANALISI DELLA VARIANZA (ANOVA) La scomposizione O equivalentemente MOSTRA LA SCOMPOSIZIONE DELLA VARIABILITÀ TOTALE (in forma di DEVIANZA) NEI CONTRIBUTI della COMPONENTE DI ERRORE e del MODELLO specificato. INOLTRE: SAPPIAMO CHE:

Pertanto per verificare l’ipotesi Quadrato di una N(0,1) ALLORA: SI PUÒ DIMOSTRARE CHE: Pertanto per verificare l’ipotesi Si può utilizzare la suddetta statistica test che sotto ipotesi nulla è Rapporto tra Chi-Quadrato divise per i propri g.l.

Intuitivamente un forte legame lineare tra X e Y determinerà valori elevati per la statistica test  bontà del modello. Pertanto valori grandi della statistica test portano al rifiuto dell’ipotesi nulla. Formalmente, se viene rifiutata, Valore teorico Valore empirico Osservazione: nel caso del modello di regressione lineare semplice, applicare il test t o F è equivalente, in entrambi i casi si verifica la significatività dell’unico parametro di regressione, ma nel caso del modello di regressione lineare multipla il test F servirà per verificare la ‘bontà’ del modello nel suo complesso e quindi la significatività congiunta di tutti i parametri di regressione.

TAVOLA ANOVA MODELLO 1 RESIDUO (n-2) TOTALE (n-1) CAUSA DEVIANZE GRADI DI STIME CORRETTE VARIAZIONE LIBERTÀ DELLA VARIANZA MODELLO 1 RESIDUO (n-2) TOTALE (n-1)

PREVISIONE Il modello di regressione stimato spesso viene utilizzato a fini previsivi, ovvero per stimare il valore della variabile dipendente che corrisponde ad un determinato valore della variabile indipendente Lo standard error di tale valore previsto è Pertanto i limiti dell’intervallo di confidenza per il valore previsto, fissato un livello di confidenza pari a 1-

Si osservi che il valore dello s. e Si osservi che il valore dello s.e. aumenta al crescere della distanza tra X0 e il valor medio di X, pertanto la qualità della previsione diverrà sempre peggiore. Inoltre può accadere che la linearità della relazione tra Y e X sia limitata alla nuvola di punti osservati e che fuori tale relazione non sia valida, pertanto può essere totalmente fuorviante prevedere un valore di Y partendo da un valore di X che è al di fuori del range dei valori osservati

} ESEMPIO NUMERICO Y 0 X ANNI Yi Xi yi xi xiyi xi² 1947 166 352 -51.8 -167.2 8660.96 27955.84 1948 153 373 -64.8 -146.2 9473.76 21374.44 1949 177 411 -40.8 -108.2 4414.56 11707.24 1950 201 441 -16.8 -78.2 1313.76 6115.24 1951 216 462 -1.8 -57.2 102.96 3271.84 1952 208 490 -9.8 -29.2 286.16 852.64 1953 227 529 9.2 9.8 90.16 96.04 1954 238 577 20.2 57.8 1167.56 3340.84 1955 268 641 50.2 121.8 6114.36 14835.24 1956 268 692 50.2 172.8 8674.56 29859.84 1957 274 743 56.2 223.8 12577.56 50086.44 n=11 Σ=2396 Σ=5711 Σ=52876.36 Σ=169495.64 MEDIAy=217.8 MEDIAx=519.2 Y→ INCIDENTI STRADALI (X1000) X →VEICOLI CIRCOLANTI (X1000) Y } 0 X

FONTE SS DF MS MODELLO 16497.42 1 16497.42 RESIDUO 1124.33 9 124.93 TOTALE 17621.75 10 ; 95% INTERVALLO DI CONFIDENZA 95 VOLTE SU 100 IL VALORE DI β È COMPRESO TRA 0.25 E 0.37

VERIFICA D’IPOTESI DISGIUNTA PER β LEGAME LINEARE POSITIVO E MOLTO ELEVATO, PARI AL 97% DEL MASSIMO VALORE POSSIBILE VERIFICA D’IPOTESI DISGIUNTA PER β È RESPINTA Quindi la variabile veicoli circolanti risulta significativa