Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.

Slides:



Advertisements
Presentazioni simili
Cosa sono? Come si risolvono?
Advertisements

Come organizzare i dati per un'analisi statistica al computer?
Dipartimento di Economia
LA VARIABILITA’ IV lezione di Statistica Medica.
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Analisi dei dati per i disegni ad un fattore
La regressione lineare trivariata
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
ANALISI DELLA COVARIANZA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
STATISTICA 6.0: REGRESSIONE LINEARE
IL MODELLO DI REGRESSIONE MULTIPLA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE
MODELLO DI REGRESSIONE LINEARE MULTIPLA
LA PROPAGAZIONE DEGLI ERRORI:
Analisi della varianza (a una via)
La logica della regressione
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 5: propagazione degli errori
Corso di biomatematica lezione 6: la funzione c2
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Metodi statistici per l'analisi del cambiamento 5/3/ Notazione (simboli) Obbiettivo: occorre che si mantengano le tracce, in merito al punteggio,
Studente Claudia Puzzo
Modello di regressione lineare semplice
Quale valore dobbiamo assumere come misura di una grandezza?
Regressione Logistica
Le distribuzioni campionarie
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
Unità 7 Test parametrici ☐ Test t di Student ☐ Analisi della varianza ad una via ☐ Confronti multipli.
Introduzione alla Regressione Lineare e alla Correlazione.
Proprietà delle matrici con variabili standardizzate.
Interpolazione e regressione
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Strumenti statistici in Excell
Il residuo nella predizione
IL CAMPIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
La covarianza.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
Ancora sulle equazioni di secondo grado….. Equazione di secondo grado completa Relazione tra le soluzioni di un'equazione di secondo grado.
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Statistica per l’economia e l’impresa Capitolo 4 MODELLO DI REGRESSIONE LINEARE SEMPLICE.
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Argomenti della lezione Il modello algebrico lineare Il modello statistico lineare La regressione lineare semplice.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza.
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
Transcript della presentazione:

Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori Regressione multipla con 3 predittori Sommatoria dei quadrati R quadro Test sui parametri beta Matrice di covarianza dei beta Errore standard dei beta

Regressione semplice e multipla in forma matriciale Test su di un singolo predittore Test sui singoli predittori Varianza dei singoli predittori Correlazione tra i predittori Matrici standardizzate Matrici di correlazione Sommatorie dei quadrati in Z R quadro in Z R quadro tra variabili indipendenti Errore standard dei beta in Z

Metodo dei minimi quadrati Partendo dalla generale: Il metodo dei minimi quadrati stima il parametro beta minimizzando la sommatoria dei quadrati dovuti all’errore. Infatti, se:

È possibile stimare: Metodo dei minimi quadrati

Regressione semplice

Regressione multipla Analoga a quella semplice Una sola variabile dipendente (Y) o da spiegare Due o più variabili indipendenti (X) o predittive, esplicative Correlazione multipla (anziché semplice) Stima con i minimi quadrati

Regressione lineare semplice (1 dip, 1 indip) Regressione lineare multipla (2 indip., 1 dip.) intercettaerrore variabile indipendente pendenza Regressione multipla

Regr.multipla matriciale

X’X inversa Regr.multipla matriciale

In notazione matriciale viene espresso sinteticamente: Regressione multipla con 3 predittori (caso generale)

Forma matriciale

Schema generale

Sommatoria dei quadrati Il metodo dei minimi quadrati permette di verificare la seguente uguaglianza: Sommatoria dei quadrati

Poiché in generale: si avrà che la sommatoria dei quadrati di y dalla propria media può essere scomposta nella somma dei quadrati dovuti alla regressione e nella somma dei quadrati dovuti all’errore, secondo la: Sommatoria dei quadrati

Si ricorda l’equivalenza di:

Sommatoria dei quadrati

In sintesi: Sommatoria dei quadrati

R quadro

Adjusted R 2 YY’ Poiché il coefficiente di correlazione multipla dipende sia dal numero di osservazioni (n) che dal numero di variabili indipendenti (k) è conveniente correggerlo in funzione dei gradi di libertà. Adjusted R 2 YY’ Nel nostro esempio

È possibile verificare l’ipotesi della diversità dei parametri b i presi nel loro insieme da 0: Test sui parametri 

k= numero di colonne della matrice X escludendo X 0 n= numero di rilevazioni in y Test sui parametri 

k= numero di colonne della matrice X escludendo X 0 n= numero di rilevazioni in y

Matrice di covarianza dei  Una stima della matrice di covarianza dei beta è data da: Indichiamo:

Matrice di covarianza dei  Dove gli elementi sulla diagonale sono una stima della varianza dei singoli b i

Errore standard dei  L’errore standard dei parametri può essere calcolato con la seguente formula: dove c ii è l’elemento diagonale interno alla matrice (X’X) -1 corrispondente al parametro b i.

Errore standard dei  Nota: quando il valore di c ii è elevato il valore di se b i cresce, indicando che la variabile X i ha un alto coefficiente di correlazione multipla con le altre variabili X.

Errore standard dei  Al crescere del valore di R 2 i il denominatore del rapporto diminuisce e conseguentemente cresce il valore dell’errore standard del parametro b i. L’errore standard dei  i può essere calcolato anche nel seguente modo: dove

Inserire matrice di covarianza dei beta

Disponendo dell’errore standard di misura associato a ciascun b i è possibile effettuare un t-test per verificare: Test su di un singolo predittore

Disponendo dell’errore standard di misura associato a ciascun bi è possibile anche stima l’intervallo di fiducia per ciascun parametro:

Test sui singoli predittori 1.calcolare la SSreg per il modello contenente tutte le variabili indipendenti 2.calcolare la SSreg per il modello escludendo le variabili di cui si vuole testare la significanza (SS -i ) 3.effettuare un test F con al numeratore la differenza SS reg -SS i pesata per la differenza tra i gradi di libertà dei due modelli; e con denominatore SSres / (n-k-1) Al fine di condurre un test statistico sui coefficienti di regressione è necessario:

Test sui singoli predittori Per testare, ad esempio, il peso del solo primo predittore rispetto al modello totale, è necessario calcolare una nuova matrice b i dalla matrice X i cui è stata tolta la colonna appartenente al primo predittore. Da questa segue immediato il calcolo di SS i.

Test sui singoli predittori

Medesimo procedimento si segue per testare qualunque sottogruppo di predittori. Similmente si avrà:

Test sui singoli predittori È interessante notare come questo test su di un singolo predittore sia equivalente al t-test b 1 =0. Quando al numeratore vi è un solo grado di libertà, vale infatti l’equivalenza:

Tabella riassuntiva In questa circostanza nessuno dei parametri stimati ottiene la significatività statistica relativa all’ipotesi b i  0

Varianza delle singole X i Utilizzando la matrice X’X possiamo calcolare la varianza delle singole variabili X i.

Varianza dei singoli predittori

Covarianza tra predittori e variabile dipendente È possibile calcolare la covarianza tra la le variabili indipendenti e la variabile dipendente secondo la:

Correlazione tra predittori e variabile dipendente La correlazione tra la le variabili indipendenti e la variabile dipendente è data dalla: Come si vedrà successivamente l’utilizzo di matrici standardizzate semplifica immediatamente il calcolo.

Test su più predittori È possibile effettuare un test statistico su di un gruppo di predittori al fine di verificarne la significatività. A tal scopo si utilizza la formula precedentemente indicata: Per testare, ad esempio, il peso dei soli primo e secondo predittori rispetto al modello totale, è necessario calcolare una nuova matrice bi dalla matrice Xi cui è stata tolta la colonna appartenente a tali predittori. Da questa segue immediato il calcolo di SSi.

Test su più predittori

Correlazione tra le variabili X Condizione standard di indipendenza tra le variabili X i

Correlazione tra le variabili X Condizione di dipendenza tra le variabili X i Soluzione completamente standardizzata

Indichiamo con R i. la correlazione multipla della variabile X i con le rimanenti variabili, indicate con X j Correlazione tra le variabili X L’elemento c ii rappresenta il valore della diagonale della matrice (X’X) -1 mentre s 2 i è la varianza della variabile X i.

Nel caso in cui non si disponesse della matrice X’X ma del MS res e dell’errore standard del parametro b i la correlazione tra una X e le altre potrà essere calcolata nella seguente maniera: Correlazione tra le variabili X

Inserire correlazione multipla da Morrison (m33.r)

La matrice X e la matrice y possono essere convertite in un punteggio standardizzato dividendo la deviazione di ciascun elemento dalla media per l’appropriata deviazione standard. Matrici standardizzate

Nel nostro esempio avremo: Matrici standardizzate

Con variabili standardizzate non è necessario inserire nella matrice Z la componente unitaria 1 poiché il parametro  0 è uguale a 0.

I coefficienti b standardizzati possono essere ottenuti a partire da quelli non standardizzati impiegando la formula: L’equazione della retta di regressione diventa: Matrici standardizzate

Nel nostro esempio avremo:

Utilizzare matrici standardizzate permette di porre il parametro b 0 =0. Infatti, se le variabili sono standardizzate il valore di intercetta per Y è 0, poiché tutte le medie sono uguali a 0; Inoltre, essendo la correlazione tra due qualsiasi variabili standardizzate è: con i,j compresi tra 1 e k. Matrici standardizzate

Matrice di correlazione Se moltiplichiamo la matrice (Z’Z) per lo scalare [1/(n-1)] otteniamo la matrice di correlazione R tra le variabili indipendenti

Nel nostro esempio avremo: Matrice di correlazione

Correlazione Y con singoli predittori Allo stesso modo se la variabile Y è anch’essa standardizzata e moltiplichiamo il prodotto Z’Y z per lo scalare [1/(n-1)] otteniamo la matrice di correlazione r yi della variabile Y con i suoi predittori X i.

Correlazione Y con singoli predittori

La soluzione del sistema di equazioni normali della retta porta alla seguente uguaglianza: I valori stimati potranno essere ottenuti impiegando l’equazione: Correlazione Y con singoli predittori

Poiché con le variabili standardizzate abbiamo che: Partendo dalle formule generali è possibile avere le seguenti formule semplificate: Sommatorie dei quadrati

Calcolo di R 2 y.123 Avendo scomposto la varianza nella componente dovuta alla regressione e nella componente dovuta ai residui, è immediato calcolare:

Correlazione multipla tra le X i.yz Se in generale la correlazione multipla al quadrato di una variabile indipendente X i con le altre è: essa, in presenza di variabili standardizzate, diviene: dove l’elemento a ii appartiene alla diagonale della matrice R -1.

Volendo adesso calcolare gli altri due coefficienti si dovrà procedere nel modo seguente: Ad esempio la correlazione multipla al quadrato tra la prima variabile X 1 e le altre due può essere calcolata nel seguente modo: Correlazione multipla tra le X i.yz

Errore standard dei  z L’errore standard dei parametri standardizzati è ottenibile dalla formula generale:

Errore standard dei  z Si hanno ora a disposizione tutti gli elementi per testare la diversità dei singoli predittori da 0, ottenendo i medesimi risultati ottenuti con le variabili non standardizzate.