Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.

Slides:



Advertisements
Presentazioni simili
INTERPOLAZIONE MOD.10 CAP.1
Advertisements

Come organizzare i dati per un'analisi statistica al computer?
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Regressione lineare Esercitazione 24/01/04.
ANALISI DELLA COVARIANZA
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
STATISTICA 6.0: REGRESSIONE LINEARE
IL MODELLO DI REGRESSIONE MULTIPLA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
La logica della regressione
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 6: la funzione c2
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Modello di regressione lineare semplice
Propagazione degli errori
La ricerca delle relazioni tra fenomeni
Introduzione alla Regressione Lineare e alla Correlazione.
Interpolazione e regressione
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Strumenti statistici in Excell
Il residuo nella predizione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Analisi Multivariata dei Dati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
1 “Metodi per la Ricerca Sociale e Organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università degli Studi di Milano-Bicocca.
Analisi discriminante lineare - contesto
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE
I modelli di valutazione delle opzioni su tassi
Regressione lineare - Esercizi
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
Elaborazione statistica di dati
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
La covarianza.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Ottimizzazione dei terreni di coltura Metodi statistici.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Statistica per l’economia e l’impresa Capitolo 4 MODELLO DI REGRESSIONE LINEARE SEMPLICE.
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Classe II a.s. 2010/2011 Prof.ssa Rita Schettino
Transcript della presentazione:

Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura media mensile in gradi F X 2 : numero di giorni di operatività in un mese X 3 : numero di riavviamenti (startup) in un mese Problema: capire quali variabili e come influiscono sul consumo di vapore

Quali variabili utilizzare nella regressione? matrice di correlazione

Modello lineare con una variabile esplicativa Si vuole spiegare la variabile Y come funzione della X 1 supponendo che il legame sia lineare quindi si vogliono determinare a e b tali che e Facendo i conti si ottiene

Possiamo riscrivere le 25 equazioni in un’unica equazione matriciale, ovvero con

determiniamo  =(a,b) minimizzando la soluzione dell’equazione matriciale è Dai dati dell’esempio si ottiene

Si vuole spiegare la variabile Y in funzione della variabile X 2 Si ottiene

Si vuole spiegare la variabile Y in funzione della variabile X 3 Si ottiene

Quali variabili utilizzare nella regressione? matrice di correlazione

Modello lineare con due variabili esplicative Si vuole spiegare la Y come funzione lineare di X 1 (variabile maggiormente correlata con Y) e X 2 (variabile meno correlata con X 1 ) il modello ipotizzato è Si vuole, quindi, determinare il piano che passi il più vicino possibile ai punti del grafico

y =  0 +  1 x X y X2X2 1 La regressione lineare semplice parte da una variabile indipendente, “x” y =  0 +  1 x +  La regressione lineare multipla parte da più variabile indipendenti Y =  0 +  1 x 1 +  2 x 2 +  La linea diventa un piano y =  0 +  1 x 1 +  2 x 2

Grafico di dispersione della variabile Y rispetto a X 1 e X 2

si vogliono determinare a, b e c tali che Possiamo riscrivere le 25 equazioni in un’unica equazione matriciale, ovvero con

la soluzione ottenuta con il metodo dei minimi quadrati è Dai dati dell’esempio otteniamo

modello ipotizzato: Il piano di regressione ha equazione Il valore di R 2 è più basso perchè le variabili sono maggiormente correlate

Quali variabili utilizzare nella regressione? matrice di correlazione Si scelgono le variabili maggiormente correlate con la variabile da spiegare e meno correlate tra loro.

Modello lineare con tre variabili esplicative Si vuole spiegare la Y come funzione lineare di X 1, X 2 e X 3 il modello ipotizzato è l’equazione matriciale è con

la soluzione ottenuta con il metodo dei minimi quadrati è Dai dati dell’esempio otteniamo

Osservazioni  L’indice R 2, nel caso della regressione multipla, non è uguale a  2  Le formule viste per il caso di due regressori si estendono al caso di k > 2 regressori  Il valore dell’indice R 2 aumenta all’aumentare del numero delle variabili esplicative del modello. Occorre trovare un compromesso tra numero dei regressori e bontà di adattamento  Non seguendo questo principio potremmo incappare in problemi di over fitting, cioè modelli “molto buoni” ma inutilizzabili a fini previsivi.

Coefficiente di determinazione multiplo somma dei quadrati della regressione (SQR) somma dei quadrati degli errori (SQE) somma dei quadrati della regressione (SQT)

Coefficiente di determinazione multiplo  Quando alle variabili esplicative del modello di regressione si aggiunge una nuova variabile, la somma dei quadrati degli errori non aumenta e normalmente i valori stimati della variabile Y risultano essere più vicini ai valori osservati.  Il valore di R 2 non può decrescere  E’ necessario definire un altro indice per poter confrontare la capacità di adattamento di diversi modelli, neutralizzando l’effetto dovuto al diverso numero di variabili esplicative

Coefficiente di determinazione multiplo corretto Il coefficiente di correlazione multiplo è dato dalla radice quadrata del coefficiente di determinazione multiplo e misura la correlazione lineare tra i valori osservati y i e i corrispondenti valori stimati. Questo indice, a differenza del coefficiente di correlazione lineare, può assumere solo valori non negativi.

Esempio Sono stati registrati la media mensile in minuti di utilizzo del cellulare (Minuti), il costo medio mensile delle telefonate (Bolletta), la percentuale per uso ufficio (Lavoro) e il reddito famigliare (Reddito) di 250 individui. Stimando il modello di regressione lineare multipla che fa dipendere la variabile media mensile in minuti d’utilizzo del cellulare dalle restanti variabili, si ottengono le seguenti tabelle di output:

Statistica della regressione R multiplo0,540 R al quadrato0,292 R al quadrato corretto0,283 Errore standard39,424 Osservazioni250 ANALISI VARIANZA gdlSQMQFSignificatività Regressione ,752565,233,8212,45E-18 Residuo ,711554,23 Totale ,41 Coefficienti errore standardStat tp-value inferiore 95% superiore 95% Intercetta29,62515,5031,9110,057-0,9160,161 BOLLETTA0,8850,1476,0160,0000,5951,175 LAVORO0,5360,3231,6620,098-0,0991,172 REDDITO0,9560,2334,1120,0000,4981,414

a. Aumentando di un euro il costo medio della bolletta di quanto aumenta la media mensile di utilizzo del cellulare (tenendo costante il valore delle altre variabili)? b. Considerando un livello di significatività pari a α = 0.10, indicare quali sono le variabili esplicative che presentano un coefficiente di regressione significativamente diverso da zero. c. Considerando un livello di confidenza pari a 1−α=0.95, il coefficiente di regressione della variabile Bolletta può essere pari a 1.2? d. La bontà di adattamento del modello di regressione lineare è molto elevata? e. Si può rifiutare l’ipotesi nulla che i coefficienti di regressione sono tutti uguali a zero per un α = 0.05 ?