La regressione lineare trivariata

Slides:



Advertisements
Presentazioni simili
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Advertisements

Statistica Economica I
INTERPOLAZIONE MOD.10 CAP.1
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
Dipartimento di Economia
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
“Teoria e metodi della ricerca sociale e organizzativa”
Analisi dei dati per i disegni ad un fattore
ANALISI DELLA COVARIANZA
Analisi multivariata.
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Analisi della varianza (a una via)
La logica della regressione
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 10: test di Student e test F
Corso di biomatematica lezione 6: la funzione c2
STATISTICA a.a PARAMETRO t DI STUDENT
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
G. Barbaro interpolazione1 INTERPOLAZIONE. G. Barbaro interpolazione1 In Statistica e in genere nelle scienze sperimentali, si studiano o si osservano.
Linee guida per la Chimica Analitica Statistica chemiometrica
Analisi della varianza
Quale valore dobbiamo assumere come misura di una grandezza?
STATISTICA PER LE DECISIONI DI MARKETING
Regressione Logistica
La ricerca delle relazioni tra fenomeni
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Regressione e correlazione
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
La regressione come strumento di sintesi delle relazioni tra variabili
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Strumenti statistici in Excell
Il residuo nella predizione
IL CAMPIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Analisi Multivariata dei Dati
1 “Metodi per la Ricerca Sociale e Organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università degli Studi di Milano-Bicocca.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
La covarianza.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Statistica per l’economia e l’impresa Capitolo 4 MODELLO DI REGRESSIONE LINEARE SEMPLICE.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Gli Indici di VARIABILITA’
Transcript della presentazione:

La regressione lineare trivariata

Studiare la relazione tra due variabili parametriche. Quando si hanno due variabili parametriche é possibile rappresentare graficamente i dati su un piano cartesiano realizzando un diagramma di dispersione.

Studiare la relazione tra due variabili parametriche. il diagramma di dispersione fornisce una indicazione intuitiva del tipo di relazione che sussiste tra la variabile indipendente (detta anche variabile esplicativa, o predittore, in ascissa) e la variabile dipendente (detta anche criterio, in ordinata).

Studiare la relazione tra due variabili parametriche. La regressione lineare è quindi un esempio di disegno di ricerca correlazionale.

Diagramma di dispersione: andamento lineare Peso (kg) altezza (cm)

Diagramma di dispersione: andamento quadratico Punteggio ad un test di memoria semantica età (anni)

Diagramma di dispersione: assenza di relazione Fluenza verbale reddito

La rumorosità dei dati. I dati di un esperimento possono essere tuttavia molto rumorosi perché la variabilità tra soggetti é normalmente molto alta.

La rumorosità dei dati. Esempio: riportiamo una misura di Informazione in funzione dell’età in un campione di 156 soggetti di età compresa tra 20 e 75 anni; sovrapposto ai dati abbiamo un ‘fit’ (modello di interpolazione dei dati) di tipo lineare ed un fit quadratico.

La rumorosità dei dati.

La rumorosità dei dati. Normalmente la sola ispezione visiva del diagramma di dispersione dei dati non é sufficiente per valutare l’entità e la significatività della relazione tra le variabili.

La correlazione test-retest. Un diagramma test-retest riporta i risultati di due somministrazioni dello stesso compito. In ascisse troviamo la performance alla prima somministrazione ed in ordinata la performance alla seconda . Ogni punto rappresenta i risultati di un singolo soggetto alle due prove.

La correlazione test-retest.

La correlazione test-retest. L’analisi della correlazione test – retest viene utilizzata per studiare la riproducibilità di un risultato sullo stesso campione di soggetti, oppure nella fase di validazione di uno strumento di misura.

Il modello di regressione lineare. Il procedimento di stima di una relazione lineare bivariata prende il nome di analisi della regressione lineare.

Il modello di regressione lineare. Il modello di analisi dei dati prevede l’esistenza di una relazione lineare tra variabile dipendente Y e predittore X, che consente di fare previsioni sui valori che assume la variabile dipendente Y anche in corrispondenza di valori di X non effettivamente misurati (interpolazione lineare).

Il modello di di regressione lineare. Il modello di regressione lineare é il seguente: Yi = a + bYX Xi+ ei dove a é l’intercetta, bYX é il coefficiente di regressione ed ei é l’errore di predizione o residuo.

Il modello di regressione lineare. Il modello di regressione lineare é il seguente: Yi = a + bYX Xi+ ei dove a é l’intercetta, bYX é il coefficiente di regressione ed ei é l’errore di predizione o residuo.

La retta di regressione.  = a + bYX X stima una media condizionale di Y, cioé un valore atteso di Y dato uno specifico valore della X.

I residui. Il residuo é pari alla differenza tra valore osservato e valore predetto dal modello lineare: ei = Yi - i

Il modello di regressione L’analisi della regressione lineare permette di rappresentare in maniera sintetica un insieme di coppie di dati attraverso la stima dei parametri della regressione, a e bYX.

minimi quadrati ordinarii Stima dei parametri Un metodo comunemente usato per la stima dei parametri della regressione é il metodo dei minimi quadrati ordinarii (OLS=Orderly Least Squares) che consiste nello scegliere i valori di a e bYX che rendono minima la somma dei residui al quadrato.

Stimatori O.L.S. Il metodo dei minimi quadrati si applica sotto l’ipotesi che i valori di Y siano distribuiti in maniera normale attorno al valore predetto dalla retta di regressione. Questo prerequisito si verifica attraverso l’analisi dei residui.

a = <Y> - bYX<X> Stimatori O.L.S. Calcolando esplicitamente con questo metodo si ottengono gli stimatori OLS dei parametri della regressione lineare: bYX = Cov(X,Y)/Var(X) a = <Y> - bYX<X>

Cov(X,Y) = <(X - <X>)(Y - <Y>)> La Covarianza la covarianza tra due variabili è il valore atteso del prodotto dei rispettivi scarti dalla media: Cov(X,Y) = <(X - <X>)(Y - <Y>)> Quando tra X ed Y non vi é alcuna relazione, Cov(X,Y)=0 e la retta di regressione, Y=a, é parallela all’asse delle ascisse.

Covarianza e regressione Quando tra X ed Y non vi é alcuna relazione si ha Cov(X,Y)=0 e la retta di regressione Y=a é parallela all’asse delle ascisse.

Esempio: l’esperimento di Shepard sulle rotazioni mentali In questo famoso esperimento si mostra che le operazioni sulle immagini mentali possono essere ‘cronometrate’ come se si trattasse di operazioni su variabili fisiche.

Esempio: l’esperimento di Shepard sulle rotazioni mentali L’esperimento richiede di giudicare se due figure tridimensionali complesse sono o no l’una l’immagine ruotata dell’altra. Si misurano i tempi di reazione (RT in s) in funzione dell’angolo di rotazione (in gradi) che separa le due immagini.

La Statistica R.P.E. R.P.E. = Riduzione Proporzionale dell’Errore

La Statistica R.P.E. Un modello di regressione può essere utilizzato per ridurre l’errore che si commetterebbe inferendo il valore della variabile Yi una volta noto quello della corrispondente osservazione Xi. (stima della media condizionata di Y dato X).

SQTOTALE=i (Yi-<Y>)2 La Statistica R.P.E. Senza il modello la predizione migliore corrisponde alla media campionaria <Y>, per cui su N osservazioni l’errore quadratico complessivo sarebbe SQTOTALE=i (Yi-<Y>)2

La Statistica R.P.E. La conoscenza del modello di regressione consente di sostituire <Y> con un valore Ypi predetto per ogni i, con una conseguente cospicua riduzione dell’errore quadratico di predizione.

La Statistica R.P.E. Una statistica di riduzione proporzionale dell’errore, o Statistica RPE, quantifica il miglioramento della predizione ottenuto grazie alla introduzione del modello di predizione (in questo caso la retta di regressione lineare).

La Statistica R.P.E. Errore con la Errore senza la Regola di predizione Errore senza la Regola di predizione Errore senza la Regola di predizione

La Statistica R.P.E. Una statistica RPE prende valori tra 0 (nessun miglioramento) ed 1 (riduzione totale dell’incertezza). I valori intermedi corrispondono a riduzioni parziali dell’incertezza della predizione di Y a partire dalle osservazioni di X.

Coefficiente di determinazione La Statistica R.P.E. La statistica RPE della regressione lineare si chiama Coefficiente di determinazione e si indica con R2YX

(Yi - <Y>) = (Yi - Ypi) + (Ypi - <Y>) La Statistica R.P.E. La differenza di una osservazione Yi dal proprio valore atteso <Y> si può scomporre come segue: (Yi - <Y>) = (Yi - Ypi) + (Ypi - <Y>)

(Yi - <Y>) = (Yi - Ypi) + (Ypi - <Y>) La Statistica R.P.E. La differenza di una osservazione Yi dal proprio valore atteso <Y> si può scomporre come segue: (Yi - <Y>) = (Yi - Ypi) + (Ypi - <Y>) Scarto dell’osservazione dalla predizione Scarto della predizione dalla media campionaria

(Yi - <Y>) = (Yi - Ypi) + (Ypi - <Y>) La Statistica R.P.E. La differenza di una osservazione Yi dal proprio valore atteso <Y> si può scomporre come segue: (Yi - <Y>) = (Yi - Ypi) + (Ypi - <Y>) Scarto dell’osservazione dalla predizione Scarto della predizione dalla media campionaria

La Statistica R.P.E. (Yi - Ypi) = ei = errore di predizione (Ypi - <Y>) corrisponde alla variazione di Y spiegata dalla sua relazione con la variabile indipendente X.

La Statistica R.P.E. SQTOTALE = i(Yi-<Y>)2 = = i(Ypi- <Y>)2 + i(Yi- Ypi)2 = = SQregressione + SQerrore

La Statistica R.P.E. R2YX = (SQTOTALE - SQerrore)/ SQTOTALE R2YX = SQregressione / SQTOTALE R2YX = Cov(X,Y)2/ Var(X) Var(Y)

La Statistica R.P.E. Il valore del coefficiente di determinazione rispecchia la quota di varianza della variabile dipendente Y che é spiegata dalla sua associazione con la variabile indipendente X.

La Statistica R.P.E. Esso corrisponde al quadrato del coefficiente di correlazione di Pearson rYX, quindi: rYX = (R2YX)1/2

La Statistica R.P.E. Il valore (1 - R2YX ) rappresenta la quota di varianza residua, ovvero non spiegata dalla regressione, e prende il nome di coefficiente di alienazione

esempio r=0.89 R2=0.79

esempio Regr. Lineare: r=0.22 R2≈ 0.05

Il modello di regressione trivariata. Il modello di regressione nel caso trivariato é una estensione del modello di regressione bivariata: Yi = a + bYX1 X1i + bYX2 X2i + ei

Il modello di regressione trivariata. ATTENZIONE: coefficienti di regressione nel caso multivariato si interpretano diversamente che nel caso bivariato: essi infatti esprimono l’effetto di una variabile indipendente nel caso in cui le rimenati siano tenute costanti.

Regressione lineare trivariata Esempio: un disegno trivariato in cui i predittori sono: X1 = durata del trattamento farmacologico X2 = durata del trattamento psicoterapeutico mentre il criterio é Y = indice della gravità dei sintomi psicotici.

Il modello di regressione trivariata. In questo caso bYX1 esprime l’effetto che ha sulla gravità dei sintomi la durata del trattamento farmacologico a parità di durata del trattamento psicoterapeutico.

Stima dei parametri I parametri del modello possono essere stimati con il metodo dei minimi quadrati ordinari (Stime O.L.S.), come nel caso bivariato.

Stima dei parametri Essi assumono una forma complessa che si può esprimere in funzione delle cosiddette correlazioni a coppie, e cioé dei coefficienti di correlazione di Pearson tra coppie di variabili.

Stima dei parametri Solo nel caso in cui le due variabili indipendenti NON siano tra loro correlate essi si riducono ad essere proporzionali ai coefficienti di Pearson.

Stima dei parametri Caso in cui X1 e X2 non sono correlate bYX1 = (Var(X1)/Var(Y))1/2 rYX1 bYX1 = (Var(X2)/Var(Y))1/2 rYX2

Modello standardizzato Siccome in una analisi multivariata è sempre utile poter confrontare tra loro gli effetti delle variabili indipendenti é conveniente presentare il modello nella sua forma standardizzata ZY= YX1ZX1 + YX1ZX1 + ei

Equazione di predizione forma standardizzata: ZY= YX1ZX1 + YX1ZX1 I pesi beta in questo caso vengono detti coefficienti di regressione parziale o partial slopes

Pesi beta indicano quale sia la dipendenza di Y da ciascuna della variabili indipendenti presenti nell’equazione al netto della dipendenza da tutte le altre.

Pesi beta Siccome le variabili indipendenti standardizzate sono espresse nella stessa unità di misura i pesi beta possono essere confrontati tra loro per stabilire ad esempio quale delle due variabili ha un effetto maggiore sulla variabile dipendente.

Il coefficiente di determinazione la sua espressione si ricava a partire dalla stessa scomposizione degli scarti utilizzata nel caso bivariato.

Il coefficiente di determinazione trivariato R2YX1X2 = = (r2YX1 + r2YX2 - 2 rYX1 rX1X2 )/(1 - r2X1X2 ) oppure, in funzione dei pesi beta: R2YX1X2 =YX1rYX1+ YX2rYX2

Il coefficiente di determinazione trivariato R2YX1X2 = = (r2YX1 + r2YX2 - 2 rYX1 rX1X2 )/(1 - r2X1X2 ) oppure, in funzione dei pesi beta: R2YX1X2 =YX1rYX1+ YX2rYX2

Il coefficiente di determinazione trivariato per X1 e X2 NON correlate R2YX1X2 = (r2YX1 + r2YX2) Solo in questo caso si riduce alla somma delle correlazioni al quadrato!

Attenzione! Nel caso generale non si può ‘separare’ l’influenza di una variabile da quella dell’altra.

La significatività di R2YX1X e dei parametri del modello Il test di significatività per il coefficiente di determinazione trivariato segue esattamente la stessa logica del caso bivariato, con l’opportuna modifica nel conteggio dei gradi di libertà della regressione.

La significatività di R2YX1X e dei parametri del modello I gradi di libertà della regressione sono 2, e quelli della somma dei quadrati totali, sono N-1-2 = N –3, dove N é il numero delle osservazioni.

F di Fisher Si può mostrare che la statistica F di Fisher può essere calcolata direttamente in funzione di R2YX1X2 come segue: F2,N-3 = (SQREGRESSIONE/2) / (SQERRORE/N-3) = (R2YX1X2 /2) / [(1 - R2YX1X2)/(N-3)]

F di Fisher Su questa stima si esegue il test di inferenza statistica per falsificare l’ipotesi nulla che il parametro dell’universo stimato dal coefficiente di determinazione sia pari a zero.

Significatività dei parametri La significatività statistica dei pesi beta può essere invece stimata utilizzando una variabile t di Student opportunamente definita.

Attenzione! Questi test di inferenza statistica sono validi sotto una serie di assunzioni che qui riassumiamo.

Assunzione 1 la dipendenza di Y dalle variabili indipendenti deve essere lineare e non ci devono essere variabili rilevanti omesse dal modello

Assunzione 2 le variabili indipendenti sono misurate senza errore

Assunzione 3 la variabile dipendente deve essere parametrica, mentre quelle indipendenti devono essere parametriche o dicotomiche (variabili dummy)

Assunzione 4 le varianze devono essere tutte non nulle

Assunzione 5 le variabili indipendenti non devono essere eccessivamente correlate tra loro, cioé non devono essere multicollineari

Assunzione 6 i residui devono essere distribuiti normalmente, indipendenti tra loro ed indipendenti dalle osservazioni X

Assunzione 7 il campionamento deve essere casuale semplice.

ANCOVA Devianza totale Devianza spiegata dalla regressione Devianza non spiegata dalla regressione a. Devianza tra i gruppi b. Devianza residua