Scopo della lezione Regressione lineare multipla Cos’è

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
L’equazione della retta
“Teoria e metodi della ricerca sociale e organizzativa”
Analisi dei dati per i disegni ad un fattore
La regressione lineare trivariata
Regressione lineare Esercitazione 24/01/04.
ANALISI DELLA COVARIANZA
Analisi Bivariata e Test Statistici
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
L’elasticità della domanda rispetto al “proprio prezzo”
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Varianza campionaria Errore standard della varianza campionaria
Campionamento casuale semplice
Obiettivi del corso di Statistica Medica.
ALBERI DECISIONALI prima parte
La regressione logistica binomiale
Analisi della varianza (a una via)
La logica della regressione
Canale A. Prof.Ciapetti AA2003/04
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 9: test di Student
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Cos’è un problema?.
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
Analisi della varianza
Esercitazione 1: Rispetto al test di ansia (Media=25; σ=5), calcolare:
Regressione Logistica
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
Principali analisi statistiche
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
Un trucchetto di Moltiplicazione per il calcolo mentale
DATA MINING PER IL MARKETING
Regressione Lineare parte 2 Corso di Misure Meccaniche e Termiche David Vetturi.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
Introduzione alla regressione multipla
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Il residuo nella predizione
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Analisi Multivariata dei Dati
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
La regressione statistica IL CASO UNIVARIATO Consideriamo due variabili continue proponendoci di INDAGARE se esiste una relazione tra loro. Normalmente.
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Transcript della presentazione:

Scopo della lezione Regressione lineare multipla Cos’è Scopi dell’analisi della regressione Quando si applica? condizioni di applicabilità utilità Coefficienti della regressione: quali sono gli indicatori utili? Interpretazione dei risultati dell’analisi della regressione

Cosa è l’analisi della regressione multipla? Tecnica che consente di analizzare il contributo di più variabili (predittori) su una variabile dipendente (criterio) ovvero Regressione multipla Regressione semplice X1 X Y X2 Y …. Xk

Scopi dell’analisi della regressione Predittivo: sulla base delle correlazioni tra i predittori e tra i predittori e il criterio si cerca di prevedere la risposta dei soggetti alla variabile criterio Causale: individuazione delle variabili che spiegano la risposta dei soggetti alla variabile criterio Come nella ANOVA lo scopo dipende dalla pianificazione sperimentale: Variabili differenziali e variabili indipendenti

Analisi della regressione La regressione scompone la variabilità totale in variabilità spiegata dalla regressione e variabilità residua. La regressione generalmente non opera sui gruppi ma su variabili continue

Anova e Regressione Scopo predittivo: le persone che vivono in città sono più stressate delle persone che vivono in campagna. G1 (cittadini) O1 (stress) G2 (contadini) O2 (stress) H0: 1 = 2 ; H1 : 1 > 2 Regressione: Lontananza dal centro urbano (in Km) Stress H0:  = 0 ; H1 :  < 0 N.B. Nella regressione può essere utilizzato lo stesso disegno della ANOVA, trattando le variabili qualitative come variabili dummy. Anche in questo caso le ipotesi saranno formulate relativamente alla relazione

Anova e Regressione Scopo causale: le persone che vivono in città sono più stressate delle persone che vivono in campagna. Anova: G (cont.) O1 (stress) X(avvicinamento alla città per 6 m.) O2 (stress) H0: 1 = 2 ; H1 : 1 < 2 Ovvero H0:  = 0 ; H1 :  > 0

Passi fondamentali dell’analisi della regressione Selezione delle variabili Individuazione del modello di analisi della regressione Stima dei parametri Interpretazione dei risultati

Selezione delle variabili Decisione relativa al tipo di variabili Assunzioni di normalità della distribuzione delle Y per ogni X Assunzione di omeoschedasticità dei residui Assunzione di assenza di multicollinearità nella popolazione: le variabili predittori non devono essere correlate tra loro

La regressione multipla E’ la combinazione lineare dei predittori atta a massimizzare la correlazione con la variabile dipendente (criterio) La combinazione si ottiene mediante il metodo dei “minimi quadrati”, che consente di minimizzare la somma dei quadrati delle differenze tra Y e Y’ ovvero massimizzare la loro correlazione. I parametri stimati tramite questo metodo individuano un piano o un iperpiano a k - 1 dimensioni

La retta di regressione ∑ (Yi -Y’i)2= minima Y Y4 Y3 Y’4 Y1 Y’3 Y’2 Y’1 a  Y2 X a = altezza del punto di incontro del piano con l’asse delle Y b = funzione dell’angolo della inclinazione del piano con la variabile X Y’ = a +b X

Il piano di regressione ∑ (Yi -Y’i)2= minima Y Y3 X2 Y1 Y’3 Y’2 Y’1 Y2 X1 a = altezza del punto di incontro del piano con l’asse delle Y b1 = funzione dell’angolo della inclinazione del piano con la variabile X1 b2 = funzione dell’angolo della inclinazione del piano con la variabile X2 Y’ = a +b1 X1+b2X2

I coefficienti di regressione Equazione di regressione multipla Y’ = a + b1 X1+ b2X2 + ….. + bkXk a = intercetta o termine costante bi = coefficienti di regressione parziale tra le variabili prese a coppie, è il rapporto tra la covarianza (tra Y e Xi) e la varianza della variabile Xi. E’ dunque un indice di dipendenza di Y da Xi. Differentemente dalla regressione semplice sono direzionali. Xi = variabili predittori

I coefficienti b parziali Possono essere considerati coefficienti di correlazione parziale. Rappresentano l’inclinazione dell’iperpiano di regressione nella dimensione della corrispondente variabile indipendente, mantenendo costanti tutte le altre. bij.k = bij- (bik) (bkj) / 1- bjk bkj Rappresenta il mutamento ipotetico che si verificherebbe nella variabile Y se una delle variabili indipendenti fosse cambiata di una unità e le altre variabili indipendenti restassero costanti

Scomposizione della devianza devianza totale n-1 Devianza dovuta alla regressione Devianza residua k n-k-1 ∑ (Y’- Ymedio)2 ∑ (Y- Y’)2 Si può controllare probabilisticamente tramite il test F la significatività della relazione. L’indicatore che si utilizza per misurare e quantificare la relazione è il coefficiente di correlazione multipla al quadrato (R2), ovvero il coefficiente di determinazione. R2 = SQ spiegata / SQ totale

Il coefficiente di correlazione multipla E’ il rapporto tra la devianza dovuta alla regressione e la devianza totale, ovvero è la proporzione di variabilità totale spiegata dall’insieme dei predittori. Rappresenta la correlazione tra due distribuzioni, quella della variabile criterio Y e quella della variabile predetta Y’. E’ sempre superiore a quello tra le singole variabili Aumenta all’aumentare della correlazione tra le singole variabili indipendenti e la dipendente Aumenta al diminuire della correlazione tra le variabili indipendenti Y X X

Coefficienti di correlazione Coefficiente di correlazione parziale: indica la relazione tra due variabili avendo eliminato l’effetto delle altre. Non è unico, dipende da quali variabili vogliamo parzializzare. Correlazione parziale tra X1 e Y Y X1 X2

Altri coefficienti di correlazione Coefficiente di correlazione semiparziale: indica la relazione tra una variabile predittore e il criterio avendo eliminato l’effetto delle altre sul predittore, ma non elimina la relazione che le altre variabili predittori hanno con il criterio. Y X1 X2

Scomposizione della devianza Devianza totale Devianza dovuta alla regressione Devianza residua Devianza X1 Devianza X2 Devianza Xk Ogni variabile X ha il suo coefficiente , che si distribuisce come una t di student con n - k - 1 gdl

Procedure per selezionare i predittori Forward Calcola la correlazione tra ciascun predittore e il criterio: quello con la più alta correlazione entra per primo nell’analisi. I predittori successivi vengono introdotti nell’analisi in base al quadrato della correlazione semiparziale con il criterio, ovvero sono i predittori che incrementano R2 La procedura termina quando un predittore non fornisce un incremento significativo N.B. una variabile già entrata nell’equazione non viene più rimossa anche se il suo contributo diminuisce per effetto dell’entrata di un altro predittore

Procedure per selezionare i predittori Backward Procede per eliminazione: calcola il coefficiente di correlazione multipla al quadrato considerando tutte la variabili predittore. Elimina una variabile alla volta tenendo presente la conseguente modificazione di R2.Se la modificazione è irrilevante il predittore viene eliminato definitivamente N.B. Il contributo di ogni predittore è valutato alla luce degli altri.

Procedure per selezionare i predittori Stepwise Variazione della procedure forward: il contributo di ciascun predittore viene valutato nuovamente ad ogni passo, eliminando quelli che comportano una riduzione dell’ R2. N.B. Il contributo di ogni predittore è valutato alla luce degli altri.

Applicazione della analisi della regressione

Disturbo ossessivo-compulsivo Estrazione dei predittori: quali predittori selezionare? Metodo della regressione stepwise Severità ? ? Responsabilità ? Controllo Depressione Disturbo ossessivo-compulsivo

Estrazione dei predittori: quali predittori estrarre? Metodo stepwise Step1. Variabili entrate al primo passo R multiplo 0.23 R2 0.05 Adjusted R2 0.04 Standard Error 15.01 F = 3.93 p= 0.02 Variabili nell’equazione Variabili B SE Beta Beta t p Controllo 2.75 1.22 .34 1.92 0.02

Estrazione dei predittori: quali predittori estrarre? Metodo stepwise Step 2 Variabili entrate R multiplo 0.49 R2 0.24 Adjusted R2 0.20 Standard Error 13.7 F = 4.81 p= 0.0001 Variabili nell’equazione Variabili B SE Beta Beta t p Controllo 3.92 0.06 0.13 2.16 0.02 Responsabilità 0.61 0.11 0.39 3.51 0.0005

Disturbo ossessivo-compulsivo Estrazione dei predittori: quali predittori estrarre? Metodo della regressione stepwise: risultati Severità Responsabilità Controllo Depressione =0.39 =0.13 Disturbo ossessivo-compulsivo

Estrazione dei predittori: quali predittori estrarre? Metodo della regressione gerarchica Controllo Severità Responsabilità Depressione Disturbo ossessivo-compulsivo

Estrazione dei predittori: quali predittori estrarre? Metodo della regressione gerarchica Predittori Step 1 Metodo enter: forzo le variabili ad entrare nella regressione Controllo Severità Depressione Step 2 Metodo enter: Responsabilità Criterio Disturbo ossessivo-compulsivo

Predittori: criteri generali Metodo enter: regressione gerarchica Step1 R multiplo 0.58 R2 0.34 Adjusted R2 0.31 Analisi della varianza GDL Devianza Varianza Regressione 3 3687.42 1229.14 Residuo 137 32382.7 236.37 F = 5.20 p= 0.0001 Variabili nell’equazione Variabili B SE Beta Beta t p Controllo 3.92 0.65 .13 1.98 0.02 Severità 1.12 0.34 .44 1.3 0.09 Depressione 2.56 0.17 .27 1.57 0.06

Predittori: criteri generali Metodo enter: regressione gerarchica Step2 R multiplo 0.72 R2 0.52 Adjusted R2 0.50 Analisi della varianza GDL Devianza Varianza Regressione 4 12088.2 3022.04 Residuo 136 67377.1 495.42 F = 6.10 p= 0.0001 Variabili nell’equazione Variabili B SE Beta Beta t p Controllo 1.78 0.09 0.15 1.61 0.06 Severità 0.98 0.27 0 .38 1.4 0.09 Depressione 1.54 0.21 0 .32 1.52 0.06 Responsabilità 2.75 0.17 0.41 2.38 0.001

Estrazione dei predittori: quali predittori estrarre? Metodo della regressione gerarchica: risultati Controllo Severità Responsabilità Depressione Disturbo ossessivo-compulsivo

Riepilogando La regressione multipla è una tecnica di analisi multipla che predice i punteggi di una variabile criterio a partire da K variabili predittori Il coefficiente R2 indica la quantità di varianza spiegata o predetta dalla regressione Tramite il test F possiamo sottoporre a verifica l’ipotesi di regressione Tramite il test t possiamo sottoporre a verifica l’ipotesi di previsione di un predittore rispetto al criterio, all’interno della regressione multipla (H0:  =0; H1:  <>0) Più sarà dettagliato e pianificato il disegno di ricerca migliori saranno i modelli di analisi della regressione