La regressione multipla lineare

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
Intervalli di confidenza
Proprietà degli stimatori
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Variabili casuali a più dimensioni
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Descrizione dei dati Metodi di descrizione dei dati
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
La natura delle ipotesi
Progetto Pilota 2 Lettura e interpretazione dei risultati
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente.
STATISTICA 6.0: REGRESSIONE LINEARE
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Analisi della varianza (a una via)
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 7-2: Test di significatività
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Modello di regressione lineare semplice
Parte I (introduzione) Taratura degli strumenti (cfr: UNI 4546) Si parla di taratura in regime statico se lo strumento verrà utilizzato soltanto per misurare.
Metodi numerici per equazioni differenziali ordinarie Laboratorio di Metodi Numerici a.a. 2008/2009.
STATISTICA PER LE DECISIONI DI MARKETING
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
STATISTICA PER LE DECISIONI DI MARKETING
La ricerca delle relazioni tra fenomeni
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
STATISTICA PER LE DECISIONI DI MARKETING
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Costruire una tabella pivot che riepiloghi il totale del fatturato di ogni agente per categorie di vendita, mese per mese. Per inserire una tabella pivot.
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
La regressione II Cristina Zogmaister.
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Strumenti statistici in Excell
Il residuo nella predizione
IL CAMPIONE.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Intervalli di confidenza
Regressione lineare - Esercizi
Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Regressione lineare - Esercizi Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°9.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
Corso di Laurea in Scienze e tecniche psicologiche
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Correlazione e regressione lineare
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
Distribuzioni limite La distribuzione normale Si consideri una variabile casuale rappresentata mediante una combinazione lineare di altre variabili casuali.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Implementazione.
Transcript della presentazione:

La regressione multipla lineare

Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi di un'altra variabile. Invece con la correlazione si quantifica la forza di tale associazione mediante il cd coefficiente di correlazione "r" di Pearson. Trattandosi di un test parametrico e' necessario che siano soddisfatti alcuni assunti come la distribuzione normale delle variabili (soprattutto della variabile dipendente), l'uguale varianza e infine una reale indipendenza fra le variabili indipendenti.

Facciamo un esempio: valutiamo se il salario iniziale (all’assunzione nella ditta) e quello attuale degli impiegati di una ditta e' correlato a varie caratteristiche degli impiegati come il tempo di permanenza nella ditta, l'educazione, l'esperienza di precedente lavoro, il sesso, la razza. Prima di esaminare un modello statistico che metta in relazione il salario iniziale ad altre variabili, consideriamo la correlazione fra "ATTUALE" (y o var. dip.) e "INIZIALE" (x o var. indip.) e disegniamola con il comando PLOT

In tal modo e' possibile vedere il tipo di funzione matematica che meglio spiega il modello: lineare, parabolico, polinomiale, trigonometrico, etc (naturalmente si puo' cercare di trasformare in lineare una curva non tale). L'equazione della linea retta e': y=B0 + B1x1 dove B1 e' detto slope (o pendenza o coeff. angolare della retta) e B0 intercetta (essa rappresenta nell'esempio il punto stimato del salario attuale se il soggetto avesse un salario iniziale di 0).

Comandi SPSS Il comando SPSS nella forma piu' semplice (con 2 variabili) e': REG VAR=varx vary/DEPENDENT=vary /METHOD=ENTER. Nel caso di piu’ variabili si aggiungono queste dopo il comando VAR: REG VAR= sal_iniz sal_attu anniperm educaz esperien sesso razza /DEP=sal_attu /METHOD=STEP.

R multiplo: nel caso di 2 variabili corrisponde al L'output dell'SPSS mostra: R multiplo: nel caso di 2 variabili corrisponde al coefficiente r di Pearson; R quadro (R2) o coeff. di determinazione (cioè il quadrato di R multiplo): rappresenta una misura della bontà del modello lineare; se e' 0 non vuol dire che fra le variabili non c'e' associazione, ma solo che non vi e' correlazione "lineare"; inoltre esso rappresenta la percentuale di varia- zione nella variabile dipendente "spiegata" dal modello (ad es se R multiplo e' 0.88 e quindi R2 e' 0.774 vuol dire che il 77.4 % della variazione della var. dipendente e' "spiegata" dal nostro modello di regressione); in altre parole esso da' una valida indicazione di quanto una retta sia adatta a descrivere la relazione tra 2 variabili;

Adjusted R2 : e' l'R2 corretto a seconda del numero delle var. indipendenti; L'analisi della varianza: se significativa indica che esiste una correlazione lineare fra la variabile dipendente e le variabili indipendenti; I coeff. B con accanto i relativi SE: in alto e' lo slope e nella riga in basso l'intercetta;

Il coefficiente beta, cioe' il coeff. di regressione standardizzato (beta=B * DSx/DSy): esso e' un coefficiente indipendente dalle unita' di x e y (e', cioe', adimensionale) in quanto le variabili indipendenti sono espresse in forma standar- dizzata (Z-score) e corrisponde all' "r" di Pearson quando esiste una sola variabile indipendente; se le variabili indipendenti sono diverse e' quindi possibile (ma entro certi limiti!) comparare fra di loro i coeff. delle varie var. indipendenti alla ricerca di quelli piu' importanti;

Nelle ultime due colonne viene riportato il "t" e la sua significativita' sia per lo slope (riga in alto) che per l'intercetta (riga in basso); la sua significativita' indica che lo slope (o l'intercetta) sono diversi da 0 e quindi che esiste una correlazione lineare fra X e Y.

Anche per i valori dello slope e dell'intercetta esiste tutta una popolazione di possibili valori corrispon- denti a tutti i possibili campioni di numerosita' data: tale distribuzione e' gaussiana e ha quindi una DS e uno SE. Quindi possono essere usati sia per creare ipotesi di confronto (t di Student, analisi della varianza) sia per calcolare intervalli di confidenza. Nel caso si vogliano questi si deve aggiungere l'opzione /STAT=CI/; se si vuole un confronto fra 2 pendenze si usa la formula del t di Student: (SLOPE1-SLOPE2)/ ((DS2x/nx) + (DS2y/ny))

MODELLI DI REGRESSIONE MULTIPLA CON PIU' DI 2 VARIABILI INDIPENDENTI. Se l'R2 fra due variabili e' 0.774 cio' indica che il 77.4 % della variabilita' osservata puo' essere spiegata dalla variabile "X"; ma se le variabili indipendenti sono piu' di due quanto influiscono singolarmente? Con la regressione multipla è possibile valutare ciò.

Un primo approccio e' calcolare la matrice di correlazione fra tutte le variabili con il sottocomando /STAT=CORR/ da dare subito dopo il sottocomando /VAR. Variabili come sesso e razza (dette variabili "indicatrici") e' bene codificarle come 0 e 1. La matrice di correlazione puo' dare l'importanza relativa delle variabili: piu' e' alto il valore assoluto del coefficiente di correlazione, piu' e' alta l'associa- zione lineare.

Quando possibile, vanno evitate due variabili fortemente intercorrelate (forte "collinearità") in quanto tali variabili contengono informazioni simili ed e' quindi difficile distinguere gli effetti dovuti ad ognuna di esse singolarmente. Con il sottocomando /STAT=TOLL/ abbiamo la tolleranza, cioe' una misura della collinearita'. Se la tolleranza e' piccola (ad es < 0.1) allora la variabile risulta una combinazione lineare delle altre variabili indipendenti. Anche il sottocomando /STAT=COLL/ dà una diagnostica della collinearità.

Anche nel caso di una regressione con piu' variabili sia un R2 elevato che un'analisi della varianza significativa stanno ad indicare che esiste una forte relazione lineare fra la var. dipendente e il set di var. indipendenti. Anche il T e la sua significativita' riferiti ai coeff. B (detti coeff. parziali di regressione) indicano la probabilita' che ogni singola variabile intervenga nella spiegazione lineare della variabile dipendente.

In una delle tabelle di output l'SPSS sotto il nome di B evidenzia il coeff. parziale di regressione per ognuna delle variabili: il nome deriva dal fatto che il coeff. per una determinata variabile e' "aggiustato" per le altre variabili indipendenti. Esso può essere interpretato come la correlazione fra la variabile indipendente "x" e la var. dipendente quando gli effetti lineari delle altre variabili indipendenti sono stati rimossi. E' però scorretto usare i valori di B come indicatori di importanza, perche' essi dipendono dall'unita' di misura delle variabili. Il confronto può invece essere fatto in maniera piu' corretta se tutte le variabili indipendenti hanno la stessa unità di misura, cioè se si usano i coeff. beta.

Il modo, pero', piu' corretto per verificare quanto sia importante una variabile introdotta nel modello e' quello di calcolare il c.d. Rchange, cioe' l'incremento di R2 che si ottiene introducendo la nuova variabile, e il c.d. coefficiente di correlazione parziale che corrisponde al coefficiente di correlazione tra la var. dipendente e la var. indipendente quando sono eliminati tutti gli effetti delle altre variabili. Il sottocomando /STAT= permette di calcolare ciò: /STAT=R CHANGE ZPP F/ oppure /STAT=ALL/ . Piu' in particolare: R calcola i valori totali di R2; CHANGE calcola i valori di Rchange e Fchange; ZPP calcola i coeff. di correlazione "part" e "partial"; F calcola i valori F per i coefficienti B al posto del T.

Nel caso delle var. "indicatrici" i coefficienti possono essere interpretati come percentuali. Ad es. se il sesso (F=1;M=0) interviene con un B=-0.10 cio' vuol dire che il "SAL_INIZ" delle femmine e' circa il 10% meno che quello dei maschi dopo l'aggiustamento statistico per le altre variabili indipendenti.

COSTRUIRE UN MODELLO Inserire molte variabili non e' in genere una buona strategia, anche perche' i risultati sono difficili da interpretare; del resto e' bene non escludere a priori variabili potenzialmente rilevanti. Lo scopo e' quello di costruire un modello conciso, ma che renda possibili buone predizioni.

Si possono costruire una varieta' di modelli di regressione con lo stesso set di variabili. Per es. con tre variabili indipendenti si possono costruire 7 differenti equazioni (1023 modelli con 10 variabili): 3 con una var. alla volta, 3 con 2 var. alla volta e 1 con tutte e tre le var. Per ridurre le variabili solo a quelle che possono essere delle buone predittrici della var. dipendente si usano tre procedure: FORWARD selection, BACKWARD elimination STEPWISE (nessuna e' "la migliore" in senso assoluto).

FORWARD SELECTION Nella FORWARD selection la prima variabile che entra nell'equazione e' quella che ha la correlazione piu' alta (pos. o neg.) con la var. dipendente.

Se la prima variabile selezionata per l'ingresso soddisfa il criterio per l'inclusione la FORWARD selection continua, altrimenti la procedura termina senza variabili nell'equazione. Quando una variabile e' entrata la statistica per le variabili non nell'equazione sono usate per selezionare le prossime. Viene calcolata la correlazione parziale fra le variabili dipendenti e ognuna delle var. indipendenti non nell'equazione: la candidata prescelta e' la variabile con la piu' alta correlazione parziale.

Nella BACKWARD elimination si parte con tutte le variabili nell'equazione (mentre nella FORWARD selection si parte con nessuna var. nell'equazione) e sequenzialmente si rimuovono. Nel 1° passo si esamina per prima la variabile con il piu' piccolo coeff. di correlazione parziale e quindi viene eliminata. L'equazione e' quindi ricalcolata senza questa variabile e così via.

STEPWISE SELECTION La STEPWISE selection e' una combinazione di procedure BACKWARD e FORWARD e rappresenta la piu' usata. METODO ENTER Nel metodo ENTER entrano tutte le variabili contemporaneamente nell'ordine che abbiamo dato inizialmente.

Comandi e sottocomandi dell’ SPSS REG VAR= sal_iniz sal_attu anniperm educaz esperien sesso razza /DEP=sal_attu /METHOD=STEP. VAR= elenco di tutte le variabili /DEPENDENT= nome della variabile dipendente /METHOD = tipo di metodo (STEP o FORW o BACK o ENTER)

Altri sottocomandi /DESCRIPTIV (da dare dopo il sottocomandoVAR) si ha per default la media, la DS e la matrice di correlazione; se si usa DES=ALL si ha tutta la statistica descrittiva; con DES=DEF,N,SIG si ha la statistica di default, n (numero casi) e la signif. dei coeff. di correlazione). /SELECT serve per selezionare un set di casi prima di calcolare l'equazione di regressione e deve precedere ogni altro sottocomando.

/STAT va dato prima del sottocomando /DEP: esso mostra per default l'R multiplo, i coeff. B, beta e il t per il B. Con /STAT=ZPP mostra anche il coeff. di correlazione parziale e con /STAT=HISTORY mostra un report sommario per ogni step. Con /STAT=CHANGE mostra le modifiche nell'R2 fra i vari step.

/MISSING (che puo' precedere o immediatamente seguire il sottocomando VAR) permette di gestire i valori mancanti. Di default (/MISSING=LIST/) sono eliminati tutti quei casi in cui almeno una delle variabili e' mancante. Altrimenti si puo' scegliere /MISSING=PAIR/ con cui si escludono tutti i casi con valori "missing" accoppiati; o /MISSING=MEAN/ con cui tutti i valori "missing" sono sostituiti dalla media della variabile e utilizzati; o /MISSING=INCLUDE/ con cui sono inclusi nell'analisi i casi con valori "user-missing" (sono esclusi pero' i valori "system- missing").

Con il sottocomando /SCATTERPLOT (da mettere alla fine dopo il sottocomando /METHOD) si puo' disegnare (anche se in maniera grossolana) uno scatterplot fra le variabili nell'equazione (la prima e' messa sull'asse verticale, la seconda sull'asse orizzontale). Es.: REGR VAR=c1 c2 c3 c4 c5/MISSING=INCLUDE /DES=ALL/SELECT sesso=1 /STAT=ALL/DEP=c1/MET=STEP /SCAT=(c1,c2)(c4,c5) SIZE (SMALL o LARGE). N.B.: Un altro metodo per disegnare (sempre in modo grossolano) la regressione e' mediante il comando PLOT: PLOT SYMBOL='*'/FORMAT=REGRESSION /PLOT eta WITH pressione.