La regressione multipla lineare
Con la retta di regressione si stima in quale misura una variabile tende, mediamente, a crescere (o a diminuire) al modificarsi di un'altra variabile. Invece con la correlazione si quantifica la forza di tale associazione mediante il cd coefficiente di correlazione "r" di Pearson. Trattandosi di un test parametrico e' necessario che siano soddisfatti alcuni assunti come la distribuzione normale delle variabili (soprattutto della variabile dipendente), l'uguale varianza e infine una reale indipendenza fra le variabili indipendenti.
Facciamo un esempio: valutiamo se il salario iniziale (all’assunzione nella ditta) e quello attuale degli impiegati di una ditta e' correlato a varie caratteristiche degli impiegati come il tempo di permanenza nella ditta, l'educazione, l'esperienza di precedente lavoro, il sesso, la razza. Prima di esaminare un modello statistico che metta in relazione il salario iniziale ad altre variabili, consideriamo la correlazione fra "ATTUALE" (y o var. dip.) e "INIZIALE" (x o var. indip.) e disegniamola con il comando PLOT
In tal modo e' possibile vedere il tipo di funzione matematica che meglio spiega il modello: lineare, parabolico, polinomiale, trigonometrico, etc (naturalmente si puo' cercare di trasformare in lineare una curva non tale). L'equazione della linea retta e': y=B0 + B1x1 dove B1 e' detto slope (o pendenza o coeff. angolare della retta) e B0 intercetta (essa rappresenta nell'esempio il punto stimato del salario attuale se il soggetto avesse un salario iniziale di 0).
Comandi SPSS Il comando SPSS nella forma piu' semplice (con 2 variabili) e': REG VAR=varx vary/DEPENDENT=vary /METHOD=ENTER. Nel caso di piu’ variabili si aggiungono queste dopo il comando VAR: REG VAR= sal_iniz sal_attu anniperm educaz esperien sesso razza /DEP=sal_attu /METHOD=STEP.
R multiplo: nel caso di 2 variabili corrisponde al L'output dell'SPSS mostra: R multiplo: nel caso di 2 variabili corrisponde al coefficiente r di Pearson; R quadro (R2) o coeff. di determinazione (cioè il quadrato di R multiplo): rappresenta una misura della bontà del modello lineare; se e' 0 non vuol dire che fra le variabili non c'e' associazione, ma solo che non vi e' correlazione "lineare"; inoltre esso rappresenta la percentuale di varia- zione nella variabile dipendente "spiegata" dal modello (ad es se R multiplo e' 0.88 e quindi R2 e' 0.774 vuol dire che il 77.4 % della variazione della var. dipendente e' "spiegata" dal nostro modello di regressione); in altre parole esso da' una valida indicazione di quanto una retta sia adatta a descrivere la relazione tra 2 variabili;
Adjusted R2 : e' l'R2 corretto a seconda del numero delle var. indipendenti; L'analisi della varianza: se significativa indica che esiste una correlazione lineare fra la variabile dipendente e le variabili indipendenti; I coeff. B con accanto i relativi SE: in alto e' lo slope e nella riga in basso l'intercetta;
Il coefficiente beta, cioe' il coeff. di regressione standardizzato (beta=B * DSx/DSy): esso e' un coefficiente indipendente dalle unita' di x e y (e', cioe', adimensionale) in quanto le variabili indipendenti sono espresse in forma standar- dizzata (Z-score) e corrisponde all' "r" di Pearson quando esiste una sola variabile indipendente; se le variabili indipendenti sono diverse e' quindi possibile (ma entro certi limiti!) comparare fra di loro i coeff. delle varie var. indipendenti alla ricerca di quelli piu' importanti;
Nelle ultime due colonne viene riportato il "t" e la sua significativita' sia per lo slope (riga in alto) che per l'intercetta (riga in basso); la sua significativita' indica che lo slope (o l'intercetta) sono diversi da 0 e quindi che esiste una correlazione lineare fra X e Y.
Anche per i valori dello slope e dell'intercetta esiste tutta una popolazione di possibili valori corrispon- denti a tutti i possibili campioni di numerosita' data: tale distribuzione e' gaussiana e ha quindi una DS e uno SE. Quindi possono essere usati sia per creare ipotesi di confronto (t di Student, analisi della varianza) sia per calcolare intervalli di confidenza. Nel caso si vogliano questi si deve aggiungere l'opzione /STAT=CI/; se si vuole un confronto fra 2 pendenze si usa la formula del t di Student: (SLOPE1-SLOPE2)/ ((DS2x/nx) + (DS2y/ny))
MODELLI DI REGRESSIONE MULTIPLA CON PIU' DI 2 VARIABILI INDIPENDENTI. Se l'R2 fra due variabili e' 0.774 cio' indica che il 77.4 % della variabilita' osservata puo' essere spiegata dalla variabile "X"; ma se le variabili indipendenti sono piu' di due quanto influiscono singolarmente? Con la regressione multipla è possibile valutare ciò.
Un primo approccio e' calcolare la matrice di correlazione fra tutte le variabili con il sottocomando /STAT=CORR/ da dare subito dopo il sottocomando /VAR. Variabili come sesso e razza (dette variabili "indicatrici") e' bene codificarle come 0 e 1. La matrice di correlazione puo' dare l'importanza relativa delle variabili: piu' e' alto il valore assoluto del coefficiente di correlazione, piu' e' alta l'associa- zione lineare.
Quando possibile, vanno evitate due variabili fortemente intercorrelate (forte "collinearità") in quanto tali variabili contengono informazioni simili ed e' quindi difficile distinguere gli effetti dovuti ad ognuna di esse singolarmente. Con il sottocomando /STAT=TOLL/ abbiamo la tolleranza, cioe' una misura della collinearita'. Se la tolleranza e' piccola (ad es < 0.1) allora la variabile risulta una combinazione lineare delle altre variabili indipendenti. Anche il sottocomando /STAT=COLL/ dà una diagnostica della collinearità.
Anche nel caso di una regressione con piu' variabili sia un R2 elevato che un'analisi della varianza significativa stanno ad indicare che esiste una forte relazione lineare fra la var. dipendente e il set di var. indipendenti. Anche il T e la sua significativita' riferiti ai coeff. B (detti coeff. parziali di regressione) indicano la probabilita' che ogni singola variabile intervenga nella spiegazione lineare della variabile dipendente.
In una delle tabelle di output l'SPSS sotto il nome di B evidenzia il coeff. parziale di regressione per ognuna delle variabili: il nome deriva dal fatto che il coeff. per una determinata variabile e' "aggiustato" per le altre variabili indipendenti. Esso può essere interpretato come la correlazione fra la variabile indipendente "x" e la var. dipendente quando gli effetti lineari delle altre variabili indipendenti sono stati rimossi. E' però scorretto usare i valori di B come indicatori di importanza, perche' essi dipendono dall'unita' di misura delle variabili. Il confronto può invece essere fatto in maniera piu' corretta se tutte le variabili indipendenti hanno la stessa unità di misura, cioè se si usano i coeff. beta.
Il modo, pero', piu' corretto per verificare quanto sia importante una variabile introdotta nel modello e' quello di calcolare il c.d. Rchange, cioe' l'incremento di R2 che si ottiene introducendo la nuova variabile, e il c.d. coefficiente di correlazione parziale che corrisponde al coefficiente di correlazione tra la var. dipendente e la var. indipendente quando sono eliminati tutti gli effetti delle altre variabili. Il sottocomando /STAT= permette di calcolare ciò: /STAT=R CHANGE ZPP F/ oppure /STAT=ALL/ . Piu' in particolare: R calcola i valori totali di R2; CHANGE calcola i valori di Rchange e Fchange; ZPP calcola i coeff. di correlazione "part" e "partial"; F calcola i valori F per i coefficienti B al posto del T.
Nel caso delle var. "indicatrici" i coefficienti possono essere interpretati come percentuali. Ad es. se il sesso (F=1;M=0) interviene con un B=-0.10 cio' vuol dire che il "SAL_INIZ" delle femmine e' circa il 10% meno che quello dei maschi dopo l'aggiustamento statistico per le altre variabili indipendenti.
COSTRUIRE UN MODELLO Inserire molte variabili non e' in genere una buona strategia, anche perche' i risultati sono difficili da interpretare; del resto e' bene non escludere a priori variabili potenzialmente rilevanti. Lo scopo e' quello di costruire un modello conciso, ma che renda possibili buone predizioni.
Si possono costruire una varieta' di modelli di regressione con lo stesso set di variabili. Per es. con tre variabili indipendenti si possono costruire 7 differenti equazioni (1023 modelli con 10 variabili): 3 con una var. alla volta, 3 con 2 var. alla volta e 1 con tutte e tre le var. Per ridurre le variabili solo a quelle che possono essere delle buone predittrici della var. dipendente si usano tre procedure: FORWARD selection, BACKWARD elimination STEPWISE (nessuna e' "la migliore" in senso assoluto).
FORWARD SELECTION Nella FORWARD selection la prima variabile che entra nell'equazione e' quella che ha la correlazione piu' alta (pos. o neg.) con la var. dipendente.
Se la prima variabile selezionata per l'ingresso soddisfa il criterio per l'inclusione la FORWARD selection continua, altrimenti la procedura termina senza variabili nell'equazione. Quando una variabile e' entrata la statistica per le variabili non nell'equazione sono usate per selezionare le prossime. Viene calcolata la correlazione parziale fra le variabili dipendenti e ognuna delle var. indipendenti non nell'equazione: la candidata prescelta e' la variabile con la piu' alta correlazione parziale.
Nella BACKWARD elimination si parte con tutte le variabili nell'equazione (mentre nella FORWARD selection si parte con nessuna var. nell'equazione) e sequenzialmente si rimuovono. Nel 1° passo si esamina per prima la variabile con il piu' piccolo coeff. di correlazione parziale e quindi viene eliminata. L'equazione e' quindi ricalcolata senza questa variabile e così via.
STEPWISE SELECTION La STEPWISE selection e' una combinazione di procedure BACKWARD e FORWARD e rappresenta la piu' usata. METODO ENTER Nel metodo ENTER entrano tutte le variabili contemporaneamente nell'ordine che abbiamo dato inizialmente.
Comandi e sottocomandi dell’ SPSS REG VAR= sal_iniz sal_attu anniperm educaz esperien sesso razza /DEP=sal_attu /METHOD=STEP. VAR= elenco di tutte le variabili /DEPENDENT= nome della variabile dipendente /METHOD = tipo di metodo (STEP o FORW o BACK o ENTER)
Altri sottocomandi /DESCRIPTIV (da dare dopo il sottocomandoVAR) si ha per default la media, la DS e la matrice di correlazione; se si usa DES=ALL si ha tutta la statistica descrittiva; con DES=DEF,N,SIG si ha la statistica di default, n (numero casi) e la signif. dei coeff. di correlazione). /SELECT serve per selezionare un set di casi prima di calcolare l'equazione di regressione e deve precedere ogni altro sottocomando.
/STAT va dato prima del sottocomando /DEP: esso mostra per default l'R multiplo, i coeff. B, beta e il t per il B. Con /STAT=ZPP mostra anche il coeff. di correlazione parziale e con /STAT=HISTORY mostra un report sommario per ogni step. Con /STAT=CHANGE mostra le modifiche nell'R2 fra i vari step.
/MISSING (che puo' precedere o immediatamente seguire il sottocomando VAR) permette di gestire i valori mancanti. Di default (/MISSING=LIST/) sono eliminati tutti quei casi in cui almeno una delle variabili e' mancante. Altrimenti si puo' scegliere /MISSING=PAIR/ con cui si escludono tutti i casi con valori "missing" accoppiati; o /MISSING=MEAN/ con cui tutti i valori "missing" sono sostituiti dalla media della variabile e utilizzati; o /MISSING=INCLUDE/ con cui sono inclusi nell'analisi i casi con valori "user-missing" (sono esclusi pero' i valori "system- missing").
Con il sottocomando /SCATTERPLOT (da mettere alla fine dopo il sottocomando /METHOD) si puo' disegnare (anche se in maniera grossolana) uno scatterplot fra le variabili nell'equazione (la prima e' messa sull'asse verticale, la seconda sull'asse orizzontale). Es.: REGR VAR=c1 c2 c3 c4 c5/MISSING=INCLUDE /DES=ALL/SELECT sesso=1 /STAT=ALL/DEP=c1/MET=STEP /SCAT=(c1,c2)(c4,c5) SIZE (SMALL o LARGE). N.B.: Un altro metodo per disegnare (sempre in modo grossolano) la regressione e' mediante il comando PLOT: PLOT SYMBOL='*'/FORMAT=REGRESSION /PLOT eta WITH pressione.