La logica della regressione Nello studio delle relazioni tra due (o più) variabili, oltre a misurare l’entità (o forza) del legame esistente, spesso si è anche interessati ad accertare come varia una di esse al variare dell’altra (o delle altre), cioè ad individuare un’opportuna funzione che metta in relazione due o più variabili (di cui una dipendente e le altre indipendenti o esplicative). Nel caso di una sola variabile indipendente si parla di regressione semplice; In presenza di due o più variabili indipendenti siamo nel campo della regressione multipla In ambedue i casi possiamo ipotizzare modelli di regressione lineare o non lineare Obiettivi Descrizione: rappresentare tramite funzione l’andamento in media dei valori di una variabile al variare dell’altra Interpretazione: mettere in evidenza relazioni tra variabili per consentire una spiegazione alla luce di precise teorizzazioni Previsione: valutare il valore che assumerà la variabile dipendente in corrispondenza d’in valore noto della variabile indipendente (esplicativa) Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Operazioni preliminari Questo è uno dei pochi casi in cui è necessario effettuare preliminarmente una delle operazioni che, per le analisi viste in precedenza, venivano condotte nella fase conclusiva: il grafico. Poiché la regressione lineare semplice è applicabile ESCLUSIVAMENTE a variabili cardinali, la rappresentazione grafica più adatta è la rappresentazione cartesiana. Facendo corrispondere ad una delle due variabili (quella indipendente) l’asse delle X, all’altra l’asse delle Y, collochiamo sul piano i casi studiati. Ogni individuo sarà rappresentato da un punto le cui coordinate saranno i valori ottenuti sulla variabile indipendente (X) e dipendente (Y). La distinzione tra variabile indipendente e dipendente è particolarmente importante in quanto i valori del coefficiente di regressione differiscono a seconda della scelta. La rappresentazione grafica produrrà una nuvola di punti detta diagramma di dispersione (scattergram o scatterplot) Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
L’importanza dello scatterplot Corbetta, 1999 Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Y= f (X) Regressione lineare semplice Il tipo di legame più semplice fra due variabili è sicuramente quello lineare. Vogliamo cioè studiare il comportamento di una variabile (Y) come funzione di un’altra variabile (X). Y= f (X) Data una nuvola di punti in cui si ravvisa un andamento lineiforme, ipotizziamo di tracciare una retta, che chiamiamo retta interpolante, la quale meglio di tutte le altre si avvicina ai tutti i punti e che, dunque, sintetizzi la nuvola Y Sarebbe irrealistico pensare infatti che vi sia relazione perfetta fra due variabili, ovvero che per tutti i punti siano collegabili fra di loro con una retta. X Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Regressione lineare Più realistico invece è pensare ad una situazione in cui i punti (casi) si dispongano secondo un andamento lineiforme e, per tale motivo, sia possibile immaginare una retta che sintetizzi, meglio di altre rette possibili, l’informazione data dai punti. Y X Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Y = a + bX Equazione della retta Cosa sono questi parametri? Data una nuvola di punti, il problema è dunque quello di determinare i parametri a e b della retta che, meglio di tutte le altre è in grado di sintetizzarla Cosa sono questi parametri? a è l’intercetta, ovvero in punto in cui la retta intercetta l’asse delle y, o se preferite l’ordinata della retta quando l’ascissa è 0 b è il coefficiente angolare, ovvero la pendenza della retta Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Coefficienti La matematica ci permette di determinare a e b a partire dai valori delle due variabili X e Y sui casi. Come? Utilizzando il “metodo dei minimi quadrati” Tale metodo riduce al minimo la somma dei quadrati degli scarti fra i valori teorici di Y (sulla retta) ed i valori di Y osservati (nei dati) Coefficiente di regressione Intercetta Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Coefficiente di regressione b Soffermiamoci sulla formula del coefficiente di regressione: Cosa abbiamo al numeratore? Cosa abbiamo al denominatore? Dividendo il numeratore per la numerosità campionaria (N) abbiamo la covarianza. Dividendo il numeratore per la numerosità campionaria (N) abbiamo la varianza. covarianza fra X e Y varianza di X b = Dunque Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Y= a + bX + e Regressione lineare Come abbiamo detto in precedenza, la retta di regressione non da una rappresentazione perfetta della nuvola di punti, ma solo una sua sintesi, poiché i punti non sono mai allineati perfettamente sulla retta stessa. Pertanto bisogna introdurre un ulteriore coefficiente (e) detto errore o residuo. Y= a + bX + e L’equazione diventa la seguente: Il valore di e è dato dallo scarto fra il valore predetto dall’equazione di regressione e il valore effettivamente osservato nei dati. A differenza dei coefficienti a e b che, come abbiamo visto sono valori reali, il coefficiente e è una componente stocastica dell’equazione e dunque non osservabile. ...e è dunque il residuo non spiegato, relativo a ciascuna osservazione Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Regressione lineare Il residuo è definito come la differenza tra i valori osservati (yi)ed i corrispondenti valori teorici ( ), che si collocano sulla retta di regressione Y Y= a + bX + e Q5 P3 Q4 P1 Q3 e5 P4 Q2 Q1 β1 P2 P5 X1 X2 X3 X4 X5 X Ciascun residuo è dunque il valore numerico, riferito a ciascuna unità, rispetto al corrispondente valore osservato, che non è spiegato dalla relazione lineare con la variabile indipendente. Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Scomposizione della devianza Goodness of fit Il metodo dei minimi quadrati garantisce l’individuazione che sintetizza in maniera ottimale la nuvola dei punti. La fase conclusiva della validità o della bontà dell’adattamento della regressione è volta a controllare che la retta di regressione sia realmente in grado di spiegare l’andamento delle osservazioni. Scomposizione della devianza Devianza totale dei valori della variabile dipendente; misura la variazione dei valori di y intorno alla loro media Devianza dei valori stimati (o dev di regressione); variazione spiegata attribuibile alla relazione fra X e Y Devianza dei residui (o residua); variazione attribuibile a fattori estranei alla relazione fra X e Y Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
SST = SSR + SSE Scomposizione della devianza Dunque la devianza totale è composta da: SST = SSR + SSE Somma totale dei quadrati = Somma dei quadrati della regressione + Somma dei quadrati degli errori La devianza è una misura di variabilità: pertanto la devianza delle osservazioni è il risultato del contributo di due componenti. La variabilità dei valori stimati; espressa dalla devianza di regressione. Tale parte è la parte “spiegata” dalla relazione lineare La variabilità dei punti attorno alla retta; espressa dalla devianza residua. Tale valore ((DEV) E) anche se una sua prossimità a 0 indica che la rappresentazione (sintesi) fornita dalla retta di regressione è soddisfacente, non è direttamente utilizzabile per misurare la bontà dell’adattamento perché il suo valore numerico è influenzato dall’ordine di grandezza delle variabili utilizzate Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Indice di determinazione lineare Per tale motivo si utilizza l’indice di determinazione lineare Rsquared. Tale indice viene costruito facendo il rapporto tra devianza di regressione (SSE) e devianza totale (SST) Poiché è un rapporto al tutto, tale indice ha un campo di variazione compreso tra 0 e 1 Dove 0 indica un pessimo adattamento della retta ai dati E 1 indica un adattamento perfetto. Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Regressione e SPSS … abbiamo già detto che occorre partire dal grafico (scatterplot) al fine di controllare (anche se approssimativamente, ad occhio) che fra le variabili vi sia un associazione di tipo lineare (e non curviforme). Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Regressione e SPSS Asse delle ordinate, per la variabile dipendente Asse delle ascisse, per la variabile indipendente Labeling dei casi Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Solo regressione multipla È possibile impostare un filtro Peso per le variabili del modello Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Modello di analisi Scatterplot Numero di imprese locali Bilancio della regione Bilancio della regione = a + b Numero di imprese locali Scatterplot
Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Output di SPSS È il coefficiente di correlazione di Bravis-Pearson Serve solo in caso di regressione multipla Ricordiamo varia tra 0 e 1 dove 1 è un accostamento perfetto della retta ai dati Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
È il nostro b (coefficiente angolare) È la nostra a (intercetta) Per tanto l’equazione della retta è: Y = -591,367 + 0,009 X Bilancio della regione = - 591,367 + 0,009 Numero di imprese locali Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Devianza spiegata e non spiegata: Regressione=devianza spiegata dalla retta Residuo= devianza non spiegata dalla retta Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Residui Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione
Teoria e pratica della valutazione Laboratorio – Lezione XIII La regressione