La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Introduzione alla regressione lineare

Presentazioni simili


Presentazione sul tema: "Introduzione alla regressione lineare"— Transcript della presentazione:

1 Introduzione alla regressione lineare
Studiare la relazione tra variabili consente di determinare quanto la variazione dei punteggi di una variabile (Y) dipenda dalla variazione dei punteggi dell’altra variabile (X). Se le variabili sono continue, le variazioni osservate nei punteggi sono intuitivamente interpretabili. Attraverso la regressione semplice (o bivariata) è possibile stimare il cambiamento atteso nei punteggi di Y, al variare di X di una unità. Se ad esempio si considera X = età ed Y = reddito, si può determinare di quanti euro aumenta il reddito (p.e. 200) per ogni anno in più.

2 Esempio regressione semplice
Soggetto Birre (X) Sorrisi (Y) 1 2 3 4 5 6 7 8 9 10 11 Media 5,636 Dev. standard 3,31 2,61

3 Modello Il modello di regressione è volto a determinare quanto la variabilità dei punteggi rappresentati sull’asse Y (v.d.) dipenda dalla variabilità dei punteggi rappresentati sull’asse X (v.i.). Si intende testare la seguente relazione diretta: In cui si assume che Y dipenda da X, e non viceversa. Nell’esempio, per ragioni di logica, si ipotizza che il numero di sorrisi dipenda dal numero di birre bevute. NB: dal punto di vista statistico, se si inverte X con Y si ottengono i medesimi risultati: le ipotesi dunque si devono basare sulla logica e sulla letteratura. X Y

4 Grafico di dispersione (scatterplot)

5 Correlazione e regressione
Nella correlazione, lo scatterplot si interpreta attraverso l’andamento della nuvola di punti: crescente correlazione positiva, decrescente negativa, punteggi sparsi assenza di correlazione. Nella regressione, l’obiettivo è quello di determinare (in media) il punteggio di Y per un determinato punteggio di X. Quanti sorrisi mi aspetto che faccia (ŷ) una persona che ha bevuto 2 birre (cioè per X=2)? Per rispondere a questa domanda è necessario trovare la retta di regressione, ossia la retta migliore che interpola la nuvola dei punti.

6 La retta di regressione
La retta di regressione mette quindi in relazione i valori predetti della variabile dipendente (ŷi) con i valori osservati della variabile indipendente (xi). L’equazione della retta di regressione è quindi: Dove: α = il coefficiente costante o intercetta b = il coefficiente angolare o coefficiente di regressione tra y e x

7 La retta di regressione

8 α : Coefficiente costante o intercetta
α indica il valore atteso della variabile dipendente quando la variabile indipendente è uguale a zero. Nell’esempio indica il numero di sorrisi (in media) per i soggetti che hanno bevuto 0 birre (cioè xi =0). A quanto è uguale ŷi per xi=0? Dove si trova α sulla retta di regressione?

9 α sulla retta di regressione
Quanti sorrisi farà una persona che ha bevuto 0 birre? Ne farà α, ossia poco più di 2.

10 Proprietà di α Il Coefficiente costante o intercetta gode delle seguenti proprietà: Esprime un punteggio puntuale (il valore di Y per X=0) e non coefficiente di relazione; Esprime un punteggio nell’unità di misura della v.d.; Indica un valore condizionale, ossia che dipende dal valore di 0 della v.i. Gode della proprietà della varianza di scala: se si modifica la scala di misura della v.i. cambierà anche il valore di α.

11 Interpretazione di α L’intercetta può essere interpretata soltanto quando la variabile indipendente ha uno 0 interpretabile: birre = 0 significa che il soggetto ha bevuto 0 birre. Nella maggior parte delle ricerche psicologiche, le misure ottenute con i questionari non hanno uno 0 interpretabile, poiché la codifica delle risposte non è standard. Ad esempio autostima = 0 in un questionario a 10 item con risposte da 1 a 5 non significa nulla. In questi casi α non viene interpretato.

12 b: Coefficiente angolare o di regressione
byx indica la relazione tra la v.d. e la v.i., ossia quantifica la relazione della X sulla Y. Quando byx è significativamente diverso da 0, significa quindi che X ha un effetto su Y. Semplicemente, il coefficiente di regressione indica il cambiamento atteso (ŷi) nella v.d. quando X varia di una unità, ossia quanto varia in media Y quando X aumenta di 1. Per stimare b è possibile effettuare lo scarto (Δ) tra due X successive.

13 b sulla retta di regressione
Δ1= byx Ad esempio: sappiamo che per xi=0, Y= α. Per xi=1, Y sarà uguale a: α+byx(1), ossia α+byx. A quanto sarà uguale Δy tra xi=1 e xi=0? Δy = α + byx – α, cioè = byx.

14 Proprietà di b Il Coefficiente di regressione gode delle seguenti proprietà: È espresso nell’unità di misura della v.d.; Indica un cambiamento atteso (di quanto varierà Y, quando X aumenta di 1); Indica un cambiamento non condizionato, ossia indipendente dai valori specifici di X. Gode della proprietà dell’invarianza di scala: Δy tra xi=1 e xi=0 è uguale a Δy tra xi=9 e xi=10.

15 Interpretazione di b Il coefficiente di regressione deve essere sempre interpretato. Se non risulta significativo, significa che l’effetto di X su Y è trascurabile, ossia molto piccolo. Se risulta significativo, bisogna controllare innanzitutto il segno: se positivo, X fa aumentare Y (bere birre fa aumentare in numero di sorrisi), se negativo X fa diminuire Y (la job insecurity fa diminuire la job satisfaction). Più il coefficiente è grande (in valore assoluto) e più è grande l’effetto di X su Y.

16 Il coefficiente Beta standardizzato
L’interpretazione del coefficiente b può risultare complessa se si utilizzano i punteggi dei questionari. Ad esempio cosa indica un b = -3 nella relazione tra autostima (X) e ansia (Y)? Il fatto che l’ansia diminuisca di 3 per ogni aumento di autostima di 1 unità non indica se l’effetto è grande o piccolo, poiché le variabili sono misurate su scale di misura differenti. Dunque è sempre consigliabile standardizzare le variabili prima di procedere con l’analisi di regressione.

17 Il coefficiente Beta standardizzato
La standardizzazione trasforma le variabili sulla stessa unità di misura, con media=0 e DS=1. Il coefficiente Beta standardizzato (βyx) indica, quindi, di quante deviazioni standard varia Y quando X cresce di una deviazione standard. Tale procedura rende più semplice l’interpretazione soprattutto nei casi di più predittori (regressione lineare multipla). Nel caso di regressione semplice, βyx coincide con il coefficiente di correlazione.

18 Regressione, correlazione e causalità
Né la correlazione, né la regressione possono indicare se tra X e Y esiste una relazione causale oppure solo una covariazione. Poiché βyx coincide con ryx, significa che se si inverte la v.i. con v.d. dal punto di vista numerico i risultati non cambiano, infatti: Se ryx = rxy allora anche βyx = βxy La regressione serve quindi a quantificare la relazione tra X e Y, senza poter stabilire una relazione causale, che esiste soltanto da un punto di vista logico e teorico.

19 Calcolo dei coefficienti: α
La retta che meglio interpola la nuvola dei punti, non può non passare per il suo centro, ossia per il punto le cui coordinate sono la media di X e la media di Y. Possiamo riscrivere l’equazione della retta in funzione di Ȳ: Quindi a quanto sarà uguale α? Quindi è possibile calcolare α solo dopo aver calcolato b.

20 Calcolo dei coefficienti: byx
Poiché il coefficiente di regressione intende stabilire la relazione tra due variabili, per calcolarlo si utilizza la covarianza, che indica quanta corrispondenza c’è, in media, tra gli scarti dalla media in X e gli scarti dalla media in Y. Generalmente, le due variabili sono misurate su scale di misura diverse, dunque la covarianza è difficile da interpretare. Poiché l’obiettivo della regressione è comprendere i cambiamenti in Y quando X varia di una unità, b è calcolato dividendo la covarianza per la varianza di X.

21 Calcolo dei coefficienti: byx
Formula per il calcolo di b: Semplificando per N-1, b sarà uguale al rapporto tra la codevianza tra Y e X e la devianza di X, cioè: SQ indica la devianza (o codevianza), cioè la somma degli scarti quadratici (o la somma del prodotto degli scarti).

22 Calcolo dei coefficienti: byx
Calcolare il b tra birre (X) e numero di sorrisi (Y). Birre (X) Sorrisi (Y) 1 3 2 4 5 6 8 7 9 10 Media=5 Media=5,64 X-Mx Y-My (X-Mx) (Y-My) -5,00 -4,64 23,18 -4,00 -2,64 10,54 -3,00 -1,64 4,91 -2,00 5,27 -1,00 -0,64 0,64 0,00 0,36 1,00 2,36 2,00 4,73 3,00 3,36 10,09 4,00 9,46 5,00 1,36 6,82 ∑=78 (X-Mx)2 -5,00 -4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00 5,00 ∑=110

23 byx e βyx Quindi il coefficiente di regressione tra birre (X) e numero di sorrisi (Y) è: Interpretazione di b: Per ogni birra in più, si associano in media 0,709 sorrisi in più. Per calcolare il coefficiente standardizzato (βyx) è necessario dividere entrambi i termini per il prodotto delle relative deviazioni standard, ossia SQyx va diviso per sysx, mentre SQx va diviso per sxsx.

24 βyx Quindi il coefficiente di regressione standardizzato (βyx) è uguale a: βyx è uguale al coefficiente di correlazione r, infatti:

25 βyx Calcolare βyx tra birre (X) e numero di sorrisi (Y):
Interpretazione di βyx: Per ogni birra in più, si associano in media 0,709 sorrisi in più, corrispondenti ad una correlazione (corrispondente al beta standardizzato) di 0,900 (ossia molto alta e positiva).

26 Calcolo del coefficiente α
Calcolato b, è possibile calcolare α, sostituendo i valori della seguente formula: Interpretazione di α: Coloro che non hanno bevuto alcuna birra (cioè, per X=0) fanno, in media, 2,091 sorrisi.

27 Bontà del modello di regressione
Data una nuvola di punti, è sempre possibile stimare la miglior retta che li interpola; ciò però non garantisce che il modello teorico ben rappresenta i dati. Per aver una buona rappresentazione, l’errore associato al modello (sempre presente) deve essere piccolo.

28 Bontà del modello di regressione
L’errore associato al modello di regressione indica la distanza dei punti dalla retta, ossia la somma degli scarti quadratici tra i punteggi osservati (y) e quelli predetti (Ŷ).

29 Calcolare SQe Bisogna innanzitutto calcolare la proiezione di ciascun punto sulla retta attraverso la seguente: Per X=0, ŷ=? ŷ=2,091+0,709(0)=2,091 Per X=1, ŷ=? ŷ=2,091+0,709(1)=2,80 Birre (X) Sorrisi (Y) Ŷ 1 3 2 4 5 6 8 7 9 10

30 Calcolare SQe L’errore associato alla regressione è uguale a 13,236
Birre (X) Sorrisi (Y) Ŷ 1 2,091 3 2,800 2 4 3,509 4,218 5 4,927 6 5,636 8 6,345 7 7,054 9 7,763 8,472 10 9,181 (Y-Ŷ) (Y-Ŷ)2 -1,091 1,190 0,2 0,040 0,491 0,241 -1,218 1,484 0,073 0,005 0,364 0,132 1,655 2,739 0,946 0,895 1,237 1,530 -0,472 0,223 -2,181 4,757 ∑=13,236

31 Errore associato a non usare la regressione
L’errore associato alla regressione non è intuitivamente chiaro e dipende anche dal numero di punteggi: più sono i punteggi, più questo errore è grande. Poiché questo errore non può essere interpretato da solo, esso va confrontato con l’errore a non usare la regressione, ma utilizzare la media come modello per predire le y. L’errore associato alla media non è altro che la devianza di y, ossia:

32 Calcolo dell’errore associato alla media
Y-My -4,64 -2,64 -1,64 -0,64 0,36 2,36 3,36 1,36 (Y-My)2 21,530 6,970 2,690 0,410 0,130 5,570 11,290 1,850 ∑68,546

33 R2: proporzione di riduzione dell’errore
La differenza tra l’errore associato a non usare la regressione (SQy) e l’errore associato al modello di regressione (SQe) indica quanto il modello di regressione migliora il modello precedente. Tale differenza può essere divisa per SQy, ottenendo la proporzione di riduzione dell’errore, ossia l’R2. In questo caso R2 sarà uguale a:

34 R2: proporzione di varianza spiegata o condivisa
La regressione presuppone che a cambiamenti nella variabile X sono associati cambiamenti nella variabile Y, ossia le due variabili condividono una certa percentuale di variabilità dei punteggi. La varianza condivisa (o spiegata) è l’R2. Infatti: SQx SQy SQi-Sqe SQe: errore modello di regressione R2: varianza condivisa 1-R2: coefficiente di alienazione

35 Metodo dei minimi quadrati
La miglior retta che interpola una nuvola di punti è quella che minimizza lo scarto quadratico tra i punteggi osservati (y) e quelli predetti (ŷ). Ciò significa che tra le possibili rette si sceglierà quella associata all’errore più piccolo. Il metodo che si utilizza per stimare le miglior retta si chiama quindi Metodo dei minimi quadrati, in quanto minimizza SQe.

36 Regressione e inferenza statistica
Come tutti i parametri statistici, anche i coefficienti di regressione possono essere soggetti a fluttuazioni campionarie, dunque possono variare da campione a campione. Per comprendere se b sia diverso da 0, ossia se effettivamente X ha un effetto su Y è necessario utilizzare i test inferenziali. Il test inferenziale associato al coefficiente di regressione è utilizza la distribuzione t di student. Il valore di tcal è uguale al rapporto tra il coefficiente di regressione e il suo errore standard.

37 Regressione e inferenza statistica
Ipotesi: H0: β=0 L’effetto di X su Y non è significativo H1: β≠0 L’effetto di X su Y è significativo Dunque l’obiettivo del ricercatore è rifiutare H0, attraverso il confronto tra p associato a tcal e α (=0,05): Se p > α accetto H0 Se p < α rifiuto H0

38 Regressione e inferenza statistica
L’errore standard è direttamente proporzionale all’errore della regressione ed in particolare è uguale alla radice quadrata della proporzione di varianza di errore della regressione diviso i relativi gradi di libertà, ossia: Poiché il valore di tcal è uguale al rapporto tra il coefficiente di regressione e l’errore standard, si ha:

39 Inferenza statistica e bontà di adattamento
Anche il coefficiente di bontà di adattamento (R2) deve essere sottoposto a inferenza statistica. Poiché R2 è un indice quadratico bisogna utilizzare un test adatto a testare quantità quadratiche, ossia F di Fisher. Ipotesi: H0: R2 = 0 la percentuale di varianza spiegata non è significativa H1: R2 ≠ 0 la percentuale di varianza spiegata è significativa La logica è sempre la stessa: Se p > α accetto H0 Se p < α rifiuto H0


Scaricare ppt "Introduzione alla regressione lineare"

Presentazioni simili


Annunci Google