Introduzione alla regressione lineare

Slides:



Advertisements
Presentazioni simili
Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale Marco Acutis a.a CdS.
Advertisements

I circuiti elettrici.
IL GOLD STANDARD: INTRODUZIONE
XXXII CONVEGNO NAZIONALE Società Italiana di Chimica Agraria
Il problema dello zaino
Campi di gravità e topografia: analisi con QGIS
Regole associative Gianluca Amato
Ciclo di Seminari e Corso
Valutazione dei risultati della classificazione
Generalità Laboratorio Arduino.
Natura e origini della attuale crisi europea
ECONOMIA DELLE ISTITUZIONI FINANZIARIE
Stato di COMPASS Franco Bradamante CSN1 Roma, 16 luglio 2012.
La struttura dei materiali
ESSERE HOMELESS: PERCORSI DI VITA E FATTORI DETERMINANTI
Introduzione a VPN Ing. Gianpiero Ciacci.
Le verifiche empiriche del teorema di Heckscher-Ohlin: il paradosso di Leontief Wassily Leontief realizzò la prima verifica empirica del teorema di HO.
…. modello di Solow?.
Politica economica: che cosa è?
 π BUZZO GIACOMO D’AGOSTINO ALBERTO DE ANGELIS FEDERICA
“BLAISE PASCAL”- Voghera-
La vitamina C è una molecola contenente C,H e O
REDDITO DI CITTADINANZA E OPPORTUNITA’ ECONOMICA: UN CONFRONTO TRA ITALIA E RESTO D’EUROPA Pasquale Tridico Dipartimento di Economia, Università Roma Tre.
Classificazione e Predizione
L’economia monetaria Corso di Economia delle Istituzioni Finanziarie
L’infiltrazione LM-75: 2016/2017
UN NUOVO MODO DI GUARDARE IL MONDO
LA PREVENZIONE INCENDI NELLE STRUTTURE RELIGIOSE APERTE AL PUBBLICO
LE NOVITÀ DEL BILANCIO 2016 …………………………………………………………………………………………………………..
Le unità territoriali per le analisi socio-economiche
Pompe di calore a integrazione geotermica
ISTITUZIONI (regole scritte e nn scritte che governano l’interazione tra individui) → d.p. e contratti → norme sociali con appropriati Δ delle regole.
Università di Roma Tor Vergata
Convegno europeo sui minori
ATIPICITA’ DEL FATTORE UMANO NEL PILOTAGGIO DEI DRONI
CALENDARIO LEZIONI AGGIORNATO
RAEE è l’acronimo di Rifiuti da Apparecchiature Elettriche ed Elettroniche; ogni elettrodomestico ha un ciclo di vita terminato il quale, sia per malfunzionamento.
Appunti per ostetriche e non solo
Ricerca e innovazione:
Pubblica Amministrazione: semplificazione e costi della politica
Il processo di analisi dei fabbisogni
Comunicazioni Assemblea nazionale TTA 1-2 dicembre 2016
Proactive Care e Proactive Care Advanced
Maria Antonietta Volonté Dipartimento di Neurologia
IL CONFLITTO NELLA CHIESA PRIMITIVA
Piano di formazione Docenti neoassunti a.s. 2016/2017
È possibile rendere comprensibile oggi questo termine filosofico, al di fuori della esigua cerchia degli specialisti? Io una volta ci ho provato in una.
ACCORDO AGROAMBIENTALE D’AREA OPPORTUNITA’ PER LA VALDASO
Il secondo principio.
PROGETTO RELAZIONI PREPOTENTI
Vitamine Sono sostanze organiche a basso peso molecolare strutturalmente assai varie indispensabili per lo svolgimento delle funzioni vitali, di origine.
La misurazione e la valutazione della performance
1.2 Nuovi prodotti alimentari
ASSOCIAZIONE ITALIANA GIURISTI DI IMPRESA
L’evoluzione del Diritto delle Assicurazioni Continuità o rottura con il passato? Avv. Giuseppe Ranieri Studio Legale Tributario Ranieri Comitato Esecutivo.
ADOZIONE INTERNAZIONALE
Esame delle modifiche apportate al precedente ordinamento
e l’associazione in partecipazione
Profilo biografico e opere
IL TOTALITARISMO.
L’Imposta sul reddito delle società (IRES)
Asl Vco – Direzione Generale
Assunzioni, Attività, Investimenti
UROLOGIA - RIMINI VISITE UROLOGICHE AMBULATORIALI REGIME RICOVERO
Endometriosi profonda: quando la chirurgia
Nota AIFA 75 Determinazione 18 novembre 2010 (GU 29 novembre 2010, n. 279): modifiche, con riferimento alla nota AIFA 75,  alla determinazione del 4 gennaio.
PIANO DI RIORDINO PRESIDI DI FOLIGNO E SPOLETO
SINTOMI DEL BASSO APPARATO URINARIO 4 MARZO 2017
Con gli occhi di Maxwell
Transcript della presentazione:

Introduzione alla regressione lineare Studiare la relazione tra variabili consente di determinare quanto la variazione dei punteggi di una variabile (Y) dipenda dalla variazione dei punteggi dell’altra variabile (X). Se le variabili sono continue, le variazioni osservate nei punteggi sono intuitivamente interpretabili. Attraverso la regressione semplice (o bivariata) è possibile stimare il cambiamento atteso nei punteggi di Y, al variare di X di una unità. Se ad esempio si considera X = età ed Y = reddito, si può determinare di quanti euro aumenta il reddito (p.e. 200) per ogni anno in più.

Esempio regressione semplice Soggetto Birre (X) Sorrisi (Y) 1 2 3 4 5 6 7 8 9 10 11 Media 5,636 Dev. standard 3,31 2,61

Modello Il modello di regressione è volto a determinare quanto la variabilità dei punteggi rappresentati sull’asse Y (v.d.) dipenda dalla variabilità dei punteggi rappresentati sull’asse X (v.i.). Si intende testare la seguente relazione diretta: In cui si assume che Y dipenda da X, e non viceversa. Nell’esempio, per ragioni di logica, si ipotizza che il numero di sorrisi dipenda dal numero di birre bevute. NB: dal punto di vista statistico, se si inverte X con Y si ottengono i medesimi risultati: le ipotesi dunque si devono basare sulla logica e sulla letteratura. X Y

Grafico di dispersione (scatterplot)

Correlazione e regressione Nella correlazione, lo scatterplot si interpreta attraverso l’andamento della nuvola di punti: crescente correlazione positiva, decrescente negativa, punteggi sparsi assenza di correlazione. Nella regressione, l’obiettivo è quello di determinare (in media) il punteggio di Y per un determinato punteggio di X. Quanti sorrisi mi aspetto che faccia (ŷ) una persona che ha bevuto 2 birre (cioè per X=2)? Per rispondere a questa domanda è necessario trovare la retta di regressione, ossia la retta migliore che interpola la nuvola dei punti.

La retta di regressione La retta di regressione mette quindi in relazione i valori predetti della variabile dipendente (ŷi) con i valori osservati della variabile indipendente (xi). L’equazione della retta di regressione è quindi: Dove: α = il coefficiente costante o intercetta b = il coefficiente angolare o coefficiente di regressione tra y e x

La retta di regressione

α : Coefficiente costante o intercetta α indica il valore atteso della variabile dipendente quando la variabile indipendente è uguale a zero. Nell’esempio indica il numero di sorrisi (in media) per i soggetti che hanno bevuto 0 birre (cioè xi =0). A quanto è uguale ŷi per xi=0? Dove si trova α sulla retta di regressione?

α sulla retta di regressione Quanti sorrisi farà una persona che ha bevuto 0 birre? Ne farà α, ossia poco più di 2.

Proprietà di α Il Coefficiente costante o intercetta gode delle seguenti proprietà: Esprime un punteggio puntuale (il valore di Y per X=0) e non coefficiente di relazione; Esprime un punteggio nell’unità di misura della v.d.; Indica un valore condizionale, ossia che dipende dal valore di 0 della v.i. Gode della proprietà della varianza di scala: se si modifica la scala di misura della v.i. cambierà anche il valore di α.

Interpretazione di α L’intercetta può essere interpretata soltanto quando la variabile indipendente ha uno 0 interpretabile: birre = 0 significa che il soggetto ha bevuto 0 birre. Nella maggior parte delle ricerche psicologiche, le misure ottenute con i questionari non hanno uno 0 interpretabile, poiché la codifica delle risposte non è standard. Ad esempio autostima = 0 in un questionario a 10 item con risposte da 1 a 5 non significa nulla. In questi casi α non viene interpretato.

b: Coefficiente angolare o di regressione byx indica la relazione tra la v.d. e la v.i., ossia quantifica la relazione della X sulla Y. Quando byx è significativamente diverso da 0, significa quindi che X ha un effetto su Y. Semplicemente, il coefficiente di regressione indica il cambiamento atteso (ŷi) nella v.d. quando X varia di una unità, ossia quanto varia in media Y quando X aumenta di 1. Per stimare b è possibile effettuare lo scarto (Δ) tra due X successive.

b sulla retta di regressione Δ1= byx Ad esempio: sappiamo che per xi=0, Y= α. Per xi=1, Y sarà uguale a: α+byx(1), ossia α+byx. A quanto sarà uguale Δy tra xi=1 e xi=0? Δy = α + byx – α, cioè = byx.

Proprietà di b Il Coefficiente di regressione gode delle seguenti proprietà: È espresso nell’unità di misura della v.d.; Indica un cambiamento atteso (di quanto varierà Y, quando X aumenta di 1); Indica un cambiamento non condizionato, ossia indipendente dai valori specifici di X. Gode della proprietà dell’invarianza di scala: Δy tra xi=1 e xi=0 è uguale a Δy tra xi=9 e xi=10.

Interpretazione di b Il coefficiente di regressione deve essere sempre interpretato. Se non risulta significativo, significa che l’effetto di X su Y è trascurabile, ossia molto piccolo. Se risulta significativo, bisogna controllare innanzitutto il segno: se positivo, X fa aumentare Y (bere birre fa aumentare in numero di sorrisi), se negativo X fa diminuire Y (la job insecurity fa diminuire la job satisfaction). Più il coefficiente è grande (in valore assoluto) e più è grande l’effetto di X su Y.

Il coefficiente Beta standardizzato L’interpretazione del coefficiente b può risultare complessa se si utilizzano i punteggi dei questionari. Ad esempio cosa indica un b = -3 nella relazione tra autostima (X) e ansia (Y)? Il fatto che l’ansia diminuisca di 3 per ogni aumento di autostima di 1 unità non indica se l’effetto è grande o piccolo, poiché le variabili sono misurate su scale di misura differenti. Dunque è sempre consigliabile standardizzare le variabili prima di procedere con l’analisi di regressione.

Il coefficiente Beta standardizzato La standardizzazione trasforma le variabili sulla stessa unità di misura, con media=0 e DS=1. Il coefficiente Beta standardizzato (βyx) indica, quindi, di quante deviazioni standard varia Y quando X cresce di una deviazione standard. Tale procedura rende più semplice l’interpretazione soprattutto nei casi di più predittori (regressione lineare multipla). Nel caso di regressione semplice, βyx coincide con il coefficiente di correlazione.

Regressione, correlazione e causalità Né la correlazione, né la regressione possono indicare se tra X e Y esiste una relazione causale oppure solo una covariazione. Poiché βyx coincide con ryx, significa che se si inverte la v.i. con v.d. dal punto di vista numerico i risultati non cambiano, infatti: Se ryx = rxy allora anche βyx = βxy La regressione serve quindi a quantificare la relazione tra X e Y, senza poter stabilire una relazione causale, che esiste soltanto da un punto di vista logico e teorico.

Calcolo dei coefficienti: α La retta che meglio interpola la nuvola dei punti, non può non passare per il suo centro, ossia per il punto le cui coordinate sono la media di X e la media di Y. Possiamo riscrivere l’equazione della retta in funzione di Ȳ: Quindi a quanto sarà uguale α? Quindi è possibile calcolare α solo dopo aver calcolato b.

Calcolo dei coefficienti: byx Poiché il coefficiente di regressione intende stabilire la relazione tra due variabili, per calcolarlo si utilizza la covarianza, che indica quanta corrispondenza c’è, in media, tra gli scarti dalla media in X e gli scarti dalla media in Y. Generalmente, le due variabili sono misurate su scale di misura diverse, dunque la covarianza è difficile da interpretare. Poiché l’obiettivo della regressione è comprendere i cambiamenti in Y quando X varia di una unità, b è calcolato dividendo la covarianza per la varianza di X.

Calcolo dei coefficienti: byx Formula per il calcolo di b: Semplificando per N-1, b sarà uguale al rapporto tra la codevianza tra Y e X e la devianza di X, cioè: SQ indica la devianza (o codevianza), cioè la somma degli scarti quadratici (o la somma del prodotto degli scarti).

Calcolo dei coefficienti: byx Calcolare il b tra birre (X) e numero di sorrisi (Y). Birre (X) Sorrisi (Y) 1 3 2 4 5 6 8 7 9 10 Media=5 Media=5,64 X-Mx Y-My (X-Mx) (Y-My) -5,00 -4,64 23,18 -4,00 -2,64 10,54 -3,00 -1,64 4,91 -2,00 5,27 -1,00 -0,64 0,64 0,00 0,36 1,00 2,36 2,00 4,73 3,00 3,36 10,09 4,00 9,46 5,00 1,36 6,82 ∑=78 (X-Mx)2 -5,00 -4,00 -3,00 -2,00 -1,00 0,00 1,00 2,00 3,00 4,00 5,00 ∑=110

byx e βyx Quindi il coefficiente di regressione tra birre (X) e numero di sorrisi (Y) è: Interpretazione di b: Per ogni birra in più, si associano in media 0,709 sorrisi in più. Per calcolare il coefficiente standardizzato (βyx) è necessario dividere entrambi i termini per il prodotto delle relative deviazioni standard, ossia SQyx va diviso per sysx, mentre SQx va diviso per sxsx.

βyx Quindi il coefficiente di regressione standardizzato (βyx) è uguale a: βyx è uguale al coefficiente di correlazione r, infatti:

βyx Calcolare βyx tra birre (X) e numero di sorrisi (Y): Interpretazione di βyx: Per ogni birra in più, si associano in media 0,709 sorrisi in più, corrispondenti ad una correlazione (corrispondente al beta standardizzato) di 0,900 (ossia molto alta e positiva).

Calcolo del coefficiente α Calcolato b, è possibile calcolare α, sostituendo i valori della seguente formula: Interpretazione di α: Coloro che non hanno bevuto alcuna birra (cioè, per X=0) fanno, in media, 2,091 sorrisi.

Bontà del modello di regressione Data una nuvola di punti, è sempre possibile stimare la miglior retta che li interpola; ciò però non garantisce che il modello teorico ben rappresenta i dati. Per aver una buona rappresentazione, l’errore associato al modello (sempre presente) deve essere piccolo.

Bontà del modello di regressione L’errore associato al modello di regressione indica la distanza dei punti dalla retta, ossia la somma degli scarti quadratici tra i punteggi osservati (y) e quelli predetti (Ŷ).

Calcolare SQe Bisogna innanzitutto calcolare la proiezione di ciascun punto sulla retta attraverso la seguente: Per X=0, ŷ=? ŷ=2,091+0,709(0)=2,091 Per X=1, ŷ=? ŷ=2,091+0,709(1)=2,80 Birre (X) Sorrisi (Y) Ŷ 1 3 2 4 5 6 8 7 9 10

Calcolare SQe L’errore associato alla regressione è uguale a 13,236 Birre (X) Sorrisi (Y) Ŷ 1 2,091 3 2,800 2 4 3,509 4,218 5 4,927 6 5,636 8 6,345 7 7,054 9 7,763 8,472 10 9,181 (Y-Ŷ) (Y-Ŷ)2 -1,091 1,190 0,2 0,040 0,491 0,241 -1,218 1,484 0,073 0,005 0,364 0,132 1,655 2,739 0,946 0,895 1,237 1,530 -0,472 0,223 -2,181 4,757 ∑=13,236

Errore associato a non usare la regressione L’errore associato alla regressione non è intuitivamente chiaro e dipende anche dal numero di punteggi: più sono i punteggi, più questo errore è grande. Poiché questo errore non può essere interpretato da solo, esso va confrontato con l’errore a non usare la regressione, ma utilizzare la media come modello per predire le y. L’errore associato alla media non è altro che la devianza di y, ossia:

Calcolo dell’errore associato alla media Y-My -4,64 -2,64 -1,64 -0,64 0,36 2,36 3,36 1,36 (Y-My)2 21,530 6,970 2,690 0,410 0,130 5,570 11,290 1,850 ∑68,546

R2: proporzione di riduzione dell’errore La differenza tra l’errore associato a non usare la regressione (SQy) e l’errore associato al modello di regressione (SQe) indica quanto il modello di regressione migliora il modello precedente. Tale differenza può essere divisa per SQy, ottenendo la proporzione di riduzione dell’errore, ossia l’R2. In questo caso R2 sarà uguale a:

R2: proporzione di varianza spiegata o condivisa La regressione presuppone che a cambiamenti nella variabile X sono associati cambiamenti nella variabile Y, ossia le due variabili condividono una certa percentuale di variabilità dei punteggi. La varianza condivisa (o spiegata) è l’R2. Infatti: SQx SQy SQi-Sqe SQe: errore modello di regressione R2: varianza condivisa 1-R2: coefficiente di alienazione

Metodo dei minimi quadrati La miglior retta che interpola una nuvola di punti è quella che minimizza lo scarto quadratico tra i punteggi osservati (y) e quelli predetti (ŷ). Ciò significa che tra le possibili rette si sceglierà quella associata all’errore più piccolo. Il metodo che si utilizza per stimare le miglior retta si chiama quindi Metodo dei minimi quadrati, in quanto minimizza SQe.

Regressione e inferenza statistica Come tutti i parametri statistici, anche i coefficienti di regressione possono essere soggetti a fluttuazioni campionarie, dunque possono variare da campione a campione. Per comprendere se b sia diverso da 0, ossia se effettivamente X ha un effetto su Y è necessario utilizzare i test inferenziali. Il test inferenziale associato al coefficiente di regressione è utilizza la distribuzione t di student. Il valore di tcal è uguale al rapporto tra il coefficiente di regressione e il suo errore standard.

Regressione e inferenza statistica Ipotesi: H0: β=0 L’effetto di X su Y non è significativo H1: β≠0 L’effetto di X su Y è significativo Dunque l’obiettivo del ricercatore è rifiutare H0, attraverso il confronto tra p associato a tcal e α (=0,05): Se p > α accetto H0 Se p < α rifiuto H0

Regressione e inferenza statistica L’errore standard è direttamente proporzionale all’errore della regressione ed in particolare è uguale alla radice quadrata della proporzione di varianza di errore della regressione diviso i relativi gradi di libertà, ossia: Poiché il valore di tcal è uguale al rapporto tra il coefficiente di regressione e l’errore standard, si ha:

Inferenza statistica e bontà di adattamento Anche il coefficiente di bontà di adattamento (R2) deve essere sottoposto a inferenza statistica. Poiché R2 è un indice quadratico bisogna utilizzare un test adatto a testare quantità quadratiche, ossia F di Fisher. Ipotesi: H0: R2 = 0 la percentuale di varianza spiegata non è significativa H1: R2 ≠ 0 la percentuale di varianza spiegata è significativa La logica è sempre la stessa: Se p > α accetto H0 Se p < α rifiuto H0