Regressione lineare multipla

Slides:

Advertisements

Presentazioni simili

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale Marco Acutis a.a CdS.

Advertisements

I circuiti elettrici.

IL GOLD STANDARD: INTRODUZIONE

XXXII CONVEGNO NAZIONALE Società Italiana di Chimica Agraria

Il problema dello zaino

Campi di gravità e topografia: analisi con QGIS

Regole associative Gianluca Amato

Ciclo di Seminari e Corso

Valutazione dei risultati della classificazione

Generalità Laboratorio Arduino.

Natura e origini della attuale crisi europea

ECONOMIA DELLE ISTITUZIONI FINANZIARIE

Stato di COMPASS Franco Bradamante CSN1 Roma, 16 luglio 2012.

La struttura dei materiali

ESSERE HOMELESS: PERCORSI DI VITA E FATTORI DETERMINANTI

Introduzione a VPN Ing. Gianpiero Ciacci.

Le verifiche empiriche del teorema di Heckscher-Ohlin: il paradosso di Leontief Wassily Leontief realizzò la prima verifica empirica del teorema di HO.

…. modello di Solow?.

Politica economica: che cosa è?

π BUZZO GIACOMO D’AGOSTINO ALBERTO DE ANGELIS FEDERICA

“BLAISE PASCAL”- Voghera-

La vitamina C è una molecola contenente C,H e O

REDDITO DI CITTADINANZA E OPPORTUNITA’ ECONOMICA: UN CONFRONTO TRA ITALIA E RESTO D’EUROPA Pasquale Tridico Dipartimento di Economia, Università Roma Tre.

Classificazione e Predizione

L’economia monetaria Corso di Economia delle Istituzioni Finanziarie

L’infiltrazione LM-75: 2016/2017

UN NUOVO MODO DI GUARDARE IL MONDO

LA PREVENZIONE INCENDI NELLE STRUTTURE RELIGIOSE APERTE AL PUBBLICO

LE NOVITÀ DEL BILANCIO 2016 …………………………………………………………………………………………………………..

Le unità territoriali per le analisi socio-economiche

Pompe di calore a integrazione geotermica

ISTITUZIONI (regole scritte e nn scritte che governano l’interazione tra individui) → d.p. e contratti → norme sociali con appropriati Δ delle regole.

Università di Roma Tor Vergata

Convegno europeo sui minori

ATIPICITA’ DEL FATTORE UMANO NEL PILOTAGGIO DEI DRONI

CALENDARIO LEZIONI AGGIORNATO

RAEE è l’acronimo di Rifiuti da Apparecchiature Elettriche ed Elettroniche; ogni elettrodomestico ha un ciclo di vita terminato il quale, sia per malfunzionamento.

Appunti per ostetriche e non solo

Ricerca e innovazione:

Pubblica Amministrazione: semplificazione e costi della politica

Il processo di analisi dei fabbisogni

Comunicazioni Assemblea nazionale TTA 1-2 dicembre 2016

Proactive Care e Proactive Care Advanced

Maria Antonietta Volonté Dipartimento di Neurologia

IL CONFLITTO NELLA CHIESA PRIMITIVA

Piano di formazione Docenti neoassunti a.s. 2016/2017

È possibile rendere comprensibile oggi questo termine filosofico, al di fuori della esigua cerchia degli specialisti? Io una volta ci ho provato in una.

ACCORDO AGROAMBIENTALE D’AREA OPPORTUNITA’ PER LA VALDASO

Il secondo principio.

PROGETTO RELAZIONI PREPOTENTI

Vitamine Sono sostanze organiche a basso peso molecolare strutturalmente assai varie indispensabili per lo svolgimento delle funzioni vitali, di origine.

La misurazione e la valutazione della performance

1.2 Nuovi prodotti alimentari

ASSOCIAZIONE ITALIANA GIURISTI DI IMPRESA

L’evoluzione del Diritto delle Assicurazioni Continuità o rottura con il passato? Avv. Giuseppe Ranieri Studio Legale Tributario Ranieri Comitato Esecutivo.

ADOZIONE INTERNAZIONALE

Esame delle modifiche apportate al precedente ordinamento

e l’associazione in partecipazione

Profilo biografico e opere

IL TOTALITARISMO.

L’Imposta sul reddito delle società (IRES)

Asl Vco – Direzione Generale

Assunzioni, Attività, Investimenti

UROLOGIA - RIMINI VISITE UROLOGICHE AMBULATORIALI REGIME RICOVERO

Endometriosi profonda: quando la chirurgia

Nota AIFA 75 Determinazione 18 novembre 2010 (GU 29 novembre 2010, n. 279): modifiche, con riferimento alla nota AIFA 75, alla determinazione del 4 gennaio.

PIANO DI RIORDINO PRESIDI DI FOLIGNO E SPOLETO

SINTOMI DEL BASSO APPARATO URINARIO 4 MARZO 2017

Con gli occhi di Maxwell

Transcript della presentazione:

Regressione lineare multipla La maggior parte delle ricerche psicologiche utilizzano più di una variabile indipendente, infatti molti fenomeni umani e psicologici sono multi- determinati. Per testare l’effetto contemporaneo di più variabili indipendenti su una variabile dipendente si utilizza il modello di regressione multipla. Esempio: quali sono i predittori del voto di esame di statistica? È possibile studiare l’effetto delle ore di studio (X) e del numero di esami sostenuti nell’anno (W) per predire il voto di esame (Y).

Descrittive e correlazioni Minimo Massimo Media Dev. std. VOTO 30 12 22,17 4,942 APPELLI 11 4,67 2,631 ORE 90 38,87 20,714 voto appelli ore VOTO Correlazione 1 -,380(*) ,572(**) Sig. (2-code) ,038 ,001 N 30 APPELLI -,500(**) ,005 ORE

Modello e rappresentazione grafica Il modello di regressione multipla è volto a determinare quanto la variabilità dei punteggi rappresentati sull’asse Y dipenda dalla variabilità dei punteggi rappresentati sull’asse X e W. Si intende testare la seguente relazione diretta: La rappresentazione grafica con più v.i. avviene attraverso uno scatterplot multidimensionale. Per due v.i. lo scatterplot è tridimensionale, per più di due v.i. la rappresentazione grafica è molto complessa. X Y W

Regressione lineare multipla Dal punto di vista statistico, l’obiettivo della regressione multipla è di definire la funzione lineare delle v.i. che meglio interpola la nuvola di punti dello scatterplot multidimensionale. Nell’esempio con 2 v.i. e 1 v.d., si cercherà il piano che meglio interpola la nuvola dei punti dello scatterplot tridimensionale. Dunque il valore predetto di Y (Ŷ), sarà in funzione sia dei punteggi che variano sull’asse delle X, sia di quelli che variano sull’asse delle W.

Regressione lineare multipla La funzione di regressione multipla è quindi: Dove: α = il coefficiente costante o intercetta byx.w = coefficiente di regressione tra y e x, sapendo che nella regressione è presente anche w. byw.x = coefficiente di regressione tra y e w, sapendo che nella regressione è presente anche x. Come si evince dalla formula, la funzione della regressione multipla non può essere una retta, in quanto considera più di due v.i.

I coefficienti di regressione multipla I coefficienti di regressione multipla rappresentano il cambiamento atteso in Y (Ŷ) per ogni unità in più di una v.i., tenendo costanti le altre v.i. byx.w indica, quindi, l’effetto di X su Y, al netto dell’effetto di W; allo stesso modo, byw.x indica l’effetto di W su Y, al netto dell’effetto di X. In sostanza, il coefficiente indica quanto cambia in media il valore della v.d., aumentando di 1 il punteggio della v.i., al netto delle possibile influenze delle altre variabili. Per questo motivo i coefficienti di regressione multipla sono chiamati anche effetti o coefficienti parziali.

I coefficienti di regressione multipla Si parla di effetto parziale o di parzializzazione poiché dall’effetto di una v.i. sulla v.d. è stato rimosso il possibile effetto dovuto all’influenza delle altre v.i, ossia è stata rimossa la covarianza tra le altre v.i e vd. Graficamente significa che: Y Quindi: X  Y = a (e non a+c) W  Y = b (e non b+c) e a b c W X

I coefficienti di regressione multipla Poiché l’effetto di X su Y è uguale solo ad a (e non a+c), il coefficiente di regressione multipla di X su Y è diverso rispetto al coefficiente di regressione semplice tra X e Y. Dunque, nella regressione multipla a e b, sono detti anche contributi unici di variabili, in quanto indicano, in termini percentuali, quanto la v.d. dipenda unicamente dalla X (a) e unicamente dalla W (b).

Coefficienti standardizzati Nella regressione multipla è molto utile utilizzare i coefficienti di regressione standardizzati (β) per confrontare gli effetti delle v.i., generalmente misurate su scale di misura differenti. Per ottenere i coefficienti di regressione standardizzati è necessario standardizzare tutte le variabili prima di condurre una regressione multipla. In quanto coefficienti standardizzati essi variano tra -1 ed 1, ma nella regressione multipla non corrispondo al coefficiente di correlazione di Pearson. Come per b, si interpretano sapendo che il loro effetto è calcolato tenendo costante le altre v.i.

Coefficiente costante o intercetta Il coefficiente costante o intercetta (α) si interpreta nello stesso modo rispetto alla regressione semplice, in quanto indica il cambiamento atteso in Y (Ŷ) quando le v.i. sono uguali a 0. Infatti sostituendo 0 a X e W si ha: Geometricamente, α è il punto in cui il piano di regressione interseca l’asse delle Y.

Bontà del modello statistico Come per la regressione semplice, anche la regressione multipla deve essere valutata rispetto alla capacità delle v.i. di spiegare la varianza della v.d. (R2), ossia come proporzione di riduzione dell’errore se si utilizza come modello la regressione piuttosto che se si utilizza come modello la media. La formula per il calcolo dell’R2 è la stessa:

R2 e R2 corretto Anche l’interpretazione dell’R2 è identica rispetto alla regressione semplice, con l’unica differenza che in questo caso esso indica quanta percentuale di varianza le v.i. spiegano “congiuntamente” della v.d. Rispetto alla figura precedente, dunque, l’R2 è dato dalla somma della variabilità congiunta delle v.i. (c) più i contributi unici di ogni singola variabile (a + b). Se si aggiungono v.i. l’R2 tende ad aumentare, anche se il contributo unico sulla v.d. è basso, perciò l’R2 è considerato un indicatore distorto. L’R2 corretto corregge la distorsione dell’R2, pesando la variabilità totale per il numero di variabili indipendenti e per la numerosità del campione.

Regressione e inferenza statistica Anche i coefficienti della regressione lineare multipla devono essere sottoposti a test inferenziali per la verifica delle ipotesi. Per comprendere se i b siano diversi da 0 si testa che: H0: byx.w = 0 e byw.x = 0 Ossia che l’effetto di XY e WY non siano significativi H1: byx.w ≠ 0 e byw.x ≠ 0 Ossia che l’effetto di XY e WY siano significativi L’obiettivo del ricercatore è rifiutare H0, attraverso il confronto tra p associato a ciascun tcal e α (=0,05): Se p > α accetto H0 Se p < α rifiuto H0

Inferenza statistica e bontà di adattamento Come nella regressione semplice, l’R2 deve essere sottoposto a inferenza statistica, attraverso il test F di Fisher. Ipotesi: H0: R2 = 0 percentuale di varianza spiegata non è significativa H1: R2 ≠ 0 percentuale di varianza spiegata è significativa La logica è sempre la stessa: Se p > α accetto H0 Se p < α rifiuto H0

Inferenza statistica e bontà di adattamento Poiché l’R2 indica la varianza spiegata da tutte le v.i. complessivamente, se esso risulta significativo non significa che lo sia anche il contributo ciascuna singola v.i. I risultati del test F (globale) possono quindi non coincidere con quelli del test t (contributo unico). Tale situazione si verifica in particolare quando le v.i. sono tra loro molto correlate e quando i campioni sono piccoli (N < 30): in questi casi i test inferenziali sono meno potenti.

Esempio di regressione multipla Modello R R-quadrato R-quadrato corretto Errore std. della stima 1 ,582(a) ,339 ,290 4,163 Modello Somma dei quadrati df Media dei quadrati F Sig. 1 Regressione 240,235 2 120,118 6,931 ,004(a) Residuo 467,931 27 17,331 Totale 708,167 29 Interpretazione: Le v.i. spiegano globalmente una percentuale significativa di varianza spiegata (F(2,27) = 6,931;p <,05) pari al 34% (R2 corretto = 29%).

Esempio di regressione multipla Coefficienti non standardizzati Coefficienti standardizzati t Sig. B Errore std. Beta (Costante) 18,542 2,923 6,343 ,000 appelli -,236 ,339 -,125 -,694 ,494 ore ,122 ,043 ,510 2,820 ,009 Interpretazione di α, βappelli e βore: α risulta significativo (t=6,343; p < ,05): gli studenti che hanno sostenuto 0 esami nell’anno e che hanno studiato 0 ore, prendono un voto medio di 18,542. βappelli non risulta significativo (t=-0,694; p>,05): il voto non dipende dal numero di altri esami sostenuti nell’anno. βore risulta significativo (t=2,820; p<,05): il numero di ore che uno studente studia ha un effetto positivo sul voto. Il voto aumenta di .122 per ogni ora che si studia in più.

Esempio di regressione multipla Coefficienti non standardizzati Coefficienti standardizzati t Sig. B Errore std. Beta (Costante) 18,542 2,923 6,343 ,000 appelli -,236 ,339 -,125 -,694 ,494 ore ,122 ,043 ,510 2,820 ,009 Interpretazione di α, βappelli e βore: α risulta significativo (t=6,343; p < ,05): gli studenti che hanno sostenuto 0 esami nell’anno e che hanno studiato 0 ore, prendono un voto medio di 18,542. βappelli non risulta significativo (t=-0,694; p>,05): il voto non dipende dal numero di altri esami sostenuti nell’anno. βore risulta significativo (t=2,820; p<,05): il numero di ore che uno studente studia ha un effetto positivo sul voto. Il voto aumenta in media di .122 per ogni ora che si studia in più.

Interpretazione e commento La correlazione tra appelli (W) e voto (Y) risultava negativa e significativa (r=-.380; p<.05): perché b non risulta significativo? La relazione tra queste è due è spuria: esse correlano soltanto perché W correla (negativamente) con X. Infatti, coloro che fanno molti esami dedicano meno ore all’esame di statistica: questo che determina un voto basso. Se si studia lo stesso numero di ore, il fatto di aver sostenuto molti esami o pochi esami, non influenza il voto in statistica. Il voto dipende quindi esclusivamente dal numero di ore studiate.