La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lezione 8 Più di due variabili TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli.

Presentazioni simili


Presentazione sul tema: "Lezione 8 Più di due variabili TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli."— Transcript della presentazione:

1 Lezione 8 Più di due variabili TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli

2 In questa lezione.. In questa lezione accenneremo a due ultime strategie per migliorare la goodness of fit di una funzione interpolante, e ad alcune conseguenze.  La prima strategia consiste nella scomposizione della popolazione analizzata per gruppi omogenei. Rientra così in scena il concetto di eterogeneità della popolazione già usato nell’analisi univariata. Ci rifletteremo a partire da alcuni paradossi applicati a distribu- zioni congiunte anche non quantitative discrete.  La seconda strategia consiste nell’aumento delle variabili prese come esplicative. Entriamo così nel mondo dell’analisi multivariata, con il modello di regressione lineare multipla.  Parlando dei limiti di utilizzo della regressione multipla ragioniamo infine su due errori in cui si è facilmente indotti nell’analisi multi-variata. Il primo è quello della collinearità. Il secondo è quello delle correlazioni spurie.

3 Ripartiamo da un esempio Torniamo al solito esempio età-reddito e aggiungiamo al database una informazione in più: la variabile Z = numero di anni di istruzione dei 9 individui. Per i primi 4 sia Z=8 (L=bassa scolarizzazione), per gli ultimi 4 sia Z=18 (H=alta scolarizzazione), mentre il quinto individuo sia di media scolarità (13 anni di studio). Se teniamo conto di questa informazione, e depuriamo il data- base del quinto individuo (visto come outlier), i dati ci appaiono sotto una nuova prospettiva. XiXi YiYi ZiZi 201,08 221,28 251,48 282,08 303, , , , ,818 Sia i primi quattro punti tra loro che gli ultimi quattro tra loro sembrano ottimamente inter- polabili con rette di diversa pendenza. Le equa- zioni delle due rette MQ (calcolatele anche voi!) rispettivamente per L e M sono: Y L = -1,45 + 0,12X L (R 2 = 0,941) Y H =-11,96+ 0,47X L (R 2 = 0,999)

4 Scomposizione per gruppi omogenei Almeno nel grup- po H l’adatta- mento è altissimo (99,9% di varian- za spiegata): la scolarità pare in- fluire sulla rela- zione reddito-età. Sovrapponiamo i due grafici. Le due popo- lazioni hanno inter- cette diverse ma an- che pendenze molto diverse tra loro: il che crea l’effetto di curvilineità. Ma sul problema delle differenti pendenze torneremo tra poco.. outlier

5 Un secondo esempio Piccole città XiXi YiYi 61,2 130,4 121,5 202,0 243,5 193,0 80,5 181,5 Grandi città XiXi YiYi 53,0 72,8 153,4 112,5 174,0 171,8 214,5 194,0 213,6 386,6 172,3 162,0 Facciamo un secondo esempio, un ‘classico’ della ricerca sociale. Per 20 città americane (8 piccole, 12 grandi) siano date due infor- mazioni: X sia il reddito pro capite in migliaia di dollari, Y sia il tasso di criminalità. L’equazione della retta MQ stimata sulle 20 città è: Y = 0, ,138 X (R 2 = 0,488) Il coefficiente di determinazione non è altissimo.. Che succede se se- pariamo le due po- polazioni di piccole e grandi città? [Per inciso, non abbiate la mas- simizzazione di R 2 come unica stella polare. Per esempio la grande città da 38mila dollari di reddito potrebbe essere un dato anomalo, ma se (correttamente) la eliminassimo la retta (verde) ai MQ avrebbe R 2 =0,226, minore di quello complessivo].

6 Rette parallele o a diversa pendenza L’equazione della retta MQ stimata separata- mente per piccole e grandi città risulta: Y P =-0,402+0,140 X P (R 2 = 0,635) Y G =+1,340+0,120 X G (R 2 = 0,567) Piccole cittàGrandi città In questo caso le due relazioni lineari sono di- verse nettamente per la intercetta ma più o me- no scorrono parallele con pendenze simili. Tra poco questa diffe- renza si rivelerà impor- tante. Possiamo anche leggere il grafico in modo assai pregnante: il tasso di criminalità sale comun- que col reddito ma nelle grandi città – a parità di reddito – la criminalità è un punto e ½ più alta in percentuale.

7 Regressione multipla D = (y j -  i ) 2 f ij = (y j – a YX –b YX.x i -c YZ. z i ) 2.f ij = minimo Ripartiamo allora dai due esempi fatti. Il reddito è funzione dell’età ma varia an- che col livello di scolarità. La criminalità è funzione del reddito ma varia anche con la dimensione urbana. In entrambi i casi una terza variabile si intromette tra explanans e explanandum, migliorando la goodness of fit. Possiamo pensare quindi a una estensione del modello di regressione lineare, che tenga conto non di una ma di due o più variabili indipendenti. Nei nostri esempi il modello da minimizzare diventa Ancora una volta si tratta di un modello in cui i regressori entrano in modo lineare e additivo. Come per i precedenti modelli lineari (retta, parabola) le stime che si ottengono col MMQ godono delle proprietà note. e i parametri a, b, c saranno quelli che minimizzino la funzione di danno: Y=a YX +b YX.Z X+c YZ.X Z

8 I parametri di una regressione a due variabili Se la procedura di stima dei parametri è la stessa sviluppata per la retta, ci aspettiamo che i tre parametri abbiano formule composte da statistiche a noi familiari (medie, varianze delle tre variabili in gioco, e covarianze tra di loro), ma forse un po’ troppo complesse. In realtà noi le abbiamo già conosciute, quando nella stima della parabola abbiamo considerato i quadrati come un nuovo regressore a sé stante. Se il secondo regressore è la nostra seconda variabile indipendente Z, le stime MQ dei parametri della regressione multipla sono: E ovviamente a Y.XZ =m Y –b YX m X -c YZ mZ Ancora, notate che le formule dei due coefficienti di regressione sono speculari tra loro, con poche inversioni di variabili

9 Calcolo dei parametri La grande simmetria delle formule rende più facile la memorizzazione. In particolare il denominatore dei due coefficienti di regressione è lo stesso ed è tutto espresso in termini delle variabili indipendenti x e z. Dividendo numeratori e denominatori dei due coefficienti per il prodotto delle varianze delle variabili indipendenti (var X.var Z ), li si può esprimere in termini di coefficienti di correlazione lineare tra variabili, a meno di un fattore moltiplicativo legato alle misure di dispersione delle variabili stesse: Per stimare i parametri di una regressione multipla con due variabili indipendenti basta dunque avere a disposizione medie e varianze delle variabili coinvolte e i coefficienti di correlazione lineare di ordine zero  YX  YZ  XZ

10 Correlazione multipla Come valutare il modello di regressione multiplo che stimiamo così? Si può cal- colare una misura analoga al coefficiente di determinazione formulata anch’esso in termini di coefficienti di correlazione lineare semplice. La chiamiamo coeffi- ciente di correlazione multipla. Esso misura quanta parte della varianza di Y è spiegata dalla dipendenza lineare di Y dalle due variabili esplicative X e Z: Poiché la regressione multipla rientra nella famiglia delle regressioni lineari nelle variabili valgono le proprietà dei MQ e in particolare il principio di scomposizione della varianza. R 2 Y.XZ è quindi comparabile con il coefficiente R 2 YX di determina- zione della retta e si può valutare l’eventuale miglioramento di goodness of fit. Svolgiamo l’esempio criminalità(Y)–reddito (X)–urbanizzazione(Z) [misuriamo Z come variabile dicotomica (dummy variable) pari a 0 nelle piccole città, a 1 nelle grandi]: m Y =2,705; m X =16,2; m Z =0,6;  Y =1,4354;  X =7,2636;  Z =0,4899;  YX =+0,699;  YZ =+0,572;  ZX =+0,135 Y=-0,176+0,125X+1,425Z R 2 =0,7209 R 2 è assai più consistente dei due coefficienti di determina- zione. Il modello quindi migliora la sua capacità esplicativa.

11 Collinearità XiXi YiYi PiPi 201, ,28 251, ,05 303, , , , ,014 m Y =3,111;m X =30;m P =13,33; Y =1,7622; X =6,4636; P =4,5216;  YX =+0,977; YP =+0,534; PX =+0,555. Il modello di regressione È: P = -0, ,525X – 0,514Y (R 2 =0,310) Ma le due variabili indipendenti sono davvero molto correlate: il modello stimato risentirà di variazioni anche piccole delle variabi- li. Per es. se p 3 =12 invece che 15 il modello stimato diventa: P = +2, ,322X + 0,397Y (R 2 =0,380) Il piano di regressione cambia molto: non ci si può certo fidare! Riprendiamo l’esempio reddito(Y)–Età (X) (ponendo y 9 =6 per renderle ancor più correlate) e studiamo un indicatore di performance (P) in funzione di entrambi. Attenzione al denominatore dei coefficienti di re- gressione multipla. Se le variabili indipendenti so- no linearmente correlate tra loro (e quindi  YX 1), il denominatore sarà pericolosamente 0, e farà ‘esplodere’ i coefficienti, rendendoli estremamente ‘ballerini’!

12 Coeteris paribus Conviene riflettere sul fatto che nel modello Y i =+ yx.z X i + yz.x Z i si assume che X abbia un effetto pari a  yx.z quale che sia il valore di Z. Supponiamo per esempio che Z sia una variabile dicotomica (come nel nostro caso della criminalità per città grandi e piccole). Si assume quindi che X (dimensione urbana) abbia il medesimo effetto su Y, sia per Z=0 (piccole città) che per Z=1 (grandi città). Infatti, per Z=0 si ottiene: Y i (X,Z=0) =  +  yx.z X i Mentre, per Z=1: Y i (X,Z=1)= + yz.x X i + yx.z = (+ yz.x )+ yx.z X i L’unica cosa che cambia in tali due situazioni è infatti l’intercetta, men- tre il coefficiente angolare (effetto di X) rimane invariato.

13 Effetti di “interazione” E’ quello che abbiamo osservato nel nostro esempio: la criminalità cresce col reddito urbano grossomodo con una velocità di crescita simile per grandi e piccole città. Potrebbe però accadere che nei grandi centri l’effetto del benessere complessivo risulti assai più influente, determinando una regressione semplice (criminalità funzione del reddito) con pendenza più forte. Per tener conto di ciò il modello di regressione multipla deve assumere una forma più complessa, con un fattore in più: Y i (X,Z) =  +  yx.z X i +  yz.x Z i +  X i Z i X Y Y(X,Z=1) = ( +  yz.x ) +  yx.z X Y(X,Z=0) =  +  yx.z X X Y Y(X,Z=1)=(+ yz.x )+( yx.z +  )X Senza interazione Con interazione effetto interazione  yx.z e  zx.y sono detti effetti prin- cipali, η è detto effetto interazione

14 Dalla retta al piano di regressione Piccole Grandi città Z Y X Per capire il perché di questo fiasco ragioniamo sulla rappresentazione grafica del- l’equazione: Y=a YX +b YX.Z X+c YZ.X Z. Svolgiamo l’esempio reddito(Y) – Età (X) – Scolarizzazione(Z=numero anni studio): m Y =3,2; m X =30; m Z =13;  Y =1,9189;  X =6,4636;  Z =4,7;  YX =+0,969;  YZ =+0,897;  ZX =+0,912 Y=-5,215+0,267X+0,0313Z R 2 =0,941 Ma R 2 della retta era 0,94: non c’è praticamente nessun guada- gno di capacità esplicativa!!! E’ intuitivo che non abbiamo più a che fare con l’equazione di una retta, bensì con quella di un piano di regressione. Ma un piano “retto” o un piano “curvo”? Nel caso della criminalità, le due rette di- stinte per grandi e piccole città hanno pendenze se non uguali assai simili, con una differenza costante di 1,5%. L’effetto della terza variabile Z è quindi pura- mente additivo.

15 Modelli additivi L’effetto di Z è additivo se possiamo passare da un modello lineare sem- plice Y i =a+b yx.x i a un modello di re- gressione multipla per puro incre- mento di un fattore k i additivo, funzione della variabile z: k i = c yz.x..z i La rappresentazione dell’equazione del piano di regressione Y i = a + b yx.z.x i + c yz.x.z i corrisponde alla rappresentazione dell’equazione di più rette con diffe- renti intercette ma uguali pendenze Y i = a+ k i  + b yx.z.x i Y X Y X Z Z=z 1 Z=z 2 Z=z 3 Y=a+bx (ferma z) Y=a+cz (ferma x) a

16 Regressione ‘parziale’ Il piano di regressione multipla (limitata quindi a due sole variabili esplicative; non siamo capaci di immaginare iperpiani) è un piano in cui, per definizione, ogni sezione rispetto alla dimensione Z traccia una retta, funzione di X, parallela a quella ricavata con altre sezioni e, specularmente, ogni sezione rispetto alla dimensione X traccerà rette, funzioni di Z, tutte tra loro parallele. COEFFICIENTI DI REGRESSIONE PARZIALE Questa spiega anche perché i coefficienti di regressione multipla b yx.z vengono anche definiti COEFFICIENTI DI REGRESSIONE PARZIALE. Un coefficiente di regressione b yx.z misura l’influenza di X su Y  ferma restando z (ovvero)  tenuta sotto controllo z (ovvero)  depurata dell’effetto di z (ovvero)  posta costante entro ogni subgruppo definito in base a z (sono tutti sinonimi tra loro). Ma che succede se al variare di Z varia non solo l’intercetta ma anche la pendenza della relazione lineare?

17 Modelli moltiplicativi e effetto interazione Il modello diventa: Y i = a+k i  + b yx.z +h i .x i Entrambi i coefficienti di variazione k i e h i dipendono ora da Z, cioè: k i =+z i e h i =+z i Allora: Y i =a++z i  + b yx.z ++z i .x i = =a+ + b yx.z +.x i + z i + z i x i o con le notazioni oramai familiari: Y i = a yx.z +b yx.z.x i +c yz.x.z i + d y.zx x i z i Compare un fattore moltiplicativo in più, e la superficie di regressione NON è piana, ma curva. Le sezioni non sono più parallele tra loro ma variano al variare “sinergico”, cioè moltiplicativo delle due variabili. Y X Y X Z Z=z 1 Z=z 2 Z=z 3

18 Effetti “diretti” e “indiretti” Insomma, la criminalità dipende dallo stato di ricchezza di una città, ma anche dalla sua dimensione. Proviamo a riflettere ancora su ciò. Indichiamo con un segmento la presenza di una relazione tra due variabili. Utilizziamo invece una freccia quando individuiamo un verso in tale relazione (ovvero un ordine causale). Nella regressione multipla l’effetto totale di X su Y (  yx ) è distinto in due parti: a) un effetto diretto di X su Y (rappresentato da  yx.z ); b) un effetto indiretto di X su Y (pari al prodotto .  yz.x ). X Y  yx Z X Y  yxz  yzx  xy Mentre in generale per il modello di regressione multipla con variabili espli- cative X e Z (indicando con  xy il lega- me tra le due variabili esplicative)si ha: Il modello di regressione semplice può allora essere rappresentato graficamente nel seguente modo:

19 Due situazioni particolari (a) Ciò può accadere in due situazioni particolari. a) Z non ha alcun effetto (diretto) su Y. In tal caso infatti µ i =  +  yx.z X i + 0 Z i =  +  yx.z X i In tal caso la regressione multipla si riduce di fatto ad una regressione semplice, e quindi  yx.z =  yx Se infatti è assente il legame tra Z e Y l’unico percorso che da X porta ad Y è quello dell’azione diretta. Quindi Z risulta ininfluente nello studio della relazione tra X ed Y. Z X Y  yx Il coefficiente della regressione multipla coincide con quello della re- gressione semplice (  yx.z =  yx ) quando l’effetto indiretto è nullo. Attenzione!! In genere non osserviamo casi- limite ma un mix in cui valutare la significatività del contributo di ogni effetto particolare

20 Due situazioni particolari (b) b) Il secondo caso particolare è quello in cui Z ed X non sono cor- relate tra loro. Si ottiene infatti in tal caso:  yx.z = [cov YX var Z – cov YZ cov ZX ] / [var X var Z – cov 2 XZ ] = = [cov YX var Z – cov YZ 0] / [var X var Z – 0] = = [cov YX var Z ] / [var X var Z ] = = cov YX / var X =  yx Z X Y  yx  yz Essendo incorrelate tra di loro, le due variabili esplicative X e Z forniscono due contributi indipendenti nello spiegare Y. Pertanto i parametri della regressione multipla coincidono con quelli delle due distinte regressioni semplici di X su Y e di Z su Y. Anche in questo caso l’azione indiretta di X su Y attraverso Z non è praticabile (questa volta perché manca il legame tra X e Z: =0).

21 Correlazione parziale Ricordate che il coefficiente di correlazione lineare  XY si può ricavare an-che dalla media geometrica dei coefficienti di regressione opposti b XY, b YX :  XY = b XY b YX ? Qualcosa del genere vale anche i coefficienti di regressione multipla, tra loro complementari, b XY.Z e b YX.Z, definiti – abbiamo appena visto - in modo speculare in termini di coefficienti di correlazione lineare semplice. La media geometrica tra questi due coefficienti si chiama Coefficiente di correlazione parziale e ha forma: IL COEFFICIENTE DI CORRELA- ZIONE PARZIALE misura la cor- relazione tra y e x ferma restando z, o tenuta sotto controllo z, o de- purata dell’effetto di z. Torniamo all’esempio Reddito (Y) – Età (X) – Scolarità (Z), dove:  Y =1,9189;  X =6,4636;  Z =4,7;  YX =+0,969;  YZ =+0,897;  ZX =+0,912. Risulta: Cioè: reddito ed età sono davvero correlati, anche a parità di scolarità

22 Correlazione spuria Se  YX.Z 0 pur essendo  YX 0 allora la correlazione tra y e x è SPURIA o FITTIZIA. Una correlazione tra Y e X è spuria se è totalmente spiegata dalle relazioni di Y e X con una terza variabile Z. Per esempio, tra tre variabili intercorrono tre coefficienti di correlazione lineare di grado zero ( YX, YZ, XZ ) e tre coefficienti di correlazione parziale ( YX.Z, YZ.X, XZ.Y ). Se i 6 coefficienti sono tutti significativamente 0, tranne che  XZ =0 (c’è cioè incorrelazione tra le due variabili indipendenti) possiamo adottare il modello di regressione multipla (A). Ma se si annulla un coefficiente di correlazione parziale  YX.Z =0 allora si possono avere due situazioni assai diverse: corre- lazione spuria Il caso (B) è quello di corre- lazione spuria: Z è qui una variabile antecedente catena causale: Il caso (C) è quello di una catena causale: qui Z è una variabile interveniente Y XZ YX Z Y Z X A B C

23 Riepiloghiamo Sia il nostro obiettivo la stima dell’effetto causale di una data variabile X (explanans) su Y (explanandum). Supponiamo inoltre che Z (variabile unica o insieme di variabili) sia il solo potenziale fattore che può influenzare la dipendenza di Y da X. Operiamo nel seguente modo: Conduciamo una regressione semplice e misuriamo in tal modo l’effetto totale di X su Y ( x ). Passiamo poi ad una regressione multipla aggiungendo nel modello Z. Se Z non è correlato con X (  =0 ), oppure se Z non ha alcun effetto su Y ( z.x =0), allora non esiste alcuna azione indiretta di X su Y attraverso Z. Ne consegue che l’effetto di X al netto di Z coincide con l’effetto totale di X (  x.z = x ). La regressione multi- pla si riduce a quella semplice. Se Z è correlato con X e insieme ha un effetto su Y, allora l’effet- to totale di X può essere scom- posto in un’azione diretta e una indiretta (tramite Z). In tal caso, se Z è interveniente, è casuale l’effetto totale di X (diretto + in- diretto), se Z è antecedente è causale solo l’effetto diretto.

24 Due esempi per concludere Primo esempio. Dati i coefficienti di correlazione lineare  YX =0,42,  YZ =0,70,  XZ =0,60 tra tre variabili X, Y e Z, ha senso stimare il modello di regressione multipla Y=a+bX+cZ? In questo caso basta analizzare il numeratore del coefficiente di correlazione parziale ( YX - XZ. YZ )=[0,42-(0,6x0,7)]=0. Dunque la correlazione tra Y e X è spuria, il sentiero causale corretto non potrà essere quello A della regressione multipla ma uno degli altri (quale dei due pro- posti? Si tratta di identificare il ruolo di Z, se antecedente o interveniente: ma spesso nella valutazione entra in gioco l’equazione personale del ricercatore). Secondo esempio. Riprendiamo la base dati reddito(Y)–Età (X)-Perfor-mance(P), dove era  YX =+0,977;  YP =+0,534;  PX =+0,555. Date le varianze e i coefficienti di correlazione, le correlazioni parziali di P con le due variabili “tenendo ferma l’altra” sono rispettivamente:  YP.X =-0,0464;  PX.Y =+0,1846 La correlazione tra performance e reddito “tenendo ferma l’età” si avvicina molto a zero (e cambia anche segno). E’ una correlazione spuria.


Scaricare ppt "Lezione 8 Più di due variabili TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli."

Presentazioni simili


Annunci Google