Lezione B.10 Regressione e inferenza: il modello lineare TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.10 Regressione e inferenza: il modello lineare
In questa lezione.. In questa lezione riprenderemo il modello di regressione lineare in una prospettiva inferenziale. Dopo un brevissimo cenno alla configurazione e alle ipotesi del modello lineare, ci eserciteremo a leggere nei tabulati di esercizi di regressione lineare semplice e multipla le informazioni sul segno e la significatività delle relazioni stimate.
Il modello lineare e sue ipotesi Facendo scendere in campo X possiamo arricchire il modello nel seguente modo: La componente sistematica coglie la dipendenza di Y da X, mentre la componente casuale rappresenta la variabilità di Y che rimane “non spiegata” da X. Yi = µi + εi µi = f(Xi) componente sistematica εi ~ N(0, σ2) errore casuale Più sinteticamente il modello può anche essere scritto nel seguente, più familiare, modo: Yi = + βXi + εi ove si è posto f(Xi) = + β Xi, ovvero si è assunto che la dipendenza di Y da X sia di tipo lineare. Riassumiamo le ipotesi alla base del modello: E(εi) = 0 (gli errori casuali oscillano attorno allo 0) Var(εi) = σ2 per ogni i (ipotesi di omoscedasticità) Cov(εi, εj) = 0 (gli errori sono incorrelati tra di loro) εi hanno distribuzione normale Inoltre i valori xi sono considerati fissi e misurati con precisione.
Stima dei parametri I parametri e β si riferiscono alla popolazione. Con i dati campionari, ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3), possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti): Queste formule coincidono nella sostanza con quelle già viste nella regressione descrittiva (lezione 6). La differenza è che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime. Stimati i parametri, i valori previsti dal modello saranno: Scostamenti (residui) tra osservazioni e modello: Inoltre, stimatore di σ2 :
Un esempio già esplorato Riprendiamo l’esempio visto nella lezione in cui è stata introdotta la regressione in ambito descrittivo. I dati si riferivano a 10 atleti e l’interesse era quello di valutare la relazione tra età e performance nel salto in alto. Supponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse, ma ne costituiscano solamente un suo campione casuale semplice. X (Età) Salto (Y) 18 212 218 215 19 220 20 224 21 226 22 229 Con le formule appena viste otteniamo: b=3,04 ; a=160,35 ; s2 = 7,95 I valori sono gli stessi già calcolati nella lezione 6. Ora però tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β. Dal punto di vista tecnico finora, dunque, nulla di nuovo. Dobbiamo però ancora trattare la parte relativa all’inferenza sui parametri…
Incertezza sui parametri Concentriamo la nostra attenzione su β (misura dell’effetto di X su Y). Lo stimatore b, essendo non distorto ha valore atteso proprio pari a β. La sua varianza risulta inoltre la seguente: Tale varianza è ignota, dato che è ignoto σ2. Un suo stimatore corretto si dimostra essere: Stimatore dell’errore standard di conseguenza sarà: Nel nostro esempio: es(b) = √(7,95/18,4) = 0,657 Se oltre alle condizioni 1-3 alla base del modello, si aggiunge anche la quarta (normalità della distribuzione degli errori), si dimostra che gli stimatori a e b hanno anch’essi distribuzione normale. E’ possibile quindi agevolmente ottenere intervalli di confidenza.
Intervalli di confidenza In particolare la seguente quantità si distribuisce come una t di student con n-2 gradi di libertà. Pertanto un intervallo di confidenza al 95% per β sarà dato da: b tn-2;0,05 es(b) IDC(β) = b ± tn-2;0,05 es(b) Nel nostro esempio: IDC(β) = b±t8; 0,05es(b) = 3,04±2,306·0,657 Si ottiene pertanto: Con probabilità 0,95 l’intervallo contiene l’ignoto parametro β. IDC(β) = 3,04 ± 1,51 3,04 1,51 1,53 4,55 L’intervallo [1,53 ; 4,55] non contiene lo 0: l’effetto di X su Y può quindi essere considerato significativo (al livello del 5%).
Significatività dei parametri Per saggiare l’ipotesi nulla = 0 (che corrisponde all’ipotesi che X non abbia alcun effetto su Y) contro l’ipotesi alternativa ≠ 0, si può usare la seguente statistica test: t = b / es(b) che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertà (g.l.). Nel nostro esempio: t = 3,04 / 0,675 =4.63 A cui corrisponde (tavole della t di student con 8 g.l.) un p-value = 0,0017 (<0.05) Effetto significativo (a conferma di quanto già ottenuto con IDC). Come criterio generale, se il p-value (Pr > |t|) è molto basso (ad es. inferiore a 0,05) allora possiamo affermare che l’effetto di X su Y è significativamente diverso da 0. Se vale invece l’ipotesi nulla, ovvero = 0, la migliore previsione torna ad essere la media di Y? Esatto! Per = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta: Yi = α + εi ; con α = µ
Prova di ipotesi su modelli lineari Che significa, per una regressione lineare semplice, saggiare l’ipotesi nulla =0? Essa corrisponde all’ipotesi che X non abbia alcun effetto su Y. Se =0 la statistica t=b/es(b) sotto l’ipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertà. Se la statistica così ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significatività prefissato (per es. 5 o 1 permille) possiamo rifiutare l’ipotesi nulla: cioè la variabile explanans X influisce significativamente su Y. Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra età e performance. Possiamo calcolare. Non ci interessano i calcoli intermedi (medie, varianze etc). I tabulati di un modello di regressione mi dicono che a=160,35, b=3,04 e es(b)=0,657. L’IDC al livello di significatività del 95% è: X (Età) Salto (Y) 18 212 218 215 19 220 20 224 21 226 22 229 IDC(β) = 3,04 ± 1,51. L’IDC al livello di significatività del 95% non contiene quindi lo 0, dunque l’ipotesi nulla è da rigettare. In termini di test di ipotesi: t=3,04/0,675=4.63 cui corrisponde (tavole di t di Student con 8 g.l.) un p-value=0,0017<0,005: l’effetto dell’età X sulla performance Y è quindi significativo al 5 permille.
Es. 1: la disuguaglianza cresce dove è bassa l’occupazione femminile? regione X Y Italia 0,42 0,82 Portogallo 0,59 0,76 Gran Bret. 0,65 0,74 Grecia 0,44 0,68 Spagna 0,32 0,67 Irlanda 0,39 Olanda 0,60 0,61 Austria 0,56 0,51 Belgio 0,50 Germania 0,53 Finlandia 0,72 0,45 Danimarca 0,78 Statistica totale N 12 R2XY 0,33 A +0,92 B -0,555 Es(B) 0,249 t student -2,231 Sign. .050 Idc 95% inf -1,110 Idc 95% sup -0.001 X=% donne lavoro Y=disuguaglianza Mah!
Es. 2: contesti di disoccupazione spingono al suicidio? Statistica Italia Nord Sud N 19 9 10 R2XY 0,58 0,01 0,26 A -0,51 0,87 -0,00 B +1,72 0,157 0,911 Es(B) 0,354 1,978 0,540 t student 4,862 0,079 1,687 Sign. .000 .939 .130 Idc 95% inf ,973 -4,52 -,334 Idc 95% sup 2,465 +4,83 +2,16 regione X Y Piemonte 0,88 1,14 Lombardia 0,75 Trentino 0,91 1,00 Veneto 0,89 0,85 Friuli 1,23 Liguria 0,80 0,96 Emilia 1,29 Toscana 0,84 0,86 Umbria 0,83 1,01 regione X Y Marche 0,84 0,82 Lazio 0,70 0,60 Abruzzi 0,76 0,61 Molise 0,71 0,58 Campania 0,38 Puglie 0,48 Basilicata 0,64 0,67 Calabria 0,55 0,46 Sicilia 0,63 Sardegna 0,65 0,86 Solo nord-sud X= tasso occupazione 25-34 anni; Y=suicidi / milione ab (‘92).
Es. 3: la diffusione di divorzi precorre il diffondersi delle convivenze? Statistica Italia NC Sud Nord CS N 18 11 7 8 10 R2XY ,77 ,61 ,33 ,52 ,59 A 7,47 22,7 5,83 34,8 -,95 B 0,51 0,33 ,398 ,205 ,689 Es(B) 0,07 ,089 ,254 ,081 ,201 t student 7,45 3,73 1,56 2,53 3,42 Sign. .000 .005 .178 ,044 .009 Idc 95% inf ,367 .131 -,25 ,007 .225 Idc 95% sup ,600 .535 1,05 ,403 1,15 regione X Y Piemonte 90 56 Lombardia 86 50 Trentino 71 Veneto 37 38 Friuli 53 54 Liguria 118 55 Emilia 97 60 Toscana 65 42 regione X Y Umbria 48 26 Marche 36 27 Lazio 44 40 AbruzziMol 17 16 Campania 31 Puglie Basilicata 25 9 Calabria 21 14 Sicilia 20 Sardegna 33 24 X=Divorzi al 1988; Y=convivenze al 2001 Ancora nord-sud..
Es. 4: la diffusione dei compu-ter spiega quella dei cellulari? Country X Y Austria 25 18 Belgio 12 Francia 23 Germania 13 Olanda 29 Svizzera 30 17 Grecia 7 9 Italia 16 24 Portogallo 10 Spagna 14 Danimarca 35 31 Finlandia 46 Svezia 41 UK Norvegia 36 Statistica Europa Nord Sud Centro N 15 5 4 6 R2XY ,423 ,789 ,787 ,167 A 1,28 -92 -,53 4,85 B ,826 3,75 1,49 0,361 Es(B) ,267 1,12 ,548 0,402 t student 3,09 3,35 2,72 0,897 Sign. .009 .044 .113 .421 Idc 95% inf ,248 ,192 -,87 -,76 Idc 95% sup 1,40 7,31 3.85 1,48 X= computer; Y=cellulari Tre europe differenti!
Dalla regressione semplice a quella multipla Facciamo allora un passo avanti, e domandiamoci: qual è il valore aggiunto della regressione multipla? Ripartiamo dall’esempio sulla performance nel salto in alto. Finora abbiamo visto due distinte regressioni semplici: col primo abbiamo studiato la dipendenza di Y dall’età dell’atleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z). Ma quale differenza passa tra condurre: Rispetto alle ipotesi alla base del modello di regressione semplice, nella regressione multipla si aggiunge l’assunzione di non collinearità tra le variabili esplicative (vedi lezione 7). Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta. Grossi problemi di stabilità della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearità). due distinte regressioni semplici di Y su X e di Y su Z, µi(X) = + YX Xi µi(Z) = + YZ Zi o invece una regressione multipla di Y su X e Z? µi(X,Z)= + YX Xi + YZ Zi
Coefficienti parziali Supponiamo di essere interessati alla dipendenza di Y da X. Con la regressione semplice misuriamo l’effetto “totale”di X su Y. Se inseriamo nel modello anche la variabile Z, l’effetto di X su Y viene ora calcolato “al netto dell’azione di Z” (ovvero: “a parità di Z”, “controllando rispetto a Z”). E’ formalmente più corretto scrivere il modello di regressione multipla nel seguente modo: µi(X,Z) = + YX.z Xi + YZ.x Zi dove YX.z è il “coefficiente parziale” di X (ovvero l’effetto di X su Y al netto di Z); mentre YZ.x è il “coefficiente parziale” di Z (ovvero l’effetto di Z su Y al netto di X). In generale l’effetto di X su Y calcolato nella regressione semplice (YX) non coin-cide con l’effetto di X su Y calcolato nella regressione multipla (YX.z). Inoltre nella regressione multipla l’effetto di X su Y dipende dalle altre variabili inserite nel modello (YX.z è in generale diverso da YX.w ed entrambi sono diversi da YX.zw).
Leggere tabulati, interpretare dati 1: da che dipende esser ricchi? Vv Xi (esplicative) B Es(B) t student Signific. Idc 95%inf Idc 95%sup Età (classi 10 anni) +.008 .004 +1.928 .054 .000 .015 Dim. Famiglia -.149 .064 -2.319 .021* -.274 -.023 N. Figli in famiglia -.088 .073 -1,205 .228 -.232 +-055 Dim. Urbana +.039 .045 +0,869 .385 -.049 +.126 Tit. Studio madre +.313 .061 +5.089 .000*** +.192 +.433 Tit. Studio interv. +.508 .059 +8.671 +.393 +.623 N = 966 R2 =.211 F = 42,87 Sign: .000 Explanandum: reddito equivalente familiare mensile General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.
Leggere tabulati, interpretare dati 2: da che dipende essere istruiti? Vv Xi (esplicative) B Es(B) t student Signific. Idc 95%inf Idc 95%sup Età (classi 10 anni) -.026 .002 -14.379 .000*** -.030 -.023 N. Figli in famiglia +.013 .024 +0.538 .591 -.034 +.060 Dim. Urbana +.101 .023 +4.322 +.055 +.146 Tit. Studio madre +.378 .031 +12.324 +.318 +.438 Reddito eq. Famigl. +.142 .016 +8.608 +.109 +.174 N = 966 R2 =.477 F =175.53 Sign: .000 Explanandum: livello di scolarità dell’intervistata General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.
Leggere tabulati, interpretare dati 3: cosa causa disagio relazionale? Vv Xi (esplicative) B Es(B) t student Signific. Idc 95%inf Idc 95%sup Età (classi 10 anni) -.016 .009 -1.769 .077 Reddito eq. Famigl. -.251 .075 -3.360 .001** Dim. Famiglia -.390 .149 -2.627 .009** Ormai avete capito come funzionano gli Idc! N. Figli in famiglia +.241 .167 +1.440 .150 Tit. Studio interv. -.279 .143 -1.955 .051 N. Legami forti -.188 -2.448 .015* Peso neighb in rete -.007 .003 -2.162 .031* Dim. Urbana -.018 .101 -0.178 .859 Grado postfamilism -.086 .042 -2.055 .040* Tit. Studio madre -.113 .144 -0.787 .431 N = 811 R2 =.068 F =4.145 Sign: .000 Explanandum: Scala 0-10 di disagio relazionale (fiducia, rapporti, futuro..) General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.
Leggere tabulati, interpretare dati 4: quando usiamo psicofarmaci? Vv Xi (esplicative) B Es(B) t student Signific. Idc 95%inf Idc 95%sup Età (classi 10 anni) .010 .002 +5.023 .000*** Reddito eq. Famigl. -.008 .016 -0.468 .640 Dim. Famiglia -.038 .032 -1.185 .236 Ormai avete capito come funzionano gli Idc! N. Figli in famiglia -.010 .037 -0.273 .785 Tit. Studio interv. .000 .031 -0.012 .990 N. Legami forti .044 +2.669 .008** Dim. Urbana .045 .022 +2.003 .045* Densità della rete .013 .023 +0.570 .569 Tit. Studio madre -.033 -1.060 .289 Disagio relazionale .008 +1.625 .105 N = 902 R2 =.075 F =6.578 Sign: .000 Explanandum: scala 0-3 uso di psicofarmaci General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.
Leggere tabulati, interpretare dati 5: cosa spinge a chiacchierare? Vv Xi (esplicative) B Es(B) t student Signific. Idc 95%inf Idc 95%sup Età (classi 10 anni) .109 .039 +2.786 .005** Ormai avete capito come funzionano gli Idc! N. Figli in famiglia .557 .464 +1.201 .230 Dim. Urbana 1.894 .451 +4.198 .000*** Reddito eq. Famigl -.008 .332 -0.025 .980 Tit. Studio interv. .324 .590 +0.550 .583 N = 1060 R2 = .028 F =5.985 Sign: .000 Explanandum: durata dell’intervista General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.