La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lezione B.10 Regressione e inferenza: il modello lineare TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli.

Presentazioni simili


Presentazione sul tema: "Lezione B.10 Regressione e inferenza: il modello lineare TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli."— Transcript della presentazione:

1 Lezione B.10 Regressione e inferenza: il modello lineare TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli

2 In questa lezione.. In questa lezione riprenderemo il modello di regressione lineare in una prospettiva inferenziale. Dopo un brevissimo cenno alla configurazione e alle ipotesi del modello lineare, ci eserciteremo a leggere nei tabulati di esercizi di regressione lineare semplice e multipla le informazioni sul segno e la significatività delle relazioni stimate.

3 Il modello lineare e sue ipotesi Più sinteticamente il modello può anche essere scritto nel seguente, più familiare, modo: Y i =  + βX i + ε i ove si è posto f(X i ) =  + β X i, ovvero si è assunto che la dipendenza di Y da X sia di tipo lineare. Facendo scendere in campo X possiamo arricchire il modello nel seguente modo: Y i = µ i + ε i µ i = f(X i ) componente sistematica ε i ~ N(0, σ 2 ) errore casuale componente sistematica componente casuale La componente sistematica coglie la dipendenza di Y da X, mentre la componente casuale rappresenta la variabilità di Y che rimane “non spiegata” da X. Riassumiamo le ipotesi alla base del modello: 1. E(ε i ) = 0 (gli errori casuali oscillano attorno allo 0) 2. Var(ε i ) = σ 2 per ogni i (ipotesi di omoscedasticità) 3. Cov(ε i, ε j ) = 0 (gli errori sono incorrelati tra di loro) 4. ε i hanno distribuzione normale Inoltre i valori x i sono considerati fissi e misurati con precisione.

4 Stima dei parametri I parametri  e β si riferiscono alla popolazione. Con i dati campionari, ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3), possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti): Queste formule coincidono nella sostanza con quelle già viste nella regressione descrittiva (lezione 6). La differenza è che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime. Stimati i parametri, i valori previsti dal modello saranno: Scostamenti (residui) tra osservazioni e modello: Inoltre, stimatore di σ 2 :

5 Un esempio già esplorato Riprendiamo l’esempio visto nella lezione in cui è stata introdotta la regressione in ambito descrittivo. I dati si riferivano a 10 atleti e l’interesse era quello di valutare la relazione tra età e performance nel salto in alto. Supponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse, ma ne costituiscano solamente un suo campione casuale semplice. X (Età)Salto (Y) Con le formule appena viste otteniamo: b=3,04 ; a=160,35 ; s 2 = 7,95 I valori sono gli stessi già calcolati nella lezione 6. Ora però tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β. Dal punto di vista tecnico finora, dunque, nulla di nuovo. Dobbiamo però ancora trattare la parte relativa all’inferenza sui parametri…

6 Incertezza sui parametri Lo stimatore b, essendo non distorto ha valore atteso proprio pari a β. La sua varianza risulta inoltre la seguente: Tale varianza è ignota, dato che è ignoto σ 2. Un suo stimatore corretto si dimostra essere: Stimatore dell’errore standard di conseguenza sarà: Nel nostro esempio: es(b) = √(7,95/18,4) = 0,657 Concentriamo la nostra attenzione su β (misura dell’effetto di X su Y). Se oltre alle condizioni 1-3 alla base del modello, si aggiunge anche la quarta (normalità della distribuzione degli errori), si dimostra che gli stimatori a e b hanno anch’essi distribuzione normale. E’ possibile quindi agevolmente ottenere intervalli di confidenza.

7 Intervalli di confidenza In particolare la seguente quantità si distribuisce come una t di student con n-2 gradi di libertà. Pertanto un intervallo di confidenza al 95% per β sarà dato da: IDC(β) = b ± t n-2;0,05 es(b) Con probabilità 0,95 l’intervallo contiene l’ignoto parametro β. b t n-2;0,05 es(b) Nel nostro esempio: IDC(β) = b±t 8; 0,05 es(b) = 3,04±2,306·0,657 Si ottiene pertanto: IDC(β) = 3,04 ± 1,51 L’intervallo [1,53 ; 4,55] non contiene lo 0: l’effetto di X su Y può quindi essere considerato significativo (al livello del 5%). 3,04 1,51 0 1,53 4,55

8 Significatività dei parametri Per saggiare l’ipotesi nulla  = 0 (che corrisponde all’ipotesi che X non abbia alcun effetto su Y) contro l’ipotesi alternativa  ≠ 0, si può usare la seguente statistica test: Esatto! Per  = 0 i valori osservati (y i ) possono essere adeguatamente rappresentati dal modello con sola intercetta: Y i = α + ε i ; con α = µ Nel nostro esempio: t = 3,04 / 0,675 =4.63 A cui corrisponde (tavole della t di student con 8 g.l.) un p-value = 0,0017 (<0.05) Effetto significativo (a conferma di quanto già ottenuto con IDC). t = b / es(b) che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertà (g.l.). Come criterio generale, se il p-value (Pr > |t|) è molto basso (ad es. inferiore a 0,05) allora possiamo affermare che l’effetto di X su Y è significativamente diverso da 0. Se vale invece l’ipotesi nulla, ovvero  = 0, la migliore previsione torna ad essere la media di Y?

9 Prova di ipotesi su modelli lineari Che significa, per una regressione lineare semplice, saggiare l’ipotesi nulla =0? Essa corrisponde all’ipotesi che X non abbia alcun effetto su Y. Se =0 la statistica t=b/es(b) sotto l’ipotesi H 0 ha distribuzione t di Stu- dent con n-2 gradi di libertà. Se la statistica così ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significatività prefissato (per es. 5 o 1 permille) possiamo rifiutare l’ipotesi nulla: cioè la variabile explanans X influisce significativamente su Y. X (Età)Salto (Y) Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra età e performance. Possiamo calcolare. Non ci interessano i calcoli intermedi (medie, varianze etc). I tabulati di un modello di regressione mi dicono che a=160,35, b=3,04 e es(b)=0,657. L’IDC al livello di significatività del 95% è: IDC(β) = 3,04 ± 1,51. L’IDC al livello di significatività del 95% non contiene quindi lo 0, dunque l’ipotesi nulla è da rigettare. In termini di test di ipotesi: t=3,04/0,675=4.63 cui corrisponde (tavole di t di Student con 8 g.l.) un p-value=0,0017<0,005: l’effetto dell’età X sulla performance Y è quindi significativo al 5 permille.

10 Es. 1: la disuguaglianza cresce dove è bassa l’occupazione femminile? Statisticatotale N12 R 2 XY 0,33 A+0,92 B-0,555 Es(B)0,249 t student-2,231 Sign..050 Idc 95% inf-1,110 Idc 95% sup regioneXY Italia0,420,82 Portogallo0,590,76 Gran Bret.0,650,74 Grecia0,440,68 Spagna0,320,67 Irlanda0,390,67 Olanda0,600,61 Austria0,560,51 Belgio0,600,50 Germania0,530,50 Finlandia0,720,45 Danimarca0,780,42 X=% donne lavoro Y=disuguaglianza Mah!

11 Es. 2: contesti di disoccupazione spingono al suicidio? regioneXY Piemonte0,881,14 Lombardia0,880,75 Trentino0,911,00 Veneto0,890,85 Friuli0,851,23 Liguria0,800,96 Emilia0,881,29 Toscana0,840,86 Umbria0,831,01 X= tasso occupazione anni; Y=suicidi / milione ab (‘92). StatisticaItaliaNordSud N19910 R 2 XY 0,580,010,26 A-0,510,87-0,00 B+1,720,1570,911 Es(B)0,3541,9780,540 t student4,8620,0791,687 Sign Idc 95% inf,973-4,52-,334 Idc 95% sup2,465+4,83+2,16 regioneXY Marche0,840,82 Lazio0,700,60 Abruzzi0,760,61 Molise0,710,58 Campania0,580,38 Puglie0,700,48 Basilicata0,640,67 Calabria0,550,46 Sicilia0,630,67 Sardegna0,650,86 Solo nord- sud

12 Es. 3: la diffusione di divorzi precorre il diffondersi delle convivenze? regioneXY Piemonte9056 Lombardia8650 Trentino7150 Veneto3738 Friuli5354 Liguria11855 Emilia9760 Toscana6542 X=Divorzi al 1988; Y=convivenze al 2001 regioneXY Umbria4826 Marche3627 Lazio4440 AbruzziMol1716 Campania3116 Puglie2617 Basilicata259 Calabria2114 Sicilia3620 Sardegna3324 StatisticaItaliaNCSudNordCS N R 2 XY,77,61,33,52,59 A7,4722,75,8334,8-,95 B0,510,33,398,205,689 Es(B)0,07,089,254,081,201 t student7,453,731,562,533,42 Sign , Idc 95% inf, ,25, Idc 95% sup, ,05,4031,15 Ancora nord-sud..

13 Es. 4: la diffusione dei compu- ter spiega quella dei cellulari? CountryXY Austria2518 Belgio2512 Francia2312 Germania2313 Olanda2913 Svizzera3017 Grecia79 Italia1624 Portogallo1018 Spagna1214 Danimarca3531 Finlandia3546 Svezia3541 UK2916 Norvegia3641 X= computer; Y=cellulari StatisticaEuropaNordSudCentro N15546 R 2 XY,423,789,787,167 A1,28-92-,534,85 B,8263,751,490,361 Es(B),2671,12,5480,402 t student3,093,352,720,897 Sign Idc 95% inf,248,192-,87-,76 Idc 95% sup1,407, ,48 Tre europe differenti!

14 Dalla regressione semplice a quella multipla due distinte regressioni semplici di Y su X e di Y su Z, µ i (X) =  +  YX X i µ i (Z) =  +  YZ Z i o invece una regressione multipla di Y su X e Z? µ i (X,Z)=  +  YX X i +  YZ Z i Facciamo allora un passo avanti, e domandiamoci: qual è il valore aggiunto della regressione multipla? Ripartiamo dall’esempio sulla performance nel salto in alto. Finora abbiamo visto due distinte regressioni semplici: col primo abbiamo studiato la dipendenza di Y dall’età dell’atleta (X) col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z). Ma quale differenza passa tra condurre: Rispetto alle ipotesi alla base del modello di regressione semplice, nella regressione multipla si aggiunge l’assunzione di non collinearità tra le variabili esplicative (vedi lezione 7). Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta. Grossi problemi di stabilità della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearità).

15 Coefficienti parziali Supponiamo di essere interessati alla dipendenza di Y da X. Con la regressione semplice misuriamo l’effetto “totale”di X su Y. Se inseriamo nel modello anche la variabile Z, l’effetto di X su Y viene ora calcolato “al netto dell’azione di Z” (ovvero: “a parità di Z”, “controllando rispetto a Z”). E’ formalmente più corretto scrivere il modello di regressione multipla nel seguente modo: µ i (X,Z) =  +  YX.z X i +  YZ.x Z i dove  YX.z è il “coefficiente parziale” di X (ovvero l’effetto di X su Y al netto di Z); mentre  YZ.x è il “coefficiente parziale” di Z (ovvero l’effetto di Z su Y al netto di X). In generale l’effetto di X su Y calcolato nella regressione semplice (  YX ) non coin- cide con l’effetto di X su Y calcolato nella regressione multipla (  YX.z ). Inoltre nella regressione multipla l’effetto di X su Y dipende dalle altre variabili inserite nel modello (  YX.z è in generale diverso da  YX.w ed entrambi sono diversi da  YX.zw ).

16 Leggere tabulati, interpretare dati 1: da che dipende esser ricchi? Vv X i (esplicative)BEs(B) t studentSignific. Idc 95%inf Idc 95%sup Età (classi 10 anni) Dim. Famiglia * N. Figli in famiglia , Dim. Urbana , Tit. Studio madre *** Tit. Studio interv *** N = 966 R 2 =.211F = 42,87Sign:.000 Explanandum: reddito equivalente familiare mensile General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

17 Leggere tabulati, interpretare dati 2: da che dipende essere istruiti? Vv X i (esplicative)BEs(B) t studentSignific. Idc 95%inf Idc 95%sup Età (classi 10 anni) *** N. Figli in famiglia Dim. Urbana *** Tit. Studio madre *** Reddito eq. Famigl *** N = 966 R 2 =.477F =175.53Sign:.000 Explanandum: livello di scolarità dell’intervistata General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

18 Leggere tabulati, interpretare dati 3: cosa causa disagio relazionale? Vv X i (esplicative)BEs(B) t studentSignific. Idc 95%inf Idc 95%sup Età (classi 10 anni) Reddito eq. Famigl ** Dim. Famiglia ** Ormai avete capito come funzionano gli Idc! N. Figli in famiglia Tit. Studio interv N. Legami forti * Peso neighb in rete * Dim. Urbana Grado postfamilism * Tit. Studio madre N = 811 R 2 =.068F =4.145Sign:.000 Explanandum: Scala 0-10 di disagio relazionale (fiducia, rapporti, futuro..) General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

19 Leggere tabulati, interpretare dati 4: quando usiamo psicofarmaci? Vv X i (esplicative)BEs(B) t studentSignific. Idc 95%inf Idc 95%sup Età (classi 10 anni) *** Reddito eq. Famigl Dim. Famiglia Ormai avete capito come funzionano gli Idc! N. Figli in famiglia Tit. Studio interv N. Legami forti ** Dim. Urbana * Densità della rete Tit. Studio madre Disagio relazionale N = 902 R 2 =.075F =6.578Sign:.000 Explanandum: scala 0-3 uso di psicofarmaci General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

20 Leggere tabulati, interpretare dati 5: cosa spinge a chiacchierare? Vv X i (esplicative)BEs(B) t studentSignific. Idc 95%inf Idc 95%sup Età (classi 10 anni) ** Ormai avete capito come funzionano gli Idc! N. Figli in famiglia Dim. Urbana *** Reddito eq. Famigl Tit. Studio interv N = 1060 R 2 =.028F =5.985Sign:.000 Explanandum: durata dell’intervista General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.


Scaricare ppt "Lezione B.10 Regressione e inferenza: il modello lineare TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli."

Presentazioni simili


Annunci Google