La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lezione B.8 Regressione lineare TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli.

Presentazioni simili


Presentazione sul tema: "Lezione B.8 Regressione lineare TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli."— Transcript della presentazione:

1 Lezione B.8 Regressione lineare TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

2 In questa lezione.. In questa lezione ripartiremo dallinterpolazione di una nuvola di punti mediante la spezzata di regressione (funzione che è la migliore di tutte le possibili interpolanti), per poi passare a funzioni rettilinee, magari meno buone, ma capaci di spiegare e di estrapolare. Faremo la conoscenza con le stime dei parametri di una retta ottenute col metodo dei minimi quadrati. In particolare: Esamineremo le proprietà di queste stime. Svilupperemo le procedure di calcolo e di estrapolazione. Individueremo una idonea misura di goodness of fit. Accenneremo alla stima della retta con intercetta vincolata. Confronteremo le stime ottenute con quelle che si ottengono interpolando la retta entro la linea di regressione. Preciseremo la procedura di calcolo per dati in forma di tabella.

3 La linea di regressione ha davvero scarso appeal Ben consapevoli di non trovare la migliore interpolante possibile, preferiamo allora cercare non una generica funzione, ma la retta Y j = i = a + bx i che meglio si adatta ai punti del grafico. La funzione (di qualunque tipo) che si adatta meglio ai dati di una nuvola di punti, minimizzando la funzione di perdita, è solo e sempre la spezzata di regressione. Ma francamente, la spezzata è una legge che non soddisfa le nostre esigenze interpretative e decisionali. Per almeno due ordini di motivi: Perché, essendo una funzione ad assetto variabile, priva di una sua personalità, non ci consente di cogliere il tipo di relazione tra X e Y (Y cresce con progressione aritmetica o geometrica con X? E monotona crescente o ha un picco e poi cala con una forma parabolica, o oscilla in forma sinusoidale?). Non ci consente insomma di individuare una legge semplice e chiara che definisca Y in funzione di X. Perché non ci consente di fare simulazioni sul variare di Y per valori non osservati di X (per esempio, data la spezzata di regressione, quale potrebbe essere una performance attesa a 23 o a 24 anni?): non ci consente cioè di estrapolare stime fuori del campo di variazione osservato.

4 Stimare la retta miglior interpolante Si tratta insomma di stimare i parametri a (intercetta allorigine) e b (pendenza) della retta che minimizzano la funzione di danno quadratico: D = (y j - i ) 2 f ij = (y j – a - bx i ) 2 f ij = min Ma quale retta, tra le infinite possibili che passano entro la nuvola di punti, è quella che meglio vi si adatta, minimizzando D? Proviamo a interpolare tra i dati due possibili regole. La seconda Y**=E(Y) ha una varianza residua elevata V W** =23,4. La prima Y*=180+2X, tracciata a naso si adatta assai meglio. Ma sarà la migliore? XiXi YiYi Y* i = 180+2X i (Y i -Y* i ) 2 Y** i = 220(Y i -Y** i ) ,62209,023,4

5 Stimare col metodo dei minimi quadrati Si definisce Metodo dei Minimi Quadrati (MMQ) quello che consente di stimare la forma analitica dei parametri che minimizzino la funzione D. Si dimostra che le stime ai Minimi Quadrati (LS, least squares) della retta sono: a YX = intercetta allorigine = m Y – b YX m X b YX = coefficiente angolare = cov YX /var X La retta stimata ai MQ ha la forma analitica: Quel che cè di intrigante nel Metodo dei Minimi Quadrati è che per stimare la retta ottima interpolante è sufficiente avere a disposizione quattro soli parametri statistici empiricamente calcolabili. Di questi uno solo (la covarianza) ha a che fare con la distribuzione congiunta (Y,X). Gliu altri tre (le due medie e la varianza della variabile indipendente, o esplicativa) sono addirittura parametri univariati!

6 La procedura di calcolo Per stimare la retta ai MQ dobbiamo dunque impiantare la tavola di calcolo già usa- ta per r XY (i quadrati di Y non servono, ma tra poco torneranno utili!!). I calcoli in- termedi sono: m X =19,6; m Y =220; m 2X =386; V X =1,84; m XY =4317,6; cov XY =+5,6. Quindi b YX =cov YX /var X =5,6/1,84=3,04 e a YX =m Y –b YX m X =220-(3,04x19,6)=160,35 Nella fattispecie, la retta ai MQ – con pendenza più forte di quella precedente - ha una varianza residua ancora migliore (6,357 vs 9). Si noti unaltra proprietà delle stime Y* i basate sulle stime MQ: esse lasciano inalterata lintensità totale di Y. Inoltre V Y =23,4 e r XY =0,853. XiXi YiYi Yi2Yi2 Xi2Xi2 XiYiXiYi Y* i =a+bX i (Y i -Y* i ) ,139, ,138, ,130, ,170, ,173, ,2210, ,227, ,2618, ,263, ,302,88 19, ,6220,006,357

7 Interpolare, estrapolare La retta ai MQ stimata è Y* = 160,35 + 3,04X. La prima cosa da fare è tracciarla entro il grafico, per vedere landamento della legge rettilinea che associa X a Y. Per tracciarla basta calcolare i valori teorici Y* corrispondenti a due valori di X agli estremi del grafico (per es.: se X=18 Y*=215,13) e poi congiungerli. Ma possiamo ora anche estrapolare stime dalla funzione. Per esempio, nessun atleta seguito ha 23 anni, ma in base alla nostra funzione possiamo prevedere che a 23 anni la performance possa essere Y*=160,35+(3,04x23)=230,27 (wow!). XiXi YiYi Y* i =a+bX i (Y i -Y* i ) ,139, ,138, ,130, ,170, ,173, ,2210, ,227, ,2618, ,263, ,302,88 19, ,006,357 se la retta non si insinua bene tra i da-ti delle due luna: o avete sbagliato a calcolare la retta o avete sbagliato a tracciarla!!

8 Scomporre la varianza intorno alla retta ai minimi quadrati La proprietà di scomposizione della varianza vale per le funzioni lineari di regressione stimate col metodo dei MQ, e in primo luogo per la retta MQ: Abbiamo detto che la proprietà di spaccare (scomporre) la varianza totale della variabile da spiegare in due parti (una quota spiegata dallexplanans e una residuale) vale per poche funzioni y=(x), oltre alla spezzata di regressione. La proprietà di scomposizione della varianza vale per le funzioni lineari di regressione stimate col metodo dei MQ, e in primo luogo per la retta MQ: Var T (Y) = Var WR + Var BR dove Var WR è la somma dei quadrati degli scarti tra valori osservati e teorici (calcolati cioè in base allequazione stimata) ponderati per le rispettive frequenze. misura del gra- do di adattamento (goodness of fit) della retta MQ ai dati Analogamente al rapporto di correlazione 2 YX possiamo così costruire una misura del gra- do di adattamento (goodness of fit) della retta MQ ai dati, ossia una misura del grado in cui la relazione rettilinea con lexplanans X spiega la variabilità di Y. La misura è:

9 Il coefficiente di determinazione Come YX anche 2 YX è una quantità compresa tra 0 e 1, che si può calcolare come complemento a uno del rapporto tra la varianza residua e la varianza totale di Y. Nel caso dei 10 atleti V(Y)=23,4; V WR (Y)=6,353; R 2 YX =1-(6,353/23,4)=0,728. Possiamo dire che il 72,8% della variabilità di performance dipende dalletà. Per quellesempio avevamo già calcolato 2 =1-(V WG /V Y )=0,7565: a conferma che è la spezzata di regressione (e nessunaltra funzione) lottima interpolante. La retta MQ è solo un second best. Vale la disequazione: Y* i =a+bX i (Y i -Y* i ) 2 215,139,80 215,138,23 215,130,02 218,170,03 218,173,33 221,2210,36 221,227,74 224,2618,16 224,263,02 227,302,88 220,006,357 il coefficiente di determinazione è esattamente pari al quadrato del coefficiente di correlazione lineare! Il calcolo di R, passando dalla stima dei valori teorici e dagli scarti al quadrato (varianza residua) è però un po faticoso. Ma cè una splendida sorpresa. Se la retta è stimata ai MQ (e solo in tal caso) senza alcun ulteriore vincolo si dimostra che il coefficiente di determinazione è esattamente pari al quadrato del coefficiente di correlazione lineare! Nel nostro esempio: R 2 YX =(0,853) 2 =0,728

10 Un esempio regione XY Italia0,420,82 Portogallo0,590,76 Gran Bret.0,650,74 Grecia0,440,68 Spagna0,320,67 Irlanda0,390,67 Olanda0,600,61 Austria0,560,51 Belgio0,600,50 Germania0,530,50 Finlandia0,720,45 Danimarca0,780,42 TOTALE/N0,550,61 Unanalisi cross-section su due misure di pari opportunità (X=% donne che lavora, Y=disuguaglianza nei redditi) per 12 paesi europei mostra che se sa- le loccupazione femminile cala la disuguaglianza (ma R 2 YX è bassa) E(X)=0,55; V(X)=0,0175; E(Y)=0,61; V(Y)=0,0169 Cov=-0,0095; XY =-(0,0095/0,0172)=-0,5523 b YX =-(0,0095/0,0175)=-0,5428 a YX =0,61-(-0,5428x0,55)=0,91 R 2 YX =( XY ) 2 =0,305 (bassa)

11 Un secondo esempio: scomporre un miscuglio regioneXY Piemonte9056 Lombardia8650 Trentino7150 Veneto3738 Friuli5354 Liguria11855 Emilia9760 Toscana6542 Umbria4826 Marche3627 Lazio4440 AbruzziMol1716 Campania3116 Puglie2617 Basilicata259 Calabria2114 Sicilia3620 Sardegna3324 Media51,934,1 Distribuzione di 18 regioni italiane (Piemonte+ValdAosta e Abruzzi+Molise) secondo X=Divorzi per 100mila abitanti al 1988 e Y=coppie non coniugate per 1000coppie al 2001 Ven Laz Umb X Y X+ Y+ X+ Y- X- Y+ X- Y- XY = 0,88 (ma se separassimo nord e sud, cosa troveremmo? Alla prossima lezione..)

12 Scomporre un miscuglio / 2 Se separiamo le 8 regioni del Nord dalle 10 del Centro -Sud troviamo rette diverse con grado di adattamento assai più basso. E dunque la distinzione Nord/Sud a fare la differenza! ItaliaNordCSud E(X)51,977,131,7 E(Y)34,150,620,9 Cov XY 420,11123,4459,57 V(X)816,7589,786,4 V(Y)278,550,2469,1 XY 0,88 0,7170,771 b YX 0,5140,2090,6895 a YX 7,4 34,46-0,956 R 2 YX 0,776 0,5140,594

13 Un terzo esempio: manipolare outliers Costruiamo il diagramma di dispersione delle venti regioni italiane in base a due indici di struttura al censimento della popolazione del 2001: V è lindice di vecchiaia (Pop>64/ Pop<15%), C è la quota di coppie non coniugate sul totale delle coppie, per mille. Due osservazioni: RegVC Pie17652 VdA14982 Lom13850 Tre10650 Ven13638 Fri18754 Lig24156 Emi19260 Tos19242 Umb18626 Mar16927 Laz13040 Abr14718 Mol14811 Cam7716 Pug9517 Bas1199 Cal10214 Sic9920 Sar11624 C V Val dAosta Liguria (1) Il diagramma si addensa gene- ralmente in una- rea a forma di el- lisse, che si defi- nisce nuvola di punti. (2) Rispetto ai confini dellellisse alcuni casi assu- mono una coordi- nata anomala: si parla di outliers.

14 Manipolare outliers/2 Cosa succede se escludiamo dallanalisi il dato anomalo della Val dAosta? r XY =0,526 R 2 YX =0,277 b YX =0,252; a YX =-1,324 C V Val dAosta Liguria C V r XY = 0,593 R 2 YX = 0,352 b YX = 0,247; a YX = -3,032 La retta ai MQ mantiene la stessa pendenza, ma si sposta un po più in alto

15 Un quarto esempio: computer e cellulari CountryXY Austria2518 Belgio2512 Francia2312 Germania2313 Olanda2913 Svizzera Grecia79 Italia1624 Portogallo1018 Spagna Danimarca3531 Finlandia3546 Svezia3541 UK2916 Norvegia TOT TOT/N24,6721,67 X= numero di computer per 100 abitanti, Y=numero di cellulari per 100 abitanti, al 97 in 15 paesi europei. Cè correlazione tra i 2 fenomeni? Centro E.E.MediterNord E.Europa E(X)25,8311,2534,0024,67 E(Y)14,1716,2535,0021,67 Cov XY 2,694515,937524,0070,6886 V(X)7,47210,68756,4085,556 V(Y)5,80630, ,00137,956 XY +0,409+0,887+0,888+0,651

16 Computer e cellulari/2 Cè, sì, correlazione tra i due fenomeni, ma la correlazione è assai diversa per i paesi del centro Europa, rispetto a quelli del sud e del nord. La covarianza tra computer e cellulari è quindi diversa nelle tre ripartizioni geografiche. Forse le ripartizioni geografiche influiscono, prima che sulle correlazioni, già sulle distribuzioni di frequenza di X e Y? CellulariV(Y/geo)n geo V(Y/geo)n geo Centro5,806634,836 Sud30, ,750 Nord114, , ,586 V WG (Y) = 48,3724; V T (Y)=137,956 V WG (Y)/V T (Y)=0,351; 2 YG =1-0,351=0,649 ComputerV(X/geo)n geo V(X/geo)n geo Centro7,472644,832 Sud10, ,750 Nord6,400532, ,582 V WG (X)=7,972; V T (X)=85,556 V WG (X)/V T (X)=0,093: 2 XG =1-0,093=0,907 Abbiamo già le varianze vincolate delle tre ripartizioni geografiche (e la varianza generale) sia per X che per Y. Il calcolo di 2 XG e 2 YG ci dice che la varianza della diffusione dei computer è spiegata in misura altissima dal parametro geografico, mentre meno forte è la sua influenza sulluso di cellulari.

17 Computer e cellulari/3 Sia X il numero di computer e Y il numero di cellulari per 100 abitanti, al 1997, in 15 paesi europei. La retta stimata ai MQ che lega Y a X per lintero continente è: Y=1,287+0,82X. Ma essa si scompone in tre diverse rela- zioni funzionali per Nord, Centro e Sud: Centro E.E.MediterNord E.Europa E(X)25,8311,2534,0024,67 E(Y)14,1716,2535,0021,67 Cov XY 2,694515,937524,0070,6886 V(X)7,47210,68756,4085,556 V(Y)5,80630, ,00137,956 XY +0,409+0,8873+0,888+0,651 b XY +0,3606+1,4912+3,75+0,8262 a XY +4,855-0,526-92,5+1,287 R 2 XY 0,1670,7880,7890,424 Y X=0 4,85-0,53-92,51,29 Y X=20 12,0729,30-17,517,81 Y X=40 19,2859,1257,534,33 Y=-92,5+3,75X al Nord (R 2 =0,79) Y=+4,85+0,36X al Centro (R 2 =0,17) Y=-0,53+1,49X al Sud (R 2 =0,79)

18 NB: instabilità della relazione se V(X) è bassa Nei 5 paesi del Nord la relazione MQ trovata è Y=-92,5+3,75X La goodness of fit è alta (79% della varianza di Y è spiegata da X) ma qualcosa non quadra: la relazione è tutta trainata dal caso inglese, che si differenzia dagli altri. Se si esclude il dato UK la prima cosa che colpisce è che la V(X) diventa piccolissima. E R 2 diventa insignificante Nord a 5Nord a 4 E(X)34,0035,25 E(Y)35,0039,75 Cov XY 24,000,3125 V(X)6,400,1875 V(Y)114,0029,6875 b XY +3,75+1,6667 a XY -92,5-19,00 R 2 XY 0,789 0,0175!! CountryXY Danimarca3531 Finlandia3546 Svezia3541 UK2916 Norvegia3641 Attenti: se la varianza dellexplanans X è molto piccola, diffidare delle stime MQ di una retta!

19 Corollario 1: Minimi quadrati vincolati In alcuni casi i risultati della stima della retta sono sottoposti ad alcuni vincoli, legati alla specificità del fenomeno studiato. Per es. si può voler interpolare la nuvola di punti con una retta che passi per lori- gine, dove quindi lintercetta allorigine sia vincolata: a YX =0. In questo caso il coefficiente di regressione stimato (con il metodo dei minimi quadrati vincolato) è pari a: Naturalmente se la funzione non è stimata ai MQ o è stimata coi MQ vincolati la relazione R 2 YX =( YX ) 2 non sussiste e la bontà delladattamento va misurata attraverso la Var WR. Per ricordarsi questa variante si noti come (non a caso) numeratore e denomina- tore sono i primi addendi rispettivamente del numeratore e denominatore della formula completa, espressa con le le formule operative di cov YX e di var X )

20 Un esempio Su 5 contribuenti è stato rilevato il reddito procapite (X) in migliaia di euro, e il consumo per beni di base (Y) in centinaia di euro. Ecco i calcoli per la retta MQ: m X =3; m Y =5; m 2X =13,8; m 2Y =28,6; V X =4,8; V Y =3,6; m XY =18,2; cov XY =+3,2. Quindi b YX =0,67; a YX =3; r YX =0,77; Y=3+0,67X. Se X=0 allora Y=3; se X=6 allora Y=5… XiXi YiYi Yi2Yi2 Xi2Xi2 XiYiXiYi ,613,818,2 Ma la retta interpolata ci dice una cosa curio- sa: che con zero entrate cè comunque un consumo di 300 euro. Non va mica bene.. A noi interessa trovare una retta magari meno buona (aumenterà la varianza residua) ma che per redditi nulli abbia consumi nulli: in- somma una retta che passi per lorigine. Essa avrà quindi intercetta a YX =0 e pendenza b YX =18,2/13,8=1,32. La retta Y=1,32X si impenna ora molto più brusca. Calcolate voi la varianza residua e confrontatela con quella della retta non vincolata.

21 Corollario 2: Interpolante della linea di regressione Generalmente linterpolante lineare ottima secondo il criterio dei MQ è ottenuta minimizzando la somma dei quadrati degli scarti tra tutte le osservazioni e le corrispondenti interpolanti teoriche. Ma si dimostra che: Si ottiene esattamente la stessa retta ai MQ minimizzando gli scostamenti quadratici tra le medie vincolate EY|x i e i rispettivi valori teorici. I due modi per determinare i parametri della retta ai MQ sono dunque equivalenti. Ma la varianza di Y calcolata tra medie vincolate Y|x i non potrà che essere infe- riore (a volte molto inferiore!) alla varianza tra tutte le osservazioni Y j. Quindi: Interpolando la retta MQ intorno alla spezzata, va bene fidarsi dei para- metri della retta, ma non del coefficiente di determinazione R 2 YX = ( YX ) 2 ! Attenzione quindi!!

22 Il solito esempio (con una variante) XiXi YViYVi nini X i n i YViniYVini Xi2niXi2ni YVi2niYVi2ni XiYViniXiYVini , ,84317,6 I soliti dieci atleti.. Torniamo ai dieci saltatori ma con una variante: I tre ragazzi di 18 anni saltavano – ricordiamo – rispettivamente 212, 215 e 218 cm: insomma cera il più bravo e il meno bravo. Facciamo ora lipotesi che tutti e tre saltino 215 cm (cioè la media) e che quindi non ci sia variabilità entro la classe di età. E lo stesso facciamo per i 19enni e così via. Stimiamo la regressione MQ delle medie vincolate Y V i delle performances al variare delletà (è tra laltro un buon esercizio di calcolo con modalità congiunte ponderate per le rispettive frequenze): otterremo una identica retta (b YX =160,35 a YX =3,04) ma adattamento molto più elevato (R 2 YX =0,958)!!

23 ..e una controprova XiXi YiYi Yi2Yi2 Xi2Xi2 XiYiXiYi , , ,6 I soliti dieci atleti.. I soliti dieci atleti ma più variabilità.. Morale: a parità di spezzata di regressio- ne (quindi di retta ai minimi quadrati) la goodness of fit può variare assai. Ma supponia- mo che i dieci ragazzi abbia- no la stessa performance media per età, ma tra quelli di pari età ci sia più variabilità: Il diagramma è più disperso. E la retta MQ? Si trova b YX =160,35; a YX =3,04 (la retta stimata è la stessa) ma R 2 YX =0,36 (ladattamento peggiore)!!

24 Corollario 3: Stima da dati in forma di tabella Come già il coefficiente di correlazione, anche la retta ai MQ può essere calcolata a partire da una tabella a doppia entrata. Facciamo un esempio. Per 50 studenti conosciamo informazioni: il numero di componenti la famiglia (X) e il voto mediano (Y) ai temi in classe. Stimiamo la relazione lineare tra X e Y. I calcoli intermedi (effettuati analiticamente sullintera distribuzione congiunta) so- no: m X =1,60; m Y =6,44; V X =1,44; V Y =42,44; cov XY =+0,58. I parametri stimati sono b YX =0,4 e a YX =5,8. Ma ladattamento è basso: r XY =+0,074 e R 2 XY =0,0055. Se invece avessimo associato la dimensione familiare non ai voti di ciascuno stu- dente ma alle sole medie vincolate (colonne cerchiate), e avessimo quindi stimato la retta MQ intorno alla spezzata di regressione, avremmo trovato la stessa retta, ma con goodness of fit ben diversa: V E(Y(X) =0,234; r XE(Y/X) =+0,991; R 2 XE(Y/X) =0,982


Scaricare ppt "Lezione B.8 Regressione lineare TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli."

Presentazioni simili


Annunci Google