Tecniche quantitative per l’analisi nella ricerca sociale

Slides:



Advertisements
Presentazioni simili
- le Medie la Moda la Mediana
Advertisements

8) GLI INTERVALLI DI CONFIDENZA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Le distribuzioni di probabilità continue
Come organizzare i dati per un'analisi statistica al computer?
____________________
LA VARIABILITA’ IV lezione di Statistica Medica.
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
“Teoria e metodi della ricerca sociale e organizzativa”
Lez. 3 - Gli Indici di VARIABILITA’
La regressione lineare trivariata
ANALISI DELLA COVARIANZA
Progetto Pilota 2 Lettura e interpretazione dei risultati
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
III. Valutazione. La valutazione si avvale di quanto ci dicono gli indicatori e della correlazione fra essi, allo scopo di ricavarne suggerimenti di carattere.
Elementi di Matematica
L’elasticità della domanda rispetto al “proprio prezzo”
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
ALBERI DECISIONALI terza parte
La logica della regressione
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
Canale A. Prof.Ciapetti AA2003/04
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 6: la funzione c2
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Applicazioni del foglio elettronico
Applicazioni del foglio elettronico
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
1 Y Modello di regressione semplice Supponiamo che una variabile Y sia funzione lineare di unaltra variabile X, con parametri incogniti 1 e 2 che vogliamo.
Luciano giromini – la misura in psicologia, 2009 database e distribuzioni - misure di sintesi - misure di variabilità descrizione dei dati:
Radix-Sort(A,d) // A[i] = cd...c2c1
Principali analisi statistiche
Un trucchetto di Moltiplicazione per il calcolo mentale
Introduzione alla Regressione Lineare e alla Correlazione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
Estratto per la relazione del Dott. Trevisanato 30 maggio 2008.
COVARIANZA e CORRELAZIONE.
Simone Mosca & Daniele Zucchini 4Bi.
Regressione e correlazione
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
La regressione come strumento di sintesi delle relazioni tra variabili
Cap. 13 Regressione 1. Modello statistico Un modello statistico è una formula che interpreta e sintetizza matematicamente il comportamento congiunto di.
Lez. 3 - Gli Indici di VARIABILITA’
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Regressione Lineare parte 2 Corso di Misure Meccaniche e Termiche David Vetturi.
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Il residuo nella predizione
IL CAMPIONE.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
ANALISI E INTERPRETAZIONE DATI
TRATTAMENTO STATISTICO DEI DATI ANALITICI
analisi bidimensionale #2
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
Regressione lineare Misure Meccaniche e Termiche - Università di Cassino2 Distribuzioni Correlate Una variabile casuale z, può derivare dalla composizione.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Gli Indici di VARIABILITA’
Transcript della presentazione:

Tecniche quantitative per l’analisi nella ricerca sociale TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.8 Regressione lineare

In questa lezione.. In questa lezione ripartiremo dall’interpolazione di una nuvola di punti mediante la spezzata di regressione (funzione che è la migliore di tutte le possibili interpolanti), per poi passare a funzioni rettilinee, magari meno buone, ma capaci di spiegare e di estrapolare. Faremo la conoscenza con le stime dei parametri di una retta ottenute col metodo dei minimi quadrati. In particolare: Esamineremo le proprietà di queste stime. Svilupperemo le procedure di calcolo e di estrapolazione. Individueremo una idonea misura di goodness of fit. Accenneremo alla stima della retta con intercetta vincolata. Confronteremo le stime ottenute con quelle che si ottengono interpolando la retta entro la linea di regressione. Preciseremo la procedura di calcolo per dati in forma di tabella.

La linea di regressione ha davvero scarso appeal La funzione (di qualunque tipo) che si adatta ‘meglio’ ai dati di una nuvola di punti, minimizzando la funzione di perdita, è solo e sempre la spezzata di regressione. Ma francamente, la spezzata è una legge che non soddisfa le nostre esigenze interpretative e decisionali. Per almeno due ordini di motivi: Perché, essendo una funzione ‘ad assetto variabile’, priva di una sua personalità, non ci consente di cogliere il tipo di relazione tra X e Y (Y cresce con progressione aritmetica o geometrica con X? E’ monotona crescente o ha un picco e poi cala con una forma parabolica, o oscilla in forma sinusoidale?). Non ci consente insomma di individuare una ‘legge semplice e chiara che definisca Y in funzione di X’. Perché non ci consente di fare simulazioni sul variare di Y per valori non osservati di X (per esempio, data la spezzata di regressione, quale potrebbe essere una performance attesa a 23 o a 24 anni?): non ci consente cioè di estrapolare stime fuori del campo di variazione osservato. Ben consapevoli di non trovare la migliore interpolante possibile, preferiamo allora cercare non una generica funzione, ma la retta Yj = i = a + bxi che meglio si adatta ai punti del grafico.

Stimare la retta miglior interpolante Si tratta insomma di stimare i parametri a (intercetta all’origine) e b (pendenza) della retta che minimizzano la funzione di danno quadratico: D = (yj - i)2fij = (yj – a - bxi)2fij = min Ma quale retta, tra le infinite possibili che passano entro la nuvola di punti, è quella che meglio vi si adatta, minimizzando D? Proviamo a interpolare tra i dati due possibili regole. La seconda Y**=E(Y) ha una varianza residua elevata VW**=23,4. La prima Y*=180+2X, tracciata ‘a naso’ si adatta assai meglio. Ma sarà la migliore? Xi Yi Y*i= 180+2X i (Yi-Y*i)2 Y**i= 220 (Yi-Y**i)2 18 212 216 16 220 64 218 4 215 1 25 19 20 224 21 222 226 36 22 229 81 19,6 9,0 23,4

Stimare col metodo dei minimi quadrati Si definisce “Metodo dei Minimi Quadrati” (MMQ) quello che consente di stimare la forma analitica dei parametri che minimizzino la funzione D. Si dimostra che le stime ai Minimi Quadrati (LS, least squares) della retta sono: aYX = intercetta all’origine = mY – bYXmX bYX = coefficiente angolare = covYX/varX La retta stimata ai MQ ha la forma analitica: Quel che c’è di intrigante nel Metodo dei Minimi Quadrati è che per stimare la retta ottima interpolante è sufficiente avere a disposizione quattro soli parametri statistici empiricamente calcolabili. Di questi uno solo (la covarianza) ha a che fare con la distribuzione congiunta (Y,X). Gliu altri tre (le due medie e la varianza della variabile indipendente, o esplicativa) sono addirittura parametri univariati!

La procedura di calcolo Per stimare la retta ai MQ dobbiamo dunque impiantare la tavola di calcolo già usa-ta per rXY (i quadrati di Y non servono, ma tra poco torneranno utili!!). I calcoli in-termedi sono: mX=19,6; mY=220; m2X=386; VX=1,84; mXY=4317,6; covXY=+5,6. Quindi bYX=covYX/varX=5,6/1,84=3,04 e aYX=mY–bYXmX=220-(3,04x19,6)=160,35 Nella fattispecie, la retta ai MQ – con pendenza più forte di quella precedente - ha una varianza residua ancora migliore (6,357 vs 9). Si noti un’altra proprietà delle stime Y*i basate sulle stime MQ: esse lasciano inalterata l’intensità totale di Y. Inoltre VY=23,4 e rXY=0,853. Xi Yi Yi2 Xi2 XiYi Y*i=a+bXi (Yi-Y*i)2 18 212 44944 324 3816 215,13 9,80 218 47524 3924 8,23 215 46225 3870 0,02 19 361 4142 218,17 0,03 220 48400 4180 3,33 20 400 4360 221,22 10,36 224 50176 4480 7,74 21 441 4620 224,26 18,16 226 51076 4746 3,02 22 229 52441 484 5038 227,30 2,88 19,6 48423 386 4317,6 220,00 6,357

Interpolare, estrapolare La retta ai MQ stimata è Y* = 160,35 + 3,04X. La prima cosa da fare è tracciarla entro il grafico, per ‘vedere’ l’andamento della ‘legge rettilinea’ che associa X a Y. Per tracciarla basta calcolare i valori teorici Y* corrispondenti a due valori di X agli estremi del grafico (per es.: se X=18 Y*=215,13) e poi congiungerli. Ma possiamo ora anche ‘estrapolare’ stime dalla funzione. Per esempio, nessun atleta seguito ha 23 anni, ma in base alla nostra funzione possiamo prevedere che a 23 anni la performance possa essere Y*=160,35+(3,04x23)=230,27 (wow!). se la retta non si insinua bene tra i da-ti delle due l’una: o avete sbagliato a calcolare la retta o avete sbagliato a tracciarla!! Xi Yi Y*i=a+bXi (Yi-Y*i)2 18 212 215,13 9,80 218 8,23 215 0,02 19 218,17 0,03 220 3,33 20 221,22 10,36 224 7,74 21 224,26 18,16 226 3,02 22 229 227,30 2,88 19,6 220,00 6,357

Scomporre la varianza intorno alla retta ai minimi quadrati Abbiamo detto che la proprietà di spaccare (scomporre) la varianza totale della variabile da spiegare in due parti (una quota ‘spiegata’ dall’explanans e una ‘residuale’) vale per poche funzioni y=(x), oltre alla spezzata di regressione. La proprietà di scomposizione della varianza vale per le funzioni lineari di regressione stimate col metodo dei MQ, e in primo luogo per la retta MQ: VarT(Y) = VarWR + VarBR dove VarWR è la somma dei quadrati degli scarti tra valori osservati e ‘teorici’ (calcolati cioè in base all’equazione stimata) ponderati per le rispettive frequenze. Analogamente al rapporto di correlazione 2YX possiamo così costruire una misura del gra-do di adattamento (goodness of fit) della retta MQ ai dati, ossia una misura del grado in cui la relazione rettilinea con l’explanans X ‘spiega’ la variabilità di Y. La misura è:

Il coefficiente di determinazione Come YX anche 2YX è una quantità compresa tra 0 e 1, che si può calcolare come complemento a uno del rapporto tra la varianza residua e la varianza totale di Y. Nel caso dei 10 atleti V(Y)=23,4; VWR(Y)=6,353; R2YX=1-(6,353/23,4)=0,728. Possiamo dire che il 72,8% della variabilità di performance dipende dall’età. Per quell’esempio avevamo già calcolato 2=1-(VWG/VY)=0,7565: a conferma che è la spezzata di regressione (e nessun’altra funzione) l’ottima interpolante. La retta MQ è solo un second best. Vale la disequazione: Y*i=a+bXi (Yi-Y*i)2 215,13 9,80 8,23 0,02 218,17 0,03 3,33 221,22 10,36 7,74 224,26 18,16 3,02 227,30 2,88 220,00 6,357 Il calcolo di R, passando dalla stima dei valori teorici e dagli scarti al quadrato (varianza residua) è però un po’ faticoso. Ma c’è una splendida sorpresa. Se la retta è stimata ai MQ (e solo in tal caso) senza alcun ulteriore vincolo si dimostra che il coefficiente di determinazione è esattamente pari al quadrato del coefficiente di correlazione lineare! Nel nostro esempio: R2YX=(0,853)2 =0,728

Un esempio Un’analisi cross-section su due misure di pari opportunità (X=% donne che lavora, Y=disuguaglianza nei redditi) per 12 paesi europei mostra che se sa-le l’occupazione femminile cala la disuguaglianza (ma R2YX è bassa) E(X)=0,55; V(X)=0,0175; E(Y)=0,61; V(Y)=0,0169 Cov=-0,0095; XY=-(0,0095/0,0172)=-0,5523 bYX=-(0,0095/0,0175)=-0,5428 aYX=0,61-(-0,5428x0,55)=0,91 R2YX=(XY)2 =0,305 (bassa) regione X Y Italia 0,42 0,82 Portogallo 0,59 0,76 Gran Bret. 0,65 0,74 Grecia 0,44 0,68 Spagna 0,32 0,67 Irlanda 0,39 Olanda 0,60 0,61 Austria 0,56 0,51 Belgio 0,50 Germania 0,53 Finlandia 0,72 0,45 Danimarca 0,78 TOTALE/N 0,55

Un secondo esempio: scomporre un miscuglio regione X Y Piemonte 90 56 Lombardia 86 50 Trentino 71 Veneto 37 38 Friuli 53 54 Liguria 118 55 Emilia 97 60 Toscana 65 42 Umbria 48 26 Marche 36 27 Lazio 44 40 AbruzziMol 17 16 Campania 31 Puglie Basilicata 25 9 Calabria 21 14 Sicilia 20 Sardegna 33 24 Media 51,9 34,1 Distribuzione di 18 regioni italiane (Piemonte+Vald’Aosta e Abruzzi+Molise) secondo X=Divorzi per 100mila abitanti al 1988 e Y=coppie non coniugate per 1000coppie al 2001 Y X- Y+ Laz X+ Y+ Ven X- Y- X+ Y- Umb X XY= 0,88 (ma se separassimo nord e sud, cosa troveremmo? Alla prossima lezione ..)

Scomporre un miscuglio / 2 Italia Nord CSud E(X) 51,9 77,1 31,7 E(Y) 34,1 50,6 20,9 CovXY 420,11 123,44 59,57 V(X) 816,7 589,7 86,4 V(Y) 278,5 50,24 69,1 XY 0,88 0,717 0,771 bYX 0,514 0,209 0,6895 aYX 7,4 34,46 -0,956 R2YX 0,776 0,594 Se separiamo le 8 regioni del Nord dalle 10 del Centro -Sud troviamo rette diverse con grado di adattamento assai più basso. E’ dunque la distinzione Nord/Sud a ‘fare la differenza’!

Un terzo esempio: manipolare outliers Reg V C Pie 176 52 VdA 149 82 Lom 138 50 Tre 106 Ven 136 38 Fri 187 54 Lig 241 56 Emi 192 60 Tos 42 Umb 186 26 Mar 169 27 Laz 130 40 Abr 147 18 Mol 148 11 Cam 77 16 Pug 95 17 Bas 119 9 Cal 102 14 Sic 99 20 Sar 116 24 Un terzo esempio: manipolare outliers Costruiamo il diagramma di dispersione delle venti regioni italiane in base a due indici di struttura al censimento della popolazione del 2001: V è l’indice di vecchiaia (Pop>64/ Pop<15%), C è la quota di coppie non coniugate sul totale delle coppie, per mille. Due osservazioni: (1) Il diagramma si addensa gene-ralmente in un’a-rea a forma di el-lisse, che si defi-nisce ‘nuvola di punti’. (2) Rispetto ai confini dell’ellisse alcuni casi assu-mono una coordi-nata anomala: si parla di ‘outliers’. C Val d’Aosta Liguria V

Manipolare outliers/2 Cosa succede se escludiamo dall’analisi il dato anomalo della Val d’Aosta? rXY=0,526  R2YX=0,277 bYX=0,252; aYX=-1,324 rXY= 0,593  R2YX= 0,352 bYX= 0,247; aYX= -3,032 C C Val d’Aosta Liguria Liguria V V La retta ai MQ mantiene la stessa pendenza, ma si sposta un po’ più in alto

Un quarto esempio: computer e cellulari X= numero di computer per 100 abitanti, Y=numero di cellulari per 100 abitanti, al 97 in 15 paesi europei. C’è correlazione tra i 2 fenomeni? Country X Y Austria 25 18 Belgio 12 Francia 23 Germania 13 Olanda 29 Svizzera 30 17  155 85 Grecia 7 9 Italia 16 24 Portogallo 10 Spagna 14 45 65 Danimarca 35 31 Finlandia 46 Svezia 41 UK Norvegia 36 170 175 TOT 370 325 TOT/N 24,67 21,67 Centro E. E.Mediter Nord E. Europa E(X) 25,83 11,25 34,00 24,67 E(Y) 14,17 16,25 35,00 21,67 CovXY 2,6945 15,9375 24,00 70,6886 V(X) 7,472 10,6875 6,40 85,556 V(Y) 5,806 30,1875 114,00 137,956 XY +0,409 +0,887 +0,888 +0,651

Computer e cellulari/2 Cellulari V(Y/geo) ngeo V(Y/geo)ngeo Centro 5,806 6 34,836 Sud 30,1875 4 120,750 Nord 114,000 5 570,000 15 725,586 VWG(Y) = 48,3724; VT(Y)=137,956 VWG(Y)/VT(Y)=0,351; 2YG=1-0,351=0,649 C’è, sì, correlazione tra i due fenomeni, ma la correlazione è assai diversa per i paesi del centro Europa, rispetto a quelli del sud e del nord. La covarianza tra computer e cellulari è quindi diversa nelle tre ripartizioni geografiche. Forse le ripartizioni geografiche influiscono, prima che sulle correlazioni, già sulle distribuzioni di frequenza di X e Y? Abbiamo già le varianze vincolate delle tre ripartizioni geografiche (e la varianza generale) sia per X che per Y. Il calcolo di 2XG e 2YG ci dice che la varianza della diffusione dei computer è spiegata in misura altissima dal parametro geografico, mentre meno forte è la sua influenza sull’uso di cellulari. Computer V(X/geo) ngeo V(X/geo)ngeo Centro 7,472 6 44,832 Sud 10,6875 4 42,750 Nord 6,400 5 32,000 15 119,582 VWG(X)=7,972; VT(X)=85,556 VWG(X)/VT(X)=0,093: 2XG=1-0,093=0,907

Computer e cellulari/3 Centro E. E.Mediter Nord E. Europa E(X) 25,83 11,25 34,00 24,67 E(Y) 14,17 16,25 35,00 21,67 CovXY 2,6945 15,9375 24,00 70,6886 V(X) 7,472 10,6875 6,40 85,556 V(Y) 5,806 30,1875 114,00 137,956 XY +0,409 +0,8873 +0,888 +0,651 bXY +0,3606 +1,4912 +3,75 +0,8262 aXY +4,855 -0,526 -92,5 +1,287 R2XY 0,167 0,788 0,789 0,424 YX=0 4,85 -0,53 1,29 YX=20 12,07 29,30 -17,5 17,81 YX=40 19,28 59,12 57,5 34,33 Sia X il numero di computer e Y il numero di cellulari per 100 abitanti, al 1997, in 15 paesi europei. La retta stimata ai MQ che lega Y a X per l’intero continente è: Y=1,287+0,82X. Ma essa si scompone in tre diverse rela-zioni funzionali per Nord, Centro e Sud: Y=-92,5+3,75X al Nord (R2=0,79) Y=+4,85+0,36X al Centro (R2=0,17) Y=-0,53+1,49X al Sud (R2=0,79)

NB: instabilità della relazione se V(X) è bassa Nei 5 paesi del Nord la relazione MQ trovata è Y=-92,5+3,75X La goodness of fit è alta (79% della varianza di Y è spiegata da X) ma qualcosa non quadra: la relazione è tutta ‘trainata’ dal caso inglese, che si differenzia dagli altri. Se si esclude il dato UK la prima cosa che colpisce è che la V(X) diventa piccolissima. E R2 diventa insignificante Country X Y Danimarca 35 31 Finlandia 46 Svezia 41 UK 29 16 Norvegia 36 Nord a 5 Nord a 4 E(X) 34,00 35,25 E(Y) 35,00 39,75 CovXY 24,00 0,3125 V(X) 6,40 0,1875 V(Y) 114,00 29,6875 bXY +3,75 +1,6667 aXY -92,5 -19,00 R2XY 0,789 0,0175!! Attenti: se la varianza dell’explanans X è molto piccola, diffidare delle stime MQ di una retta!

Corollario 1: Minimi quadrati vincolati In alcuni casi i risultati della stima della retta sono sottoposti ad alcuni vincoli, legati alla specificità del fenomeno studiato. Per es. si può voler interpolare la nuvola di punti con una retta che passi per l’ori-gine, dove quindi l’intercetta all’origine sia vincolata: aYX=0. In questo caso il coefficiente di regressione stimato (con il metodo dei minimi quadrati ‘vincolato’) è pari a: Per ricordarsi questa variante si noti come (non a caso) numeratore e denomina-tore sono i primi addendi rispettivamente del numeratore e denominatore della formula completa, espressa con le le formule operative di covYX e di varX) Naturalmente se la funzione non è stimata ai MQ o è stimata coi MQ vincolati la relazione R2YX=(YX)2 non sussiste e la bontà dell’adattamento va misurata attraverso la VarWR.

Un esempio Su 5 contribuenti è stato rilevato il reddito procapite (X) in migliaia di euro, e il consumo per beni di base (Y) in centinaia di euro. Ecco i calcoli per la retta MQ: mX=3; mY=5; m2X=13,8; m2Y=28,6; VX=4,8; VY=3,6; mXY=18,2; covXY=+3,2. Quindi bYX=0,67; aYX=3; rYX=0,77; Y=3+0,67X. Se X=0 allora Y=3; se X=6 allora Y=5… Xi Yi Yi2 Xi2 XiYi 1 3 9 5 25 6 36 18 7 8 64 49 56 28,6 13,8 18,2 Ma la retta interpolata ci dice una cosa curio-sa: che con zero entrate c’è comunque un consumo di 300 euro. Non va mica bene.. A noi interessa trovare una retta magari meno buona (aumenterà la varianza residua) ma che per redditi nulli abbia consumi nulli: in-somma una retta che passi per l’origine. Essa avrà quindi intercetta aYX=0 e pendenza bYX=18,2/13,8=1,32. La retta Y=1,32X si impenna ora molto più brusca. Calcolate voi la varianza residua e confrontatela con quella della retta non vincolata.

Corollario 2: Interpolante della linea di regressione Generalmente l’interpolante lineare ottima secondo il criterio dei MQ è ottenuta minimizzando la somma dei quadrati degli scarti tra tutte le osservazioni e le corrispondenti interpolanti teoriche. Ma si dimostra che: Si ottiene esattamente la stessa retta ai MQ minimizzando gli scostamenti quadratici tra le medie vincolate EY|xi e i rispettivi valori teorici. I due modi per determinare i parametri della retta ai MQ sono dunque equivalenti. Ma la varianza di Y calcolata tra medie vincolate Y|xi non potrà che essere infe-riore (a volte molto inferiore!) alla varianza tra tutte le osservazioni Yj. Quindi: Attenzione quindi!! Interpolando la retta MQ intorno alla spezzata, va bene fidarsi dei para-metri della retta, ma non del coefficiente di determinazione R2YX= (YX)2!

Il solito esempio (con una variante) I soliti dieci atleti.. Xi YVi ni Xi ni YVini Xi2ni YVi2ni XiYVini 18 215 3 54 645 972 138675 11610 19 219 2 38 438 722 95922 8322 20 221 40 442 800 97682 8840 21 223 42 446 882 99458 9366 22 229 1 484 52441 5038 10 19,6 220 386 48417,8 4317,6 Torniamo ai dieci saltatori ma con una variante: I tre ragazzi di 18 anni saltavano – ricordiamo – rispettivamente 212, 215 e 218 cm: insomma c’era il più bravo e il meno bravo. Facciamo ora l’ipotesi che tutti e tre saltino 215 cm (cioè la media) e che quindi non ci sia variabilità entro la classe di età. E lo stesso facciamo per i 19enni e così via. Stimiamo la regressione MQ delle medie vincolate YVi delle performances al variare dell’età (è tra l’altro un buon esercizio di calcolo con modalità congiunte ponderate per le rispettive frequenze): otterremo una identica retta (bYX=160,35 aYX=3,04) ma adattamento molto più elevato (R2YX=0,958)!!

..e una controprova I soliti dieci atleti.. Ma supponia-mo che i dieci ragazzi abbia-no la stessa performance media per età, ma tra quelli di pari età ci sia più variabilità: Il diagramma è più disperso. E la retta MQ? Xi Yi Yi2 Xi2 XiYi 18 210 44100 324 3780 220 48400 3960 215 46225 3870 19 214 45796 361 4066 224 50176 4256 20 400 4280 228 51984 4560 21 216 46656 441 4536 230 52900 4830 22 229 52441 484 5038 19,6 48447,4 386 4317,6 I soliti dieci atleti ma più variabilità.. Si trova bYX=160,35; aYX=3,04 (la retta stimata è la stessa) ma R2YX=0,36 (l’adattamento peggiore)!! Morale: a parità di spezzata di regressio-ne (quindi di retta ai minimi quadrati) la goodness of fit può variare assai.

Corollario 3: Stima da dati in forma di tabella Come già il coefficiente di correlazione, anche la retta ai MQ può essere calcolata a partire da una tabella a doppia entrata. Facciamo un esempio. Per 50 studenti conosciamo informazioni: il numero di componenti la famiglia (X) e il voto mediano (Y) ai temi in classe. Stimiamo la relazione lineare tra X e Y. I calcoli intermedi (effettuati analiticamente sull’intera distribuzione congiunta) so-no: mX=1,60; mY=6,44; VX=1,44; VY=42,44; covXY=+0,58. I parametri stimati sono bYX=0,4 e aYX=5,8. Ma l’adattamento è basso: rXY=+0,074 e R2XY=0,0055. Se invece avessimo associato la dimensione familiare non ai voti di ciascuno stu-dente ma alle sole medie vincolate (colonne cerchiate), e avessimo quindi stimato la retta MQ intorno alla spezzata di regressione, avremmo trovato la stessa retta, ma con goodness of fit ben diversa: VE(Y(X)=0,234; rXE(Y/X)=+0,991; R2XE(Y/X)=0,982