La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lezione B.7 Correlare TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli.

Presentazioni simili


Presentazione sul tema: "Lezione B.7 Correlare TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli."— Transcript della presentazione:

1 Lezione B.7 Correlare TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

2 In questa lezione… In questa lezione facciamo conoscenza con la principale misura di asso- ciazione, il coefficiente di correlazione lineare ( xy ). Esso si appli- ca a variabili entrambe quantitative, ed è efficace soprattutto se imma- giniamo ci possa essere un particolare tipo di relazione, quella definita da una funzione rettilinea. Procederemo nella presentazione con questi passi: Identificheremo la Covarianza come misura per eccellenza di calcolo del grado di covariazione tra due fenomeni. Perverremo al coefficiente xy normalizzando la covarianza e svolgeremo tramite esempi le procedure di calcolo. Esamineremo le capacità diagnostiche di xy con riferimento alle opposte situazioni di perfetta indipendenza e di perfetta dipen- denza. Concluderemo confrontando le tre misure fin qui introdotte.

3 Ripartiamo da uno scatter n. Età al I fMesi interc Ripartiamo da un esempio già usato. Nel diagramma di dispersione la coordinata orizzontale indica letà della madre al primo figlio, quella verticale il numero di mesi intercorsi tra il 2° e il 3° figlio. Abbiamo già imparato che la linea ellissoida- le blu ci dà la sensa- zione che tra età al primo figlio (coordina- ta orizzontale) e inter- vallo di tempo tra le nascite successive (coordinata verticale) esista una sorta di as- sociazione inversa (più precoce la prima nascita, più ritardate le successive). Possiamo trovare qualche strumento per diagnosticare il tipo di relazione (diretta, inversa) e per misurarla?

4 e ripartiamo da Durkheim La prima cosa che va chiarita è che studiare lassociazione tra variabili non è un concetto unico, ma ne include due ben distinti: una cosa è diagnosticare il tipo di associazione (quando au- menta X che fa Y: aumenta, cala, aumenta e poi cala, o cosa altro?) altra cosa è studiare la strettezza dellassociazione individuata. A noi basta fermarci (per ora) alla seconda proprietà. Ma come? Nel 1895, Durkheim aveva formulato in proposito il Principio delle variazioni concomitanti: se due fenomeni collettivi variano in modo concomitante tra loro o luno è causa dellaltro o ne è leffetto, o comunque vè tra essi una qualche relazione causale che passa attraverso altri caratteri intermedi.

5 Il centroide m x = 24,12 m y =48,12 P= (m y, m x ) Per capire il concetto di variazione concomitante identifichiamo il 17.mo punto inserito nel nostro diagramma, e che mettiamo in evidenza con una stella. E il punto che ha per co- ordinate la media di X e la media di Y. centroide Sappiamo che la media è una specie di baricentro della distribuzione che sinte- tizza. Il punto allincrocio delle due me- die è allora il baricentro della distri- buzione congiunta: non a caso lo si definisce centroide. Prolunghiamo allora le due semirette, perpendicolari tra loro, delle coordinate di P. Esse costituiscono una nuova coppia di coordinate del grafico. Spostando lattenzione su questa nuova coppia di assi è come se avessimo traslato lorigine degli assi nel centroide stesso. Ora al posto della coordinata X abbiamo una sua trasformata (X - m X ), e al posto della coordinata Y abbiamo la sua trasformata (Y - m Y ). X-m X Y-m y X Y

6 Buoni e cattivi mxmx mymy Ora il grafico è diviso in quattro parti, lungo le li- nee dei baricentri delle due variabi- li e si distinguono i buoni e i cattivi, ossia quelli so- pra e quelli sotto la media. Sopra lasse oriz- zontale i valori di Y sono sopra la media, sotto so- no inferiori alla media. A destra dellasse vertica- le i valori di X sono sopra la media, a sinistra sotto la media. (Y-m y )>0 e (X-m X )<0(Y-m y )>0 e (X-m X )>0 (Y-m y )<0 e (X-m X )<0(Y-m y ) 0 IV II III I

7 Variazioni concomitanti mxmx mymy Ora le osserva- zioni si collocano tutte o quasi nel II e IV quadran- te, in cui le due coordinate hanno segno opposto: chi ha il primo fi- glio sotto i 24 anni frappone più di 48 mesi tra il secondo e il ter- zo, chi ha il pri- mo figlio oltre i 24 anni ha inve- ce intervalli infe- riori ai 4 anni tra secondo e terzo. Tra i 2 caratteri le variazioni so- no concomitanti (Y-m y )>0 e (X-m X )<0(Y-m y )>0 e (X-m X )>0 (Y-m y )<0 e (X-m X )<0(Y-m y ) 0 IV II III I

8 Distinguere tipo e intensità dellassociazione X EtàY Mesi Confrontiamo le situazioni A (già nota) e B: due sono le differenze importanti: In A la relazione tra X e Y è inversa (al crescere di X cala Y), in B è diretta In B la relazione è più stretta, in A è più lasca (lo si intuisce guardando la larghezza delle ellissoidi con cui circoscriviamo le nuvole di punti) I caratteri da diagnosticare e misurare sono due: tipo e intensità dellassociazione AB

9 I prodotti degli scarti come spie di una relazione Cerchiamo allora una misura del grado di strettezza (e del tipo) dellassociazione. Dicotomizzando le variabili con i due nuovi assi abbiamo fatto assumere loro valori positivi (superiori alla media) e negativi (inferiori alla media). Diamo unocchiata al segno delle nuove coordinate: nel I e III quadrante (quelli in cui si dovrebbero addensare i punti se cè una relazione diretta, come nel caso B) i segni delle coordinate sono uguali tra loro, entrambi positivi (I quadrante) o entrambi negativi (III); negli altri due quadranti invece i segni sono alternati. IDEA!! Facciamo il prodotto delle coordinate y*=Y-m e x*=X-m: y*=Y-m x*=X-m y*>0 X*<0 y*<0 X*>0 y*<0 X*<0 y*>0 X*>0 quad rante Segno della funzione: (X-m x )(Y-m y )(X-m x ) x (Y-m y ) IPositivo IINegativoPositivoNegativo IIINegativo Positivo IVPositivoNegativo A coordinate di segno uguale corrisponde un prodotto positivo; a coordinate di segno oppo- sto corrisponde un prodotto negativo.

10 Fare la media tra i prodotti degli scarti Che succede ai prodotti (X-m x )(Y-m y ) in A e in B? in A i punti si collocano nel II e IV qua-drante e i pro-dotti sono tutti negativi. Nel caso B i punti si collocano nel I e III quadrante, i prodotti sono tutti positivi, la somma è una misura positiva assai elevata. Situazioni intermedie porteranno a misure intermedie. A B y*>0 X*<0 y*>0 X*<0 y*>0 X*>0 y*>0 X*>0 y*<0 X*<0 y*<0 X*<0 y*<0 X*>0 y*<0 X*>0 II III I IV IIIIV I Covarianza è la media aritmetica dei prodotti delle variabili-scarto ponde- rate per le rispettive frequenze.

11 Calcolo della covarianza YiYi nini (X i -m) n i (Y i -m) n i (X i -m) (Y i -m) n i Calcoliamo Calcoliamo la covarianza nel caso B, affiancando alle colonne delle x e delle y le colonne con i corrispondenti scarti dalle rispettive medie, poi quella dei prodotti tra gli scarti. In questo caso ogni coppia di osservazione è rilevata singolarmente quindi con numerosità 1 (la colonna delle numerosità è superflua). Calcoli intermedi: E(X) = 210/10=21 E(Y) = 500/10=50 E[(X-m X )(Y-m Y )]=19,5 La covarianza è positiva, il che conferma la relazione diretta tra X e Y: ma quanto è stretta? Ancora non sappiamo valutarlo..

12 Formula operativa per il calcolo della covarianza YiYi Come per la varianza, passare attraverso gli scarti dalle medie è una procedura lunga e carica di decimali. MA anche per la covarianza esiste una procedura operativa più snella. Si dimostra che la formula definitoria della Cov XY equivale a Calcoli intermedi: E(X)=210/10=21 E(Y)=500/10=50 E(XY)=1069,5 Cov(XY)= 19,5 Il risultato è proprio lo stesso. Ma attenti a non invertire minuendo e sottraendo, in tal caso senza accorgervene invertireste il segno.. La covarianza è pari alla differenza tra la media della variabile prodotto XY e il prodotto delle medie di X e Y

13 Proprietà della covarianza La covarianza è la misura di base della covariazione tra due carat- teri statistici. Essa possiede queste proprietà: Cov XY è una misura che cresce al crescere dellassociazione tra X e Y, sia che essa sia diretta, sia che sia inversa. Il segno di Cov XY riflette fedelmente il tipo di relazione: diretta se il segno è positivo, inversa se è negativo. se X e Y sono tra loro indipendenti (stocasticamente o in media) allora Cov XY è pari a zero Si può mostrare che se X e Y sono tra loro indipendenti (stocasticamente o in media) allora Cov XY è pari a zero. indi- pendenza correlativa Non possiamo invece dire con certezza che, se Cov XY =0, allora cè indipendenza stocastica, e nemmeno semplicemente indipen- denza in media. La covarianza nulla può essere il risultato di me- re compensazioni interne di calcolo. In tal caso si parla di indi- pendenza correlativa.

14 Indipendenza e covarianza XYXY XYXY In queste due situa- zioni di indipendenza stocastica (azzurro) e in media (giallo) troviamo conferma a quanto detto. Calcoli intermedi: E(X) = 30/10=3 E(Y) = 30/10=3 E(XY)=9 Cov XY =0 Calcoli intermedi: E(X) = 30/10=3 E(Y) = 50/10=5 E(XY)=15 Cov XY =0 Se tra X e Y cè indipendenza stoca- stica o anche solo in media allora Cov XY è pari a zero

15 La fallacy della covarianza nulla XYXY In questa terza simulazione la covarianza è nulla. Eppure la forma così lisciata del grafico non lascia ombra di dubbi che tra X e Y una qualche relazione esiste, anzi una relazione esatta! Y = (X-m X ) 2 Ribadiamo allora la regola generale: Calcoli intermedi: E(X)=5 E(Y) =11 E(XY)=55 Cov XY =0 Se tra X e Y cè indipendenza sto- castica oin media allora Cov XY = 0, castica o in media allora Cov XY = 0, ma se Cov XY = 0 possiamo solo dire che tra X e Y cè indipendenza correlativa Da che dipende questa trappola imbarazzante? Guardando il grafico si nota come la relazione è esatta, ma non rettilinea (è una parabola). Ha a che fare con questa insofferenza alle regole di Cov XY ?

16 Normalizzare la covarianza Per rispondere allultima domanda occorre concludere lelenco delle proprietà della covarianza, esaminando quelle che concernono il suo massimo Sia in positivo sia in negativo, Cov XY raggiunge lo stesso massi- mo quando lassociazione tra X e Y non solo è perfetta (conosciamo già il significato di perfetta dipendenza funzionale) ma si esprime in una relazione di tipo rettilineo. disuguaglianza di Cauchy A differenza della varianza, che non aveva un massimo (dipenden- do dallordine di grandezza e dalla numerosità della popolazione), Cov XY possiede un massimo in valore assoluto (in modulo), identificato dalla disuguaglianza di Cauchy: ovvero Usiamo separatamente le due proprietà. Con la seconda possiamo normalizzare la covarianza, rapportandola al suo massimo. Riprenderemo poi la prima proprietà, per dare una risposta alla domanda sulla fallacy della covarianza nulla.

17 Il coefficiente di correlazione lineare CORRELAZIONE LINEARE: Chiamiamo la Cov XY normalizzata coeffi- ciente di CORRELAZIONE LINEARE: Se guardiamo dentro alla formula, esplicitando le formule di covarianza e varianze, scopriamo che il coefficiente di correlazione lineare è la media del prodotto tra variabili standardizzate: xy ha lo stesso segno della covarianza, perché il denominatore a cui viene rapportato è il prodotto di misure sempre positive ( x y ). xy vale 1 in caso di perfetta correlazione lineare (cioè rettilinea) diretta, vale –1 in caso di perfetta correlazione lineare inversa. Se cè indipendenza stocastica vale zero: ma non vale linverso..

18 In caso di relazione non lineare.. Facciamo lipotesi di una relazione iperbolica Y=10/X. In tal caso tra X e Y cè una relazione di perfetta dipendenza funzionale ma il coefficiente di correlazione non è massimo (confrontatelo col caso rettilineo a fianco). Come mai? XYXY ,310 42, , ,560 XYXY Il fatto è che in caso di relazioni - monotone almeno non decrescenti - anche perfette ma non lineari tra X e Y, pur essendoci perfetta associazione la cova- rianza non sarà massima perché alcuni punti della nuvola, non essendo rettilinea, si collocheranno nel quadrante sbagliato! Per liperbole è cov=-4,29. Per la retta invece cov=-5,83. Ma per confrontarle occorre passare ai coefficienti r xy (rispettivament e -0,879 e –1)

19 ..mantenere opportune cautele La trappola si complica ancora se la relazione non solo non è lineare, ma nemmeno monotona. Se i punti della nuvola giacciono tutti su una parabola a due rami, come nellesempio già fatto (ma anche su altre funzioni esatte, come una sinusoide), i segni dei prodotti degli scarti delle coordinate si compenseranno tra loro e produrranno addirittura una covarianza nulla! Questi sono casi limite. Ma in generale possiamo affermare che Un xy =0 non è garanzia di indipendenza tra X e Y, perché si può ottenere anche solo per mera compensazione interna tra i segni dei prodotti; meglio limitarsi a dire che tra X e Y sussiste indipendenza correlativa. Un xy <1 non è garanzia di assenza di dipendenza funzionale perché questa misura isola come caso a sé solo quello della perfetta relazione lineare.

20 Un primo esempio regione XYX2X2 Y2Y2 XY Italia0,420,820,1760,6720,344 Portogallo0,590,760,3480,5780,448 Gran Bret.0,650,740,4220,5480,481 Grecia0,440,680,1940,4620,299 Spagna0,320,670,1020,4490,214 Irlanda0,390,670,1520,4490,261 Olanda0,600,610,3600,3720,366 Austria0,560,510,3140,2600,286 Belgio0,600,500,3600,2500,300 Germania0,530,500,2810,2500,265 Finlandia0,720,450,5180,2020,324 Danimarca0,780,420,6080,1770,328 TOTALE/N0,550,610,3200,3890,326 LEuropean Community Household Pa- nel (1995), mette in relazione per 12 paesi europei due indicatori di pari op- portunità: X è la % di donne che lavo- ra, Y una misura ritenuta robusta della disuguaglianza nella distribuzione dei redditi familiari (niente di più del buon vecchio coefficiente di variazione!). Cinque colonne bastano per calcolare deviazioni standard e covarianza. E(X)=0,55; E(X 2 )=0,320; V(X)=0,0175 E(Y)=0,61; E(Y 2 )=0,389; V(Y)=0,0169 E(XY)=0,326; E(X)E(Y)=0,3355; Cov=-0,0095; X Y = 0,0172; XY =-(0,0095/0,0172)=-0,55

21 Altro esempio altra trappola regione XYX2X2 Y2Y2 XY Piemonte0,881,140,77441,29961,0032 Lombardia0,880,750,77440,56250,6600 Trentino0,911,000,82811,00000,9100 Veneto0,890,850,79210,72250,7565 Friuli0,851,230,72251,51291,0455 Liguria0,800,960,64000,92160,7680 Emilia0,881,290,77441,66411,1352 Toscana0,840,860,70560,73960,7224 Umbria0,831,010,68891,02010,8383 Marche0,840,820,70560,67240,6888 Lazio0,700,600,49000,36000,4200 Abruzzi0,760,610,57760,37210,4636 Molise0,710,580,50410,33640,4118 Campania0,580,380,33640,14440,2204 Puglie0,700,480,49000,23040,3360 Basilicata0,640,670,40960,44890,4288 Calabria0,550,460,30250,21160,2530 Sicilia0,630,670,39690,44890,4221 Sardegna0,650,860,42250,73960,5590 Un altro esempio su 19 regioni ita- liane (senza la Val dAosta). Sia X= tasso di occupazione giovani anni e Y=suicidi per milione di abi- tanti (92). Dalle colonne si ottiene Cov=+0,0258 X Y = 0,0353, quindi XY =+0,73. Il coefficiente è mol- to elevato: ma siamo davvero sicuri che occupazione e suicidio vadano di pari passo? (si considerino sepa- ratamente le due cerchie delle re- gioni del centronord e del sud)

22 Calcolare la covarianza su tabelle a due entrate Il calcolo della covarianza e di può essere effettuato su qualunque coppia di va- riabili quantitative, anche se in forma di tabella. In questo caso nella formula compare correttamente il doppio suffisso per riga (i) e colonna (j). Come per le serie disaggregate le statistiche intermedie da calcolare sono 6: la numerosità N la numerosità N La media di X E(X) La media di X E(X) La media di Y E(Y) La media di Y E(Y) Il momento secondo di X E(X 2 ) Il momento secondo di X E(X 2 ) Il momento secondo di Y E(Y 2 ) Il momento secondo di Y E(Y 2 ) La media del prodotto, E(XY). La media del prodotto, E(XY). Lunica statistica noiosa da calcolare, in questo caso, è E(XY). Occorre infatti, per ogni casella non nulla della tabella, calcolare il prodotto tra le due modalità di riga e di colonna e la numerosità riportata in casella (x i y j n ij ), sommarle poi tutte e dividerle per N.

23 Un ultimo esempio Y j =I.Vec X i =P.Letto y 1 = y 2 = y 3 =210NjNj X i n i Xi2niXi2ni [x 1 =125] [x 2 =75] [x 3 =25] N.j 884N= Y j n j Yj2njYj2nj Riprendiamo lesempio della distribuzione delle 20 regioni per indice di vecchiaia e numero di posti letto geriatrici. In blu le numerosità congiunte, in nero modalità e numerosità, in rosso le elaborazioni successive, in marrone il calcolo di E(XY). E(X)=60 E(X 2 )=5125 E(Y)=138 E(Y 2 )=21060 V(X)=1525 V(Y)=2016 X =39,05 y =44,90 E(XY)={(125x90x1)+(125x150x2)+(125x210x1)+ (75x90x4)+(75x150x2)+(25x90x3)+(25x150x4)+ (25x210x3)}/20= { }/20 = 8100 Cov = E(XY) – E(X)E(Y) = 8100-(60x138)= -180 XY =r XY =(-180)/(39,05x44,90)= -180/1753 = -0,10

24 Confrontare tre misure Il coefficiente di correlazione è dunque per certi versi molto occhiuto (separa at- tentamente diversi tipi di dipendenza perfetta), per altri molto miope (non distin- gue diversi tipi di indipendenza). Confrontiamo allora le capacità diagnostiche delle tre misure di associazione studiate: 2, 2, || Situazioni di Indipendenza 2 = || = Indipendenza stocastica000 Indipendenza in mediaTra 0 e 100 Indipendenza correlativaTra 0 e 1 0 Situazioni di Dipendenza 2 = || = Relazione non lineare non monotona11<1 Relazione non lineare monotona11>0 e <1 Relazione lineare111 Misure diverse sono sensibili a situazioni limite differenti. Utilizzarne dunque più di una permette un miglior dettaglio nella diagnosi


Scaricare ppt "Lezione B.7 Correlare TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli."

Presentazioni simili


Annunci Google