TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.5 Connettere.

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.5 Connettere

In questa lezione.. In questa lezione useremo un primo approccio per studiare l’associazione di due variabili statistiche: la teoria della connessione. Per far ciò, a partire da alcuni esempi:  Familiarizzeremo con i concetti di indipendenza stocastica e di perfetta dipendenza funzionale.  Introdurremo alcune proprietà operative delle frequenze congiunte in caso di perfetta indipendenza.  Faremo la conoscenza di una misura importante di connessione, che chiameremo “Chi quadro di Pearson”. Impareremo a misurarla con una procedura operativa più rapida, e a ‘normalizzarla’, rapportandola al suo massimo.  Esamineremo alcuni paradossi e alcune stranezze della connessione, applicata a miscugli di popolazione. E questa sarà la prima finestra che apriremo (e lasceremo per ora socchiusa) verso l’analisi statistica di tre variabili.

Un esempio: matrimonio e scolarità lui lei ElemInferSuper Elem1955022267 Infer3715182270 Super 1195270376 243296374913 Questa volta partiamo da un esempio concreto. La tabella riporta un incrocio rica- vato dalla matrice dati della Survey della regione Lombardia, su 913 lombardi. Ci sono tanti modi per leggere questa tabella e non tutti fruttuosi. Possiamo cominciare a confrontare le distribuzioni di frequenza marginali. Ma non ne viene granché (fatelo anche voi). La % con bassa scolarizzazione è mag- giore tra le donne (29,2% contro 26,6%) ma quella ad alta scolarizzazione è praticamente identica (41,2% contro 41,0%). Insomma, se ci limitiamo all’analisi univariata, la pari op- portunità sembra cosa raggiunta. Lei Lui

Endogamia come assenza di indipendenza lui lei ElemInferSuper Elem2135524292 Infer4116590296 Super 12104296412 2663244101000 Ma cose meno ovvie emergono leggendo la tabella in altri modi. Proviamo per e- sempio a soffermarci sulle frequenze congiunte (numerosità congiunte diviso nu- merosità totale) situate sulla diagonale principale della matrice. La somma delle frequenze sulla diagonale principale è pari al 67,4%. Significa che due lombardi su tre sono sposati con persona del proprio livello di istruzione. Si dice, in linguaggio forbito, che l’endogamia è forte. La scolarità perseguita (e dietro di essa lo status sociale) condiziona pesantemente la scelta del coniuge. Traduciamo tutto ciò nel linguaggio appreso. Ciò significa che non c’è indipendenza tra scolarità del Lui e del Lei. E che le distribuzioni di frequenza della scolarità di Lei varieranno notevolmente al variare della scolarità di Lui. Verifichiamolo. La diagonale principale di una matrice è quella dalla sinistra in alto alla destra in basso: esiste solo se la tabella ha numero uguale di righe e colonne

Distribuzioni vincolate come fondali di scena lui lei ElemInferSuper Elem73,018,78,3100 Infer13,755,930,4100 Super 2,925,371,8100 26,632,441,0100 Che si calcolino le frequenze di Lei vincolate a Lui o viceversa il risultato non cambia Se lui ha ‘super’ lui lei ElemInferSuper Elem80,316,95,929,2 Infer15,251,021,929,6 Super4,532,172,241,2 100 Se lui ha ‘infer’ Se lui ha ‘elem’ Freq (istruzione di lui|istruzione di lei) Freq (istruzione di lei|istruzione di lui) Pensiamo ai diagrammi delle distribuzioni vincolate come a fondali di palcoscenico posti a diverse profondità. Ora la rappre- sentazione grafica ha tre dimensioni: la variabile ‘condizionante’ (lungo la profon- dità), quella condizionata (per larghezza) e le frequenze vincolate (in verticale).

Distribuzioni vincolate in una società ‘libera’ Come sarebbe la nostra tabella in un’ipotetica società in cui tutte le Lei avessero la stessa chance di sposare un Lui istruito, indipendentemente dalla scolarità di Lei? Traduciamo la domanda nei termini tecnici che abbiamo appreso. La distribuzione di frequenza del livello di istruzione di lei non deve cambiare al variare del livello di istruzione di lui. Cioè tutte le distribuzione di frequenza vincolate (Lei|Lui) sa- rebbero uguali tra loro, quindi uguali a quella della popolazione in generale. lei luiElemInferSuper Elem29,2 Infer29,6 Super 41,2 N=243N=296N=374N=913 Freq (istruzione di lei|istruzione di lui) In questa tabella le distribuzioni vincolate sono tutte identiche alla distribuzione marginale. Non è difficile risalire alla distribuzione congiunta corrispondente. Infatti, dato che f j|i = n ji /n i allora Per qualunque j f j|1 = f j|2 =.. = f j|i =.. = f j|r = f j e per qualunque j e if j|i = f j Per es. la numerosità ‘teorica’ in una società libera di Lei con licenza elementare e Lui con diploma superiore è 0,292 x 374 = 109,2 (non è intera perché ‘teorica’) n ji = f j|i x n i

La tabella ‘teorica’ di indipendenza stocastica lei luiElemInferSuper Elem71,186,5109,4267 Infer71,887,6110,6270 Super 100,1121,9154,0376 243296374913 Questa è la tabella del caso ‘teorico’ di ‘società libera’ in cui ogni donna è indipen- dente nelle sue scelte del partner (secondo la scolarità): essa possiede 3 proprietà La prima cosa da osservare è che la distribuzione congiunta costruita per colonna rispetta anche le somme per riga, pari proprio alle numerosità marginali. La seconda considerazione emerge se andiamo a calcolare le frequenze vincolate per colonna, cioè le frequenze di livello di istruzione di lui, vincolate al livello di istruzione di lei. Anche queste distribuzioni sono uguali tra loro e identiche alla marginale. lei luiElemInferSuper Elem26,632,441,0N=267 Infer26,632,441,0N=270 Super 26,632,441,0N=376 26,632,441,0N=913 Vale questa definizione generale: “C’è indipendenza stocastica della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano al variare delle modalità condizionanti di X, cioè se f j|i = f j per ogni i,j

Esempio: una pietra miliare della epidemiologia H EAltoMedioBasso Lamb7201800900 Mixed1200180300 Vauxh 160120520800 10003007002000 Partiamo con dati inventati, ma che descrivono un famoso caso di storia della scien- za. Per trovare una spiegazione alla diffusione del colera John Snow analizza 2000 quartieri (walls) di Londra, secondo il grado di Esposizione all’epidemia di colera del 1854 (Alto, Medio,Nullo) e la società H di erogazione idrica (Lambeth, Misto, Vauxh). frequenze vincolate per riga: cerchiamo cioè di spiegare il variare della distribuzione di frequenza dell’esposizione al colera (E) in funzio- ne del tipo di acqua erogata La tabella delle numerosità congiunte o delle frequenze relative non dice niente di chiaro. Calcoliamo allora le frequenze vincolate per riga: cerchiamo cioè di spiegare il variare della distribuzione di frequenza dell’esposizione al colera (E) in funzio- ne del tipo di acqua erogata. H EAltoMedioBasso Lamb0,800,200900 Mixed0,4000,60300 Vauxh 0,200,150,65800 0,500,150,352000 Ora vediamo che il colera colpisce pesantemente l’80% dei quartieri serviti dalla Lambeth & Co., solo il 20% di quelli serviti dalla Vauxhall, e una via di mezzo per i quartieri serviti da entrambe le società. Se le frequenze vincolate variano tra i diversi sottogruppi, si può sospettare che esista una relazione tra H e E.

La tabella ‘teorica’ di indipendenza stocastica Se E non dipendesse per niente da H ci dovremmo aspettare che le distribuzioni vincolate per riga (per grado di esposizione al colera) non varino per niente al variare della società di erogazione, e siano quindi tutte uguali alla distribuzione marginale: Questa è la tabella delle frequenze vincolate che si avrebbe se ci fosse indipendenza tra H e E. Da questa.. Torniamo alla definizione generale: “C’è indipendenza stocastica della v.s. X dalla v.s. Y quando le distribuzioni condizionate di frequenza di Y non variano al variare delle modalità condizionanti di X, cioè se f j|i = f j per ogni i,j H EAltoMedioBasso Lamb0,500,150,35900 Mixed0,500,150,35300 Vauxh 0,500,150,35800 0,500,150,352000 H EAltoMedioBasso Lamb450135315900 Mixed15045105300 Vauxh 400120280800 10003007002000 0,50 x 900 = _____ 450 Si risale (moltiplicando le frequenza vincolate per le corrispondenti numerosità marginali) alla Tabella teorica di Indipendenza.

Fattorizzazione delle frequenze Attenzione: la proprietà di indipendenza stocastica (o statistica) è simmetrica: la indipendenza di Y da X implica cioè quella di X da Y. Ma se noi formuliamo le frequenze relative come rapporti tra numerosità, la definizione generale ”f j|i =f j per ogni i,j” diventa ”n ji /n i =n j /N” da cui si trae: n ji =(n j x n i )/N o dividendo entrambe le parti per N: f ji =f j x f i Condizione necessaria e sufficiente perché ci sia indipendenza stocastica tra X e Y è che le numerosità congiunte n ji siano fattorizzabili (scomponibili in fattori) nel prodotto – diviso per N – delle corrispondenti numerosità marginali, ossia che le frequenze congiunte siano fattorizzabili nel prodotto delle corrispondenti frequenze marginali Ricordate: “Condizione Necessaria e Sufficiente” vuol dire che: a) se c’è indipendenza stocastica le frequenze sono fattorizzabili, ma insieme b) se le frequenze sono fattorizzabili c’è indipendenza stocastica.

Un esempio: tavole di mobilità sociale padri-figli Pa FiBassoMedioAlton ji o Basso644462421148 Medio413848941355 Alto 136847128 107013781832631 Pa FiBassoMedioAlto Basso56,140,23,7100 Medio30,562,66,9100 Alto 10,253,136,7100 40,752,46,92631 Freq (status figlio/status padre) Prendiamo la tavola della mobilità intergenerazionale (padri-figli) stimata per le persone occupate in Italia nel 1985 (Sylos Labini, numerosità in milioni). La somma delle frequenze relative sulla diagonale principale (644+848+47=1539) dà la misura di un cambiamento massiccio ma non radicale: 1539 su 2631 (58,5%) sono stabili (stayers), il restante 41,5% cambia status. Se poi confrontiamo le distribuzioni marginali, troviamo che la popolazione di basso status è scesa dal 43,6 al 40,7%, quella di alto status è salita dal 4,9 al 6,9%. Ma le frequenze vincolate sono ancora più esplicite nel mostrare che non c’è ‘perfetta mobilità sociale’: se il papà era in basso nella scala sociale la frequenza di appartenere alla élite è solo del 3,7%, contro il 36,7% se il papà era già ‘high status’.

American way of life Pa FiBassoMedioAlton ji e Basso467601801148 Medio551710941355 Alto 52679128 107013781832631 Ma come sarebbe fatta la tavola, compatibile con le distribuzioni marginali italiane, di perfetta mobilità sociale? La tavola di indipendenza stocastica in cui la frequenza per un figlio di appartenere allo status i non dipende dalla status del padre? In questa tabella ogni numerosità teorica è calcolata ‘fattorizzando’ le frequenze: n ji e =(n j x n i )/N Per esempio 80=(1148 x 183)/2631 ecc. 67=(1378 x 128)/2631 Ma quanto è la distanza tra la tabella effettivamente osservata (numerosità congiunte n ji o dove o sta per osservato) e quella teorica di indipendenza (nume- rosità congiunte n ji e dove e=expected)? Numerosità teoriche di ind.stocastica Basta calcolare la tabella delle differenze tra le n ji o e le n ji e ! Chiamiamo ‘contingenze’ le differenze c ji = n ji o - n ji e. Pa FiBassoMedioAltoc ji Basso+177-139-380 Medio-138+13800 Alto -39+1+380 0000 Tavola delle contingenze c ji = n ji o - n ji e

Contingenze & contingenze quadratiche Pa FiBassoMedioAltoc ji Basso+177-139-380 Medio-138+13800 Alto -39+1+380 0000 Tavola delle contingenze c ji = n ji o - n ji e Ogni singola contingenza ci racconta del- lo scostamento tra una frequenza osservata e quella teorica di perfetta indipendenza. Per esempio qui si nota la coinci- denza tra n medio,alto o e n medio,alto e, ma altre contingenze sono assai più elevate. Se noi vogliamo misurare globalmente il grado di scostamento della distribuzione congiunta da quella teorica di indipendenza è necessario fare una sintesi delle sin- gole contingenze: occorre calcolarne una qualche ‘media’. Ma c’è un problema. La tavola osservata e quella teorica hanno le stesse distribuzioni marginali. Perciò la tavola delle contingenze ha somme (per riga, per colonna, in totale) pari a zero. Occorre quindi fare la media non delle contingenze semplici, ma di una qualche trasformazione 0. Come il valore assoluto o i quadrati. E poi farne la somma. E’ una procedura familiare, vero? Già che ci siamo, ricordiamo anche che la varianza ci dava problema perché somma quantità quadratiche ed è di un ordine superiore ai dati osservati. Avevamo cercato quindi di ricondurla allo stesso ordine di grandezza dei dati (facendone la radice).

Misurare la connessione Pa FiBassoMedioAlton ji e Basso467601801148 Medio551710941355 Alto 52679128 107013781832631 Pa FiBassoMedioAltoc ji Basso+177-139-380 Medio-138+13800 Alto -39+1+380 0000 Tavola contingenze c ji = n ji o - n ji e Tavola numerosità osservate n ji o Tavola numerosità teoriche n ji e Tavola dei rapporti c ji 2 /n ji e Pa FiBassoMedioAlto Basso67,08632,14818,050 Medio34,56326,8220 Alto29,2500,015160,444 Pa FiBassoMedioAlton ji o Basso644462421148 Medio413848941355 Alto 136847128 107013781832631 Qui sono riepilogate le tavole di calcolo. Ma perché per riportare all’ordine di grandezza dei dati la somma la dividiamo per n ji e e non per n ji o ? Tanti i motivi: ma provate voi a fare rapporti con uno zero al denominatore!

L’indice chi quadrato di Pearson La somma dei rapporti (c ji 2 /n ji e ) è una buona misura del grado di connessione tra due variabili. La indichiamo con la lettera greca  (si legge ‘chi’) seguita dal segno del quadrato. Una misura proposta da Karl Pearson, studioso di fine ‘800, con queste caratteristiche:   2 è somma di tanti rapporti in cui i numeratori sono quadrati (quindi sempre 0) e i denominatori sono prodotti di frequenze marginali (quindi sempre >0: un prodotto è zero solo se uno dei fattori è zero, ma se una frequenza marginale fosse zero non ci sarebbe quella riga o colonna nella tabella!);   2 è zero se e solo se tutte le differenze al numeratore sono zero cioè se e solo se ( n ji o - n ji e )=0 per ogni i,j; cioè in caso di indipendenza stocastica;   2 cresce, allontanandosi da zero, al crescere della distanza della distribuzione congiunta osservata da quella di perfetta indipendenza;   2 ha un massimo? E a che situazione corrisponde? Risponderemo presto. Intanto limitiamoci a calcolare questa misura nell’esempio della mobilità sociale. Risulta  2 = (67,086+32,148+18,050+34,563+…+160,444)= 368,378

Agli antipodi: la perfetta dipendenza funzionale Chi quadrato misura lo scostamento dal caso di perfetta indipendenza stocastica. Ma fino a quanto ci si può scostare? Esiste un tetto non superabile? E si può dare un significato a questa situazione limite agli antipodi della indipendenza stocastica? Per rispondere inventiamoci un’altra tavola di mobilità sociale, questa volta fittizia, intragenerazionale (non padri-figli) tra tre settori di vita: città, periferia, campagna. t t+1RurPerUrb Rur255030 Per5251040 Urb 0102030 4030100 Tavola di società castuale ( 2 =200) t t+1RurPerUrb Rur912930 Per12161240 Urb912930 4030100 Tavola di perfetta indipendenza ( 2 =0) t t+1RurPerUrb Rur3000 Per0400 Urb0030 4030100 t t+1RurPerUrb Rur0030 Per0400 Urb3000 4030100 Tavola di mobilità osservata (  2 =73,8) Tavola di società à la Pol Pot ( 2 =200)

Perfetta dipendenza funzionale Diamo allora una definizione formale del concetto di dipendenza funzionale: «Una variabile Y dipende funzionalmente da X se a ogni modalità osservata di X corrisponde una e una sola modalità osservata di Y» Attenti alle proprietà della dipendenza funzionale:  La dipendenza funzionale non implica che ci sia una relazione quantitativa ‘monotòna’ tra le due variabili (in cui al crescere di una cresca o non diminuisca l’altra). Si pensi a una società in cui tra t e (t+1) quelli che stanno in A passino in B, quelli che stanno in B passino a C, quelli che stanno in C passino ad A.  La dipendenza funzionale non implica nep- pure che le variabili coinvolte siano quantitative!! E questo vale in generale per  2 e per la ‘teoria della connessione’. Stress Status HighMiddleLow High-->0 Middle>0-- Low ->0- In questo esempio i ceti medi (‘in mezzo al guado) hanno il massimo livello di stress, i ceti bassi hanno una gradazione intermedia di stress, i ceti alti stanno relativamente bene.. Dunque. La tabella osservata mostra un grado di connessione pari a  2 =73,8. La situazione di riferimento di indipendenza ha ovviamente  2 =0. Ma quelle, opposte, in cui lo stato al tempo (t+1) ‘dipende’ in modo rigido dallo stato al tempo t, danno entrambe  2 =200 (la stessa cifra: eppure sono situazioni davvero diverse!).

Ancora sulla perfetta dipendenza funzionale Se e solo se la tavola delle numerosità congiunte (tabella di contingenza) è quadrata (r=s) la dipendenza funzionale è biunivoca (cioè la dipendenza funzionale di Y da X implica anche la dipendenza funzionale di X da Y e viceversa). Solo in questa caso dunque la connessione è un concetto simmetrico. X YABC D-->0 F - Se s>r (più colonne che righe) ci può essere perfetta dipendenza funzionale di X da Y ma non viceversa (ad almeno una modalità di X corrisponderà più di una modalità di Y). Se r>s (più righe che colonne) ci può essere perfetta dipendenza funzionale di Y da X ma non viceversa (ad almeno una modalità di Y corrisponderà più di una modalità di X). X YAB D>0- E- F- X Y124 1->0- 2-- 3 -- Infine, se entrambe le v.s. coinvolte sono quantitative discrete, alla tabella di massima connessione si può asso- ciare una relazione funzionale (non necessariamente monotona) del tipo Y=f(x) e una del tipo X=g(y).

Normalizzare chi quadrato Si può dimostrare (credeteci sulla parola) che l’indice  2 ha un massimo pari al minore tra il numero di righe e il numero di colonne, meno 1 e moltiplicato per N: E’ abbastanza intuitivo che il valore massimo, corrispondente alla situazione di massima connessione, si può realizzare solo nel caso in cui la tabella della distribuzione congiunta sia quadrata (r=s). Ma anche con questo ‘lieve difetto’, il valore massimo ci con- sente di normalizzare l’indice: Nell’esempio di mobilità intergenerazionale r=s=3, N=2631 e  2 =368,378. Quindi  2 max =2631(3-1) e  2* =0,07 Nell’esempio di endogamia matrimonia- le r=s=3, N=913 e  2 =544,1. Quindi  2 max =913(3-1) e  2* =0,298 Nella tavola (fittizia) di mobilità sociale osservata r=s=3, N=100 e  2 =73,8. Quindi  2 max =100(3-1) e  2* =0,369 Ma nelle simulazioni di mobilità sociale di una società per caste e di una società à la Pol Pot  2 =200 e quindi  2* =1!!

L’imprevedibilità dei miscugli Ricordate il concetto di miscuglio, cioè di una popolazione costituita da unità provenienti da gruppi (subpopolazioni, strati) eterogenei tra loro, dotati di distribuzioni di frequenza divergenti? Avevamo fatto conoscenza coi miscugli nell’analisi univariata, e avevamo concluso che occorreva stare prudenti.. Anche nella connessione tra due caratteri qualitativi la natura di miscuglio di una popolazione può produrre effetti sorprendenti. E’ infatti vero che: In un miscuglio si può osservare perfetta indipendenza stocastica tra due caratteri X e Y, anche se nelle subpopolazioni si possono osservare relazioni di dipendenza funzionale anche perfetta. Viceversa, in un miscuglio si può osservare una relazione tra X e Y in una certa direzione, mentre nelle subpopolazioni la relazione funzionale esiste ma di segno diverso. A 35 anni, tra le ragazze chi lavora è meno frequente che abbia un figlio di chi non lavora; tra i ragazzi è invece l’opposto. Ma se pigliamo ragazzi e ragazze insieme che tipo di relazione funzionale potremo trovare tra attività lavorativa e stato civile?

Quando l’eterogeneità nasconde una relazione Per esempio, vediamo se esiste associazione tra un indicatore P di performance in carriera (a=alta, b=bassa) e l’appartenenza etnica E (n=nero, s=ispanico, w=bianco) in due isolati W1 (periferico) e W2 (city) di una città americana. 17 8 6 3 9 0 6 3 alta 8 8 0 0 bassa Bianco Ispanico Nero E/P W1: isolato periferico 22 4 12 6 4 4 0 0 alta 18 0 12 6 bassa Bianco Ispanico Nero E/P W1: isolato nella city 39 12 18 9 13 4 6 3 alta 26 8 12 6 bassa Bianco Ispanico Nero E/P W1+W2: miscuglio Nell’isolato periferico c’è perfetta dipendenza funzionale: i bianchi sono marginali e ‘falliscono’. In centro invece i bianchi hanno buone performan- ces. Le minoranze etniche (anche se numerose!) assai meno. Nel miscuglio ogni per- cezione di un ‘minority status effect’ si dissol- ve: c’è perfetta indipendenza stocastica!!

Il paradosso di Simpson Un secondo effetto sorprendente consiste nel rovesciamento della direzione della connessione individuata. Può sembrare un guaio meno radicale del precedente, ma può avere conseguenze consistenti. Supponiamo che due ospedali sperimenti- no l’efficacia terapeutica (E=sì o no) di due molecole (F=A,B) nel curare la Sars. Solo, i due ospedali abbiano somministrato i due farmaci in misura differente. 25 8 17 6 11 no 8 (32%) 2 (25%) 6(35%) sì FB FA F/E Clinica 1Pool delle clinicheClinica 2 50 25 22 10 12 no 28 (56%) 15 (60%) 13 (52%) sì FB FA F/E 25 17 8 5 4 1 no 20 (80%) 13 (76%) 7 (87%) sì FB FA F/E In entrambe le cliniche il farmaco A ottiene risultati migliori. Ma (attenti alla diver- sa distribuzione dei farmaci) nel miscuglio ha risultati più favorevoli il farmaco B. Così la scelta del farmaco più efficace dipende dalla scelta del livello di analisi:  Se si sceglie il farmaco più efficace nella maggioranza di cliniche, sarà A.  Se si sceglie il farmaco più efficace sul pool delle cliniche, esso sarà B !

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.5 Connettere.

Presentazioni simili

Presentazione sul tema: "TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.5 Connettere."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.5 Connettere.

Presentazioni simili

Presentazione sul tema: "TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.5 Connettere."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back