La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lezione B.6 Scomporre la varianza TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli.

Presentazioni simili


Presentazione sul tema: "Lezione B.6 Scomporre la varianza TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli."— Transcript della presentazione:

1 Lezione B.6 Scomporre la varianza TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli

2 In questa lezione.. In questa lezione facciamo la conoscenza con unaltra via per misurare la dipendenza di una variabile Y (explanandum) da unaltra X (explanans). Essa consiste nel calcolare quanta parte dellintera variabilità di Y (misu- rata dalla sua varianza) è spiegata scomponendo la popolazione analiz- zata in più sottopopolazioni, distinte in base allexplanans. Un esempio di domanda a cui si risponde con questo approccio può esse- re: in che misura (in che percentuale) la variabilità di un test clinico è spiegata se noi teniamo distinti uomini da donne? Già da questo esempio si capisce che questa strada richiede di avere a che fare con una variabile da spiegare quantitativa, ma non pone nessun limite al livello di misurazione dellaltra variabile, quella esplicativa, che può essere anche nominale (o categoriale). Prima di formalizzare misure e tecniche di misurazione introdurremo il concetto di scomposizione della varianza, a partire da un classico esempio tratto da un grande precursore.

3 Partiamo da Durkeim Durkheim ha per primo studiato la relazio- ne tra due caratteri di una popolazione con una logica innovativa, analizzando la composizione per credo religioso e il tasso di suicidi in otto province della Baviera. Noi sappiamo già tradurre questi dati sotto forma di distribuzione congiunta in due modi distinti. Il primo consiste nel com- pattare i dati in una tabella a doppia en- trata, che evidenzia una forte connessione. Regione% cattoliciSuicidi x00000 Palatinato renanoMinoranza167 Franconia centraleMinoranza207 Alta FranconiaMinoranza204 Bassa FranconiaMaggioranza157 SveviaMaggioranza118 Alto PalatinatoQuasi totalità64 Alta BavieraQuasi totalità114 Bassa BavieraQuasi totalità49 X Y to t Minoranza0033 Maggioranza0202 Totalità2103 Tot2338 n ji o njnj nini n ji o2 /n j x n i 3331, , ,111 = 2,445 2 =8(2,445-1) = = 11,56 2 max =8(3-1)=16 2* =0,722

4 Un secondo modo per cogliere una associazione Conosciamo anche un secondo modo per rappresentare questi dati in modo da cogliere leventuale associazione. Una delle due variabili è qualitativa ordinale, laltra è quantitativa. Se diamo a ogni modalità della variabile ordinale un codice numerico in sequenza, possiamo rappresentare la distribuzione congiunta in forma di diagramma di dispersione. Certo, la metrica dellasse orizzontale non ci dà garanzie. Ma il grafico ha comunque una sua forte capacità di parlare. Esso ci lascia limpressione di una relazione inversa tra X e Y: al crescere della % di cattolici nei laender cala il tasso di suicidio.

5 Le medie vincolate Come mai questo grafico ci lascia questa netta impressione? Una prima risposta si ha calcolando, per ogni subpopolazione definita dalla quota di presenza cattolica, la media della distribuzione di frequenza dei tassi di suicidio: Se congiungo in una spez- zata i punti di coordinate {x i, E(Y|x i )} vedo chiara- mente che al crescere di X la media vincolata diminui- sce sempre. Questo è un buon modo per formalizza- re la nostra impressione di associazione tra X e Y. X i Y j Y1Y1 Y2Y2 Y3Y3 Y j..nini E(Y|x i )=[ j y j n ij ]/n i I …3[ ]/3=192,7 II118157……2[ ]/2=137,5 III …3[ ]/3=75,7 Media vincolata E(Y|x i ) di Y rispetto a una sub- popolazione {X=x i } è la media della corri- spondente distribuzio- ne vincolata. Attenzione. La me- dia ponderata delle medie vincolate è proprio pari alla me- dia generale: [ i E(Y|x i )n i ]/N=E(Y) Verificatelo!

6 La spezzata (o linea) di regressione linea (o spezzata) di regressione La spezzata che interpola i dati del diagramma di dispersione, con- giungendo a due a due i punti di coordinate {x i, E(Y|x i )} è quindi un ottimo strumento di visualizza- zione delle tendenze nascoste nel diagramma. La chiamiamo linea (o spezzata) di regressione. X i Y j nini E(Y|x i )=[ j y j n ij ]/n i I0033[(190 x 3)]/3=190 II0202[(130 x 2)]/2=130 III2103[(70 x 2)+(130 x 1)]/3=90 Tot2338 Nota: possiamo calcolare le medie vincolate anche dopo avere riaggregato le coppie di dati osservati in classi. Naturalmente, sostituendo a ogni valore osservato il valo- re centrale della classe cor- rispondente, il risultato nu- merico sarà un po diverso. le modalità di Y sono i valori centrali

7 La spezzata, crinale tra due dispersioni Zummiamo ancora sulla spezzata, e tracciamo una linea orizzontale di altezza pari a E(Y)=135. Vediamo che la di- stanza tra uno qua- lunque dei valori di Y (per es. y j =49) e la media generale di Y è la somma di due distanze: quella tra y j e la media vinco- lata della corrispon- dente subpopolazio- ne E(Y|x i ) e quella tra questa media vincolata e la media generale E(Y). E(Y)=135 E(Y|x)=75,7 Y j = 49 La linea delle medie vincolate costituisce una sorta di crinale tra due tipi di dispersioni delle modalità di Y: a) la dispersione delle modalità di Y osservate entro ogni sottogruppo, intorno alla media vincolata EY|x i; b) la dispersione delle medie vincolate stesse intorno alla media generale di Y.

8 Dalle medie alle varianze vincolate a)al crescere di X il carattere Y me- diamente diminuisce (è la re- lazione già discussa tra x i e E(Y|x i )); b)Tutte le cifre (del primo sotto- gruppo) sono maggiori di quelle del secondo, queste maggiori di quelle del terzo, senza la minima irregolarità.. cioè: hanno insomma varianza intorno alla media vincolata (cioè varianza vincolata) contenuta, rispetto alla varianza totale di Y. Non solo le medie vincolate, entro i gruppi definiti dal carattere X, crescono con continuità, ma entro ogni gruppo i valori osservati di Y sono ben addensati intor- no alla loro media: hanno insomma varianza intorno alla media vincolata (cioè varianza vincolata) contenuta, rispetto alla varianza totale di Y. Si fosse fermato a valutare la significatività di una relazione statistica solo dallandamento monotono decrescente delle medie vincolate, Durkheim non avrebbe poi fatto granché. Il fatto è che non si ferma lì: anche senza usare grafici o tabelle, Durkheim nota che i dati mostrano due proprietà:

9 Varianze vincolate Sappiamo che la li- nea delle medie vin- colate fa da crinale tra le distanze (li- nea graffa marrone) |y j -E(Y|x i )| e quelle |E(Y|x i )-E(Y)| (blu). La somma di queste due distanze corri- sponde, per ogni singolo y j, alla di- stanza |y j -E(Y|x i )|. Ma la somma delle distanze |y j -E(Y|x i )| al quadrato (divisa per N) è la varianza di Y. Possiamo cal- colare analoghe va- rianze anche per le due distanze parziali E(Y)=135 E(Y/x)=75,7 Y j = 49 Per ogni sottopopolazione possiamo calcolare la varianza vincolata Var(Y|x i ), cioè la varianza di u- na distribuzione vincolata intorno alla sua media

10 Varianza entro e tra i gruppi In ogni sottogruppo posso dunque calcolare una varianza vincolata. Avrò tante varianze vincolate quante sono le subpopolazioni. Posso farne la sintesi calcolando una media ponderata in cui ogni varianza vincolata è pesata con la dimensione del sottogruppo. VARIANZA TRA I GRUPPI Specularmente, calcoleremo la varianza tra le medie vincolate, e la chiameremo VARIANZA TRA I GRUPPI. VARIANZA ENTRO I GRUPPI La chiamiamo VARIANZA ENTRO I GRUPPI Calcoliamo allora le varianze entro e tra di Y per il database di Emile Durkheim.

11 Durkheim e la varianza scomposta Attenti ai simboli: Var T (Y) = varianza totale di Y; Var WG (Y) = varianza intra-gruppi (media varianze parziali); Var BG (Y) = varianza tra i gruppi (varianza delle medie parziali); n i = numerosità di ciascun gruppo. Dai dati emerge un risultato sorprendente: La varianza tota- le di Y si scompone esattamente nella somma di due parti: Var WG (Y)+ Var BG (Y)=508,7+2568,8=3077,5= Var T (Y) E pura coincidenza o è un risultato generalizzabile?

12 Simulazione 1: cresce la varianza entro i gruppi Per capire se è un caso fortuito o una regola facciamo alcuni esperimenti. Modi- fichiamo il database di Durkheim, rispettando ogni volta qualcosa dei dati originali. Come prima simulazione, costruiamo un database in cui i tassi di suicidio sono molto più dispersi entro ogni sottogruppo, con abbondanti sovrapposizioni tra loro, ma restano inalterate sia la media generale che le medie vincolate. La seconda condizione di Durkheim (tutte le cifre del primo sottogruppo sono maggiori di quelle del se-condo, quelle del secondo maggiori di quelle del ter-zo, senza la minima irre-golarità) non è più soddisfatta..

13 Simulazione 1: calcolo In questa simulazione la varianza generale di Y è molto maggiore (per forza! Abbiamo volutamente disperso i dati). Questa varianza in più è tutta nella varianza residua: la varianza tra gruppi è immutata (e infatti labbiamo tenuta ferma!). Ne risulta che – sul totale della V(Y) – quella residua pesa molto di più: 6533,5 su 9102,3 è oltre il 70%, mentre 508,7 su 3077,5 era solo il 16,5%! Constatiamo che an- che in questo caso la somma delle due va- rianze parziali, entro e tra i gruppi, è pari alla varianza genera- le di Y: Var WG (Y)+ Var BG (Y)= =6533,5+2568,8= =9102,3= Var T (Y) Ma notiamo anche:

14 Simulazione 2: medie vincolate costanti Facciamo una seconda simulazione. Costruiamo i dati in modo da mantenere invariata la media generale di Y, ma anche da rendere costanti le medie vincolate. Ovvio che se le medie vincolate sono tutte uguali, sono anche uguali a E(Y). Che significato ha questo caso? Avevamo a suo tempo detto che Y era stoca- sticamente indipendente da X se al variare di X restava invariata lintera distri- buzione vincolata. Una condizione molto forte! Ma anche in questo caso Y è in qualche modo indipendente da X. Al crescere della presenza cattolica il tasso di suicidio non sale né scende. Insomma la composizione religiosa non sem- bra avere influenza sul compor- tamento suicidario.

15 Indipendenza in media Diciamo che cè indipendenza in media (o regressiva) di Y da X se al variare di X le medie vincolate E(Y|X) non variano. lindi- pendenza in media non è una proprietà simmetrica Sappiamo che se cè indipendenza stocastica di Y da X cè anche indipendenza di X a da Y. E una proprietà simmetrica. Invece lindi- pendenza in media non è una proprietà simmetrica. In questo esempio sono uguali tra loro le E(X|y) (cè indipendenza in media di X da Y) ma non le E(Y|x) (non cè indipen- denza in media di Y da X). Insomma, lindipendenza in media nasconde trappole. Eppure è davvero la più frequentata nei libri, nei giornali, nel parlato comune. Pensate a questi esempi: Il voto medio allesame di maturità è lo stesso per ragazzi e ragazze (ma le une han tutte prestazioni accettabili, tra i ragazzi ci sono geni e somari..) La performance media dei diversi atleti è la stessa (ma Tizio ha prestazioni costanti, mentre Caio fa tempi eccezionali in prova e poi in gara fa schifo..) X i Y j 51040nini E(Y|x i ) , , ,86 njnj E(X|y j )222

16 Indipendenza in media e stocastica a tre dimensioni Se al variare di X restano invariate le intere distribuzioni vincolate, lindipendenza (stoca- stica) è davvero forte. Ma se al variare di X sono costanti le medie vincolate le distribuzio- ni vincolate possono cambiare anche molto. X=1 X=3 X=2 Poniamo allineati in prospettiva tre istogrammi con uguale media ma distribuzione, inizialmente re- golare e simmetrica, via via sem- pre più polarizzata. Ecco una rap- presentazione a tre dimensioni di una distribuzione congiunta con indipendenza in media ma non indipendenza stocastica. Se cè indipendenza stocastica cè anche indipendenza in media ma non viceversa (come in questo esempio). Lindipendenza stocastica include quella in media, ma non viceversa.

17 Simulazione 2: calcolo Anche qui la som- ma delle due va- rianze parziali, en- tro e tra i gruppi, è pari alla varianza generale di Y: Var WG (Y)+Var BG (Y) =4418,7= Var T (Y) E notiamo anche unaltra cosa: In questa simulazione la varianza tra gruppi è proprio zero. Logico: essa è la dispersione delle medie vincolate (poste da noi tutte uguali) intorno a E(Y). VARIANZA SPIEGATA VARIANZA RESIDUA Dunque quando cè indipendenza in media di Y da X la varianza tra i gruppi è nulla. In altre parole, la variabilità di Y non è per niente spiegata da una qualche influenza di X. Abituiamoci a chiamare Var BG (Y) VARIANZA SPIEGATA. Parallelamente, chiameremo Var WG (Y) VARIANZA RESIDUA.

18 Simulazione 3: perfetta dipendenza funzionale Facciamo allora lipotesi opposta: che ci sia perfetta dipendenza del suicidio dalla composizione religiosa del contesto. Questo significa che le medie vincolate varie- ranno nei tre sottogruppi (supponiamo che restino le stesse rilevate da Durkheim, e identica resti anche la media generale), ma ora dentro ogni sottogruppo le os- servazioni siano tutte uguali. Per es. i laender cattolici han tutti tasso di suicidio 75, quelli protestanti tutti 192. Il comportamento dipende rigidamente dalla religione dominante nel contesto. In questo caso Y la composizione per religione professata è connes- sa con (e quindi influenza?) il comportamento in questione. Tutte le osservazioni giacciono sulla linea di regressione, e que- sta rappresenta perfettamente la forma della relazione funzionale.

19 Dipendenza funzionale a tre dimensioni Se per ogni valore di X la variabile Y assume una e una sola modalità, con frequenza 1, cè perfetta dipendenza funzionale di Y da X. X=1 X=3 X=2 Nella rappresentazione a 3 dimensioni di un caso di dipendenza funzionale vediamo che sul piano cartesiano (qui è il pavimento del grafico) le osservazioni stanno tutte su una sola linea (rossa). Anche la perfetta dipendenza funzionale è una proprietà non necessariamente simmetrica (provate voi a costruire una ta- bella di perfetta dipendenza bila- terale che abbia un numero dif- ferente di righe e di colonne: per esempio due e tre).

20 Simulazione 3: calcolo Ancora una volta constatiamo quella che ormai dobbia- mo ritenere una regola contabile: Var WG (Y)+ Var BG (Y) =2568,8= Var T (Y) E ancora una volta notiamo alcune altre cose: Nel caso di indipendenza in media la varianza spiegata (tra gruppi) era zero, cioè non contribuiva per nulla alla varianza totale. In questa simulazione, di perfetta dipendenza funzionale, la varianza spiegata è invece pari proprio alla varianza totale. Possiamo dire che contribuisce al 100% alla varianza totale. Viceversa, nel caso di indipendenza in media la varianza residua era il 100% di quella totale: nulla era spiegato dalla relazione (Y/x). Qui invece tutta la variabilità di Y è spiegata dalla dipendenza funzionale da X: non resta variabilità residua.

21 Principio di scomposizione della varianza PRINCIPIO DI SCOMPOSIZIONE DELLA VARIANZA: La varianza di una variabile che vogliamo spiegare (explanandum) è scomponibile nella somma di due fattori: la varianza spiegata dalla dipendenza da unaltra variabile (explanans), e calcolata come varianza tra le medie vincolate E(Y|x), e la varianza non spiegata da quella relazione, o residua, calcolata come media delle varianze entro le singole distribuzioni di Y vincolate a X: Tiriamo le fila delle regolarità emerse dalle simulazioni presentate. Esse possono essere sintetizzate nel principio qui riportato (è talmente generale che possiamo anche arrivarci attraverso una dimostrazione analitica, ma ve ne facciamo grazia) Var WG + Var BG = Var T (Y)

22 Misurare la dipendenza: Eta quadro di Pearson Come misurare allora il grado di dipendenza di Y da X? Ci vorrebbe una bella misura crescente col crescere della dipendenza, minima se cè indipendenza in media, e magari normalizzata tra zero e uno… Voila. Dallidentità contabile del principio di scomposizione della varianza, dividendo entrambe le parti dellequazione per Var T (Y) si ottiene: Per misurare allora il grado di dipendenza in media di una variabile (Y) da unaltra (X) costruiamo un indice normalizzato, rapportando la varianza spiegata al suo massimo. Chiamiamo ETA QUADRO la misura

23 Ancora su eta quadro Eta quadro è dunque una misura mai negativa (è il rapporto tra due varianze) e che non può mai superare 1, dato che il numeratore è una parte del denominato- re. Riassumiamo i valori che assume 2 YX nelle simulazioni precedenti: Database originale: Var T (Y)=3077,5; Var WG =508,7; Var BG =2568,8; 2 YX =0,835=83,5% Prima simulazione: Var T (Y)=9102,3; Var WG =6533,5; Var BG =2568,8; 2 YX =0,282=28,2% Indipendenza in media: Var T (Y)=4418,7; Var WG =4418,7; Var BG =0; 2 YX =0,00=0 % Dipendenza funzionale: Var T (Y)=2568,8; Var WG =0; Var BG =2568,8; 2 YX =1,00=100% Eta quadro misura la quota (percentuale) di varianza dellexplanandum (Y) spiegata da una qualche dipendenza in media dallexplanans (X). La dipendenza in media può essere qualunque tipo di dipendenza funzionale. Può anche legare un explanandum quantitativo a un explanans nominale. NOTA: Le qualità operative di 2 YX non ci devono fare perdere di vista che esso si appoggia su una proprietà fondamentale della spezzata di regressione, cioè della linea delle medie vincolate. Essa è quel crinale tra la variabilità totale di Y e la variabilità entro sottogruppi parziali per il quale vale il principio di scomposizione della varianza. Questo principio non vale per qualunque funzione Y=(X), anzi per la verità non vale quasi mai! (ma tra un po troveremo uneccezione rilevante).

24 Un esempio di calcolo Problema: A un test clinico si sono sottoposti 8 studenti. Tre di loro (il cui test dà come esito 12, 15, 21) conducono una vita normale, con moderata attività spor- tiva. Altri tre (i cui esiti del test sono 8, 11, 17) fanno vita totalmente sedenta- ria. Gli ultimi due (test= 16, 24) fanno sport agonistico. In che misura lesito del test dipende dal tipo di vita (sedentaria o attiva) svolta? Il gruppo di appartenenza (Moderati, Sedentari, Agonisti) sia la variabile X, expla- nans (è nominale, ma non cè problema). Y, explanandum, è lesito del test: X i gruppoy j =testnini E(Y|x i )E(Y|x i )n i E(Y|x i ) 2 n i E(Y 2 |x i )Var(Y|x i )Var(Y|x i ) n i Moderati12,15, Sedentari8,11, Agonisti16, Totale815, E(Y)=15,5; E(Y 2 )=[ E(Y 2 |x i ) n i ]/N=2116/8=264,5; Var T (Y)=264,5-(15,5) 2 =24,25 Var WG (Y)= [ Var(Y|x i ) n i ]/N=116/8=14,5 Var BG (Y)=E(Y) 2 -[E(Y)] 2 =(2000/8)-(15,5) 2 =9,75 Var WG (Y)+ Var BG (Y)= Var T (Y) come volevasi dimostrare 2 YX =Var BG (Y)/Var T (Y)=40,2% (entro cornici uguali trovate identici parametri)


Scaricare ppt "Lezione B.6 Scomporre la varianza TQuArs – a.a. 2010/11 Tecniche quantitative per lanalisi nella ricerca sociale Giuseppe A. Micheli."

Presentazioni simili


Annunci Google