LEZIONE A.9 La standardizzazione TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli.

LEZIONE A.9 La standardizzazione TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli

In questa lezione.. In questa lezione vedremo alcuni problemi legati a trasformazioni lineari di una variabile statistica, e in particolare vedremo una trasformazione molto utile – che chiameremo standardizzata - per comparare v.s. con medie e varianze differenti. In sequenza vedremo:  Cosa succede alla media e alla varianza di una v.s. trasformata  Come si può ‘normalizzare’ un indicatore  Come si può ‘normalizzare’ una varianza  Cos’è un carattere ‘trasferibile’  Come si può ‘standardizzare’ una variabile  Che limite si può dare alla frequenza di casi lontani dalla media

Trasformare una variabile: stirare una molla Supponete di avere in mano un nastro a molla come questo. la distanza di ogni punto dal centro è insensibile alla traslazione Spostate il nastro verso de- stra. La collocazione sul piano di ogni punto del nastro si sposta sul piano in ugual misura: così pure il baricentro. Ma la lunghez- za del nastro non cambia. Anche la distanza di ogni punto dal centro è insensibile alla traslazione. la distanza di ogni punto dal centro crescerà Provate ora a stirare la molla. La collocazione del ‘centro’ del nastro si sposterà in proporzione. Anche la distanza di ogni punto dal centro crescerà: ma in che misura?

Media e varianza di una v.s. spostata o ‘stirata’ xixi nini 04m X= 4 42V X= 12,8 84  X= 3,58 10 vivi nini 54m V= 9 92V V= 12,8 134  V= 3,58 10 wiwi nini 04m W= 8 82V W= 51,2 164  W= 7,16 10 La v.s. W ha identica distribuzione di frequenza di X, ma è una trasformazione lineare di X, in cui è trasformata l'unità di misura: W=2X. Si vede che: M(w)=2M(x); V(w)=4V(x);  w =2 X Anche la v.s. V ha identica distribuzione di frequenza di X, ma è una trasformazione lineare di X, in cui è effettuata una traslazione dell’origine: V=5+X. Si vede che: M(v)=5+M(x); V(v)=V(x);  V = X Possiamo trarre una regola generale?

Media aritmetica ‘operatore lineare’ Per M(x) valgono queste proprietà: Se Y = a + X  M(y)=a+M(x) [traslazione dell'origine] Se Y = b  X  M(y) = b  M(x) [cambiamento di unità di misura] Se Y=a+bX  M(y)=a+bM(x) [trasformazione lineare completa] Una trasformazione lineare di u- na variabile è perfettamente ri- flessa nella media aritmetica della trasformata. Si dice che la media aritmetica è un operatore lineare. Dimostrazione: «M(y) = a + b  M(x)» Sia Y = a + b  Xallora:

Varianza insensibile alla traslazione ma.. Anche la varianza è un operatore lineare, ma con qualche differenza di comportamento: Se Y = a + X  V(y) = V(x) [traslazione dell'origine] Se Y = b  X  V(y) = b²  V(x) [cambiamento di unità di misura] Se Y=a+bX  V(y) = b²  V(x) [trasformazione lineare completa] La varianza di una (qualunque) trasformata lineare è insensibile alla traslazione dell'origine e ri- sente in misura quadratica di un cambiamento di unità di misura. «V(y) = b²  V(x) » Sia Y = a + b  Xallora

Normalizzare un indicatore La normalizzazione (o standardizzazione) di una misura è una procedura con due significati diversi tra loro connessi. Nel primo significato, un indicatore è normalizzato se è "ricondotto a norma", sterilizzando l'effetto di alcuni fattori di disturbo. Per esempio, abbiamo visto come la varianza è una misura di variabilità influenzata dall'ordine di grandezza del fenomeno osservato. Un primo, grezzo modo per ‘normalizzare’ la varianza consiste quindi nello sterilizzare l'unità di misura del fenomeno, definendo una quantità adimensionale (o numero puro) detta coefficiente di variazione: cv =  / m Tra poco vedremo una procedura più drastica di riconduzione a norma, applicata all'intera variabile statistica.

Coefficiente di variazione: un esempio Dalla Survey Lombarda stimiamo che la deviazione standard dei redditi familiari a Milano è  X MIL =1,85. Nei piccoli comuni la stessa misura è  X PIC =1,28, assai minore. Possiamo davvero dedurne che c’è meno dispersione di redditi in provincia che non nella grande città? Non posso dirlo con certezza, perché la deviazione standard sale con l’ordine di grandezza del carattere studiato. Sappiamo infatti che: Se Y=a+bX  V(y)=b²V(x)e quindi  Y = (b²V(x))=b.  X E il reddito medio è più alto a Milano (m x MI =3,3438) che fuori (m x PIC =2,8025). Posso allora confrontare le deviazioni standard se le depuro dell’effetto dell’ordine di grandezza. Trovo così che: CV x MI = 1,85/3,3438 = 0,553 > CV x PIC = 1,28/2,8025 = 0,457 E’ quindi confermata la maggiore dispersione dei redditi a Milano.

Coefficiente di variazione: due altri esempi Un esempio micro. Gli stipendi di tre anziani amici erano di 1000, 1500 e 2000 lire nel 1950, e le loro pensioni nel 2000 erano di 2,0 2,5 e 3,0 milioni di lire. La variabilità tra i loro redditi era aumentata o diminuita? Al 1950 le misure erano: m x 1950 =1500  x 1950 =408,25 CV x 1950 =0,272 Al 2000 le misure erano: m x 2000 =2500000,  x 2000 =408250, CV x 2000 =0,163 Morale: gli stipendi sono incredibilmente cresciuti, ma alla fine le distanze tra le pensioni sono dimezzate! Un esempio macro. Tra USA e Italia il reddito medio (non ponderato con le rispettive popolazioni) è 22135 $, la deviazione standard è 1185. Tra Egitto e Etiopia il reddito medio è 370 $, la deviazione standard è 250. La misura di dispersione tra i due paesi occidentali è quasi 5 volte superiore: possiamo dire che tra di loro la variabilità dei redditi nazionali è nettamente superiore a quella riscontrata tra i PVS? In realtà è vero proprio il contrario! Infatti CV x PSA =1185/22135=0,053 che è addirittura 13 volte inferiore a CV x PVS =250/370=0,676.

Normalizzare un indicatore tra zero e uno C’è un secondo modo per intendere il concetto di normalizzazione. Un indice è normalizzato se è compreso tra un minimo e un massimo convenzionale, di facile percezione. Per esempio 0  I  1 Questo rende possibili i confronti. Se per un indice I si individuano un minimo e un massimo (I min II max ), l’indice è sempre trasformabile nel suo equivalente normalizzato I*= I-I min /I max -I min 0  I*  1 Esempio: Pippo si è diplomato al Liceo nel ‘94 con I 1 =40/60, suo fratello Pippetto pochi anni dopo con I 2 =65/100. Come confrontare i due risultati? I* 1 =I 1 -I min /I max -I min =40-36/60-36=0,167; I* 2 =65-60/100-60=0,125 Han fatto schifo tutti e due, ma Pippetto (anche se 65>40) ha fatto peggio!

Normalizzare la varianza È normalizzabile la varianza? Mica tanto. Infatti è vero che cresce con l’ordine di grandezza (quindi in funzione di M(x), ma non è possibile definirne un massimo, salvo che si faccia una ipotesi (talora realistica, talora no) sul fenomeno studiato e si adotti un criterio particolare. Il criterio è: “Confrontare una v.s. osservata esclusivamente con quelle altre v.s. che abbiano la stessa intensità totale T=  x i n i ”. x 1 x 2.. x i.. x k X = n 1 n 2.. n i.. n k T=x i n i e m=T/N La distribuzione comparabile X max a massima varianza è quella in cui (N-1) osservazioni hanno valore x=0, l’ultima ha valore x N =T 0 T=x i n i X = N-1 1 T=x i n i e m=T/N

Distribuzione massimante Esempio: un distretto industriale è composto di tre soli paesi, uno di 10 (mila) abitanti, uno di 20 (mila), uno di 60 (mila). La popolazione media è m=30, la varianza è  2 =466,7, lo sd è =21,6. Come normalizzare  2 e ? Calcoliamo m e  per alcune varianti di X con popolazione totale costante. X = {15, 15, 60}T=90 m=30  2 =450=21,21 X = {5, 5, 80}T=90 m=30  2 =1250 =35,35 X max = {0, 0, 90}T=90 m=30  2 =1800 =42,43 Nessuna distribuzione – a parità di T – ha varianza maggiore di X max. Chiamiamo X max “distribuzione massimante”. Il rapporto tra la varianza della v.s. osservata e quella della cor- rispondente distribuzione massimante è una misura di Varianza normalizzata: 0  V * = V/V max  1e 0   * =  /  max  1 Nell’esempio V * = 466,7/1800=0,259e  * = 21,6/42,43=0,509 = V *.

Varianza della distribuzione massimante Nell’esempio svolto c’è un particolare curioso. La varianza della distribuzione massimante è  2 =1800 = 2 x 900 = (N-1) x m 2. E’ un caso? No, è un risultato generale che possiamo anche dimostrare: 0 T=x i n i X max Distribuzione massimante N-1 1 m= [0 x (N-1)]+[T x 1]/N=T/N m 2 =[0 2x (N-1)]+[T 2x 1]/N=T 2 /N  2 max = (N-1) x m 2  max = (N-1) x m Ora possiamo normalizzare :  2 = / max = /((N-1) x m)= = (/m)/(N-1)=CV/(N-1) Ma allora il CV non era poi così male..

Quando la distribuzione massimante ha senso Ricapitoliamo. Il massimo della varianza per caratteri trasferibili è quello che si ottiene simulando la distribuzione di massima variabilità o massimante: quella in cui (N–1) unità hanno intensità 0 del carattere e solo l'ultima unità (N–esima) concentra su di sé l'intensità totale T. Per distribuzioni a pari Intensità totale T si trova che: 0 x (N–1)m x E si può quindi calcolare la deviazione standard normalizzata: Naturalmente la normalizzazione della varianza ha senso quando ha senso ancorarsi alla Intensità totale T come ‘funzione obiettivo’, e immaginare di ‘trasferire’ parti dell’intensità totale T da una unità di osservazione all’altra. Ha senso, insomma, per caratteri trasferibili. Trasferibile è ogni carattere quantitativo non negativo per cui abbia senso variare la distribuzione di frequenza osservata con- servando comunque immutata T.

Quali caratteri sono trasferibili Quali caratteri sono trasferibili? Per quali caratteri l’intensità totale ha un senso? Per esempio:  Redditi pro capite (PIL)  Popolazione per province (Popo- lazione di una regione/nazione)  Tempo a disposizione per Banca del tempo (‘capitale’ della Banca)  Ore di lezione per docente (monte ore di didattica)  Metri cubi di acqua erogata a ogni abitante (totale acqua erogata).. Quali caratteri non sono trasferibili? Per quali caratteri l’intensità totale non ha senso? Per esempio:  Stature dei coscritti alla visita di leva  Q.I. di una classe  Numero di denti cariati rilevati ad un ambulatorio  Struttura per età di una popolazione di immigrati  Distribuzione dei voti a un test di ammissione.. Ma attenzione: anche se normalizzare la varianza vale in senso stretto solo per caratteri trasferibili, la si usa più in generale (almeno per caratteri non negativi). E’ infatti troppo comoda per comparare!

Distribuzione massimante vincolata Certo che la distribuzione massimante – ipotizzando che N-1 unità siano ridotte a zero e l’ultima ‘arraffi tutto il piatto’ – non è molto realistica! Noi ce la teniamo stretta perché la sua varianza è davvero semplice. Ma potremmo cercare una più realistica distribuzione massimante ‘vincolata’, in cui cioè le modalità si polarizzano tra le due modalità minima (l) e massima (L) effettivamente osservate: l  x i  L. In questo caso, per mantenere il vincolo della costanza di T, si ricavano le frequenze della distribuzione massimante e Var(X”) diviene Var(X") = ( L – m x" ) x (m x" – l ) Se poi l = 0 e L = N  m = T si ritorna a:

‘Ricondurre a norma’ una variabile Fin qui abbiamo imparato a ‘normalizzare’ un singolo indicatore di sintesi di una v.s., come la varianza. Ma possiamo ora radicalizzare l’operazione. Una v.s. è "standardizzata" se è stata "ricondotta a norma", sterilizzando l'influenza di due fattori di disturbo: l'ordine di grandezza e l'unità di misura/dispersione. Per esempio, due distribuzioni di frequenza f(x) e f(y), apparentemente diverse, possono rivelarsi simili una volta che si prescinda dall'ordine di grandezza e dall'unità di misura. La standardizzazione è dunque un'operazione che consente la com- parazione della forma di diverse distribuzioni di frequenza, prescindendo da ordine di grandezza e dispersione. Sappiamo che la media misura l’ordine di grandezza di una v.s. quantitativa, e che la deviazione standard  X misura l’unità standard di dispersione intorno alla media. Chiamiamo standardizzazione di una v.s. X l'affiancamento alla sua legge di distribuzione di una trasformata Z:

Una trasformata molto dotata «m z =0». Sia allora: «Var z =1». Sia allora: Si dimostra che, qualunque sia la v.s. X, la sua standardizzata Z = (X – m x ) / x ha sempre media nulla e varianza unitaria.

Come standardizzare una variabile xixi fifi x i f i x1x1 f1f1 x 1 f 1 x2x2 f2f2 x 2 f 2 x3x3 f3f3 x 3 f 3 x4x4 f4f4 x 4 f 4 x5x5 f5f5 x 5 f 5 1mXmX x i 2 f i x 1 2 f 1 x 2 2 f 2 x 3 2 f 3 x 4 2 f 4 x 5 2 f 5 m2Xm2X z i =(x i –m x )/ X z 1 =(x 1 –m x )/ X z 2 =(x 2 –m x )/ X z =(x 3 –m x )/ X z 4 =(x 4 –m x )/ X z 5 =(x 5 –m x )/ X fifi z i f i f1f1 z 1 f 1 f2f2 z 2 f 2 f3f3 z 3 f 3 f4f4 z 4 f 4 f5f5 z 5 f 5 10!! z i 2 f i z 1 2 f 1 z 2 2 f 2 z 3 2 f 3 z 4 2 f 4 z 5 2 f 5 1!! Standardizzare una variabile è operazione semplice. Basta sostituire alle modalità x i le corri- spondenti modalità trasformate z i =(x i –m x )/ X. Ad esse si affiancano le stesse numerosità (e frequenze) che non vengono toccate. Potete verificare che m(x) è nulla, e che V(X), calcolata come (z i 2 -0)f i =z i 2 f i, è proprio 1. Attenti! Se la v.s. è per classi le frequenze non cambiano, ma le densità di frequenza sì. Perché?

Una verifica xixi nini 04m X= 4 42V X= 12,8 84  X= 3,58 10 vivi nini 54m V= 9 92V V= 12,8 134  V= 3,58 10 wiwi nini 04m W= 8 82V W= 51,2 164  W= 7,16 10 La nuova v.s. ‘standardizzata’ Z è ora ‘centrata’ sul baricentro Z=0, e ha media nulla e varianza (e sd) unitaria: M(z)=0; V(z)= Z =1 xixi nini z i =(x i - m X )/  X z i.f i z i 2.f i 04 (0-4)/3,58=-1,1173-0,4470,5 42 (4-4)/3,58=000 84 (8-4)/3,58=+1,11730,4470,5 0!!1!!

Normalizzare , standardizzare X Normalizzare un indicatore sintetico di una v.s. (per es. calcolando E* o CV) permette di confrontare tra loro popolazioni eterogenee nel complesso. Standardizzare una v.s. invece consente di confrontare la posizione di distinte unità all’interno di due o più variabili (caratteri) distinti. Consente di rispondere a esigenze di confronto e a esigenze di associazione:  Confronto: Tizio ha avuto 50/60 al test intermedio, 52/60 al test finale. Quando è andato meglio, tenuto conto dell’esito di tutti gli esaminati nel complesso?  Associazione: alcuni hanno performances basse ai test. Avrà qualcosa a che fare con il loro basso tasso di tiroidina nel sangue? Nel primo caso l’obiettivo è micro: il bersaglio da valutare è la singola unità di analisi. Nel secondo caso invece lo scopo è, sì, spiegare la defaillance di Caio (obiettivo micro), ma così facendo si punta ad associare due variabili tra loro: performance e capacità fisica di concentrazione (obiettivo macro).

Un esempio etàxixi nini x i n i xi2xi2 xi2 nixi2 ni 0-63322966 9 Com ple tate voi i cal coli di que sta co lon na 6-14105075070 100 14-21 17,5 4778347 306 21-25232185014 529 25-4535128244870 1225 45-6555108759785 3025 >657570352725 5625 4596 176777 Popolazione (x000) per età–Piemonte,1979 etàxixi nini x i n i xi2xi2 xi2 nixi2 ni 0-636031809 9 Com ple tate voi i cal coli di que sta co lon na 6-14108278270 100 14-21 17,5 80814140 306 21-25233518073 529 25-4535136647810 1225 45-6555103857090 3025 >657553139825 5625 5524 177017 Popolazione (x000) per età - Campania DOMANDA: In Piemonte l’età media è m P =38,5 e  P =22,5. In Campania m P =32 e  P =22. E‘ più giovane un 25enne piemontese o un 20enne campano? Se x P =25 z P =(25-38,5)/22,5=-0,60 Se x C =20 z C =(20-32)/22= -0,55 Il 25enne P ha età ‘relativamente’ minore

Un secondo esempio n i MI 4 1 7 10 9 23 11 15 8 6 3 3 3 8 3 114 xixi 0,4 1,0 1,4 1,8 2,2 2,6 3,0 3,4 3,8 4,2 4,6 5,0 5,6 7,0 10,0 z i MI -1,591 -1,267 -1,051 -0,834 -0,618 -0,402 -0,186 0,030 0,246 0,463 0,679 0,895 1,220 1,976 3,598 n i PIC 7 9 55 103 88 123 68 50 30 41 15 11 12 13 3 628 xixi 0,4 1,0 1,4 1,8 2,2 2,6 3,0 3,4 3,8 4,2 4,6 5,0 5,6 7,0 10,0 z i PIC -1,877 -1,408 -1,096 -0,783 -0,471 -0,158 0,154 0,467 0,779 1,092 1,404 1,717 2,185 3,279 5,623 m x MI =3,3438  x MI =1,85 m x PIC =2,8025  x PIC =1,28 Esempio: Mario Rossi, abitante a Milano, ha 12(mila) euro di entrate mensili, Paolo Verdi, di Misinto, ha solo 9(mila) euro. Chi è più ricco, nel proprio contesto? Se x i MI =12 z i MI =(12-3,344)/1,85=4,68 Se x i PI =9  z i PI =(9-2,802)/1,28=4,84 Dunque, benché Mario Rossi abbia entrate del 33% superiori a quelle di Paolo Verdi, quest’ultimo possiede un reddito ‘standardizzato’ maggiore, se depurato dell’ordine di grandezza e della dispersione del proprio sottogruppo.

Quanto possono pesare le code di una v.s.? Torniamo alla distribuzione dei redditi dei piccoli comuni della provincia di Milano (cap. 3). Solo il 4,4% delle famiglie in- tervistate (28 su 628) oltre- passa una soglia di ricchezza che possiamo situare a m+2 [2,8+(2 x 1,28)=5,36]. Ma potremmo pensare a una distribuzione con un peso molto maggiore sulle code, cioè oltre le colonne d’Ercole di m+2 o m+3 ? Supponiamo di omaggiare 50 delle 123 famiglie con reddito 2,4-2,8, dando loro 7,4(mila) euro in più. Ora esse entrano nell’ultima classe. Sopra i 5,36 euro troviamo ora 28+50=78 famiglie, cioè il 12,4%. Ma… In realtà lo spostamento sulle code è solo apparente: infatti la nuova distribuzione (potete calcolarla) ha media m=3,4 (più alta) e =2,33 (quasi il doppio), così che ora le colonne d’Er- cole si spostano a 8,06. Infatti: m+2=3,4+(2 x 2,33)=8,06 Blu = Prima Rosso=Dopo Ora sopra la soglia stanno so-lo in 53, l’8,4%! m+2 primam+2 dopo

(m±k) come ‘colonne d’Ercole’ Al crescere della dispersione intorno alla media, cresce anche la varianza: più di tanto quindi non aumenta il peso delle osservazioni che si situano al di fuori di una sorta di ‘colonne d’Ercole’ che delimitano la regione compresa tra (m-2) e (m+2), oppure tra (m-3) e (m+3) o anche più. Ma quanto possono pesare (come frequenza) le osservazioni che cadono al di fuori delle colonne? E’ una domanda importante, perché fuori di queste colonne sta la regione dei casi anomali (chiamiamola regione di rifiuto), e perché – se dobbiamo fare una indagine su una popolazione e consideriamo un range definito mediante m e  – abbiamo comunque interesse a inglobare una % la più consistente possibile.. m-k m m+k Sarebbe bello avere la certezza che al di fuori di una certa soglia la frequenza dei casi osservati non superi un tetto, ovvero, se ci suona meglio, che entro una regione data intorno a m(x) stia almeno una certa % minima di casi…

Il teorema di Cebicev Se di una v.s. conosciamo solo m e  e non l’intera distribuzione non possiamo certo definire la frequenza di casi osservati in un certo intervallo centra- to sulla media, Freq(m-k<X<m+k): Freq (|X-m|<k)= ? teorema di Cebicev Né posso sapere qual è la frequenza di osservare casi al di fuori dello stesso intervallo, Freq (|X-m|>k). Ma una informazione minimale ci viene dal teorema di Cebicev: Data una v.s. X di cui conosciamo m e , qualunque sia la forma della distribuzione, la frequenza di osservare unità comprese in un intorno della media di ampiezza pari a 2k non può essere inferiore a 1-(1/k 2 ) Per es. entro ±2 sta almeno il 75% dei casi (fuori delle colonne non più del 25%). Entro ±4,5 sta almeno il 95% dei casi (e fuori non più del 5% dei casi). Eccetera… k Freq (|X-m|<k)= 1–(1/k 2 )

LEZIONE A.9 La standardizzazione TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli.

Presentazioni simili

Presentazione sul tema: "LEZIONE A.9 La standardizzazione TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

LEZIONE A.9 La standardizzazione TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli.

Presentazioni simili

Presentazione sul tema: "LEZIONE A.9 La standardizzazione TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back