Distribuzioni troncate: esempio Un vecchio amico: il dado P(x)=1/6 Se supponiamo che 3 facce (1,2,3) siano “ cancellate” P(x/x>3)= p(x)/p(x>3)= (1/6)/(3/6)= 1/3 E(X) = (1+2+3+4+5+6)*1/6 = 21/6 = 3.5 E(x/x>3)= (4+5+6)*1/3= 15/3 = 5 V(x) = 2.92 V(x/x>3)= 0.67 Sono stai “eliminati” i valori più “piccoli” TRONCAMENTO A SINISTRA
Se invece immaginiamo che siano cancellate le facce 4,5,6: P(x/x<4)= p(x)/p(x<4)= (1/6)/(3/6)= 1/3 E(X) = (1+2+3+4+5+6)*1/6 = 21/6 = 3.5 E(x/x<4)= (1+2+3)*1/3= 6/3 = 2 V(x) = 2.92 V(x/x>3)= 0.67 Sono stai “eliminati” i valori più “grandi” TRONCAMENTO A DESTRA
Effetti del Troncamento: Rispetto alla distribuzione “non troncata” La funzione di densità si modifica (“aumenta”) La media si modifica (aumenta se tronc.sx, diminuisce se tronc. A dx) 3. La varianza diminuisce in ogni caso Ovviamente “ignorare” il troncamento porta a stime distorte
Funzione di densità di probabilità: quale relazione con la densità “non troncata”? In generale avremo (dalla definizione di probabilità condizionata)
F(a) F(b)
Per un troncamento a sinistra: Per un troncamento a destra: Questo rapporto è noto come “Inverse Mill’s Ratio” o anche “Hazard function” Equivale a “scalare” la troncata in modo che l’integrale assommi a 1
Esempio: Distribuzione normale Troncamento a sx Dove densità della N(0,1) NON troncata (è una funzione) ripartizione della N(0,1) nel punto di troncamento (è un numero)
Esempio: Distribuzione normale Troncamento a dx Cambia solo il denominatore
Esempio: Tronchiamo a sx nel punto 10 cioè circa 22.000 euro
Dati sulle distribuzioni (troncata nel punto ln(reddito)=10) NON troncata Troncata Numerosità 4609 1592 % 100% 35% media LN 9,767 10,364 Varianza LN 0,373 0,109 Sdev LN 0,611 0,330 cv 6% 3% DATI ORIGINALI Media 20800 33915 Varianza 201203411 274804136 Sdev 14185 16577 68% 49% En passant notiamo che exp(medie dei logaritmi) ammontano rispettivamente a 17448 e 31707
Calcoliamo la funzione di densità per x=40.000 ln(x)=10,6 Nella distribuzione originale il valore standardizzato (10,6-9,77)/0.61= 1,36 e p(1,36)= 0,1578 Nella troncata:
(a)=p(x)/p(x>a)=(x)/(1-()) (Inverse Mill’s ratio) Vista la relazione sulla densità è agevole ricavare quella sui parametri: Basta calcolare l’integrale che definisce media e varianza per la troncata Definiamo: = E(x) ²=V(x) (a)=p(x)/p(x>a)=(x)/(1-()) (Inverse Mill’s ratio) (a)= (a)*((a)-a) Allora: E(x/x>a) = + (a) V(x) = ²[1- (a)]
Valori di e al variare del punto di troncamento Lambda 1-F(x) delta f(x)
Un esempio (artificiale): Il 2% più ricco (coloro che hanno un reddito superiore a 100.000 €) della popolazione italiana ha un reddito medio di 142.000 €. Supponendo che la distribuzione dei redditi sia log-normale, qual è una stima del reddito medio dell’intera popolazione? Si ha: ln(100)=4,605 ln(142)=4,956
I dati indicano che: E( y/y > 4,605) = 4,956 Prob(y > 4,605) = 0,02 Ricordando che:
Quindi le equazioni diventano: