1 Stime pooled in Eu-Silc: il caso della regione Toscana Francesca Gagliardi , Caterina Ferretti , Vijay Verma (Università di Siena)

1 Stime pooled in Eu-Silc: il caso della regione Toscana Francesca Gagliardi *, Caterina Ferretti **, Vijay Verma *** (Università di Siena) *gagliardi10@unisi.it; **caterinaferretti@libero.it; ***verma@unisi.it.gagliardi10@unisi.itcaterinaferretti@libero.itverma@unisi.it Dipartimento di Metodi Quantitativi

2 Pooling Definizione: analisi statistica o calcolo di stime basate su dati provenienti da fonti diverse. Obiettivi: (1) Cumulare o aggregare al fine di ottenere stime meno dettagliate ma più precise. Ad esempio questa può essere una soluzione per utilizzare al meglio dati campionari al fine di ottenere stime robuste che permettano una maggiore disaggregazione spaziale. (2) Consentire il confronto tra popolazioni diverse, tra parti diverse di una stessa popolazione, o per la ‘stessa’ popolazione a diversi istanti temporali. (3) Dare un’interpretazione comune ad informazioni statistiche provenienti da fonti diverse e/o da popolazioni diverse.

3 Prerequisito fondamentale: comparabilità Affinché pooling di microdati o di stime sia significativo, le diverse fonti devono essere comparabili (in termini di grado). Tale concetto implica che i dati o le stime possano essere legittimamente (in modo statistico) aggregati, comparati ed interpretati. Un ‘sufficiente’ grado di comparabilità è concetto centrale per i problemi e le procedure di pooling. (Verma V. 1992, 1993, 1995a, 1995b, 1997, 1998, 2002a, 2002b, 2004, 2006). Forme di pooling: (a) pooling di dati (aggregare microdati provenienti dalla stessa o da diverse popolazioni, da diverse indagini o per diversi periodi di tempo); (b) pooling di stime (calcolo di stime comuni come funzione, es. media pesata, di stime calcolate da singole fonti).

4 Diversi scenari: SCENARIFonte dei dati PopolazioneStessa/SimileDiversa/Dissimile Stessa/Simile43 Diversa/Dissimile21 Scenario 4: pooling dati da fonti simili per una data popolazione. Es.: indagini periodiche, ripetute frequentemente ad intervalli regolari usando le stesse metodologie e coprendo essenzialmente la stessa popolazione (EU-SILC). Ad es. poverty rates possono essere calcolati per ogni onda e poi opportunamente aggregati nel tempo per rendere la stima più stabile; oppure possono essere calcolati per soglie diverse e poi aggregati; infine possono essere calcolati anche per livelli di disaggregazione diversi e poi ‘pooled’.

5 Schema di rotazione panel: consideriamo due anni consecutivi con campioni parzialmente soprapposti. Affinché ogni cross-section per ogni anno sia rappresentativo è necessario che siano rappresentativi: (1) la parte di campione rimossa rappresentativa della popolazione del primo anno; (2) la parte di campione aggiunta rappresentativa della popolazione del secondo anno; (3) la parte sovrapposta rappresentativa di entrambi gli anni. Questo si ottiene selezionando il campione totale suddiviso in replicazioni, ognuna rappresentativa del campione, con lo stesso disegno (struttura) del campione, diversa solo per numerosità. Cumulare dati cross-section e longitudinali da EU-SILC

7 La seguente figura mostra lo schema di rotazione utilizzato in EU- SILC. Ogni campione ha 4 replicazioni che sono presenti nell’indagine al tempo T da 1-4 anni. Per anni consecutivi si ha 75% di sovrapposizione, che si riduce al 50% per un lag di 2 anni e al 25% per uno di 3. In generale con n replicazioni che permangono per n cicli consecutivi, la sovrapposizione tra i vari anni decresce linearmente. Per 2 indagini a distanza di i periodi la sovrapposizione è (n-i)/n fino al tempo i= (n-1) dopodiché diventa zero.

8 Cumulare dati longitudinali La maggiore limitazione dei campioni longitudinali è l’esigua numerosità campionaria al fine di studiare particolari sub-samples. Cumulation dei dati nel tempo può risolvere il problema. Consideriamo di analizzare il cambiamento anno dopo anno in un disegno come quello della figura precedente, con r sub-samples. Ogni anno a partire dal secondo, (r-1) sub-samples forniscono osservazioni per transizioni anno-anno. Possiamo cumulare nel tempo ed ottenere (r-1)*(y-1) sub-samples per gli anni da 1 a y. Nella figura seguente si fornisce un esempio con r=4 (EU-SILC). A partire dal terzo anno (r-2) sub-samples forniscono osservazioni longitudinali per un periodo di 3 anni. Queste possono essere cumulate fino all’anno y per ottenere (r-2)*(y-2) sub-samples con osservazioni di 3 anni.

10 Misure robuste di povertà per la cumulation (1) Poverty rates per un dato sottocampione e per una data onda EU-SILC. E’ l’elemento base; cumulation dei sub-samples (4) della stessa onda usando i microdati di tutti i sub-samples insieme. Otteniamo un valore per ogni onda. E’ l’unico caso in cui si utilizzano tutti i microdati insieme. (2) Poverty rates con soglie di povertà diverse. Le soglie di povertà più comuni sono al 50, 60 e 70 % della mediana. Calcolare poverty rates per diverse soglie di povertà e poi aggregarli con opportuni pesi definiti a priori, aumenta la precisione del campione.

11 (3) Poverty rates con linea di povertà calcolata su diversi livelli di disaggregazione. Linea di povertà europea determinata usando le distribuzioni dei redditi di tutti i paesi europei insieme; Linea di povertà nazionale calcolata sulla base delle distribuzioni dei redditi separatamente per ogni paese; Linea di povertà a livello NUTS1 calcolata sulla base delle distribuzioni dei redditi separatamente all’interno di ogni macroregione NUTS1; Linea di povertà a livello NUTS2 calcolata sulla base delle distribuzioni dei redditi separatamente all’interno di ogni regione NUTS2. Questo non consolida le stime perché fa passare da concetti puramente assoluti (povertà a livello EU o nazionale) a concetti puramente relativi (NUTS). E’ necessario separare la variazioni all’interno e tra le regioni.

12 (4) Poverty rates cumulati nel tempo. Esiste un trade-off tra aggregazione nel tempo e disaggregazione geografica. Per quest’ultima è necessario utilizzare misure cross section aggregate su periodi temporali. Misure longitudinali richiedono pooling nel tempo di microdati, aggregando nel tempo. Tali misure sono più robuste di quelle basate su una sola onda; sono più precise (aumentano l’effettiva numerosità campionaria).

13 Applicazione ai dati EU-SILC ES. c.s. 2005 Italia Nuts2, HCR. HCR(60,Nuts2) Var(HCR)  JRR Struttura (strati, PSU, pesi); Varianza elevata Cumulare nel tempo (aggregare più onde) HCR(50,Nuts2) HCR(60,Nuts2) HCR(70,Nuts2) Media pesata HCR(50,EU) HCR(60, EU) HCR(70, EU) HCR(50,IT) HCR(60, IT) HCR(70, IT) HCR(50,Nuts1) HCR(60,Nuts1) HCR(70,Nuts1) HCR(50,Nuts2) HCR(60,Nuts2) HCR(70,Nuts2) Cumulare nel tempo (aggregare più onde)

14 Pooling, effetti sulla varianza Riduzione varianza con pooling di sub-samples. Il campione EU-SILC per ogni onda è composto di sub-samples indipendenti di struttura e numerosità simile. Aggregando i sub-samples il design effect rimane essenzialmente invariato e la varianza è ridotta proporzionalmente alla numerosità ottenuta. Riduzione della varianza aggregando diverse soglie di povertà (es. 50, 60, 70) con pesi appropriati. Considerando tre soglie di povertà, con poverty rates p i, p 1 <p 2 <p 3, con pesi fissati W i, il rate finale e la sua varianza saranno:

15 Considerando variabili indicatore di povertà p i,k ={0,1} per l’individuo j nella popolazione, la precedente diventa: Se compariamo questa varianza con quella di un poverty rate (p 2 ) calcolata usando la soglia di povertà del 60%, var(p 2 )=p 2 *(1-p 2 ), il rapporto dà il fattore di riduzione dello standard error.

16 Riduzione della varianza dovuta all’aggregazione di più onde per un determinato panel (sub-sample) Dobbiamo tenere in considerazione la correlazione fra le onde. Consideriamo due onde consecutive, con proporzione di poveri pari a p e p’ rispettivamente; con la seguente sovrapposizione a livello individuale tra le due onde: Wave w+1 Wave wPoor (p'i=1)Non-poor (p'i=0)total Poor (pi=1)abp=a+b Non-poor (pi=0)cd1-p=c+d totalp'=a+c1-p'=b+d1=a+b+c+d Indicando p j e p j ’ gli indicatori di povertà {0,1}, sommando per tutti i g individui, si ha:

17 Per due periodi consecutivi si ha: Ci aspettiamo che la correlazione c 1 /v 1 decresca all’aumentare della distanza (i) tra le onde ed è assunta quindi come Date Q onde, ci sono Q-i coppie distanti i periodi con i=1,…,(Q-1). In questo caso la varianza di una media su Q periodi rispetto a v 1 sopra calcolato è dove a è la percentuale di individui poveri su entrambi i periodi e p è la media del tasso di povertà cross section su Q onde. f c è il rapporto dei corrispondenti standard errors.

18 Riduzione della varianza dovuta all’aggregazione su più onde per lo schema di rotazione EU-SILC Consideriamo uno schema di rotazione con n sub-samples e di effettuare la stima richiesta su Q periodi consecutivi. Se n=1 abbiamo campioni indipendenti per ogni periodo, quindi la varianza per la media su Q periodi è data da Il campione coinvolto nella stima della media consiste di (n+Q-1) sub- samples indipendenti. La distribuzione dei (n+Q-1) sub-samples per il numero di osservazioni (m) fornite è la seguente: m =N. di sub-samples 1, 2, …, (m 1 -1)2 per ogni valore di m m1m1 m 2 -(m 1 -1) m 1 =min(n, Q) e m 2 =max(n, Q).

19 A titolo esemplificativo consideriamo Q=m 1 =4 ed n=m 2 =5 Ci sono 2 sub-samples che contribuiscono con 1, 2 e (m 1 -1)=3 osservazioni ed m 2 -(m 1 -1)=2 sub-samples che contribuiscono con m 1 =4 osservazioni. Nell’ EU-SILC n=4, mentre fino ad ora Q=2,3,4.

20 Per esemplificare l’effetto della correlazione dovuta alla sovrapposizione dei sub-samples poniamo che R sia la correlazione media in due periodi consecutivi, allora assumiamo che quella tra due periodi con lag 2 sia R 2, quella tra due periodi con lag 3 sia R 3, … Considerando un sub-samples che contribuisce con m osservazioni durante l’intervallo di tempo Q con completa sovrapposizione dei campioni. La varianza per la media su m osservazioni è data da f(m) riflette la perdita di efficienza dovuta alla cumulation o ad effettuare medie con campioni sovrapposti.

21 Nello stimare la varianza sulla media di tutto il campione di (n*Q) osservazioni nei sub-samples, assumiamo di dare ad ogni osservazione lo stesso peso. La varianza diventa: Il primo fattore è la varianza attesa da (n*Q) osservazioni indipendenti, ognuna con varianza V 2 ; gli altri termini sono l’effetto della correlazione nei campioni sovrapposti. Un’alternativa alla precedente è considerare una media pesata delle osservazioni con pesi inversamente proporzionali alle loro varianze, cioè a 1+f(m) dove W i sono i pesi dell’osservazione i.

22 Conclusioni In quale ordine le misure descritte possono essere applicate? (1) Poverty rate per una data onda EU-SILC (pooling dei microdati sui sottocampioni); poi (2) Poverty rates con diverse linee di povertà (media dei risultati (1) con diversi livelli 50, 60, 70% della soglia di povertà); poi (3) Poverty rates con linee di povertà con diversi livelli di disaggregazione geografica (media dei risultati della (2), calcolati su diversi livelli come EU, national, NUTS1, …); poi (4) Poverty rates cumulati nel tempo (media dei risultati della (3) su un numero di onde consecutive). Oppure: (1)-(3)-(2)-(4) Il punto (3) ha problemi teorici e pratici; i primi consistono nel mixare misure di povertà assolute e relative, quindi farne una media potrebbe non essere significativo. I secondi riguardano i dati necessari, relativi a tutta la EU. Per questo motivo si può utilizzare la sequenza ridotta: (1)-(2)-(4).

23 Un altro possibile ordine può essere: (1) Poverty rate per una data onda EU-SILC; poi (4) Poverty rates cumulati nel tempo; poi (2) Poverty rates con diverse linee di povertà; poi (3) Poverty rates con linee di povertà con diversi livelli di disaggregazione geografica. Anche in questo caso (1) e (4) sono i primi due calcoli da fare, poi (2)-(3) o (3)-(2) o solo (2). Quale ordine raccomandiamo? Consigliamo di non utilizzare (3), quindi (1)-(2)-(4) o (1)-(4)-(2). La risposta al momento dipende dai dati; una volta applicate le varie opzioni si devono vedere gli effetti sugli standard errors e decidere per la procedure ottimale. La nostra preferenza iniziale è per la sequenza (1)-(2)-(4) perché (2) è basata sullo stesso data set, mentre (4) coinvolge medie tra data sets diversi e sembra sensato applicarla per ultima.

24 Cosa fare se a termine dei precedenti steps la varianza è ancora elevata? Stime per piccole aree. La prima applicazione che faremo sarà per i dati EU-SILC della Regione Toscana (gli unici per i quali al momento abbiamo a disposizione la ‘struttura’ del campione). Grazie ad alcuni progetti che il nostro Dipartimento ha con Eurostat, riceveremo a breve anche la struttura campionaria di alcuni (speriamo molti) paesi europei.

1 Stime pooled in Eu-Silc: il caso della regione Toscana Francesca Gagliardi , Caterina Ferretti , Vijay Verma (Università di Siena)

Presentazioni simili

Presentazione sul tema: "1 Stime pooled in Eu-Silc: il caso della regione Toscana Francesca Gagliardi , Caterina Ferretti , Vijay Verma (Università di Siena)"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

1 Stime pooled in Eu-Silc: il caso della regione Toscana Francesca Gagliardi *, Caterina Ferretti **, Vijay Verma *** (Università di Siena)

Presentazioni simili

Presentazione sul tema: "1 Stime pooled in Eu-Silc: il caso della regione Toscana Francesca Gagliardi *, Caterina Ferretti **, Vijay Verma *** (Università di Siena)"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

1 Stime pooled in Eu-Silc: il caso della regione Toscana Francesca Gagliardi , Caterina Ferretti , Vijay Verma (Università di Siena)

Presentazione sul tema: "1 Stime pooled in Eu-Silc: il caso della regione Toscana Francesca Gagliardi , Caterina Ferretti , Vijay Verma (Università di Siena)"— Transcript della presentazione: