La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

5 Marzo 2007 13-14 December Luxembourg Uso statistico delle fonti amministrative: la valutazione della qualità degli archivi e le basi integrate di microdati.

Presentazioni simili


Presentazione sul tema: "5 Marzo 2007 13-14 December Luxembourg Uso statistico delle fonti amministrative: la valutazione della qualità degli archivi e le basi integrate di microdati."— Transcript della presentazione:

1 5 Marzo 2007 13-14 December Luxembourg Uso statistico delle fonti amministrative: la valutazione della qualità degli archivi e le basi integrate di microdati Seminario URBES, ARCHIMEDE, Censimento permanente I Comuni verso l’uso statistico degli archivi amministrativi e dei sistemi di integrazione delle fonti 21 aprile 2015, Como

2 5 Marzo 2007 From multiple modes for surveys to multiple data sources for estimates by Constance F. Citro – Statistics Canada From multiple modes for surveys to multiple data sources for estimates by Constance F. Citro – Statistics Canada Register base statistics: Administrative data for statistical purposes by Andres and Britt Wallgren– Statistics Sweden Register base statistics: Administrative data for statistical purposes by Andres and Britt Wallgren– Statistics Sweden Towards an integrated statistics programme for the post-2015 development agenda by Geet Bruinooge – Statistics Denmark Towards an integrated statistics programme for the post-2015 development agenda by Geet Bruinooge – Statistics Denmark Statistics 4.0 - Are we at the edge of a new era for statistics? by Walter Radermacher – Eurostat Statistics 4.0 - Are we at the edge of a new era for statistics? by Walter Radermacher – Eurostat Il processo di modernizzazione dell’Istat

3 5 Marzo 2007 Business Architecture Approccio “per funzioni” al processo statistico Abbandono dei processi a “silos” per domini stat. Business Architecture Approccio “per funzioni” al processo statistico Abbandono dei processi a “silos” per domini stat. Incremento della trasversalità Funzioni centralizzate a supporto di tutti i processi statistici Incremento della trasversalità Funzioni centralizzate a supporto di tutti i processi statistici Riduzione dei costi Uso massivo di dati non raccolti da indagine Sfruttamento di tutte le informazioni disponibili per produrre statistiche “pubbliche” Riduzione dei costi Uso massivo di dati non raccolti da indagine Sfruttamento di tutte le informazioni disponibili per produrre statistiche “pubbliche” Il processo di modernizzazione dell’Istat

4 5 Marzo 2007 Il processo di modernizzazione dell’ISTAT ( Geert Bruinooge) Institutional setting Statistical infrastructure Statistical infrastructure Statistical operations Statistical operations Standards and methods Inputs Outputs Diss. Outputs Diss. ICT Management and internal policy Institutional arrangements Data processing Data Collection Registers/Frame Surveys Data integration Social Statistics Social Statistics Economic Statistics Economic Statistics Macroeconomic Statistics

5 5 Marzo 2007 Wider, deeper, quicker, better, cheaper, more relevant and less burdensome official statistics. Uso dati Amministrativi 1970/198019902010 Ind. Censuarie Ind. Campionarie Multiple integrated data collection Statistica 0.0 Statistica 0.0 Statistica 2.0 Statistica 2.0 Statistica 3.0 Statistica 3.0 Statistica 4.0 Statistica 4.0

6 5 Marzo 2007 Uso dati Amministrativi Ind. Censuarie Ind. Campionarie Multiple integrated data collection Complessità organizzativa Complessità organizzativa Errore campionario Errore non campionario (?!) Errore campionario Errore non campionario (?!) Incoerenza nei concetti Incoerenza nei concetti Integrazione e conciliazione Fisica Logica Informativa Integrazione e conciliazione Fisica Logica Informativa

7 7 Un bisogno informativo Una indagine Approccio TradizionaleNuovo Approccio Un bisogno informativo Più fonti integrate Riduzione delle risorse finanziarie ed umane Riduzione del “fastidio statistico” Incremento, in quantità e qualità, delle informazioni statistiche richieste dagli utenti (nazionali e internazionali) Incremento della innovazione tecnologica e organizzativa Incremento di informazioni di natura differente (dichiarazioni, tracce digitali) disponibili. Nuove legislazioni, nazionali ed europee, che facilitano l’accesso da parte dei NSAs a dati non statistici Multiple Integrated Data Collection 1:1 1:n

8 Time 8 Statistical Survey Variables Units Multiple Integrated Collection Variables Units Multiple Integrated Data Collection

9 9 MIDCS è un processo complesso caratterizzato dalle eterogeneità e variabilità (anche nel tempo) delle fonti utilizzate per la produzione di informazioni statistiche. L’uso dell’MIDC modifica l’organizzazione, le tecnologie e le metodologie da adottare Integrazione Verticale: per differenti tipologie di unità i dati sono raccolti da differenti fonti (es. indagini statistiche per le grandi e complesse imprese, fonti amministrative per le medio-piccole Integrazione orizzontale: per ciascuna unità i dati possono essere raccolti da differenti fonti (es. fatturato da Archivi Fiscali, occupazione da Archivio INPS….) Multiple Integrated Data Collection

10 10 Difficoltà nell’integrazione fisica Le diverse fonti possono non essere disponibili in tempi diversi Possono utilizzare concetti/classificazioni non coerenti fra loro Possono utilizzare gli stessi concetti ma con visioni differenti (oggettivo/soggettivo) Contengono differenti tipologie di errori (non campionari/campionari) Possono contenere differenti livelli di qualità intrinseca MIDC: problematiche Processo produttivo complesso : INDUSTRALIZZAZIONE/CENTRALIZZAZIONE Processo produttivo complesso : INDUSTRALIZZAZIONE/CENTRALIZZAZIONE

11 Unità: integrazione fisica Riconoscimento dello steso oggetto in più fonti e nel tempo Variabili: integrazione logica Riconoscimento dello stesso contenuto semantico in più fonti e nel tempo Variabili: integrazione informativa Riconoscimento della coerenza sintattica fra informazioni desumibili da più fonti L’integrazione

12 A - Utilizzo di una chiave univoca Codice Fiscale / Record Linkage deterministico B - Utilizzo dei contenuti di caratteri identificati  Persone fisiche - Nome e Cognome da solo o in combinazione con altri caratteri «discriminanti»: data di nascita, nazionalità, indirizzo di residenza, sesso,….  Persone giuridiche – Denominazione da sola o in combinazione con altri caratteri «discriminanti»: attività economica, forma giuridica, dimensione, localizzazione,… Analisi Testuale / Record Linkage probabilistico Integrazione fisica

13 L’utilizzo del Codice Fiscale  Presente in tutte le fonti amministrative con un alto tasso di copertura  E’ lo «strumento migliore» per identificare uno stesso oggetto (persona fisica/persona giuridica) in più fonti. Problematiche  Non assume la caratteristica di codice identificativo universale  Essendo un codice «parlante» si possono generare duplicazioni di codici (stesso CF per differenti individui), che se pur risolte a livello di Anagrafe Tributaria, possono non essere recepite, o recepite in ritardo da altri Enti.  Gli individui non si referenziano in tutti gli ambiti nella stessa maniera.  Non in tutte le culture è riconosciuta una strutturazione in termini di cognome e nome o c’è un attenzione particolare al momento di nascita (la misurazione del tempo non è universale!)  Vengono fornite differenti strutture identificative ad enti differenti  Date di nascita generiche (si predilige il primo giorno dell’anno)  Duplicazioni nei nomi, particolarmente rilevante per individui nati in alcuni paesi esteri: SING (India), FERDINANDO (Sri Lanka) Integrazione fisica

14 14 Integrazione fisica codice_archiviocodice_fiscalecogn.nomesessodata_nascitapaesedata_ingr.Residenza LAVDOM2013DDNJSM77B07Z249DUDDINJASIMM07/02/1977BANGLADESH058091VIALE DELLE ORCHIDEE 70 SC UN IN 10 LAC2013DDNJSM77B07Z249DUDDINJASIMM07/02/1977BANGLADESH058091VIADI S. MARIA AUSILIATRICE00004 LAC2014DDNJSM77B07Z24VSUDDINJASIMM07/02/1977BANGLADESH AT2013_2014DDNJSM77B07Z24VSUDDINJASIMM07/02/1977BANGLADESH18/03/2013058091VIALE DELLE ORCHIDEE 70 SC UN IN 10 LAC2014DDNJSM77B07Z2Q9PUDDINJASIMM07/02/1977BANGLADESH058091VIALE DELLE ORCHIDEE 70 SC UN IN 10 AT2014DDNJSM77B07Z2Q9PUDDINJASIMM07/02/1977BANGLADESH18/03/2013058091VIA DI S MARIA AUSILIATRICE 4 SC UN I.12

15 15 Integrazione fisica codice_archiviocodice_individuocodice_fiscalecognomenomesessodata_nascita paese_nascit adata_ingr. provin cia comu neindirizzo AT2009-201458034785FTTHMD63A01Z33LCFETTAHAHMEDM01/01/1963MAROCCO08/08/2007015142VIA UGO LA MALFA 64 LAC 2013-201458034785FTTHMD63A01Z33LCFETTAHAHMEDM01/01/1963MAROCCO015142VIAALDO MORO43 PERSOGG201258034785FTTHMD63A01Z33LCFETTAHAHMEDM01/01/1963MAROCCO015142VIA UGO LA MALFA 64 AT2009-201458034785FTTHMD63A01Z33LCFETTAHAHMEDM01/01/1963MAROCCO08/08/2007015142VIA ALDO MORO N 43 LAC 2013-201458034785FTTHMD63A01Z33LCFETTAHAHMEDM01/01/1963MAROCCO015142VIAALDO MORO43 PERSOGG2012-2014105309290FTTHMD63A01Z330ZFETTAHAHMEDM01/01/1963MAROCCO015178VIA TARANTO 18 015146VIA GIUSEPPE GALLIANO 8 AT2009-2014105309290FTTHMD63A01Z3P0LFETTAHAHMEDM01/01/1963MAROCCO08/08/2007015146VIA GIUSEPPE GALLIANO 8 LAC 2013-2014105309290FTTHMD63A01Z3P0LFETTAHAHMEDM01/01/1963MAROCCO015146VIAGIUSEPPE GALLIANO8 DNA2010-2014105309290FTTHMD63A01Z3P0L PERIMP 2012-2013105309290FTTHMD63A01Z3P0LFETTAHAHMEDM01/01/1963

16 Soluzione Utilizzo congiunto del Codice Fiscale –con l’analisi testuale dei caratteri identificativi e/o –con tecniche di record linkage probabilistico Microintegrazione

17 –Sistemi di classificazione (localizzazione, professioni, attività economica, tipologia di contratto,….) Differenti tempistiche nell’aggiornamento di uno stesso sistema di classificazione Differenti sistemi di classificazione Privilegiare la descrizione rispetto a strumenti di decodifica Analisi testuale Integrazione logica

18 –Variabili numeriche Riconoscimento della stessa variabile in due fonti – differente etichettatura con uguale contenuto informativo Differente etichettatura nel tempo per una stessa fonte Processo difficilmente automatizzabile (necessità di analisi puntuale da parte di esperti) Analisi testuale delle etichette Analisi del contenuti informativo (analisi delle distribuzioni/ordini di grandezza dei valori) Integrazione logica

19 Integrazione informative: Il sistema Informativo sui redditi Progetto ARCHIMEDE 19 Banca Dati Reddituale Integrazione per calcolo specifiche micro voci MicroDati Fiscali UNICO 730 770 / CU MicroDati INPS Cas. pensionati TMNP Lav. Domestici Matenità ANF – lav. privati Parasubordinati Integrazione per redditi esenti Riclassificazione per tip. di reddito Integrazione percettori di solo reddito esente Cedolini MEF Sistema integrato di fonti amministrative

20 Progetto ARCHIMEDE 20 Integrazione (sviluppo di modelli di stima micro da macrodati) per voci di reddito non disponibili a livello micro MacroDati Fiscali Immobili (prima casa) Dati Statistici EU_SILC CONSUMI Correzione per definizioni statistiche Integrazione di redditi “nascosti”? Redditi con ritenuta alla fonte Redditi con ritenuta alla fonte Sistema integrato di fonti amministrative Sistema integrato statistico dei redditi degli individui e delle famiglie Integrazione informative: Il sistema Informativo sui redditi

21 Progetto ARCHIMEDE 21 ASIA- Occupazione E_mens/DMAG/CIGPD Artig./Commerc. ENPALS/INPGI(?) INAIL PARA_INPS CCIAA SOCI/PERSONE Unico quadro RH Altre fonti amministrative Base statistica micro per l’occupazione settore business Previdenziali Auton. Agricoltura Domestici INPDAP NON Previdenziali 770 (CU) Cedolini stipendiali MIUR Lav. Univ. MIUR Lav. Scuola Dichiarazione dei redditi Previdenziali Auton. Agricoltura Domestici INPDAP NON Previdenziali 770 (CU) Cedolini stipendiali MIUR Lav. Univ. MIUR Lav. Scuola Dichiarazione dei redditi Base informativa unica per l’occupazione Integrazione informative: Il sistema Infor. sul mercato del lavoro

22 Progetto ARCHIMEDE 22 Base informativa unica per l’occupazione Dati Statistici Rilevazione continua culle forze di lavoro Rilevazione continua culle forze di lavoro integrazione dell’informazione disponibile dal campione statistico alla intera popolazione degli occupati riconciliazione fra gli errori campionari e non campionari delle indagini e i disallineamenti delle fonti amministrative nei confronti dei regolamenti statistici integrazione dell’informazione disponibile dal campione statistico alla intera popolazione degli occupati riconciliazione fra gli errori campionari e non campionari delle indagini e i disallineamenti delle fonti amministrative nei confronti dei regolamenti statistici Uso del Tempo (?) SISTEMA INFORMATIVO SUL MECATO DEL LAVORO Correzione da modello dei dati amministrativi Conciliazione degli aspetti oggettivi con quelli soggettivi Superamento della tradizionale dicotomia “lato domanda” vs. “lato offerta” Integrazione informative: Il sistema Infor. sul mercato del lavoro

23 Il Rasoio di Occam (William Ockham) “eliminare con tagli di lama e mediante approssimazioni successive le ipotesi più complicate” Non moltiplicare gli elementi più del necessario: Valutazione della qualità e dei costi Valutazione dell’incremento di informazione statistica che si ha incrementando fonti integrate Non moltiplicare gli elementi più del necessario: Valutazione della qualità e dei costi Valutazione dell’incremento di informazione statistica che si ha incrementando fonti integrate L’integrazione

24 24 Grazie per l’attenzione


Scaricare ppt "5 Marzo 2007 13-14 December Luxembourg Uso statistico delle fonti amministrative: la valutazione della qualità degli archivi e le basi integrate di microdati."

Presentazioni simili


Annunci Google