5 Marzo December Luxembourg Il progetto ARCHIMEDE: integrazione centralizzata e generalizzata di fonti amministrative Seminario URBES, ARCHIMEDE, Censimento permanente I Comuni verso l’uso statistico degli archivi amministrativi e dei sistemi di integrazione delle fonti 21 aprile 2015, Como
SIM: Sistema Integrato di Microdati E’ una infrastruttura statistica di base nella quale vengono integrati dati riferiti a individui, famiglie e unità provenienti da una pluralità di basi dati di fonte amministrativa. Include dati relativi a : Caratteristiche di individui e famiglie (es. occupazione, titolo di studio); Caratteristiche delle unità in cui gli individui realizzano le loro attività (o la loro vita) Caratteristiche dei luoghi di residenza, lavoro, studio, ecc. ; Tipologie di relazioni tra individui, unità e luoghi
Obiettivi: Identificare ogni oggetto (famiglia; individuo; unità economiche; loro relazioni) in fonti diverse con un numero ID univoco e stabile nel tempo. Definire, per ogni oggetto, le relazioni logiche e fisiche, nel tempo e nello spazio, tra le informazioni disponibili da fonti diverse. SIM produce: Strutture di dati riferiti a unità elementari appartenenti a specifiche popolazioni di interesse statistico utili per : realizzare e aggiornare registri statistici realizzare sottosistemi di informazioni statistiche dedicate a lavoro, mobilità, istruzione, reddito, ecc. dare supporto alle rilevazioni statistiche (ad es. per stratificare campioni o fornire variabili ausiliare o integrative SIM: Obiettivi e utilizzo
Repository dei dati amministrativi acquisiti dall’Istituto, organizzato con lo scopo di supportare i processi di produzione statistica dell'Istat. Sistema Integrato di Microdati (SIM) Favorisce l’utilizzo di dati individuali, privi degli identificativi diretti, mantenendo inalterate le potenzialità informative derivanti dal processo di integrazione Favorisce l’utilizzo di dati individuali, privi degli identificativi diretti, mantenendo inalterate le potenzialità informative derivanti dal processo di integrazione
Individui Tutte le fonti in cui sono contenuti dati sufficienti per l’identificazione degli individui alimentano la relativa base per l’integrazione. Obiettivo: consentire agli utilizzatori di disporre del più ampio set possibile di unità elementari su cui implementare le metodologie specifiche dei processi statistici. Unità economiche Obiettivi: Individuare le unità giuridiche utili per la costruzione dell’unità statistica impresa. Attribuire il codice identificativo delle unità giuridiche. Attribuire il “codice unità” - fonti amministrative di riferimento che permettono di intercettare i legami tra partite IVA e codici fiscali. Sottosistemi di base 5
SIM luoghi unità economiche Obiettivo: identificare le localizzazioni delle unità economiche presenti nelle fonti amministrative. SIM luoghi individui Obiettivo: identificare i luoghi che in qualche modo possono interessare le persone fisiche riconosciute dai data set amministrativi inseriti nel sistema: residenza anagrafica, domicilio fiscale, luoghi di lavoro, luoghi di studio, delle utenze domestiche, ….. Sottosistemi dei Luoghi 6
SIM relazioni tra unità economiche Obiettivo: cogliere alcune possibili relazioni tra unità economiche quali, ad esempio, eventi di trasformazione e legami societari. SIM relazioni tra individui Obiettivo: identificare le relazioni tra gli individui; famiglia anagrafica e famiglia “fiscale”. SIM relazioni tra individui e unità economiche Obiettivo: integrare le informazioni sulle relazioni tra gli individui e le unità economiche. Presenza contestuale dei due identificativi necessari per legare i domini “socio-demografico” e “economico”: codice individuo e codice unità. Sottosistemi delle Relazioni 7
Relazioni tra i sottosistemi SIM LUOGHI INDIVIDUI SIM INDIVIDUI SIM RELAZIONI TRA INDIVIDUI SIM LUOGHI UNITA’ ECONOMICHE SIM UNITA’ ECONOMICHE SIM RELAZIONI TRA UNITA’ ECONOMICHE SIM BASE SIM LUOGHI SIM RELAZIONALI SIM RELAZIONI INDIVIDUI UNITA’ CODICE INDIVIDUO CODICE UNITA’ Sistema Integrato di Microdati (SIM) CODICE INDIVIDUO - CODICE FAMIGLIA CODICE UNITA’ – CODICE UL CODICE INDIVIDUO – CODICE UNITA’ – CODICE INDIVIDUO – CODICE LUOGHI INDIVIDUI TIP. REL IND_UNI TIP. REL UNITA’ TIP. REL UNITA’ CODICI UNITA’
Sistema Integrato di Microdati (SIM)
SIMN. Fonti / Records Individui42 (422mln records) Unità42 (65mln but…) Luoghi individui25 Luoghi unità30 Relazioni individui3 Relazioni unità7 Relazioni individui_unità mln di codici individui 10 mln di codici unità 100 mln di codici individui 10 mln di codici unità variabili
INDIVIDUI UNITA’ LUOGHI INDIVIDUI LUOGHI UNITA’ Mobilità SIM percorsi informativi Rel IND/UN Rel IND/UN Rel. fra IND Rel. fra IND Rel. fra UN Rel. fra UN FONTI AMM Concilazione Lavoro Famiglia Rapp di Lavoro Rapp di Lavoro Sbocchi professionali Mobilità Occupaz. Mobilità Occupaz.
Progetto ARCHivio Integrato di Microdati Economici e DEmografici (ARCHIMEDE) Obiettivo: ampliamento dell’offerta informativa dell’ISTAT mediante produzione di collezioni di dati elementari di tipo longitudinale e crossection, da rendere disponibili all’utenza, utili alla ricerca sociale ed economica, alla programmazione territoriale e settoriale, alla valutazione delle politiche pubbliche a livello nazionale, regionale e locale. (Delibera 12/ DGEN del 18/01/2013) Sfruttamento dei contenuti informativi di fonti amministrative «integrate» presenti in SIM. Progetto ARCHIMEDE
Replicabili (industrializzati) Replicabili (industrializzati) Documentati qualità contenuti Documentati qualità contenuti Territorio: Informazioni geo referenziate Tempo: Informazioni longitudinali Territorio: Informazioni geo referenziate Tempo: Informazioni longitudinali Progetto ARCHIMEDE – Caratteristiche (1/2) Sistema Integrato dei Microdati Progetto Archimede Esplora Produce Output informativi statistici Collezioni di microdati integrati Collezioni di macrodati Utenti interni Utenti esterni Livello di autonomia degli utenti Progetto ARCHIMEDE 13
Output informativi statistici On demand: realizzati sulla base di specifiche esigenze informative di utenti Generalizzati: realizzazione di specifiche offerte informative identificate sulla base delle potenzialità informative di SIM Fare riferimento ad un insieme di unità che possono non rappresentare l’universo di una specifica popolazione Utilizzare dati amministrativi di SIM anche non trattati statisticamente Integrare anche basi informative fornite da utenti esterni (es. Comuni/Regioni) Utilizzare concetti non necessariamente coerenti con la statistica ufficiale (es. Regolamenti europei) Progetto ARCHIMEDE – Caratteristiche (2/2) Progetto ARCHIMEDE 14
… … ISTAT Forniscono dati elementari ENTI Diffonde dati aggregati Diffonde dati aggregati Produce/Diffonde Collezioni di Dati elelemtari integrati Produce/Diffonde Collezioni di Dati elelemtari integrati Supporto alla realizzazione e validazione delle politiche e alla Ricerca Progetto ARCHIMEDE Caratteristiche: cambio di direzione
ACQUISIZIONE INTEGRAZIONE LOGICO/FISICA Sistema Integrato dei Microdati DIS/RE INTEGRAZIONE INFORMATIVA A R C H I M E D E Caratteristiche: dis/re integrazione informativa
Dati Amm. e Processi di Produzione Statistica Uso “Diretto” delle Fonti Amministrative Realizzazione di Registri Statistici Stime di variabili per domini di interesse Uso “Diretto” delle Fonti Amministrative Realizzazione di Registri Statistici Stime di variabili per domini di interesse Uso “Indiretto” delle Fonti Amministrative Miglioramento di processi di produzione (disegno campionario) Informazione ausiliaria nella fase di controllo dei dati Uso “Indiretto” delle Fonti Amministrative Miglioramento di processi di produzione (disegno campionario) Informazione ausiliaria nella fase di controllo dei dati USO DEI DATI AMMINISTRATIVI SOSTITUZIONE della Ind. STAT : SUPPORTO alla Ind. STAT : SUPPORTO alla Ind. STAT : USO DEI DATI AMMINISTRATIVI NEL PROGETTO ARCHIMEDE SCOUTING dell’informazione disponibile Ampliamento dell’offerta informativa SCOUTING dell’informazione disponibile Ampliamento dell’offerta informativa PRODUZIONE di nuove “tipologie” di informazione statistica PRODUZIONE di nuove “tipologie” di informazione statistica Progetto ARCHIMEDE 23
1 Specify needs 2 Design 3 Build 4 Collect 5 Process 6 Analyse 7 Dissemin. 8 Achive 9 Evaluate 1.1 Determine needs for informat. 3.1 Build data informat. instrum 4.4 Finalise collection 5.1 Integrate data 6.2 Validate outputs Ident. della/e fonti Acquis. della fonte Integrat. dei dati 6.4 Apply disclosure control Approccio lineare (survey) al processo Approccio lineare al Metadata/Quality Managments Ident. della pop e variabili di int. Caratteristiche: modifica nel paradigma (Statistica 5.0?)
SCOUTING I “dati” esistono, e sono depositati in maniera integrata in SIM ed è l’esplorazione dell’informazione disponibile a identificare l’informazione statistica che può soddisfare un bisogno. Le definizioni e le classificazioni possono essere determinate all’interno del processo di esplorazione e quindi non fissate a priori (outputs non strettamente vincolati ai sistemi di regolamentazione europei). L’adeguatezza dell’informazione prodotta rispetto agli schemi concettuali statistici può essere valutata solo ex-post. Caratteristiche: modifica nel paradigma Progetto ARCHIMEDE
Da un approccio lineare ad un approccio a “vortice” 1 Identif. pop/var. 2 Identif. della F.A 3/4 Acquisizione 5.1 Integrazione 6 Analyse 7 Dissemin. 8 Achive 9 Evaluate Maggiore attenzione alla valutazione di un output INTEGRATO di dati amm. Maggiore attenzione ai contenuti e ai processi di generazione dei dati Modifica delle tecniche? Flessibilità informativa Flessibilità informativa Governare l’instabilità Governare l’instabilità Coerenza, Completezza Stabilità Valutabili ex-post Coerenza, Completezza Stabilità Valutabili ex-post Caratteristiche: modifica nel paradigma Progetto ARCHIMEDE
Progetto Archimede - Attività 2013 : Attività sperimentale 1.Popolazioni che insistono su di un territorio Analisi delle Mobilità sul territorio Realizzazione Sis. Inf. Persons&Places Matrici origine/destinazione per ambiti terr. Identificazione delle tipologie di «city users»: Residenti, Temporaneamente dimoranti e Pendolari Per risolvere la mancanza di informazioni sulla «frequenza» di accesso ad un territorio: Utilizzo di BIG DATA – Call Data Records Sviluppo di modelli che utilizzano «distanze» 2.Precarietà lavorativa – Analisi delle caratteristiche di un universo di individui definiti «lavoratori precari» osservandone le trasformazioni nel tempo (analisi longitudinale delle transizioni) Concetti di atipicità e professionalità (elementi oggettivi) Tipologie contrattuali utilizzate in forma impropria (P.IVA monocommittenti / Tirocini e stages) Punto di vista dell’individuo 3.Condizioni Socio-economiche delle famiglie - Classifica le famiglie secondo le dimensioni: Tipologia della famiglia (integrazione fra anagrafi e familiari a carico da dich. fiscali) Reddito (integrazione dei redditi a tass. ordinaria con redditi esenti) Condizione lavorativa Disagio (disabilità, pensioni al minimo, cittadinanza) Istruzione Basi sperimentali realizzati a Dic / Doc. Finale: Feb Progetto ARCHIMEDE
Progetto Archimede - Attività 2014 Realizzazione di una proposta di indicatori derivati dalle basi sperimentali (Ambito GdL 5 del Com. Scientifico del Censimento) Nuove sperimentazioni (concluse): Bacini Universitari P.IVA Monocommittenti Legami familiari tra individui non coabitanti Nuove sperimentazioni (in atto): Utilizzo Big Data per la stima della differenti tipologie di City users Metodi di classificazione delle famiglie (Data Mining / Indici sintetici) Progetto ARCHIMEDE
Progetto Archimede - Attività 2015 Definizione del «cruscotto» degli indicatori proposti (Febbraio) Termine della sperimentazione dei compartecipanti e successiva valutazione dei risultati (?). Inizio sperimentazione progetto su «percorsi di istruzione/formazione/inserimento lavorativo» con Lombardia/Lazio/Veneto/Em. Rom./Sicilia/Valle d’Aosta. Inizio del progetto sperimentale a supporto della Protezione Civile sulla quantificazione della popolazione in zone di rischio (Giugno) Passaggio del sistema P&P da livello comunale a sub-comunale per le aree metropolitane e i comuni di maggiori dimensioni Revisione delle metodologie di calcolo del reddito individuale da fonti amministrative Produzione e diffusione, a regime, delle basi dati a partire dall’anno di rif (Entro fine anno) Progetto ARCHIMEDE
Progetto archimede inserito nel PSN : sperimentazione sulle tre basi realizzate da parte degli uff. di stat. compartecipanti : - Comuni di Firenze, Bologna, Brescia, Trieste, Modena, Milano - Regioni e Prov. Autonome predisposizione bozza nota informativa ai compartecipanti trasmissione dei microdati successiva alla pubblic. del PSN risultati attesi entro sei mesi Aggiornamento PSN : Diffusione micro/macro delle tre basi di dati Nuova sperimentazione su: Percorsi di istruzione, formazione, abbandono scolastico e inserimento lavorativo degli individui tra i anni Aggiornamento PSN 2016: I quattro progetti sono stati separati in schede differenti con compartecipazione di tutti gli Uff. di statistica di Comuni, Province, Regioni Inserimento di una nuova scheda su Identificazione delle popolazioni in territori a rischio (Collaborazione con Dipartimento della Protezione Civile) Progetto Archimede – PSN e Compartecipanti Progetto ARCHIMEDE
Nota informativa per gli enti compartecipanti Gli Uffici di statistica, in relazione alle rispettive finalità istituzionali e agli ambiti territoriali di competenza, hanno il compito di valutare le basi di microdati prodotte dall’Istat indicate al paragrafo 1 con riferimento ai seguenti aspetti generali: completezza, congruità e utilità del contenuto informativo delle basi di microdati rispetto alle esigenze conoscitive dello specifico fenomeno oggetto di studio connesse alle finalità istituzionali dell’ente di appartenenza; vantaggi derivanti all’Ufficio di statistica in termini di risparmio di costi e di miglioramento della qualità dell’informazione statistica prodotta. La valutazione di ciascuna base di microdati è effettuata con le modalità di seguito precisate: Base di microdati relativa a: ………. 1.1 Oggetto di studio 1: ………. –Definizione dell’ambito di ricerca e degli obiettivi specifici dell’oggetto di studio: –Specifiche attività da svolgere: –Output sperimentale previsto: Progetto Archimede – Attività dei Compartecipanti L’Istat fornirà le basi di microdati entro 15 giorni dalla data di pubblicazione del PSN in Gazzetta Ufficiale I risultati delle valutazioni effettuate dovranno essere trasmessi all’Istituto entro sei mesi dalla data di fornitura delle basi di microdati. Progetto ARCHIMEDE
-Verso l’esterno dell’Istituto: -Diffusione microdati ad un livello di aggregazione territoriale fine -Messa a disposizione di Enti Pubblici di basi di microdati per l’analisi di sottopopolazioni di interesse (schematizzazione delle popolazioni a cui sono rivolti interventi e politiche pubbliche) -Possibilità di identificare strumenti omogenei – indicatori – fra le varie realtà territoriali a supporto alla comparazione territoriale -Verso l’interno dell’Istituto: -Esplorazione/identificazione di segnali delle fonti amministrative utili ai processi statistici. -Ponte fra statistiche sulle imprese e statistiche sugli individui/famiglie -Sperimentazione di nuove metodologie di integrazione e di analisi -Possibilità di analizzare fenomeni per «popolazioni» diverse Progetto Archimede – Punti di forza Progetto ARCHIMEDE
Progetto Archimede – Aspetti critici (o non ancora risolti) Tempi di disponibilità delle fonti integrate Distanza con output statistici «simili» Criteri / Strumenti di diffusione Valutazione della qualità Possibilità di sperimentazioni sulle fonti Progetto ARCHIMEDE
Uso sperimentale dei dati amministrativi: Archimede ISTAT SISTAN Sperimentazioni congiunte ? ? Identificazione di nuovi strumenti, differenti dal PSN, che, nel rispetto delle norme vigenti relativamente alla riversatezza e al vincolo dell’ “informativa” permettano con la massima trasparenza ai ricercatori dell’Istat e del Sistan di sviluppare sperimentazioni su dati integrati di fonti amministrative e di indagine Diapositiva 27 VINCOLO PSN VINCOLO PSN Possibilità di fare sperimentazioni Progetto ARCHIMEDE
Alcune specificità del progetto fare riferimento ad intere sottopopolazioni (e non quindi a campioni statistici di popolazioni); essere riferite ad ambiti territoriali ristretti (piccoli comuni o ambiti sub comunali; poter contenere una molteplicità di informazioni (studio+lavoro+tipologia familiare+reddito….); poter contenere dati sensibili (ad es. contributi per disabilità); poter derivare sistemi di classificazione e definizione non “omogenei” con quelli della statistica ufficiale. Diffusione Necessità di progettare un ambiente di diffusione «autonomo» ? Necessità di pensare la diffusione dei microdati – anche ad enti SISTAN – in maniera differente (senza identificativi diretti) ? Progetto ARCHIMEDE
Archimede virtuale? Una sfida possibile ENTI NAZIONALI/ LOCALI ENTI NAZIONALI/ LOCALI RICERCA/ ACCADEMIA RICERCA/ ACCADEMIA ENTI DETENTORI DI DD.AA. ENTI DETENTORI DI DD.AA. STATISTICHE Progetto ARCHIMEDE Governance ? Sicurezza ? Governance ? Sicurezza ?