Tavola rotonda - Big Data Seconda giornata italiana della statistica 23 ottobre 2012 Domenico Donvito Direttore – Direzione Centrale per le tecnologie dell’informazione e della comunicazione
Dato Statistico vs. BIG Data Caratteristiche del Dato Statistico Dimensioni trattabili Acquisizione dei dati in istanti predefiniti Qualità controllata da un processo di elaborazione/produzione definito BIG Data Dimensioni non trattabili con tecnologie tradizionali (tra Peta (10^15) e Exa (10^18)) Acquisizione continua dei dati (stream) Qualità non controllata e processi di elaborazione/produzione (in generale) non definiti Oggi il più grande db di ISTAT è ASIA (registro imprese) 1
BIG Data: Dimensioni Le tecnologie attuali consentono la risoluzione del problema BIG Implementazione di metodologie tradizionali attraverso tecnologie Big Data Ad esempio, record linkage con fase di bloccaggio fatta su architettura hadoop/MapReduce (programmazione per elaborazione distribuita) BIG è anche un’ opportunità: Nuove variabili (online sales) non misurate finora Variabili ausiliarie per stimare meglio i fenomeni o stimarli prima (nowcasting) Permettere di costruire informazioni che possano servire insieme ai dati per capire i fenomeni (social data mining), correggere e validare le informazioni, aumentare efficienza campionaria, etc.. Possibilità di scoprire nuova conoscenza, ad esempio relazioni nascoste, nuovi cluster/patterns, ecc. Controlli di consistenza che sfruttano l’estrema ridondanza delle sorgenti Web Hadoop (ad up): distributed file system from Apache Map reduce: scrittura programmi distribuita x elaborazione in parallelo, ogni nodo è autonomo (from Google) Altri metodi: db nosql (non ci sono tabelle per fornire flessibilità e scalabilità) Pattern (trama) 2
BIG Data: Acquisizione Continua Nuovi indicatori «near-time» basati su dati continuamente aggiornati Esempio 1: calcolo e monitoraggio continuo di indicatori standard a partire da sorgenti di big data non-standard, ad esempio l'indice di disoccupazione inferito dai profili di attività ottenuti per data mining dei record di telefonia mobile Esempio 2: calcolo e monitoraggio di nuovi indicatori di benessere/performance sociale a partire da sorgenti di big data non standard (social media, telefonia e navigazione satellitare, social networks, acquisti grande distribuzione) Near time è verso il real time 3
Problemi di qualità dei dati a vari livelli: BIG Data: Qualità Problemi di qualità dei dati a vari livelli: Qualità del dato, in termini di correttezza, aggiornamento, completezza, etc. Affidabilità o reputazione della sorgente Metadati che descrivono come il dato è memorizzato, da dove proviene (provenance), ecc. Opportunità di migliorare la qualità: Possibilità di risolvere problemi di missing data attingendo dall’elevato numero di fonti Possibilità di risolvere problemi di inconsistenza sfruttando la ridondanza delle fonti Attendibilità dei dati su web es. fake identities, è un filone di ricerca primario di google 4
La Statistica «Ufficiale» può attingere ai BIG data? Ruolo degli INS (1/3) La Statistica «Ufficiale» può attingere ai BIG data? Si, ma modalità da definire Esempio: Tecniche di sentiment analysis e opinion mining non direttamente utilizzabili in contesti di statistica «ufficiale» Il dato di statistica ufficiale è «certificato» dal processo di produzione 5
Ruolo degli INS (2/3) Necessità di rivedere il ruolo… Documento di vision HLG-BAS (High-level group for strategic developments in business architecture in statistics) ‘We are in a changeover from a society with little or no data available to one that has an abundance of data. In this light we have to rethink our traditional business values and the reasons of our existence. We see other parties making statistics that are akin to ours but much, much quicker (e.g. Google) and on an almost global scale. We also see other very interesting uses of statistics, prompted by the availability of so much data. Another important point is that nowadays it is much easier to get data that cover more than the traditional national statistics users would need. We do not, however, have the mechanisms in place to make full use of these data. The above is a strong indication that we have to rethink our products at the risk of becoming obsolete.’ (Strategic vision of the High-level group for strategic developments in business architecture in statistics, June 2011) …senza omologarsi ad altri provider di informazione statistica non-ufficiali HLG-BAS The High-Level Group for Strategic Developments in Business Architecture in Statistics (HLG-BAS) was set up by the Bureau of the Conference of European Statisticians in 2010 to oversee and coordinate international work relating to the development of enterprise architectures within statistical organisations. The HLG-BAS comprises 9 heads of national and international statistical organisations: Gosse van der Veen (Netherlands) – Chairman,Brian Pink (Australia),Eduardo Sojo Garza-Aldape (Mexico),Enrico Giovannini (Italy),Irena Križman (Slovenia),Katherine Wallman (United States),Walter Radermacher (Eurostat),Martine Durand (OECD) Lidia Bratanova (UNECE) Le relazioni tra HLG-BAS e altri gruppi internazionali sono illustrate in: http://www1.unece.org/stat/platform/display/msis/Inventory+of+International+Groups 6
Ruolo degli INS (3/3) Key messages High-Level Group for Strategic Developments in Business Architecture in Statistics (HLG-BAS) Meeting (San Pietroburgo, Ottobre 3-5 2012) Harnessing New Data Sources Key messages Big data is the next big thing….è fondamentale esserci Dont go alone. È una attività su cui gli INS devono sperimentare, scegliere la scala piccola e farlo con gli esperti del mondo IT e di altri mondi dove questi dati sono stati già utilizzati Big data, require filtering. Nel processo di produzione è pensabile che fonti come i big data non entrino direttamente ma trasformate in input più simili a quelli tradizionali (ad esempio archivi amministrativi) attraverso motori che li estraggano e li ricodifichino per “estrarre segnale dal rumore” HLG-BAS The High-Level Group for Strategic Developments in Business Architecture in Statistics (HLG-BAS) was set up by the Bureau of the Conference of European Statisticians in 2010 to oversee and coordinate international work relating to the development of enterprise architectures within statistical organisations. The HLG-BAS comprises 9 heads of national and international statistical organisations: Gosse van der Veen (Netherlands) – Chairman,Brian Pink (Australia),Eduardo Sojo Garza-Aldape (Mexico),Enrico Giovannini (Italy),Irena Križman (Slovenia), Katherine Wallman (United States),Walter Radermacher (Eurostat),Martine Durand (OECD) Lidia Bratanova (UNECE) Le relazioni tra HLG-BAS e altri gruppi internazionali sono illustrate in: http://www1.unece.org/stat/platform/display/msis/Inventory+of+International+Groups 7
Stat2015 e Big Data Stat2015 Programma pluriennale dell’ISTAT, Assicurare una regia complessiva dell’intero processo di innovazione, Sviluppare i progetti in maniera coerente con la visione di lungo termine, Rendere disponibili infrastrutture comuni o servizi generalizzati e riutilizzabili. Macro fasi basate su Generic Statistical Business Process Model (GSBPM), condiviso a livello europeo e internazionale Fase di acquisizione Dati da rilevazione Dati da archivi amministrativi Big Data strategia e investigazioni 8
Big Data - iniziative Partecipazione a call for proposals Future & Emerging Technologies - FET - Flagships, managed by the European Commission within the 7th Framework Programme Ruolo - associated partner nel progetto di ricerca "FuturICT‘ WP1.3 Social data mining and knowledge discovery, coordinated by Dr. Fosca Giannotti, ISTICNR, Pisa, with a the focus on the use of novel sources of "big data" for the construction and monitoring of novel indicators of social well-being WP2.3 Open world of modelling platform, coordinated by Prof. Dino Pedreschi, University of Pisa, with a focus on the development of novel simulation models for what-if scenarios of social phenomena, such as human mobility, and associated ICT platforms for the construction of analytical and simulation processes 9
Grazie