Esperienze di Advanced Analytics nella statistica ufficiale: strumenti e progetti Antonino Virgillito Direzione Centrale per le tecnologie informatiche.

Slides:



Advertisements
Presentazioni simili
Virtualizzazione nell’INFN Andrea Chierici 11 Dicembre 2008.
Advertisements

ROMA 22 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE INTRODUZIONE SESSIONE :BIG DATA, ARCHIVI AMMINISTRATIVI, REGISTRI INTEGRATI. UNA NUOVA VISIONE.
ROMA 23 GIUGNO 2016 OFFICINA MODERNIZZAZIONE - Sinergie, opportunità e criticità per lo sviluppo del Programma di Modernizzazione dell’Istat Nadia Mignolli.
Sistema Informativo. Mansioni Gestione della piattaforma hardware e sistemistica del sistema informativo INFN In realta’ il mansionario e’ in continua.
ROMA 23 GIUGNO 2016 OFFICINA MODERNIZZAZIONE - Gli strumenti del Programma di Modernizzazione dell’Istat L’Enterprise Architecture in Istat: esperienze.
POLITECNICO DI MILANO FACOLTA’ DI INGEGNERIA SEDE DI CREMONA TESI DI DIPLOMA IN INGEGNERIA INFORMATICA RELATOREAUTORI Prof. Vittorio TrecordiDemicheli.
Attività PRIN STOA a Cagliari Alessandro De Falco Università/INFN Cagliari.
Riunione SICR 12/2/2015. Rete Intervento 6509 – Sostituzione scheda avvenuta con successo – Fase di configurazione nuova scheda – Programmazione spostamento.
OR6: Studio, progettazione e realizzazione di un Citizen's Marketplace per cittadini e imprese che renda disponibili i servizi applicativi forniti da PA.
Piattaforma per la gestione di forniture basata su servizi web
Visual Analytics Dashboard
La Spending Review nella PA: Vertica e Pentaho per il controllo della spesa farmaceutica convenzionata Fabio Raimondi Project Manager Tecnologie Digitali.
Attività Big Data/Data Science in HEP (CERN e US)
Tia Network S.r.l..
Presentazione del sistema Data Warehouse Giustizia Civile (DWGC)
Amministrazioni in ascolto: l’esperienza del Programma Cantieri
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Piattaforma per industrie stampaggio
Summary di (quasi) tutti gli utenti non presentati…
Evolvo S.r.l..
PROGETTO AGRICOLTURA L’architettura tecnologica Bologna : 11/04/02.
42° EUG 06/05/2010 Primo incontro ESSE3 Best Practice
Smart Meter: dati al servizio della sostenibilità
Rielaborato da Atzeni et al., Basi di dati, Mc-Graw Hill
Riunione SICR Enrico Pasqualucci.
A.Ga.Mon. Visita Ispettiva 13/07/2011 TEA D. Picciaia
ISMB – Proposte per PRNM
Certificati medici online: ALLEGATO STATISTICO
Daniela Vasari Mirco Curzi OCP CTS, 15/09/2016
PNSD - Modulo D1A 27 aprile 2017 Piattaforme di e-­learning e cloud:​ installazione e gestione (azione #22) Prof. Rocca Marcello
Metodologia Universo di riferimento:
WP3: Studio e progettazione di un middleware abilitante l’interoperabilità nella PaaS CTS OCP – Bologna 28/07/2016.
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Stato Acquisti Switch/Router T2
Pisa.
Meccanismi di caricamento e aggiornamento dei dati
Studente/i Relatore Correlatore Committente Aris Piatti
Attività sistemistiche:
Attvità Computing – Inverno 08/09
(Breve) Riassunto del workshop WLCG
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
© Daniele Fontani, Arezzo, 26 Novembre 2016
R.Gomezel Commissione Calcolo e Reti CNAF
SMARTA Sistema di Monitoraggio Ambientale con Rete di sensori e Telemonitoraggio indossabile a supporto di servizi di salute, prevenzione e sicurezza per.
OR 6 – Citizen’s Marketplace
driver strategico di produttività e crescita delle imprese
Partner per l’innovazione
Sperimentazione clinica di INSIDE
Managed Workplace RMM Il monitoraggio e la gestione da remoto (Remote Monitoring and Management) resi semplici. Ottieni gli strumenti e le conoscenze necessarie.
analizzatore di protocollo
Sviluppo di un'applicazione web per l'utilizzo del framework SparkER
Io sono cultura L'Italia della qualità e della bellezza sfida la crisi
Scenari di mercato della professione tecnico ingegneristica
Introduzione alle basi di dati
Il protocollo elettronico (e altri servizi informatici)
metodologia | software | design | cloud
nel processo decisionale
Il caso d’uso “Data On Travel”
Materiali e Trattamenti
ADO Per gestire i database con tecnologia ASP si utilizzano strumenti ADO (ActiveX Data Objects): un'architettura che fornisce oggetti.
Applicazioni ambito PA
QUESTIONARIO PER LA RILEVAZIONE DELLE COMPETENZE DIGITALI E LINGUISTICHE DEI DOCENTI SINTESI Anno scolastico 2016/2017.
Il registro elettronico e gli archivi cloud
Comunicazione di Massimo Marighella
Giorgio Giacinto (Università di Cagliari) Fabio Cocurullo (Loanardo)
Progetto di Start up Ingegneria Informatica e dell’ Automazione
Trasformazione digitale
Caterina Viviano Istat – Responsabile del
ROMA 21 FEBBRAIO 2019 Sistema di restituzione di informazioni statistiche personalizzate alle imprese coinvolte nelle rilevazioni economiche ROMA 26 FEBBRAIO.
Competenze Informatiche Avanzate
Transcript della presentazione:

Esperienze di Advanced Analytics nella statistica ufficiale: strumenti e progetti Antonino Virgillito Direzione Centrale per le tecnologie informatiche e della comunicazione

Introduzione

I Big Data nella statistica ufficiale A partire dal 2013 la comunità statistica internazionale è impegnata nello studio di come sfruttare fonti dati alternative per la produzione di statistica ufficiale Il percorso fatto finora ha evidenziato come l’impatto dei Big Data investa il processo di produzione a tutti i livelli

Innovazione tecnologica nei processi di produzione Piattaforme Big Data Visualizzazione Machine learning Advanced Analytics

A gennaio 2016 Istat ha completato il setup della piattaforma di produzione on-premise per la memorizzazione e l’elaborazione dei big data produzione on-premise Perché non in cloud? Non possibile per i vincoli di privacy sui dati Non (solo) sperimentale Acquisita e installata per rispondere a un requisito specifico (progetto Scanner Data)

Cluster Hadoop da 8 nodi Standard Hadoop Extensions Security parallel storage/processing, SQL, NoSQL, Spark… Extensions High-speed analytics engine Administration console Security Advanced access control Specifiche tecniche 32/16 Core CPUs 128 Gb RAM per nodo Connessione interna a 20Gbit 6 x 1.2Tb HD per nodo (60Tb in totale) Cluster Hadoop da 8 nodi

E’ stato implementato un meccanismo avanzato di sicurezza La piattaforma è stata progettata con l’idea di ospitare dati per progetti diversi e ad alto livello di criticità dal punto di vista della privacy E’ stato implementato un meccanismo avanzato di sicurezza Integrazione con il back-end di autenticazione via Kerberos Definizione di permessi a livello dettagliato (tabella)

Scenari di utilizzo RDBMS Offload Big Data staging Esperimenti Elaborazioni pesanti Esperimenti

Campione di 2100 negozi che coprono 80 province Use Case 1 Scanner Data Nuova sorgente dati per il calcolo dell’indice dei prezzi al consumo Transazioni dei prodotti nei supermercati, registrate alle casse Un record per prodotto  quantità, fatturato (per settimana) Fornitura dati settimanale Campione di 2100 negozi che coprono 80 province 750 milioni di record all’anno

Architettura dati ibrida Use Case 1 Scanner Data Architettura dati ibrida (database offload) DBMS mantiene dati correnti Procedure di data cleaning Hadoop mantiene dati storici Sempre disponibili per analisi via SQL o tool di BI/visualizzazione

Use Case 1 Scanner Data Data Broker Portale Acquisizione Statistical Report e Visualizzazioni Statistical Software Analisi su estrazioni Dashboard di controllo Data cleaning Calcolo indici RDBMS Hadoop Enhanced data warehouse Analisi online Dati correnti Dati storici Data Broker Portale Acquisizione Controlli

Use Case 1 Scanner Data Timeline 2015 Inizio progetto e analisi preliminare dei dati 2016 Preparazione della data collection 2017 Calcolo degli indici in parallelo 2018 Produzione

Andamento della fornitura in termini di numero di record ricevuto per punto vendita per ogni settimana

Use Case 1 Scanner Data Utilizzo della piattaforma Big Data per il calcolo e l’analisi sull’intero dataset Calcolo degli indici con diversi metodi e confronto dei risultati Implementazione di diverse metodologie per l’eliminazione dei dati anomali e confronto dei risultati Procedure implementate in Spark

Analisi della distribuzione dei dati per la valutazione delle performance delle procedure di identificazione dei dati anomali Possibile sperimentazione di tecniche di machine learning

Use Case 1 Scanner Data Prossimi passi Consolidamento del processo di produzione e inizio del parallelo con la rilevazione tradizionale Statistica sperimentale: implementazione di un modello per il calcolo di indici di parità del potere d’acquisto

Strumento: “Sociometer” Use Case 2 Dati telefonici Attività sperimentale Analisi di dati telefonici per determinare pattern di movimento della popolazione Campione di dati Un mese di telefonate/SMS su Pisa e Roma Install the software developed in Pisa (“sociometer”) in the platform Call Detail Records  ID chiamante, ora, durata, posizione antenna Strumento: “Sociometer” Software realizzato da Università di Pisa/CNR in Spark

Use Case 2 Dati telefonici Esecuzione del software sul nostro cluster interno e analisi dei risultati per valutarne la possibilità di utilizzo per il calcolo di varie stime Install the software developed in Pisa (“sociometer”) in the platform Presenze sui territori (flussi e stock) Mobilità/pendolarismo Domanda turistica domestica Densità di presenze in luoghi chiave

Conclusioni

Conclusioni: Installazione e configurazione Hadoop Processo molto complesso: Molti componenti interconnessi Non semplice capire gli errori L’installazione è solo l’inizio… Aggiornamenti continui Gestione degli utenti Guasti, rallentamenti, etc.

Conclusioni: Costruzione delle competenze Profili e skill diversificati e molto specifici IT – Sistemisti Hadoop coinvolge pesantemente il settore ed è necessaria una formazione mirata IT - analisti dati/sviluppatori L’uso di SQL garantisce una transizione fluida ai nuovi strumenti per gli analisti DB Spark trova ampio margine di applicazione ma ha una curva di apprendimento ed è più apprezzato dagli sviluppatori Statistici Cambio di paradigma necessario per costruire la capacità di lavorare su dataset più grandi Cooperazione più stretta con l’IT per sfruttare meglio il potenziale della tecnologia

Grazie!