Caterina Viviano Istat – Responsabile del

Slides:



Advertisements
Presentazioni simili
La piattaforma di BI si basa essenzialmente su un sistema di metadati centralizzato che garantisce la consistenza delle informazioni e consente la navigazione.
Advertisements

ROMA 22 GIUGNO 2016 AREA TEMATICA 2. TEMI EMERGENTI – Competitività e crescita: le risposte della statistica ufficiale «Temi rilevanti di analisi economica:
ROMA 22 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE INTRODUZIONE SESSIONE :BIG DATA, ARCHIVI AMMINISTRATIVI, REGISTRI INTEGRATI. UNA NUOVA VISIONE.
ROMA 23 GIUGNO 2016 OFFICINA MODERNIZZAZIONE - Sinergie, opportunità e criticità per lo sviluppo del Programma di Modernizzazione dell’Istat Nadia Mignolli.
SAL WP10 Bologna – CNAF – 9 Ottobre AGENDA 1.Stato deliverable per il periodo considerato 2.Stato attività descritte nel capitolato tecnico e eventuali.
ROMA 22 GIUGNO 2016 AREA TEMATICA 1. TEMI EMERGENTI: COMPETITIVITA’ E CRESCITA Nuove informazioni statistiche sulle imprese: coerenza micro-macro, multidimensionalità,
ROMA 23 GIUGNO 2016 SPAZIO CONFRONTI L’esperienza di Roma Capitale e della Città metropolitana: un approccio integrato all’uso di dati statistici e amministrativi.
OR9: Realizzazione e trasformazione di servizi applicativi Infomobilità e Videosorveglianza Fabrizio Lanari Daniela Vasari OCP CTS, 09/10/2015.
Il riuso del sistema comunale di catasto e fiscalità locale JAVIER OSSANDON PROJECT MANAGER ANCI/ANCITEL GESTIONE UNITARIA ELI_CAT, ELI_FIS, FED_FIS
IL SISTEMA INFORMATIVO IN OSPEDALE. IL SISTEMA INFORMATIVO: Un sistema informativo è un sistema che organizza e gestisce in modo efficace ed efficiente.
ROMA 23 GIUGNO 2016 AREA TEMATICA 3. INNOVAZIONI E SPERIMENTAZIONI Competenze e ruolo del data scientist INNOVAZIONI E SPERIMENTAZIONI Competenze e ruolo.
Piano del miglioramento del Centro Immigrati Area Politiche di Sostegno Giovani e Sport U.O. Politiche per l’Immigrazione.
PROGETTO ERASMUS SERATA DI CONDIVISIONE Un Dialogo silenzioso
Precorso di Statistica per le Lauree Magistrali
LE ORIGINI DEL PROGETTO
Amministrazioni in ascolto: l’esperienza del Programma Cantieri
Il GeoPortale dell’Istat
GPOI - L’organizzazione aziendale -
42° EUG 06/05/2010 Primo incontro ESSE3 Best Practice
Sommario Visione Servizi statistici
Liceo Scientifico con opzione Scienze Applicate
Osservatorio Mercato Lavoro
Il programma di modernizzazione dell’ISTAT
Sperimentare lo spazio collaborativo nella nuova manifattura digitale
Scenario “Condiviso” per l'innovazione e lo sviluppo del settore dei beni culturali del Lazio 3° Focus Group COBRA - Tecnologie per i beni culturali: accordo.
REX - Istruzioni tipo IKEA
Obiettivi e fasi dell’indagine
SIRQ Scuole in Rete per la Qualità e l’Eccellenza
Università degli Studi di Pavia Anno Accademico 2016/2017
Gli strumenti informativi-integrativi dell’assistenza infermieristica
SAVONA, 25/11/2016 e 2/12e 2016.
Il progetto Centri di Ricerca Sistema Integrato ModULAre PMI
Precorso di Statistica per le Lauree Magistrali
Modulo N.2: Business plan, Budget e Competenze Manageriali
Andrea Paladin, PM CINECA
Il modello Puntoedu.
L'acquisizione d'impresa
Laura Cremonesi Cremonesi Consulenze srl
nel processo decisionale
Il caso d’uso “Data On Travel”
RETE TELEMATICA IMPRESE FORMATIVE SIMULATE
Materiali e Trattamenti
Materiali e Trattamenti
Progetto di ,34 € finanziato per ,49 € Risultati
Il Sistema di valutazione e valorizzazione del personale
Il PO per la competitività regionale
I NUOVI SERVIZI-PRIVACY DI CONFINDUSTRIA VERONA
Mille modi per immettere i periodici elettronici in ACNP
Università degli Studi di Pavia Anno Accademico 2017/2018
Sistemi informativi statistici
Riunione Senato Accademico
Soluzioni e strumenti innovativi a supporto
QUESTIONARIO PER LA RILEVAZIONE DELLE COMPETENZE DIGITALI E LINGUISTICHE DEI DOCENTI SINTESI Anno scolastico 2016/2017.
Chiara Ratzenberger - MAECI
Infermiere Case Manager: importante Agente di cambiamento
Ufficio Scolastico Regionale per il Veneto
Potenziamento di YUCCA per l'introduzione di Nuove Capability – 2
#DESTINAZIONE COSTA le officine di identità NELL’AMBITO DELL’AMBITO
I.C. “ANTONIO UGO”.
VALORIZZA LE COMPETENZE E MIGLIORA LE PERFORMANCES
Workshop “AI for the Public Administration”
Giorgio Giacinto (Università di Cagliari) Fabio Cocurullo (Loanardo)
Progetto di Start up Ingegneria Informatica e dell’ Automazione
Lezione N° 6 L’organizzazione
ROMA 21 FEBBRAIO 2019 Sistema di restituzione di informazioni statistiche personalizzate alle imprese coinvolte nelle rilevazioni economiche ROMA 26 FEBBRAIO.
Confronto tra diverse tecniche di web scraping
ROMA 26 FEBBRAIO 2018 Web mining per integrare e validare informazioni del registro statistico delle imprese attive (ASIA) ROMA 26 FEBBRAIO 2018 INAUGURAZIONE.
ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining.
Formazione Docenti Catanzaro – Ambito 1
Progettare UDA in MAT proposta metodologica
Transcript della presentazione:

Web mining per integrare e validare informazioni del registro statistico delle imprese attive ASIA Caterina Viviano Istat – Responsabile del Servizio registri statistici sulle unità economiche

Il progetto: ambito di innovazione e obiettivo 1 Il progetto: ambito di innovazione e obiettivo OBIETTIVO: Utilizzo dei BIG DATA a supporto del Registro statistico delle imprese attive per integrare i dati strutturati delle imprese con i dati destrutturati del web Il prototipo contiene un set di informazioni a livello di impresa il cui contenuto ha consentito di: completare le informazioni mancanti rispetto a variabili presenti sul Registro delle Imprese verificare alcune informazioni del Registro aggiungere nuove informazioni non esistenti nel Registro Risultato ottenuto: Diffusione di un nuovo output statistico ad integrazione del registro statistico delle imprese Output atteso: Produzione di statistiche sperimentali da affiancare alla produzione tradizionale di statistiche sulle imprese Caterina Viviano Responsabile del Servizio registri statistici sulle unità economiche

Le due logiche input e output oriented 2 Le due logiche input e output oriented INPUT Big data Approccio DATA DRIVEN OUTPUT Processi standard della statistica ufficiale Approccio Output oriented LA SFIDA: Approccio register-based all’analisi dei BIG DATA ↓ si procede in modo strutturato ed integrato ponendo al centro il registro Caterina Viviano Responsabile del Servizio registri statistici sulle unità economiche

Strategia Fase 1 - Acquisizione dell’indirizzo WEB dell’impresa 3 Strategia Fase 1 - Acquisizione dell’indirizzo WEB dell’impresa URL disponibile da fonte amministrativa (nel 5% delle imprese attive del registro Asia) URL ottenibile da Portali di impresa URL ottenuti mediante utilizzo in batch di motori di ricerca (URL Retrieval utilizzando i dati anagrafici dell’azienda, combinate con tecniche di machine learning per stimare la probabilità dell’URL individuata) Fase 2 - Identificazione impresa nel WEB Validazione sintattica della stringa, check degli errori ricorrenti e verifica dell’authority (dominio) dell’indirizzo Estrazione di informazioni anagrafiche dal sito web dell’impresa (Codice Fiscale, Partita Iva, Ragione Sociale, Indirizzo…) mediante l’impiego di tecniche di Information Retrieval tramite pattern matching su stringhe. Confronto con le informazioni disponibili nel registro ASIA attraverso tecniche di matching e metriche di similarità tra stringhe (Jaro-Winkler, Levenshtein, etc) Fase 3 - Estrazione ed analisi dell’informazione Tecniche di Web Scraping per l’acquisizione dati web: i) scraping da uno specifico URL; ii) scraping tramite l’utilizzo in batch dei motori di ricerca; iii) scraping specialistico da portali tematici. Tecniche di Text Mining, con l’impiego di tecniche di Natural Language Processing, per l’analisi e l’estrazione dell’informazione (dati, documenti, metadati, file ecc.) all’interno di testi in linguaggio naturale. Tecniche di Machine Learning per l’impiego di algoritmi che simulano un processo di apprendimento per la costruzione di modelli predittivi. Caterina Viviano Responsabile del Servizio registri statistici sulle unità economiche

Informazioni aggiuntive derivate dal web 4 Informazioni aggiuntive derivate dal web Caterina Viviano Responsabile del Servizio registri statistici sulle unità economiche

Informazioni aggiuntive derivate dal web 5 Informazioni aggiuntive derivate dal web Caterina Viviano Responsabile del Servizio registri statistici sulle unità economiche

Esperienza e futuri sviluppi 6 Esperienza e futuri sviluppi Le diverse professionalità hanno creato sinergia Avanzamenti step-by-step ottenuti grazie dall’interazione delle competenze e all’analisi critica dei risultati Creazione di una procedura prototipale che ha validato lo standard Validazione del dato estratto: ruolo della competenza tematica Il confronto con i dati del registro: validazione dell’identificazione dell’unità a cui agganciare le informazioni Più informazioni più tempestive, ottenute da fonti non ufficiali Per creare nuove tassonomie d’impresa Il laboratorio come punto di partenza per produrre statistiche sperimentali Caterina Viviano Responsabile del Servizio registri statistici sulle unità economiche

Dal prototipo alla produzione di dati sperimentali 7 Dal prototipo alla produzione di dati sperimentali Punti di criticità Gestire volumi di dati in rapida crescita con un conseguente elevato consumo di risorse di calcolo e di storage Collaborazione di diverse figure specialistiche e competenze condivise Punti di forza Costruzione di un repository di dati che va ad affiancare i registri statistici ed i dati dell'indagine ed è accessibile dalle rilevazioni del dominio tematico Tempistiche ridotte dei processi big data rispetto a quelle delle rilevazioni tradizionali (informazioni in tempo reale) E’ una fonte indipendente. Rappresentazione più vicino alla realtà: come si vede l’impresa e come si presenta all’esterno (sul web) Caterina Viviano Responsabile del Servizio registri statistici sulle unità economiche

Fattori innovativi e di successo del progetto 8 Fattori innovativi e di successo del progetto Il tematico, che governa il processo – pone il problema e ne indica i requisiti, valida il risultato. Non sa in anticipo i contenuti che arrivano dal WEB Il metodologo, analizza i requisiti del problema e trova le soluzioni metodologiche L’informatico, che mette a disposizione gli strumenti e le tecniche. Trasforma le specifiche in procedure Contesto multidisciplinare Alta interazione e integrazione delle professionalità Si lavora contestualmente (fianco a fianco) Caterina Viviano Responsabile del Servizio registri statistici sulle unità economiche

Il team Esperti metodologi (Dcme-mea): G. Bianchi F. Scalfati 9 Il team Esperti metodologi (Dcme-mea): G. Bianchi F. Scalfati Esperti tematici (Dcse-sea): M. Consalvi B. Gentili F. Pancella Esperti metodologi (Dcme-mec): D. Summa Esperti Informatici (DCIT): M. Amarone D. Aprile project manager: C. Viviano Caterina Viviano Responsabile del Servizio registri statistici sulle unità economiche

10 Caterina Viviano Responsabile del Servizio registri statistici sulle unità economiche