ROMA 26 FEBBRAIO 2018 Web mining per integrare e validare informazioni del registro statistico delle imprese attive (ASIA) ROMA 26 FEBBRAIO 2018 INAUGURAZIONE.

Slides:



Advertisements
Presentazioni simili
ROMA 22 GIUGNO 2016 AREA TEMATICA 2. TEMI EMERGENTI – Competitività e crescita: le risposte della statistica ufficiale «Temi rilevanti di analisi economica:
Advertisements

SAL WP10 Bologna – CNAF – 9 Ottobre AGENDA 1.Stato deliverable per il periodo considerato 2.Stato attività descritte nel capitolato tecnico e eventuali.
GIORNATA MOTIVAZIONALE “SPI ATTO PRIMO” DESCRIZIONE DEL PERCORSO VIBO VALENTIA 24 NOVEMBRE 2010.
TAVOLO DI COORDINAMENTO TRA MINISTERO DEL LAVORO E DELLE POLITICHE SOCIALI E LE CITTA’ RISERVATARIE AI SENSI DELLA LEGGE 285/97 INCONTRO TECNICO FIRENZE,
5 aprile 2016 Confindustria (Roma)- Sala G/H Finanza a impatto sociale WORKSHOP.
H T M L Hyper Text Markup Language L' HTML è un linguaggio di markup usato per la creazione di documenti ipertestuali sotto forma di pagine web.
FORMAZIONE GENERAZIONE WEB Modulo n febbraio 2015 Peccolo lorena.
Relazione Questionario agli studenti di Matematica sull’Information Literacy nella biblioteca del Dipartimento di Matematica «G.Castelnuovo» A cura di.
Studente Relatore Controrelatore Committente Sara Cervone
Il processo penale telematico
Mariangela Chimetto Simone Banchelli Padova 4 aprile 2017
YOUR LEARNING SKILLS
Amministrazioni in ascolto: l’esperienza del Programma Cantieri
GLI IPERMEDIA LA COMUNICAZIONE è una forma di relazione sociale che coinvolge aspetti ed elementi diversi. E’ composta da: MITTENTE= chi manda.
Evolvo S.r.l..
Il GeoPortale dell’Istat
GPOI - L’organizzazione aziendale -
Sommario Visione Servizi statistici
Piano della Performance Monitoraggio I semestre 2017 Settembre 2017.
<Nome del gruppo di lavoro>
materiali e supporti didattici verifiche didattiche
Lezione CG01 Il Sistema di Controllo di Gestione e il ciclo del controllo Economia ed Organizzazione aziendale AA Prof. Cristina Ponsiglione.
(Ottobre 2017-Giugno 2019, FAMI )
Il Nostro territorio Brescia 14 Febbraio /05/2015.
APPS4SAFETY – Frontiere della sicurezza automobilistica
DONNE E LEADERSHIP Maria Giulia Catemario
L’approccio EY per una sostenibilità a 360°
La sperimentazione del 2017: quadro generale e principali innovazioni
Aspetti Deontologici Art. 76 R. Chersevani.
Statistica per l’economia e l’impresa
Studente/i Relatore Correlatore Committente Aris Piatti
LA FILIERA CORTA E IL ‘CHILOMETRO ZERO’ IN SICILIA: STUDIO DEL SETTORE LATTIERO CASEARIO LA COOPERAZIONE SOCIALE AGRICOLA E LE FONTI AMMINISTRATIVE: CASO.
Lezione CG01 Il Sistema di Controllo di Gestione e il ciclo del controllo Corso di Gestione Aziendale AA Prof. Cristina Ponsiglione
Obiettivi e fasi dell’indagine
Evento moltiplicatore PRESENTAZIONE PROGETTO
LE BANCHE DATI PER LE RICERCHE BIBLIOGRAFICHE
Dati sulle startup innovative milanesi e sulle nuove imprese sostenute
Dati sulle startup innovative milanesi e sulle nuove imprese sostenute
LICEO ECONOMICO SOCIALE
Andrea Paladin, PM CINECA
Rete Regionale Veneta per le Casse Edili
Laura Cremonesi Cremonesi Consulenze srl
22 gennaio 2015 Primo incontro
Posta Elettronica Certificata
Contributo del Dipartimento Tecnologie Energetiche al progetto ES-PA
Progetto di ,34 € finanziato per ,49 € Risultati
Il PO per la competitività regionale
I NUOVI SERVIZI-PRIVACY DI CONFINDUSTRIA VERONA
Mille modi per immettere i periodici elettronici in ACNP
Fondo Asilo, Migrazione e Integrazione (FAMI) INCONTRO DI COORDINAMENTO ASIS - Accompagnamento scolastico all’integrazione sociale MARI - Multicultural.
Oggetti a firma: operatività di oggi e introduzione nuovo processo
delle imprese registrate
Applicazioni ambito PA
Potenziamento di YUCCA per l'introduzione di Nuove Capability – 2
Data Science Laboratory
UNIVERSITÀ DI MODENA E REGGIO EMILIA
Statistica per l’economia e l’impresa
A-to-Z Consente di Localizzare e Accedere a tutte le risorse della biblioteca: riviste online riviste cartacee riviste nelle banche dati in full text riviste.
Workshop “AI for the Public Administration”
Caterina Viviano Istat – Responsabile del
La Mappa dei servizi pubblici per l’impiego
ROMA 21 FEBBRAIO 2019 Sistema di restituzione di informazioni statistiche personalizzate alle imprese coinvolte nelle rilevazioni economiche ROMA 26 FEBBRAIO.
Confronto tra diverse tecniche di web scraping
Integrazione di dati provenienti da più fonti
ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining.
1 La georeferenziazione degli indirizzi: le coordinate geografiche
ROMA 21 MARZO 2018 Raccolta dati
Andrea Martinelli.
diritto della comunicazione pubblica
Full Text Finder, panoramica di Publication Finder
Transcript della presentazione:

ROMA 26 FEBBRAIO 2018 Web mining per integrare e validare informazioni del registro statistico delle imprese attive (ASIA) ROMA 26 FEBBRAIO 2018 INAUGURAZIONE DEL NUOVO LABORATORIO DELL’INNOVAZIONE GIORGIO ALLEVA Monica Consalvi

web mining per integrare e validare informazioni del registro statistico delle imprese attive (ASIA) QUALI IMPRESE CONSIDERIAMO NELLA SPERIMENTAZIONE? La fase di progettazione ed implementazione sarà realizzata su un campione di circa 100.000 imprese. Il campione di unità sarà estratto dall’ultima release disponibile del registro Asia-imprese, stratificato per dimensione in termini di occupazione/volume affari, settore di attività economica e forma giuridica. COME IDENTIFICHIAMO L’IMPRESA SUL WEB? In presenza di URL da fonte amministrativa, si procede con la validazione sintattica della stringa, il check degli errori ricorrenti e l’authority dell’indirizzo. Nel caso di URL mancante si utilizzano tecniche di URL Retrieval con interrogazioni in batch su motori di ricerca utilizzando i dati anagrafici dell’azienda, oppure si scaricano informazioni direttamente da portali d’impresa tematici. In entrambi gli approcci si procede con l’identificazione corretta degli indirizzi web, che certifica una esatta corrispondenza tra i siti web e le imprese del registro. l’idea Utilizzo dei BIG DATA a supporto del Registro statistico delle imprese attive mediante tecnologie di web scraping e text mining, con lo scopo di integrare i dati anagrafici strutturati delle imprese con i dati destrutturati del web. QUALI TECNICHE UTILIZZIAMO? Tecniche di Web Scraping per l’acquisizione dati web e tecniche di Analisi Testuale per l’estrazione delle informazioni da utilizzare per integrare il Registro ASIA. In particolare, per il Web Scraping saranno considerate le tecniche di: i) scraping massivo da liste di URL; ii) scraping tramite l’utilizzo in batch dei motori di ricerca; iii) scraping specifico da portali tematici. Per il Text Mining verranno utilizzate tecniche di Natural Language Processing per l’analisi e l’estrazione dell’informazione (dati, documenti, metadati, file ecc.) all’interno di testi in linguaggio naturale. i risultati attesi Diffusione di un nuovo output statistico sperimentale ad integrazione del registro statistico delle imprese QUAL E’ L’OUTPUT ATTESO? Un set di informazioni a livello di impresa collegato al Registro il cui contenuto permetta di: completare le informazioni mancanti rispetto a variabili presenti sul Registro verificare alcune informazioni del Registro aggiungere nuove informazioni non esistenti nel Registro l’ambito di innovazione la produzione di statistiche sperimentali, da affiancare alla produzione tradizionale di statistiche sulle imprese DCSE-SEA: MONICA CONSALVI | BARBARA GENTILI | flavio pancella | caterina Viviano | DCME-MEA: gianpiero bianchi | francesco scalfati | DCME-MEC: donato summa | DCIT: domenico aprile

Il progetto: ambito di innovazione e obiettivo L’idea Utilizzo dei BIG DATA a supporto del Registro statistico delle imprese attive mediante tecnologie di web scraping e text mining, con lo scopo di integrare i dati anagrafici strutturati delle imprese con i dati destrutturati del web. ROMA 21 MARZO 2018 web mining per integrare e validare informazioni del registro statistico delle imprese attive (ASIA) DCSE-SEA: Monica Consalvi BARBARA GENTILI flavio pancella caterina Viviano DCME-MEA: gianpiero bianchi francesco scalfati DCME-MEC: donato summa DCIT: domenico aprile Produzione di statistiche sperimentali, da affiancare alla produzione tradizionale di statistiche sulle imprese Diffusione di un nuovo output statistico sperimentale ad integrazione del registro statistico delle imprese

Quali imprese consideriamo nella sperimentazione? La fase di progettazione ed implementazione sarà realizzata su un campione di circa 100.000 imprese. Il campione di unità sarà estratto dall’ultima release disponibile del registro Asia-imprese, stratificato per: dimensione in termini di occupazione/volume affari, settore di attività economica forma giuridica ROMA 21 MARZO 2018 web mining per integrare e validare informazioni del registro statistico delle imprese attive (ASIA) DCSE-SEA: Monica Consalvi BARBARA GENTILI flavio pancella caterina Viviano DCME-MEA: gianpiero bianchi francesco scalfati DCME-MEC: donato summa DCIT: domenico aprile

Come identifichiamo l’impresa sul web? In presenza di URL da fonte amministrativa, si procede con la validazione sintattica della stringa, il check degli errori ricorrenti e l’authority dell’indirizzo. Nel caso di URL mancante si utilizzano tecniche di URL Retrieval con interrogazioni in batch su motori di ricerca utilizzando i dati anagrafici dell’azienda, oppure si scaricano informazioni direttamente da portali d’impresa tematici. ROMA 21 MARZO 2018 web mining per integrare e validare informazioni del registro statistico delle imprese attive (ASIA) DCSE-SEA: Monica Consalvi BARBARA GENTILI flavio pancella caterina Viviano DCME-MEA: gianpiero bianchi francesco scalfati DCME-MEC: donato summa DCIT: domenico aprile In entrambi gli approcci si procede con l’identificazione corretta degli indirizzi web, che certifica una esatta corrispondenza tra i siti web e le imprese del registro.

Quali tecniche utilizziamo? Tecniche di Web Scraping per l’acquisizione dati web e tecniche di Analisi Testuale per l’estrazione delle informazioni da utilizzare per integrare il Registro ASIA. In particolare, per il Web Scraping saranno considerate le tecniche di: scraping massivo da liste di URL; scraping tramite l’utilizzo in batch dei motori di ricerca; scraping specifico da portali tematici. Per il Text Mining verranno utilizzate tecniche di Natural Language Processing per l’analisi e l’estrazione dell’informazione (dati, documenti, metadati, file ecc.) all’interno di testi in linguaggio naturale. ROMA 21 MARZO 2018 web mining per integrare e validare informazioni del registro statistico delle imprese attive (ASIA) DCSE-SEA: Monica Consalvi BARBARA GENTILI flavio pancella caterina Viviano DCME-MEA: gianpiero bianchi francesco scalfati DCME-MEC: donato summa DCIT: domenico aprile

Qual è l’output atteso? Il prototipo conterrà un set di informazioni a livello di impresa collegato al Registro il cui contenuto permetta di: ROMA 21 MARZO 2018 web mining per integrare e validare informazioni del registro statistico delle imprese attive (ASIA) DCSE-SEA: Monica Consalvi BARBARA GENTILI flavio pancella caterina Viviano DCME-MEA: gianpiero bianchi francesco scalfati DCME-MEC: donato summa DCIT: domenico aprile completare le informazioni mancanti rispetto a variabili presenti sul Registro delle Imprese verificare alcune informazioni del Registro aggiungere nuove informazioni non esistenti nel Registro