ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining.

Slides:



Advertisements
Presentazioni simili
ROMA 22 GIUGNO 2016 AREA TEMATICA 2. TEMI EMERGENTI – Competitività e crescita: le risposte della statistica ufficiale «Temi rilevanti di analisi economica:
Advertisements

L'investimento1 1. Cosa rappresenta l’investimento? 2. Come si attua l’investimento? 3. Quante sono le grandezze logiche? 4. Quali sono le grandezze logiche?
ROMA 22 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE INTRODUZIONE SESSIONE :BIG DATA, ARCHIVI AMMINISTRATIVI, REGISTRI INTEGRATI. UNA NUOVA VISIONE.
ROMA 23 GIUGNO 2016 OFFICINA MODERNIZZAZIONE - Sinergie, opportunità e criticità per lo sviluppo del Programma di Modernizzazione dell’Istat Nadia Mignolli.
L’esperienza dello Sportello Energia della Provincia di Parma Sportello Energia.
Le imprese femminili in Provincia di Trento al 31 dicembre 2014 Elaborazioni Ufficio Studi e Ricerche Camera di Commercio I.A.A. di Trento.
Aggiornamento software Comunicazione mediante newsletter Pagina con istruzioni e changelog su
OBIETTIVI di REVISIONE Bettina Campedelli - Revisione aziendale e sistemi di controllo 1 per poter esprimere il giudizio di revisione il revisore scompone.
ROMA 24 GIUGNO 2016 AREA TEMATICA 1. PROSPETTIVE DEI SISTEMI STATISTICI La produzione di statistiche basate sugli archivi amministrativi 1 PROSPETTIVE.
ROMA 23 GIUGNO 2016 SPAZIO CONFRONTI L’esperienza di Roma Capitale e della Città metropolitana: un approccio integrato all’uso di dati statistici e amministrativi.
EduMeter Sistema per la valutazione della didattica dell’Università degli Studi di Torino.
Statistica a scuola. Esperienze condivise
Osservatorio Sistema Ambientale Provincia di Teramo
Formazione DS e DSGA Ambito 3 Rendicontazione sociale, Open Data Amministrazione digitale Sicurezza dei dati e Privacy Accessibilità del sito e dei documenti.
Che cosa c’è “DIETRO” DatAvvocato?
Effetto scuola o Valore aggiunto
Amministrazioni in ascolto: l’esperienza del Programma Cantieri
L’Istat patrimonio del Paese
Forum PA 2017 Prospettive per il censimento permanente dell'agricoltura Sandro Cruciani Roberto Gismondi Massimo Greco Mario Adua Cecilia Manzi Maria Grazia.
Il GeoPortale dell’Istat
NAV 2013 – Contabilità Industriale (Cost Accounting Module)
Sommario Visione Servizi statistici
Il marketing DEFINIZIONE E CONCETTI BASE L’ALBERGO E IL MARKETING
Applicazione web basata su web service e web socket
Federico Sassoli de Bianchi
Indagine multiscopo sulle famiglie Aspetti della vita quotidiana
Aspetti Deontologici Art. 76 R. Chersevani.
Organizzazione Insieme di cose , persone , procedure finalizzate
Il Registro nazionale per l’alternanza scuola-lavoro
LA FILIERA CORTA E IL ‘CHILOMETRO ZERO’ IN SICILIA: STUDIO DEL SETTORE LATTIERO CASEARIO LA COOPERAZIONE SOCIALE AGRICOLA E LE FONTI AMMINISTRATIVE: CASO.
Organizzazione Insieme di cose , persone , procedure finalizzate
Rendiconto dell'esercizio 2016
LETTURA OTTICA LE RICERCHE DI MERCATO MEDIANTE I SISTEMI DI LETTURA OTTICA DEI QUESTIONARI.
Il nuovo sito web del CLA compie 3 mesi
Istruzioni per il nuovo sistema di acquisizione dati
Dati sulle startup innovative milanesi e sulle nuove imprese sostenute
Dati sulle startup innovative milanesi e sulle nuove imprese sostenute
Andrea Paladin, PM CINECA
Recupero polizze assicurative
Il test di lingua italiana: il procedimento e i soggetti coinvolti
Programmare.
Il test di lingua italiana: il procedimento e i soggetti coinvolti
La gestione delle Entrate ( Riscossione ed Inesigibilità )
Il test di lingua italiana: il procedimento e i soggetti coinvolti
Richiesta Accreditamento dei Soggetti Attuatori
Il BILANCIO D’ESERCIZIO
CAMBIAMENTI DI PRINCIPI CONTABILI OIC 26
delle imprese registrate
QUESTIONARIO PER LA RILEVAZIONE DELLE COMPETENZE DIGITALI E LINGUISTICHE DEI DOCENTI SINTESI Anno scolastico 2016/2017.
Corsi di Laurea in Biotecnologie
Italsoft srl Guida allo Sportello Italsoft srl
IL PATRIMONIO NETTO Damiana Lucentini, PhD, Dottore Commercialista, Revisore Legale.
costituire una Cooperativa
1I profili della comunicazione economico-finanziaria
Stato patrimoniale e Conto economico
Dal piano di valutazione alla realizzazione della valutazione
Dal piano di valutazione alla realizzazione della valutazione
A-to-Z Consente di Localizzare e Accedere a tutte le risorse della biblioteca: riviste online riviste cartacee riviste nelle banche dati in full text riviste.
Caterina Viviano Istat – Responsabile del
…le imprese compilano la situazione contabile che elenca
ROMA 21 FEBBRAIO 2019 Sistema di restituzione di informazioni statistiche personalizzate alle imprese coinvolte nelle rilevazioni economiche ROMA 26 FEBBRAIO.
Confronto tra diverse tecniche di web scraping
ROMA 26 FEBBRAIO 2018 Web mining per integrare e validare informazioni del registro statistico delle imprese attive (ASIA) ROMA 26 FEBBRAIO 2018 INAUGURAZIONE.
1 La georeferenziazione degli indirizzi: le coordinate geografiche
ROMA 21 MARZO 2018 Raccolta dati
Fatturazione Elettronica
FRAMEWORK Prof. Fabrizio Di Lazzaro
Indagine sulla qualità dell’insegnamento scolastico in Italia
Andrea Martinelli.
Transcript della presentazione:

ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining e webscraping avanzato ROMA 26 FEBBRAIO 2018 INAUGURAZIONE DEL NUOVO LABORATORIO DELL’INNOVAZIONE GIORGIO ALLEVA 1 viviana de giorgi

Il progetto L’attività nasce dall’idea di poter estrarre conoscenza dal formato testuale delle note integrative dei bilanci civilistici depositati presso le camere di commercio per migliorare le statistiche strutturali sulle imprese. Si realizza con l’acquisizione di file testuali mediante tecnologie di web scraping, accessibili con log-in sul sito di Telemaco, il servizio delle Camere di Commercio che permette di consultare ed estrarre documenti ufficiali del Registro Imprese. Si avvale di tecniche avanzate di text mining e information retrieval per tradurre in forma strutturata i file testuali al fine di ricavarne dati economici sulle imprese non presenti in altre fonti. Si concretizza con la sperimentazione dell’uso di tali dati nella produzione di statistiche ufficiali sulle imprese mediante la produzione di un nuovo output statistico 1 ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining e webscraping avanzato VIVIANA DE GIORGI MASSIMO DECUBELLIS FABRIZIO DE FAUSTI FRANCESCO PUGLIESE DONATO SUMMA 1

L’idea Le note integrative dei bilanci civilistici depositati presso le camere di commercio contengono importanti informazioni sulle imprese: per esempio sono indicati i movimenti nelle voci del patrimonio e la composizione e il dettaglio di alcune voci del bilancio. Del primo tipo sono i movimenti delle immobilizzazioni (investimenti), del secondo tipo sono le partecipazioni in imprese collegate e controllate. Le informazioni di tipo amministrativo disponibili in Istituto non contemplano dati come gli investimenti. Gli investimenti vengono attualmente raccolti in Istat dalle rilevazioni SCI (250 addetti e oltre) e PMI (meno di 250 addetti). Mentre per SCI le informazioni sono censuarie, ma si tratta di una piccolissima parte delle imprese italiane, per la maggior parte delle imprese italiane si tratta di informazioni raccolte su base campionaria del 2% circa. Avere a disposizione le informazioni sugli investimenti delle società di capitale significa migliorare la qualità del dato della Rilevazione sui conti delle imprese e sull'esercizio di arti e professioni. Le informazioni sulle partecipazioni vengono attualmente fornite all’Istat da una società esterna, che garantisce la fornitura solo per una parte. 1 ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining e webscraping avanzato VIVIANA DE GIORGI MASSIMO DECUBELLIS FABRIZIO DE FAUSTI FRANCESCO PUGLIESE DONATO SUMMA 1

La realizzazione Il sito di Telemaco, il servizio delle Camere di Commercio che permette di consultare ed estrarre documenti ufficiali del Registro Imprese, è aperto a utenti registrati che effettuando il login posso fare ricerche avanzate dei documenti ufficiali del Registro imprese. Fra questi il bilancio civilistico depositato da circa 900.000 società di capitale, e che comprende spesso la nota integrativa, allegata al bilancio. Alla nota integrativa corrisponde in genere (quando non è la scansione di un’immagine) un file in formato .pdf. Per poter scaricare le note integrative in maniera massiva si accede automaticamente ai link che portano al documento dell’impresa, rilevando il file in formato testuale corrispondente al pdf. Per la sperimentazione verrà utilizzata una lista di imprese di PMI, delle quali si è a conoscenza dell’ammontare degli investimenti dell’anno. 1 ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining e webscraping avanzato VIVIANA DE GIORGI MASSIMO DECUBELLIS FABRIZIO DE FAUSTI FRANCESCO PUGLIESE DONATO SUMMA 1

Output atteso L’obiettivo del progetto è quello di avere le informazioni sugli investimenti a livello di impresa ai fini del confronto con il dato dichiarato dalle imprese nelle rilevazioni PMI e SCI per valutarne la corrispondenza con il dato reale. Si potrà quindi avviare una sperimentazione dell’uso dei dati di investimento della nota integrativa dei bilanci nella produzione di statistiche ufficiali sulle imprese mediante la produzione di un nuovo output statistico. Infatti, i risultati del progetto potranno essere utilizzati per il miglioramento della procedura di check delle rilevazioni per il dato sugli investimenti e per il integrazione delle informazioni sugli investimenti nella base informativa Frame-SBS 1 ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining e webscraping avanzato VIVIANA DE GIORGI MASSIMO DECUBELLIS FABRIZIO DE FAUSTI FRANCESCO PUGLIESE DONATO SUMMA 1

Il progetto: l’idea Si concretizza con la sperimentazione dell’uso di tali dati nella produzione di statistiche ufficiali sulle imprese mediante la produzione di un nuovo output statistico 1 ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining e webscraping avanzato VIVIANA DE GIORGI MASSIMO DECUBELLIS FABRIZIO DE FAUSTI FRANCESCO PUGLIESE DONATO SUMMA 1