ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche NUOVE FONTI.

Slides:



Advertisements
Presentazioni simili
Tavola rotonda - Big Data
Advertisements

Comitato metodologie 9 luglio 2010 Costituzione di una rete per linnovazione metodologica nella produzione statistica.
YOUR ITALIAN CV Step-by-step guide to create CURRICULUM VITAE in Italian language.
Layered Grid Architecture. Application Fabric “Controlling elements locally”: Access to, & control of, resources Connectivity “Talking to Grid elements”:
ROMA 23 GIUGNO 2016 OFFICINA MODERNIZZAZIONE - Gli strumenti del Programma di Modernizzazione dell’Istat Giulio Barcaroli, Nadia Mignolli - Il modello.
ROMA 22 GIUGNO 2016 AREA TEMATICA 2. TEMI EMERGENTI – Competitività e crescita: le risposte della statistica ufficiale «Temi rilevanti di analisi economica:
ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della privacy nella gestione dei Big Data: aspetti giuridici NUOVE FONTI E DOMANDE.
ROMA 22 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE INTRODUZIONE SESSIONE :BIG DATA, ARCHIVI AMMINISTRATIVI, REGISTRI INTEGRATI. UNA NUOVA VISIONE.
ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE L’integrazione di basi di dati per la statistica pubblica: opportunità per la conoscenza e per.
ROMA 23 GIUGNO 2016 OFFICINA MODERNIZZAZIONE - Sinergie, opportunità e criticità per lo sviluppo del Programma di Modernizzazione dell’Istat Nadia Mignolli.
ROMA 22 GIUGNO 2016 AREA TEMATICA 1. TEMI EMERGENTI: COMPETITIVITA’ E CRESCITA Nuove informazioni statistiche sulle imprese: coerenza micro-macro, multidimensionalità,
ROMA 23 GIUGNO 2016 OFFICINA MODERNIZZAZIONE - Gli strumenti del Programma di Modernizzazione dell’Istat L’Enterprise Architecture in Istat: esperienze.
ROMA 24 GIUGNO 2016 AREA TEMATICA 1. PROSPETTIVE DEI SISTEMI STATISTICI La produzione di statistiche basate sugli archivi amministrativi 1 PROSPETTIVE.
ROMA 22 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Aumentare la ricercabilità dei dati per un (ri)uso più efficace: il ruolo dei cataloghi NUOVE.
ROMA 23 GIUGNO 2016 SPAZIO CONFRONTI L’esperienza di Roma Capitale e della Città metropolitana: un approccio integrato all’uso di dati statistici e amministrativi.
Universita` degli studi di Perugia Corso di Laurea Magistrale in Informatica NetCash Antonio Cestari Pietro Palazzo.
OR9: Realizzazione e trasformazione di servizi applicativi Infomobilità e Videosorveglianza Fabrizio Lanari Daniela Vasari OCP CTS, 09/10/2015.
Informativa sull’adempimento degli obblighi di e-cohesion di cui all’art. 122, comma 3 del reg. (UE) 1303/2013 Programma Competitività regionale 2007/13.
OR9: Realizzazione e trasformazione di servizi applicativi Infomobilità e Videosorveglianza Guido Di Pasquale Daniela Vasari OCP CTS, 05/06/2015.
ROMA 23 GIUGNO 2016 AREA TEMATICA 3. INNOVAZIONI E SPERIMENTAZIONI Competenze e ruolo del data scientist INNOVAZIONI E SPERIMENTAZIONI Competenze e ruolo.
Sistema informatizzato prenotazione pasti mensa scolastica Scuole primarie di Asola e Castelnuovo Scuola secondaria di primo grado di Asola.
Product Quantization for Nearest Neighbor search.
Esperienze di Advanced Analytics nella statistica ufficiale: strumenti e progetti Antonino Virgillito Direzione Centrale per le tecnologie informatiche.
Metriche della comunicazione A.A. 2016/2017
GUIDA ON LINE Claudio Caso.
Abstract relazione attività
Numeri e grafici per capire la salute
Evolvo S.r.l..
App-to-Cloud Security
DatiOpen: il portale Linked Open Data dell’Istat
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
La valenza formativa e tecnica nel sostegno alla numeracy
Il programma di modernizzazione dell’ISTAT
LA BANCA DATI AL FEMMINILE
Dal problema al processo risolutivo
CRITTOGRAFIA Per crittografia si intende la protezione delle informazioni mediante l'utilizzo di codici e cifre. La crittografia è un componente fondamentale.
1 Metodologia per la gestione dei colori e forma del prodotto attraverso l’analisi di scenari di tendenza Metodologia per la gestione dei colori e forma.
Presentazione dei nuovi sviluppi software
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
Studente/i Relatore Correlatore Committente Aris Piatti
Regione Lombardia Data Base Topografico
LE RILEVAZIONI SPERIMENTALI 2017: L’ESPERIENZA DEL COMUNE DI PALERMO
OR 6 – Citizen’s Marketplace
Scenario mail in Ateneo
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Il Sistema informativo e la ricerca di Marketing Maria De Luca
Il database dell’Emilia a servizio degli studi internazionali
MODULO 1 – Computer essentials
Le Linee Guida per la valutazione degli
Fonti di dati secondari
GDPR – IL COME R.EU 2016/679 Andrea Chiozzi, Warrant Group
MADEsmart: un sistema in ambiente web per l’accesso a dati e indicatori sanitari Situazione e prospettive Torino, martedì 6 giugno 2017 Marco Dalmasso,
Management and Computer Science
Aspetti legali dell'introduzione della Blockchain
Reddito d’Inclusione Schermate download report e sottoscrizione progetto 25 giugno 2018.
Milano Chemometrics and QSAR Research Group
EMODnet Data Ingestion
Il BYOD a scuola: possibilità e sostenibilità.
APPUNTI SUL LINGUAGGIO C Esercizi su File e Alberi Binari
TIPOLOGIE DI DECISIONI E LA NECESSITA’ DI INDIVIDUARE
«COSA DOBBIAMO FARE PER ANDARE NELLA DIREZIONE DESIDERATA ?»:
Selezione e Proiezione
Pubblicità digitale e GDPR
Caterina Viviano Istat – Responsabile del
ROMA 21 FEBBRAIO 2019 Sistema di restituzione di informazioni statistiche personalizzate alle imprese coinvolte nelle rilevazioni economiche ROMA 26 FEBBRAIO.
GUIDA ALL’UTILIZZO DELLE FUNZIONALITÀ DI PAGAMENTO
ROMA 26 FEBBRAIO 2018 Web mining per integrare e validare informazioni del registro statistico delle imprese attive (ASIA) ROMA 26 FEBBRAIO 2018 INAUGURAZIONE.
Integrazione di dati provenienti da più fonti
ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining.
CLOUD.
Transcript della presentazione:

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche NUOVE FONTI E DOMANDE Il trattamento della privacy nella gestione dei Big Data: le soluzioni tecniche COMPORTAMENTI INDIVIDUALI E RELAZIONI SOCIALI IN TRASFORMAZIONE UNA SFIDA PER LA STATISTICA UFFICIALE 23 GIUGNO :30 | 16:00 Monica Scannapieco| Istat

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche Indagini 2 Fonti amministrative Design Specify Needs Build Collect Process Analyse Disseminate Evaluate GSBPM Retail data Mobile data Internet data Transaction logs Sensor data Generic Statistics Business Process Model (GSBPM): Il processo di produzione dell’informazione statistica Fonti Tradizionali Fonti Big … Statistica Ufficiale: Fonti e Processo Metadata Mgt Quality Mgt

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche 3  Tecniche di Statistical Disclosure Control (SDC) utilizzate per anonimizzare i dati  Per le fonti tradizionali  fasi di comunicazione e diffusione  Per le fonti Big  anche raccolta dati, processamento e analisi Design Specify Needs Build Collect Process Analyse Disseminate Evaluate GSBPM Fonti Big Fonti tradizionali Metadata Mgt Quality Mgt

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche  Acquisizione da parte di produttori di dati Big  Telecommunication Provider  Google  Social Media Provider  …  In aggiunta alle tecniche di Statistical Disclosure Control, tecniche di Privacy-preserving data sharing & mining 4 Le Fonti Big nel Processo di Produzione dell’informazione Statistica

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche 5 Le soluzioni tecniche: SDC e SMC Metodi di Statistical Disclosure Control (SDC)  Metriche di misura della privacy  Tipico trade-off: accuratezza-privacy  Esempi :  k-anonimity  t-closeness e l-diversity  Differential privacy  Random noise  … Secure Multi-party Computation (SMC)  Metodi di crittografia  Tipico trade-off: costo-privacy  Building block di SMC :  Homomorphic encryption  Processameneti effettuati su cybertext  I risultati crittografrati quando de- crittografati coincidono con I risultati delle operazioni effettuate su plaintext

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche 6 Mobile Phone Data Scenario Call Detail records (CDRs) Official Statistics Domains Telco Provider

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche 7 Mobile Phone Data Scenario: Private Record Linkage  Link delle fonti senza rivelare nulla se non il risultato del linkage  Exact linkage  Approximate linkage R P : TELCO PROVIDER Nome Chiamante Cognome Chiamante Numero telefono Chiamante Location Data mario rossi XXX annabianchi YYY claudioverdi ZZZ mariorossi XXX R P “  ” R Q R P “  ” R Q R Q : ISTAT&ESS NomeCognomeNumero telefono Dati socio demografici mariorossi aaaa giuliobianchi bbbb annabianchi YYY claudioverdi ZZZ giuliobianchi bbbb mariorossi aaaa

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche 8 Mobile Phone Data Scenario: Private Record Linkage  Data Fusion  Restituzione alle parti di un record anonimo risultante dal merge delle informazioni di location e sociodemografiche mariorossi XXX mariorossi aaaa XXX aaa ID_1111 TELCO PROVIDER Nome Chiamante Cognome Chiamante Numero telefono Chiamante Location Data mario rossi XXX annabianchi YYY claudioverdi ZZZ ISTAT&ESS NomeCognomeNumero telefono Dati socio demografici mariorossi aaaa giuliobianchi bbbb

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche 9 Un esempio di tecnica di private record linkage Idea chiave:  Funzioni crittografiche non preservano la distanza per loro natura  Embedding dei record da linkare in uno spazio euclideo tramite un metodo che assicura la privacy La tecnica consente schema e data matching tale che :  Assicura la privacy in un contesto honest-but-curious  Effettua schema matching  L’efficacia dell’approximate data matching è confrontabile a quella di tecniche che non considerano la privacy  L’efficienza del data matching è maggiore dei protocolli di secure set intersection (parte di SMC) Monica Scannapieco, Ilya Figotin, Elisa Bertino, Ahmed K. Elmagarmid: Privacy preserving schema and data matching. SIGMOD Conference 2007:

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche Phase 1: Setting of the embedding space Phase 2: Embedding of R P e R Q Phase 3: Comparison to decide matching records RPRP RQRQ P Match Q Match Data sets owned by parties P and Q Matching data sets sent to P and Q separately Phase 3 performed by a trusted third party W Un esempio di tecnica di private record linkage

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche Fasi 1 e 2 della tecnica PQ 1. Sharing: String Lenght Lx Number of Strings N dist 2. Generation of a set G of N random strings of Lenght Lx 3. Embedding Space Construction: S1…Sz 4. Embedding of R P : Dimensionality reduction from z to k Construction of Pstr 5. Send: S1…Sk PQ 1. Sharing: String Lenght Lx Number of Strings N dist 5. Send: S1…Sk 6. Embedding of R Q Construction of Qstr Costruzione dello spazio di embedding: Metodo SparseMap Condivisione di parametri di costruzione tra le parti Embedding dei record nello spazio: Entrambe le parti Record diventano vettori numerici

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche 12 Fase 3 della tecnica  Fatta da una terza parte W che:  Accede a P str and Q str (gli insiemi di stringhe trasformati in vettori) e usa un indice multidimensionale per confrontare ciascun vettore con un insieme di vettori (possibili match) tramite una nearest neighbor search  Distanza euclidea d E  Regola di decisione applicata a r 1 e q 1 :  Pmatch e Qmatch contenenti solo i matching records sono inviati separatamente a P e Q  Possibilità di una eventuale fase di data fusion (d E (r 11,q 11 )<=  1 )  (d E (r 12,q 12 )<=  2 )  …  (d E (r 1n,q 1n )<=  n )

ROMA 23 GIUGNO 2016 AREA TEMATICA 4. NUOVE FONTI E DOMANDE Il trattamento della Privacy nella gestione dei Big Data: le soluzioni tecniche 13  Il trattamento di fonti Big per la statistica ufficiale comporta la necessità di utilizzare tecniche di private data sharing & mining, che si aggiungono a quelle più classiche di SDC Conclusioni  Elementi da considerare nella selezione di tali tecniche per fonti Big:  Costo computazionale (SMC può essere molto costoso)  Linkability: possibilità di linkare dati da più soggetti (come nel caso di private linkage)  metodi di SDC applicati indipendentemente limitano la linkability  Composability: garanzie di privacy a valle della fusion dei risultati Jordi Soria-Comas,· Josep Domingo-Ferrer: Big Data Privacy: Challenges to Privacy Principles and Models, Data Science and Engineering, Vol.1, March 2016