Anonymization on Integrated Clinical Data

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA
Corso per collaboratori di studio medico
Classe V A A.s – 2013 Programma di Informatica 5 ore (3 laboratorio) Docenti –Prof. Alberto Ferrari –Prof. Alberto Paganuzzi.
PHP.
DIRITTI E DOVERI DEI PUBBLICI DIPENDENTI Autore: Della Chiara Giorgio
Introduzione ai sistemi di basi di dati
una interfaccia internet per il sistema Momis
di Architetture Peer to Peer per la Gestione di Database Distribuiti
Nana Mbinkeu Rodrigue Carlos 1 DB unimo OTTIMIZZAZIONE DI QUERY IN MOMIS Università degli studi di Modena e Reggio Emilia Relatore: Prof. Sonia.
Query OQL e XQUERY a confronto
Progetto e realizzazione di un wrapper XML Schema per il sistema MOMIS
Facoltà di Ingegneria di Modena ANALISI E SVILUPPO DI TECNICHE PER
Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico.
WebProfessional Web Content Management System
Università degli studi di Modena e Reggio Emilia
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:
Motore di news per portali Web: progetto ed implementazione Relatore: Chiar.mo Prof. Sonia Bergamaschi Tesi di Laurea di: Roberto Delfini Anno Accademico.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Analisi.
SQL92 e XQuery1.0 a confronto1 SQL92 E XQUERY1.0 A CONFRONTO Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria - Sede di Modena Corso.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Re-engineering del wrapper XML Schema per il sistema MOMIS
1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.
U NIVERISTÀ DEGLI S TUDI DI M ODENA E R EGGIO E MILIA Facoltà di Ingegneria - Sede di Modena Corso di Laurea in Ingegneria Informatica Dinamica delle Ontologie:
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
Il mio nome è Alain Fergnani e nel corso della tesi mi sono occupato della dinamica delle ontologie per il Web Semantico, e in particolare dell’approccio.
Università degli Studi di Modena e Reggio Emilia
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
Università degli studi di Modena e Reggio Emilia
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e realizzazione.
Progetto e realizzazione del software "Solar Data Manager"
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Analisi e Contromisure di tecniche di Sql Injection
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA
19/01/2014 Viste. 19/01/2014 Viste Le Viste Logiche o Viste o View possono essere definite come delle tabelle virtuali, i cui dati sono riaggregazioni.
QUICK-REACH 2.0®: uno strumento di supporto per le Imprese nellimplementazione del REACH.
Chiara Francalanci Politecnico di Milano SMAU 22 Ottobre 2004.
Metodologie per la gestione di conoscenza ontologica Prof. M.T. PAZIENZA a.a
L’uso dei database in azienda
MILLEGPG uno strumento per migliorare e migliorarsi
Testo consigliato Crittografia, P. Ferragina e F. Luccio, Ed. Bollati Boringhieri, € 16.
Tema 1: Integrazione di dati provenienti da sorgenti eterogenee
La tutela dei dati personali
CORSO DI INFORMATICA LAUREA TRIENNALE-COMUNICAZIONE & DAMS
Basi di dati Università Degli Studi Parthenope di Napoli
Informatica e Tecnologie per la comunicazione in rete 1
Presentazione a cura diSlide n.1 AVIPA 1. Presentazione generale dell'ambiente software Viterbo, 10 Dicembre 2008.
Daniel Stoilov Tesi di Laurea
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Progetto e sviluppo.
UNIVERSITA’ POLITECNICA DELLE MARCHE
I servizi telematici dell’Agenzia
Applicazioni di modelli matematici alla ricerca semantica
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria “Enzo Ferrari” – Sede di Modena Corso di Laurea Specialistica in Ingegneria Informatica.
Un progetto triennale Sviluppato da Isfol per conto dei due Ministeri (MEF risorse umane, MLSPS risorse finanziarie FSE), supervisionato da un Comitato.
Università degli Studi di Modena e Reggio Emilia
DATABASE Introduzione
 La tesi si inquadra nell’ambito del Sistema MOMIS, realizzato da DataRiver, rilasciato giovedì15 aprile in una prima versione Open Source, ed è stata.
Università degli studi di Cosenza
Modulo 5 DataBase ACCESS. Informazioni e Dati INFORMAZIONI vengono scambiate con linguaggio scritto o parlato DATI rappresentazione di informazioni in.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA DIPARTIMENTO DI INGEGNERIA “Enzo Ferrari” Corso di Laurea in Ingegneria Informatica Anno Accademico 2013/2014.
Analisi e sperimentazione di una Certification Authority
Il Linguaggio SQL. Le interrogazioni in SQL (continua…) La parte di SQL dedicata alla formulazione di interrogazioni fa parte del DML. SQL esprime le.
Database Elaborato da: Claudio Ciavarella & Marco Salvati.
Algoritmi euristici per l’ottimizzazione dell’offerta nella raccolta di rifiuti Tesi di laurea di Nicola Bindini Relatore: Chiar.mo Prof. Ing. DANIELE.
B IBLIO S ERVICE consultazione di articoli online Anna Riccioni Progetto per il corso di Reti di Calcolatori L-S Anno Accademico
Istituto Tecnico Industriale Don Orione Fano
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
Programmazione orientata agli Oggetti Introduzione a Java.
ALGORITMI, LINGUAGGI E PROGRAMMI Facoltà di Lingue e Letterature Straniere Corso di laurea in Relazioni Pubbliche.
Transcript della presentazione:

Anonymization on Integrated Clinical Data Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria ”Enzo Ferrari” Corso di Laurea in Ingegneria Informatica Anonymization on Integrated Clinical Data (Tecniche di anonimizzazione su dati clinici integrati) Relatore: Candidato: Chiar.ma Prof.ssa Sonia Bergamaschi Gabriele Trombetta Anno Accademico: 2012/2013

Introduzione alla tesi E' stato analizzato un caso concreto E' stato studiato lo ”state of the art” sull'anonimizzazione E' stata prodotta una web application che, interrogando un database clinico integrato, produce risposte anonimizzate Per la stesura della tesi è stata scelta la lingua inglese

Privacy La definizione del concetto di privacy e lo studio di metodologie per garantirla sono alcune delle problematiche più importanti dell'IT moderno La crescita esponenziale della produzione di transistors, la capacità di immagazzinamento di dati e la facilità di accesso alle nuove tecnologie hanno determinato l'aumento del volume di dati prodotti E' stato stimato che i dati generati giornalmente da utenti nel 2007 si aggirassero sugli 8-10 gygabyte di dati pubblici e 4 terabyte di dati privati [1]

Perchè? Se la sanità degli Stati Uniti usasse i dati privati in modo creativo per migliorare l'efficienza e la qualità dei propri servizi, il settore potrebbe creare più di 300 miliardi di dollari ogni anno McKinsey Global Institute Report Il diritto alla privacy è sancito dalla Convenzione Europea [2] ...e dalla Costituzione Italiana [3] In materia di protezione dei dati personali è attualmente in vigore il decreto legislativo del 30 giugno 2003 [4]

Casi tristemente famosi Un ulteriore motivo che ci spinge verso la ricerca di sistemi che garantiscano livelli adeguati di anonimizzazione per garantire il diritto alla privacy è sicuramente l'obbligo morale e professionale di non ripetere gli errori del passato. Nel 2002 il governo del Massachussetts Nel 2004 la Choicepoint Nel 2006 America OnLine "AOL"[5]

Terminologia Identificatore: un identificatore univoco , ad esempio il SSN (social secury number, l'equivalente del nostro codice fiscale) Quasi-Identificatore (QI) : Un dato che può identificare parzialmente un individuo in un dataset ad esempio la data di nascita (DOB), il sesso, il codice postale o ZIP code Attributo Sensibile (SA) : l'associazione che vogliamo nascondere, ad esempio quella tra un individuo e la sua patologia. Non sempre è ben definibile!

k-anonymity, l-diversity, t-closeness k-anonymity: la tabella T soddisfa la k-anonimicità riguardo i QI se e solo se ogni tupla nel multiset T[QI] compare almeno k volte [6] l-diversity: una tabella è l-diversa se ognuno dei suoi gruppi di quasi identificatori contiene almeno l valori ben rappresentati per i SA [7] t-closeness: una tabella soddisfa la t-closeness se in ognuno dei gruppi QI la distanza fra la distribuzione dei valori dei SA nei gruppi e nell'intera tabella non è più grande di un valore di soglia t

Un approccio diverso: Differential Privacy Concetto emerso nella comunità scientifica nel 2006 [6] Brusco cambiamento, non si parla più di anonimizzazione ma di privacy differenziale Approccio Query-oriented piuttosto che Data-oriented Definizione: Siano D1,D2 due dataset vicini, sia A un algoritmo stocastico sul dataset e sia S un set arbitrario di possibili output di A. L'algoritmo A sarà ”ε -differentially private” se Pr[A(D1)∈ S] ≤ eεPr[A(D2)] ∈S] [8] Intuitivamente un algoritmo che restituisce una risposta la cui origine può essere ricondotta ad uno scenario con o senza la presenza, all'interno del dataset, di un individuo specifico

Caso in esame Database clinico FIL. La Fondazione Italiana Linfomi ONLUS è un organo di coordinamento delle attività svolte in Italia nel campo dei linfomi da oltre 120 Centri distribuiti su tutto il territorio nazionale Integrato tramite l'utilizzo di MOMIS (Mediator envirOnment for Multiple Information Sources) è un framework per l'estrazione e l'integrazione di informazioni per sorgenti dati strutturate e semistrutturate MOMIS nel caso specifico produrrà una materializzazione di tale database integrato accessibile tramite un server MySQL

Decision Making: ipotesi L'integrazione tramite MOMIS ci fornirà un database non sparse, cioè con un tasso non elevato di zeri Il tipo di dato che si considera, dato clinico, obbliga moralmente e professionalmente ad utilizzare la massima sicurezza Allo stesso modo è doveroso mantenere un elevato tasso di utilità in modo da aumentare l'efficienza del nostro software Serve un linguaggio che permetta la connessione con database di tipo MySQL e allo stesso tempo il supporto web

Decision Making: scelte Un approccio Query oriented garantirà caratteristiche di dinamicità e modularità rendendo al contempo più leggera e meno onerosa l'elaborazione dei dati da anonimizzare L'unica tecnica teorica a dare un adeguato livello di sicurezza e al contempo un approccio Query oriented è la Differential Privacy La scelta della DP rende il software più efficiente e il processo di anonimizzazione facilmente aggiornabile Nel caso specifico si è agevolati dall'approccio web nell'analisi delle query, potendo andare ad agire direttamente su di esse ancor prima che queste interroghino il database La scelta del linguaggio ricade su Java, sia per la facilità di interconnessione con un database MySQL tramite JDBC sia per il supporto web

Sviluppo del progetto Il software dovrà restituire dati anonimizzati ad un utente interrogando un database integrato Per l'utente sarà una blackbox che riceve query e restituisce dati anonimizzati Utilizzerà il JDBC per interrogare il database integrato tramite MOMIS

Anon-Alyzer Il nome scelto rispecchia le caratteristiche principali: analisi e anonimizzazione di query Dinamico e progettato per la modularità Anonimizza correttamente diverse tipologie di query Mantiene un elevato grado di utilità Programmazione bottom-up e algoritmi stocastici

Un esempio di query anonimizzata Consideriamo una query che dovrebbe restituire un singolo dato di tipo numerico. Anon-Alyzer analizzerà la query, ricavando una valore chiamato sensibilità globale, che utilizzerà per generare una distribuzione di probabilità Laplaciana, dalla quale campionare un valore ”rumoroso” Garantirà la privacy differenziale Assicurerà che il risultato sia privato … perchè indistinguibile da un risultato prodotto interrogando un database con o senza l'individuo

Counting Query Si veda ora nello specifico come viene anonimizzato un dataset attraverso un meccanismo esponenziale che garantirà la privacy differenziale: SELECT COUNT(*) AS `Occorrenze`, Patologia FROM `filtest` GROUP BY Patologia ORDER BY `Occorrenze` DESC Occorrenze Patologia 1900 Traumatica 1883 Cardiovascolare 1851 Osteoarticolare 1821 Infettiva 1813 Neoplastica 1783 Respiratoria Occorrenze Patologia 1899 Cardiovascolare 1885 Traumatica 1850 Osteoarticolare 1821 Infettiva 1814 Neoplastica 1783 Respiratoria

Conclusioni e futuro Anon-Alyzer mantiene un tasso elevato di utilità sui dati anonimizzati ...stimato fino al 97% Modulo applicabile a qualsiasi database Miglioramenti futuri: analisi semantica query Concetto chiave per il futuro: sintetizzazione database differentially private

Grazie per l'attenzione

References [1] [Ramakrishnan 2007] : Privacy in Data Publishing, CPS 116, Duke University. [2] Convenzione Europea per la salvaguardia dei diritti dell'uomo e delle libertà fondamentali,articolo 8, visionabile presso http://it.wikipedia.org/wiki/Convenzione_europea [3] Per quanto attiene alla legislazione italiana, i fondamenti costituzionali sono ravvisabili negli art. 14, 15 e 21 Cost., rispettivamente riguardanti il domicilio, la libertà e segretezza della corrispondenza, e la libertà di manifestazione del pensiero; ma si può fare anche riferimento all'art. 2 Cost., incorporando la riservatezza nei diritti inviolabili dell'uomo. [4] Decreto Legislativo 30 giugno 2003, n. 196 "Codice in materia di protezione dei dati personali" pubblicato nella Gazzetta Ufficiale n. 174 del 29 luglio 2003 - Supplemento Ordinario n. 123

References [5] Aol privacy breach: http://www.washingtonpost.com/wp- dyn/content/article/2006/08/07/ar2006080700790.html [6] Pierangela Samarati, Latanya Sweeney. Generalizing data to provide anonymity when disclosing information. In ACM PODS 1998 [7] Ashwin Machanavajjhala, Johannes Gehrke, Daniel Kifer, Muthuramakrishnan Venkitasubramaniam. l-Diversity: privacy Beyond k- anonymity. In ICDE 2006 [8] C. Dwork, F. Mcsherry, K. Nissim, and A. Smith. Calibrating Noise to Sensitivity in Private Data Analysis. In Theory of Cryptography Conference, 2006.