Analisi di Metriche e Algoritmi per la Qualità dei Dati.

Slides:



Advertisements
Presentazioni simili
Informatica II – Basi di Dati (08/09) – Parte 1
Advertisements

Il raffinamento dello schema e la normalizzazione nei database relazionali Eugenio Di Sciascio.
CORSO DI RECUPERO CONTROLLI AUTOMATICI Prof. Filippo D’Ippolito
DB - Modello relazionale dei dati
Creazione di archivi tramite Data Base
21 Marzo 2006"Le misure e le previsioni in acustica edilizia"1 Requisiti acustici passivi degli edifici - Elaborazione e presentazione dei dati - Enrico.
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità C1 Il linguaggio SQL.
una interfaccia internet per il sistema Momis
DOCUMENTAZIONE DI SCHEMI E/R
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e realizzazione.
Data warehousing con SQL Server
Biglietti e Ritardi: schema E/R
Biglietti: schema E/R.
1 Biglietti: schema E/R. 2 Biglietti: albero degli attributi.
4 – Progettazione – Introduzione e Modello E-R
La modellazione m.rumor. realtà di interesse target domain source domain rappresentazione funzione di modellazione inversa della funzione di modellazione.
Basi di Dati prof. A. Longheu 4 – Progettazione – Introduzione e Modello E-R Cap. 5 Basi di dati Atzeni – Ceri – Paraboschi - Torlone.
Lez. 3 - Gli Indici di VARIABILITA’
Innovazione nelle Indagini statistiche sui trasporti
Claudia Gistri Area Ambiente e Sicurezza CERTIQUALITY S.R.L. IL SISTEMA DI EMISSION TRADING PER I GAS AD EFFETTO SERRA Milano, 8 Marzo 2005 La verifica.
Corso di Informatica (Basi di Dati)
Corso di Informatica (Basi di Dati)
Corso di Laurea in Biotecnologie Informatica (Programmazione)
Corso di Informatica (Programmazione)
Corso di Informatica (Basi di Dati)
CONTROLLO DI SUPPLY CHAIN MEDIANTE TECNICHE H-INFINITO E NEGOZIAZIONE
Corso di Informatica A.A Corso di Informatica Laurea Triennale - Comunicazione&Dams Dott.ssa Adriana Pietramala Dott.ssa.
Istruzioni di selezione in Java Programmazione Corso di laurea in Informatica.
Corso di Laurea in Ingegneria per lAmbiente e il Territorio Informatica per lAmbiente e il Territorio Docente: Giandomenico Spezzano Tutor: Alfredo Cuzzocrea.
Progettazione di una base di dati
Relazioni Relazione : concetto mutuato dalla definizione di relazione matematica della teoria degli insiemi, come sottoinsieme del prodotto cartesiano.
Normalizzazione Le forme normali certificano che la base di dati soddisfa criteri di qualità che mirano ad evitare le ridondanze e i conseguenti effetti.
DBMS ( Database Management System)
Basi di dati Claudia Raibulet
Corso di INFORMATICA anno scolastico 2009/10 Linguaggio SQL IDENTIFICATORI di tabelle e attributi: stringhe di lunghezza max 18 caratteri, composte da.
TECNOLOGIE DELLINFORMAZIONE E DELLA COMUNICAZIONE PER LE AZIENDE Materiale di supporto alla didattica.
1)PROGETTAZIONE DI UN DATABASE
Corso di Laurea in Informatica
Progettare un database
Introduzione a Oracle 9i
Discovering Relative Importance of Skyline Attributes Gruppo 8 Altobelli Andrea (Relatore) Ciotoli Fabio Denis Mindolin, Jan Chomicki.
Atzeni, Ceri, Paraboschi, Torlone Basi di dati McGraw-Hill,
DB- Sistemi Informativi
Informatica II – Basi di Dati (07/08) – Parte 2 Gianluca Torta Dipartimento di Informatica dell’Università di Torino
SECONDO COMPITO:. ANALISI DEI REQUISITI Si vuole automatizzare la gestione dei prestiti di una biblioteca di un determinato soggetto (biblioteca personale).
Le regole per la stesura di un articolo di tipo scientifico
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
1 PerfectFit06 Sistema di personalizzazione dei contenuti per gli scavi archeologici di Ercolano Candidato: Vincenzo Scognamiglio Relatore: Prof. Ernesto.
1 Università della Tuscia - Facoltà di Scienze Politiche.Informatica 2 - a.a Prof. Francesco Donini Accesso a basi di dati con ASP.
Modulo 5 - Database. Contenuti della lezione 5.1.1Concetti Fondamentali 5.1.2Organizzazione di un Database 5.1.3Relazioni 5.2.1Lavorare con i database.
I DBMS BASI DI DATI (DATABASE) Insieme organizzato di dati utilizzati
Informatica Introduzione alle basi di dati Lezione 2 Scienze e tecniche psicologiche dello sviluppo e dell'educazione, laurea magistrale Anno accademico:
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Progettazione di una base di dati Ciclo di vita di un sistema informativo Studio di fattibilità definisce le varie alternative possibili, i relativi costi.
Basi di dati e Relazioni Uno schema di relazione R(X) è costituito da un simbolo (nome della relazione) R e da una serie di attributi X={A 1, A 2, …, A.
Reti di calcolatori LS1 Service Middleware Reti di calcolatori LS progetto di Andrea Belardi Infrastruttura dedicata alla gestione di servizi disponibili.
Progettazione di una base di dati relazionale Vincoli.
B IBLIO S ERVICE consultazione di articoli online Anna Riccioni Progetto per il corso di Reti di Calcolatori L-S Anno Accademico
Progettazione di basi di dati: metodologie e modelli
S. Costantini 06/05/2006 (parte del materiale è tratto da slide del 2001 di Ceri-Atzeni) Normalizzazione di Schemi.
Cloud informatica V anno.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
NORMALIZZAZIONE ESERCIZI. INTRODUZIONE La modellazione E-R ci ha consentito di descrivere schemi relazionali Lo strumento base per la modellizzazione.
ICT e Sistemi informativi Aziendali Materiale di supporto alla didattica.
1. CASO BIBLIOTECA ANALISI DEI REQUISITI Si vuole automatizzare la gestione prestiti dei libri di una biblioteca personale. La progettazione deve tener.
Normalizzazione. Introduzione Nell’organizzazione tradizionale degli archivi, si verificano alcuni problemi, quali: Ridondanza dei dati (gli stessi dati.
Access Breve introduzione. Componenti E’ possibile utilizzare Access per gestire tutte le informazioni in un unico file. In un file di database di Access.
Il modello relazionale. Modello Relazionale 2 Dal modello concettuale a quello logico Una volta stabilita la rappresentazione concettuale della realtà.
BASI DATI: modello relazionale BIOINGEGNERIA ELETTRONICA ED INFORMATICA Lezione IIIb - AA 2014/20151.
I DONEITÀ DI C ONOSCENZE E C OMPETENZE I NFORMATICHE ( A – D ) Un database è un insieme di record (registrazioni) e di file (archivi) organizzati per uno.
Transcript della presentazione:

Analisi di Metriche e Algoritmi per la Qualità dei Dati. UNIVERSITA’ DEGLI STUDI DI MILANO BICOCCA FACOLTA’ DI SCIENZE MATEMATICHE, FISICHE E NATURALI Corso di Laurea in Informatica Analisi di Metriche e Algoritmi per la Qualità dei Dati. Progettazione e Realizzazione di un Framework per l’Assessment della Qualità. Supervisori: Chiar.mo Prof. Carlo BATINI Dott. Daniele BARONE Relazione della prova finale di: Carmine Carella Matricola: 055465 Anno Accademico 2005/2006

Overview La Qualità dei Dati e la sua Importanza Aree di Ricerca nell’Ambito della Qualità dei Dati Dimensioni dei Valori dei Dati Data Quality Framework Caso di Studio GUI e Funzioni Accuratezza Sintattica Metadati Appendice

La Qualità dei Dati e la sua Importanza I dati sono elementi chiave nei processi aziendali Decisionali: guidano le decisioni di planning Operazionali: sono utilizzati nelle decisioni a livello operativo La scarsa qualità dei dati: Aumenta con il tempo È pervasiva (si diffonde) È costosa (mancati ricavi, extra costi) Nel processo di creazione e utilizzo dei dati si rendono necessarie attività appositamente dedicate alla gestione della qualità: Valutazione (assessment) Miglioramento (improvement)

Aree di Ricerca nell’Ambito della Qualità dei Dati Dimensioni: le dimensioni sono proprietà che caratterizzano uno specifico aspetto della qualità. Possono essere associate a livello: dello schema della rappresentazione dei dati dei valori dei dati Metriche: associate alle dimensioni di qualità ne misurano il livello qualitative o quantitative su diversi tipi di dati (strutturati, semistrutturati e non strutturati) per i dati strutturati ai diversi livelli di granularità Tecniche: algoritmi, euristiche, conoscenze per lo specifico problema di DQ Le tecniche necessitano del supporto di tools: procedure automatizzate Un insieme di tools prende il nome di framework

Aree di Ricerca nell’Ambito della Qualità dei Dati Dimensioni: le dimensioni sono proprietà che caratterizzano uno specifico aspetto della qualità. Possono essere associate a livello: dello schema della rappresentazione dei dati dei valori dei dati Metriche: associate alle dimensioni di qualità ne misurano il livello qualitative o quantitative su diversi tipi di dati (strutturati, semistrutturati e non strutturati) per i dati strutturati ai diversi livelli di granularità Tecniche: algoritmi, euristiche, conoscenze per lo specifico problema di DQ Le tecniche necessitano del supporto di tools: procedure automatizzate Un insieme di tools prende il nome di framework

Dimensioni dei Valori dei Dati Accuratezza: vicinanza tra un valore v e un valore v’ considerato la corretta rappresentazione del mondo reale che v vuole rappresentare. Si distingue in accuratezza semantica e accuratezza sintattica. Accuratezza Sintattica: vicinanza di un valore v agli elementi del corrispondente dominio di definizione D. Descritta durante il caso di studio Completezza: il grado con il quale la relazione rappresenta la corrispondente parte del mondo reale. Definita in base a: Modello con valori nulli (significato valore nullo: generale, di valore mancante). Assunzione CWA (closed world assumption): i valori presenti in una tabella relazionale e nessun altro valore rappresentano i fatti veri del mondo reale. Currency: quanto tempestivamente i dati sono aggiornati. (accuratezza temporale). Consistenza: rileva le violazioni di regole semantiche definite su un insieme di dati. Vincoli di integrità, istanza regole semantiche, nel modello relazionale. Presentate nell’ appendice

Data Quality Framework Descrizione Attività Assessment delle principali dimensioni di qualità dei dati e Localizzazione e Correzione degli errori Dimensioni Accuratezza Sintattica Completezza Currency Consistenza Metriche Algoritmi quantitativi Tipi di Dati Strutturati (Modello Relazionale) Livelli di Granularità Database, Relazione,Tupla, Attributo, Singolo valore Funzioni Principali Assessment Misurazione delle quattro dimensioni Gestione Metadati “Metadati misurazione” utilizzati dagli algoritmi durante l’esecuzione e “Metadati dimensione” danno informazioni relative alle valutazioni effettuate Gestione Report Parziale Report parziale con le misurazioni effettuate durante l’utilizzo del framework Gestione Reports Completi Report completi di misurazione per ogni dimensione Strumenti Utilizzati Java con IDE Eclipse Realizzazione MySQL DBMS Relazionale d’appoggio XML Organizzazione e Strutturazione logica dei metadati Widget toolkit SWT Creazione GUI

Caso di Studio Utilizzato per testare il framework Il test è stato effettuato per Verificare la correttezza dei risultati Funzionamento degli algoritmi Database MySQL Recuperato dal sito del progetto Eclipse-BIRT relativo ad una compagnia ClassicModels Inc. per la vendita di modelli in scala di automobili, treni, navi, autobus, aerei, ect. Contiene 8 relazioni, 60 attributi, 3864 tuple Relazioni contenenti tipici dati di business: offices, employees, customers, orders, order details, payments, products, product lines Prima di eseguire il test con tale database, i dati sono stati “sporcati” per poi poter rilevare provlemi di qualità

Framework : GUI e Funzioni Gestione Metadati Misurazione Connessione e Disconnesione database Gestione Reports Completi Funzioni per l’assessment Visualizzazione Report Parziale e Metadati Misurazione Struttura Database connesso Area Risultati Visualizzazione grafica risultati Informazioni sul percorso metadati misurazione Informazioni sul percorso metadati dimensione Informazioni sul database connesso Informazioni sulla singola relazione

Accuratezza Sintattica Lookup table: informazioni che vengono consultate durante la misurazione dell’accuratezza Funzioni di distanza: Jaro Simple Ratio: risultati desiderati / numero totale risultati 1 – ( risultati non desiderati / numero totale risultati) Accuratezza Sintattica Attributo: due metriche Metrica basata sulla presenza della lookup table Lookup table Jaro Simple Ratio Metrica basata sulla frequenza dei valori dell’attributo Soundex Accuratezza Sintattica Tupla e Relazione: una metrica Metrica basata sulla tecnica del Record Linkage

Accuratezza Sintattica Attributo Prima metrica basata sulla presenza della lookup table Lookup table: rappresenta il dominio di definizione dell’attributo Algoritmo Accuratezza sintattica del singolo valore dell’attributo Per ogni valore v dell’attributo, controlla che v sia uno dei valori nel dominio Determinazione insieme valori accurati e dell’ insieme non accurati Per ogni valore dell’insieme non accurati, si effettua il confronto con ogni valore del dominio tramite Jaro, per trovare il valore massimo di similarità e il valore più vicino Accuratezza sintattica dell’attributo 4. Determinazione accuratezza attributo tramite simple ratio

Inserimento lookup table Accuratezza Sintattica Attributo city della relazione offices Relazione d’appartenenza dell’attributo Nome attributo a cui associare la lookup table Coordinate MySQL della lookup table

Accuratezza Sintattica Attributo city della relazione offices con metrica lookup table Valore accuratezza dell’attributo Correzione suggerita Accuratezza singolo valore

Accuratezza Sintattica Tuple e Relazioni Metrica ispirata alla metodologia ISTAT per la qualità dei dati toponomastici e a tecniche di Record Linkage Lookup table: relazione contenete le istanze corrette della relazione da valutare, rappresentanti la parte del mondo reale che si vuole modellare In base all’ algoritmo di record matching utilizzato (confronto tra sottostringhe), la relazione da valutare e la lookup table dovrebbero avere la stessa struttura: ugual numero di attributi e stesso ordine Fase di configurazione della misurazione: in cui adattare le strutture e scegliere tutti o un sottoinsieme degli attributi e in quale ordine. (normalizzazione formati) Fase di misurazione: algoritmo di record matching che restituisce per ogni tupla “non accurata” il valore di accuratezza e la tupla più vicina della lookup table Accuratezza Relazione: simple ratio, rapporto tra numero di tuple non accurate (match < 100%) e numero totale di tuple della relazione, sottratto ad uno Relazione da valutare Mi Milano Vittorio Emanuele Corso 1 Provincia Città Nome Tipo ID Lookup table con fase configurazione Milano Città Mi Corso Vittorio Emanuele Provincia Tipo_Nome Chiave primaria dello stesso tipo Stesso numero e ordine attributi Mi Milano Vittorio Emanuele Corso 1 Provincia Comune Nome Dug Key Corso Vittorio Emanuele Milano Mi 3 Indirizzo ID Lookup table senza fase configurazione

Fase di configurazione accuratezza sintattica tuple della relazione employees Struttura relazione da valutare Struttura lookup table

Accuratezza Sintattica Tuple della relazione employees Tupla corretta della lookup table Valore accuratezza tupla Tupla non accurata della relazione valutata

Metadati (informazioni circa un dato) Organizzati e strutturati tramite un modello di metadati, metamodello Modello concettuale: schema ER Modello Logico: documento XML Metadati misurazione: contengono le informazioni aggiuntive necessarie alle misurazioni come lookup table per l’accuratezza sintattica dell’attributo, della relazione e delle tuple, frequenza media di aggiornamento per la currency, coordinate relazione per la consistenza Metadati dimensione: per ogni dimensione valutata danno informazioni circa la data, la metrica utilizzata, il livello di granularità, il valore della misurazione e eventuali metadati misurazione utilizzati. Viene creato il report parziale/totale con formattazione XSL

Report delle valutazioni delle dimensioni

Conclusioni e Sviluppi Futuri Il framework potrà essere ancora migliorato: L’attivita di assessment Creazione metriche per la valutazione di nuove dimensioni di qualità migliorando gli algoritmi esistenti Un’attività di miglioramento (improvement) della qualità

Appendice

Seconda metrica basata sulla frequenza dei valori dell’attributo Confronto tra valori attualmente presenti nell’attributo Analisi dei valori, alla ricerca dei valori con una bassa frequenza (numero di occorrenze uguale ad uno), possibili candidati ad avere errori di accuratezza Valori con frequenza alta costituiscono il dominio di confronto Primo confronto tramite funzione Jaro per determinare i valori a bassa frequenza accurati e valori da analizzare nuovamente con il secondo confronto Secondo confronto, tra valore bassa frequenza con valore più vicino, con la funzione soundex per determinare se i due valori rappresentano o meno lo stesso concetto del mondo reale Determinazione accuratezza attributo tramite simple ratio NomiImpiegati Mal Max Giacomo Marco Palo Paolo Luca …. Valori frequenza bassa Valori accurati Luca Palo Mal Luca Jaro Nuova Analisi Valori più vicini Soundex Palo Mal Paolo Max Soundex Paolo Marco Giacomo Max Errore Accuratezza Sintattica Palo = Paolo Dominio confronto Mal ≠ Max

Accuratezza Sintattica Attributo contactFirstName della relazione customers con metrica frequenza valori Valore accuratezza dell’attributo Correzione suggerita

Completezza Algoritmo Livelli di granularità: Relazione, Attributo, Tupla Metrica basata sul modello a valori nulli, sull’assunzione CWA. Utilizza la forma funzionale simple ratio. Simple ratio: risultati desiderati / numero totale risultati 1 – ( risultati non desiderati / numero totale risultati) Algoritmo Ricerca e conteggio valori nulli (Nvn) Determinazione numero attributi (Na) e numero tuple (Nt) e numero massimo di valori che la relazione può contenere (N) La completezza è determinata tramite Per l’attributo: CA=1 – ( Nvn / Nt) Per la relazione: CR= ( Nvnn / N) dove Nvnn numero valori non nulli Per la tupla: CT=1 – ( Nvn / Na) determinata per ogni tupla della relazione

Ordinamento valori timestamp Currency: tempestività di aggiornamento dei dati. Livello granularità: Attributo. Scala risultati: <current, not current> Tre Metriche basate sul metadato “last update”, implementato con il campo Timestamp di MySQL. Prima metrica si basa sul recupero della data di ultimo aggiornamento (massimo valore timestamp). Due metriche basate anche sul metadato “frequenza media di aggiorn.” (espressa in giorni). Seconda metrica con “frequenza media” inserita dall’utente Differenza tra istante misurazione e last update = delta (es. 14 giorni fa) Recupero frequenza media (es. 13 giorni) Se delta > frequenza media → not current altrimenti se delta ≤ frequenza media → current Terza metrica con “frequenza media” ricavata dai valori del timestamp uguale alla precedente metrica nei passi (1) e (3) con l’eccezione (passo 2) che la frequenza viene calcolata a runtime: con una differenza tra aggiornamenti successivi. Differenze (08/01/2006) − (31/12/2005) = 8 giorni (20/01/2006) − (08/01/2006) = 12 giorni 08/01/2006 paul@email.com … 20/01/2006 john@email.com 31/12/2005 jack@email.com timestamp e-mail Somma 8 + 12 = 20 giorni Frequenza media di aggiornamento Rapporto 20 / 3 = 6 giorni Ordinamento valori timestamp

Consistenza Algoritmo Ricerca delle violazioni ai vincoli di integrità in particolare ai vincoli interrelazionali quindi vincoli di integrità referenziale. Livello di granularità: attributo ma anche tupla (se si considerano più attributi) Metrica basata sul record matching con una fase di configurazione Consideriamo il livello dell’attributo, l’idea è quella di confrontare i valori di un attributo A di una relazione R1 con i valori di un altro attributo B di una relazione R2 che si suppone contenga gli stessi valori di A, in quanto B rappresenta lo stesso concetto del mondo reale di A (caso vincoli interrelazionali). Se A è chiave primaria di R1 e B chiave esterna di R2 allora caso integrità referenziale. Durante il confronto si determinano i valori inconsistenti. Algoritmo Controllo consistenza dei valori di un attributo chiave esterna Scelta di due relazioni sul quale è definito un vincolo di integrità referenziale Collegamento relazioni con inserimento coordinate connessione della relazione con chiave esterna nei metadati Fase di configurazione per la scelta degli attributi, sui cui valori deve essere controllata la consistenza Misurazione con record matching Per ogni valore non consistente: percentuale di consistenza e valore più vicino (ricavato dalla relazione con chiave primaria)

Consistenza attributo productCode chiave primaria di product e chiave esterna di orderdetails Valore chiave primaria più vicino Valore di consistenza Valore chiave esterna inconsistente