La qualita’ dei dati nei sistemi informativi C. Batini - Aipa

Slides:



Advertisements
Presentazioni simili
Le funzioni dell’ “Operatore”.
Advertisements

Training On Line - CONP. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Pluriennali > Nuova Richiesta Si accede alla pagina di Richiesta.
Informatica II – Basi di Dati (08/09) – Parte 1
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
II° Circolo Orta Nova (FG)
Progetto Qua.ser Indagine di customer satisfaction: Cambio di indirizzo Firenze, 30 giugno 2011.
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
Frontespizio Economia Monetaria Anno Accademico
I sistemi di riferimento
La modellazione m.rumor. realtà di interesse target domain source domain rappresentazione funzione di modellazione inversa della funzione di modellazione.
L’elasticità e le sue applicazioni
Roma, 12 marzo 2001 Enrica Massella Ducci Teri Sintesi della giornata svolta su "Analisi e verifica della qualità dei dati" del 26 febbraio.
I MATEMATICI E IL MONDO DEL LAVORO
1 Seconda ora Larchitettura di un sistema di e- government: parte seconda Un esempio di progetto di e-Government: il progetto servizi alle imprese Un esempio.
Politecnico di Milano Algoritmi e Architetture per la Protezione dellInformazione Multichannel Adaptive Information Systems Paolo Maistri Dipartimento.
EPA 01/02 III/1 I consumi di prodotti agro-alimentari: differenziazioni nello spazio e nel tempo Cosa spiega le differenze nei consumi tra individui diversi…
EIE 06/07 II / 1 Strumenti delle politiche agricole in economia aperta equilibrio di mercato in economia aperta politiche di un paese importatore politiche.
EIE 0607 III / 1 A B P a = 30 P b = 35 t = 2, tc = 1 Questo può essere un equilibrio? No! Politiche di un paese importatore: una tariffa allimportazione.
CAPITOLO 5 Elasticità.
Obiettivi del corso di Statistica Medica.
Algoritmo di Ford-Fulkerson
Programmazione 1 9CFU – TANTE ore
IL PATRIMONIO DI DATI - LE BASI DI DATI. Il patrimonio dei dati Il valore del patrimonio di dati: –Capacità di rispondere alle esigenze informative di.
Corso di Informatica (Programmazione)
Corso di Informatica (Basi di Dati)
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
1. 2 CAMERA DI COMMERCIO PESARO E URBINO Elaborazione Servizio Statistica Fonti: ISTAT – Unioncamere – Tagliacarne – Infocamerere – Regione Marche – Comune.
Realizzazione e caratterizzazione di una semplice rete neurale per la separazione di due campioni di eventi Vincenzo Izzo.
1 Provincia di Bologna MeDeC - Centro Demoscopico Metropolitano Botteghe in periferia Indagine sulle attività commerciali nelle aree marginali della provincia.
Master universitario di II livello in Ingegneria delle Infrastrutture e dei Sistemi Ferroviari Anno Accademico 2012/2013 Cultura dimpresa, valutazione.
La partita è molto combattuta perché le due squadre tentano di vincere fino all'ultimo minuto. Era l'ultima giornata del campionato e il risultato era.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Scritte scritte scritte scritte scritte scritte scritte Scritte scritte Titolo.
CALCIO SKY 2007 – 2008 PROFILO DI ASCOLTO. 2 INDICE DEGLI ARGOMENTI Profilo di ascolto CALCIO SERIE A 2007 – 2008 Totale campionato (tutte le partite)……………………………………………….
1 Autovalutazione di Istituto - Genitori - Anno scolastico 09/10.
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Lezione 6 Encoder ottici
Franco Sanlorenzo Scuola Superiore Commercio, Milano Roberto Tadei
Progettazione di una base di dati
La struttura organizzativa e informativa del controllo
19 Lezione 21/5/04 Composizione dell'immagine 1 COMPOSIZIONE DELLIMMAGINE.
Ciclo della performance e valutazione
Velocità ed accelerazione
2 3 4 RISERVATEZZA INTEGRITA DISPONIBILITA 5 6.
Nuove frontiere della medicina trasfusionale: il contributo Avis
1ROL - Richieste On Line Ente pubblico 5ROL - Richieste On Line.
MACCHINARI SICURI WORKSHOP FASCICOLO TECNICO E ANALISI DEI RISCHI
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
ISOIVA (LOCALE) TO ISOIVA (WEB) RIPARTIZIONE INFORMATICA UFFICIO APPLICATIVI AMMINISTRATIVI 13/04/2011 UNIVERSITÀ DEGLI STUDI DI FERRARA 1.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
TECNOLOGIE DELLINFORMAZIONE E DELLA COMUNICAZIONE PER LE AZIENDE Materiale di supporto alla didattica.
Protocollo informatico: interoperabilità e PEC
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
Gli internauti italiani e il consumo di informazioni tramite media classici e new media UNA RICERCA QUANTITATIVA SVOLTA DA ASTRA RICERCHE PER LORDINE DEI.
DOMANDE FINALI 1) Cosè un campo elettromagnetico? 2) Che cosa si intende per frequenza di un campo elettromagnetico? 3) Che differenza esiste tra alte.
QUIZ – PATENTE EUROPEA – ESAME WORD
1 Questionario di soddisfazione del servizio scolastico Anno scolastico 2011/2012 Istogramma- risposte famiglie.
1 Ly-LAB Sistema di gestione dei dati analitici di laboratorio.
1 AUTOMATIZZAIAUTOMATIZZAIAUTOMATIZZAIAUTOMATIZZAI S.I. SISTEMASISTEMA INFORMATIVO INFORMATIVO PROCESSOPROCESSO DECISIONALE DECISIONALE DECISIONEDECISIONE.
LE COMPONENTI DEL SISTEMA INFORMATIVO
Sviluppare un programma in C che, dato un array da 100 elementi interi caricato con numeri casuali compresi tra [10,100], sia in grado di cercare il valore.
Atzeni, Ceri, Paraboschi, Torlone Basi di dati McGraw-Hill,
Competitività e attrattività dei territori italiani: la SICILIA _______________________________ Palermo, 9 giugno 2014 Area PTIE 1.
LA SODDISFAZIONE DEGLI UTENTI SUL SERVIZIO TELEMATICO SISTER Sintesi dei risultati dell’indagine 2006 Roma, ottobre 2006.
Lezione n. 02 L ’economia è lo studio dell’uomo nei suoi affari quotidiani Alfred Marshall Anno Accademico
USR-INRiM-GMEE-CE.SE.DI Formazione&Metrologia Modulo 1 1 Modulo 1 Costruzione di un linguaggio comune Preparazione liste dei termini. Condivisione.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Progettazione di una base di dati Ciclo di vita di un sistema informativo Studio di fattibilità definisce le varie alternative possibili, i relativi costi.
Le basi di dati.
Transcript della presentazione:

La qualita’ dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain

Indice della presentazione Motivazioni per la qualita’ dei dati La qualita’ dei dati nei diversi tipi di sistemi informativi Le dimensioni della qualita’ dei dati Le metodologie per la misurazione e il miglioramento della qualita’ dei dati in sistemi informativi tradizionali Cenni alle metodologie per misurazione & miglioramento in sistemi informativi cooperativi

Motivazioni per la qualita’ dei dati

Perche’ la qualita’ dei dati e’ importante La scarsa qualita’ dei dati e’ pervasiva, soprattutto in un approccio a rete Influenza il successo e l’ immagine della organizzazione Eleva i costi Influenza i processi decisionali Impedisce il re-engineering Rende difficile una strategia a lungo termine

La qualità dei dati nei diversi tipi di sistemi informativi

Diversi tipi di sistemi informativi Sistemi informativi monoorganizzazione Centralizzati classici Distribuiti Sistemi informativi cooperativi Sistemi informativi direzionali di tipo data wharehouse

Rete unitaria e sistema informativo unitario della PA: situazione di partenza Amministrazione 1 Amministrazione 2 Processi Processi Dati Dati Applicazioni Applicazioni

Sistema “AmmCentrale to AmmCentrale” Amministrazione 2 Amministrazione 1 Processi Processi Applicazioni interne Applicazioni interne Dati Dati Dati e servizi esposti Dati e servizi esposti esposti Dati esposti Dati Servizi di interoperabilità Servizi di trasporto

Sistema “AmmCentrale to AmmLocale” Amministrazione 1 Amministrazione 2 Amministrazione 1 Amministrazione 2 Processi Processi Processi Processi Applicazioni interne Applicazioni interne Applicazioni interne Applicazioni interne Dati Dati Dati Dati Dati e servizi esposti Dati e servizi esposti Dati e servizi esposti Dati e servizi esposti esposti Dati esposti Dati esposti Dati esposti Dati Servizi di interoperabilità Servizi di trasporto Servizi di interoperabilità Servizi di trasporto Servizi di interoperabilità Servizi di trasporto

Sistema “Amministrazione to Cittadino” Processi Applicazioni interne esposti Dati Servizi di interoperabilità Servizi di trasporto Dati e servizi esposti Amministrazione 2 Dati e servizi Internet e altri canali

Nei data wharehouse Integrazione di schemi logici Integrazione dei dati Individuazione e risoluzione delle incoerenze Pulizia dei dati

Le dimensioni della qualita’dei dati

In una qualunque base di dati o archivio possiamo distinguere .. Il livello dello schema logico Es archivio dipendenti, archivio stipendi, ecc. Il livello dei valori e del formato dei dati Es per i valori Archivio dipendenti Mario Rossi, nato a Brescia il 21-12-1977 Es per il formato Campo Cognome PICTURE X(12)

Lo schema logico Comune Catasto geometrico Particella Bene Fabbricato Terreno Soggetto fisico o giuridico Catasto terreni Catasto fabbricati

I valori

Il formato

Schema logico dei dati

Le dimensioni dello schema logico Contenuto Copertura, cioe’ grado in cui lo schema logico comprende un adeguato numero di archivi e campi da incontrare le necessita’ delle applicazioni Livello di dettaglio Composizione, cioe’ la struttura interna dello schema Consistenza Economicita’ Flessibilita’ al cambiamento

Dettaglio delle proprietà Contenuto Rilevanza Ottenibilità Chiarezza della definizione Copertura Completezza Essenzialità Livello di dettaglio Granularità degli attributi Precisione dei domini Composizione Naturalezza Identificabilità Omogeneità Ridondanza minima necessaria Consistenza Consistenza semantica Consistenza strutturale Reazione al cambiamento Robustezza Flessibilità

Esempi di alcune proprietà Granularità degli attributi Es. Il concetto di “indirizzo” può essere rappresentato in alcune applicazioni semplicemente da “Stato”, in altre da “via”+”numero civico”+ “Città”+” Stato” Precisione dei domini Es. Un dominio dell’attributo “altezza” di una persona che la esprime in cm, risulta più preciso di un dominio che prevede i valori ALTA, MEDIA, BASSA Naturalezza Es. Un attributo composto <Sesso,Stato Matrimoniale> è poco naturale perché esprime due fatti naturalmente scorrelati

Esempi di alcune proprietà (continua) Consistenza strutturale Es. Tutte le date devono avere un formato comune, anche se rappresentano attributi di archivi diversi Ottenibilità Es. I dati di una società commerciale non sono disponibili nell’anno corrente, per non facilitare la concorrenza (ma sono ottenibili solo quelli di anni precedenti)

Copertura Completezza - Ogni archivio e campo necessario agli utenti e’ incluso nello schema logico Essenzialita’ - nessun archivio e campo non indispoensabile agli utenti e’ incluso nello schema logico

Ma tradizionalmente anche .. Normalita’: Prima forma normale Seconda forma normale Terza forma normale Quarta forma normale Boyce Codd Normal Form Quinta forma normale Domain Key Normal Form

Le dimensioni non sono ortogonali Le dimensioni (o caratteristiche) non sono indipendenti tra di loro: correlazioni positive : migliorare una caratteristica migliora anche l’altra correlazioni negative: migliorare una peggiora l’altra Esempi: Gode di correlazione positiva la terna comprensività, granularità degli attributi e precisione del dominio Gode di correlazione negativa la coppia Economicita’ Completezza

Dimensioni dei valori e del formato

Valori dei dati Accuratezza, vicinanza del dato ad un valore nel dominio di definizione considerato corretto importante, difficile da misurare (cfr realta’, storici) Correttezza, accuratezza al grado massimo Completezza, l’ estensione con cui i valori sono presenti nella base di dati. Importante, difficile da misurare null values Tempestivita’, adeguatezza dell’ aggiornamento Importante, forse la maggior causa di processi scorretti Esempio PA Dichiarazioni dei redditi (fino all’ anno scorso) 3 anni di ritardo Informazioni sugli impiegati 2 anni di ritardo Consistenza di differenti valori. Quando tra dati consistenti vi e’ rapporto funzionale, porta a ridondanza

Formato Appropriatezza, rispetto alle esigenze dell’ utente dipende dal mezzo usato (es. Codici a barre, grafi) Interpretabilita’, aiuta l’ utente a interpretare i valori correttamente Es. (1,2,3,4) vs (scarso, insufficiente, sufficiente, buono) Portabilita’, o Universalita’ tra diverse tipologie di utenti es le icone agli aeroporti Precisione, capacita’ di discriminare tra diversi valori critica con le icone Flessibilita’, rispetto ai requisiti utente Capacita’ di rappresentare valori nulli Uso efficiente della memoria Es. (0,1) vs ( , )

Come procedere alla misura della qualita’ dei dati 1. Individuazione delle caratteristiche (dimensioni) e sottocaratteristiche (proprieta’) prioritarie 2. Individuazione dei criteri (proprieta’ misurabili) 3. Scelta della procedura di misurazione 4. Processo di misurazione 5. Aggiunta delle valutazioni non quantitative 6. Valutazione complessiva

Esempio del passo 1: linee strategiche dell’ Aipa 1998-2000 “Nel campo specifico della qualita’ dei dati, da intendersi principalmente come correttezza, tempestivita’ di aggiornamento, completezza e coerenza, occorre intervenire …….”

Proprieta’ richieste dalle metriche misurabilita’ quanto possibile con strumenti automatici affidabilità (essere non affette da errori casuali in maniera eccessiva), ripetibilità (misure rilevate sul medesimo componente in differenti momenti nelle stesse condizioni di rilevazione devono dare lo stesso risultato), riproducibilità (differenti valutatori debbono poter ottenere uguali risultati in uguali condizioni di valutazione), disponibilità ad essere utilizzata, efficacia (in relazione al costo di suo impiego), correttezza (imparzialità e precisione), obiettività (in grado di dare risultati non influenzabili dal valutatore o da altri fattori esterni), significatività (dare indicazioni significative sul comportamento del componente valutato rispetto al requisito in esame);

Le metodologie per la misurazione e il miglioramento della qualita’ dei dati in sistemi informativi tradizionali

Metodi Ispezione e correzione Controllo e Miglioramento del Processo Comparazione dati con le controparti reali Database bashing Utilizzo di business rules Controllo e Miglioramento del Processo Reingegnerizzazione Approccio basato sui Processi

Ispezione e correzione: tre approcci 1. Confronto dei dati con la realta’ che rappresentano costoso, a campione, molto preciso, una tantum per orientare l’ intervento 2. Confronto dei dati tra due o piu’ archivi + Facilmente applicabile, costo medio - Il matching non garantisce, se un dato e’ manifestamente errato forza a considerare l’ altro corretto, non garantisce per il futuro, “abitua male”, cioe’ falso senso di sicurezza (es. fatture vs fatture attese) 3. Confronto dei dati con vincoli o business rules un campo, piu’ campi, probabilistico + spesso efficace, poco costoso - non garantisce per il futuro, riguarda solo la conformita’ alle regole, non la accuratezza, “abitua male” particolarmente adatti a dati permanenti

Miglioramento basato sui processi Realizzare gli interventi di miglioramento Identificare il process owner (Data Steward) Descrivere il processo Stabilire un sistema di misura Definire un sistema di monitoraggio e controllo (dei dati e/ del processo) Identificare gli obiettivi di miglioramento Identificare il processo

Stabilire un sistema di misura Passo 1 Cosa misurare: processi, campi, metriche Passo 2 Definire il campionamento Passo 3 Tracking Passo 4 Identificazione degli errori e del tempo di ritardo

Il processo suddiviso in 5 sottoprocessi che alimentano 2 basi di dati DB1 e DB2

Esempio: accuratezza per un campo a della base dati DB1 2% 17% 0.5% 1%

Esempio: consistenza tra due DB per un campo b .5% P5 DB2 0% 11% 11.5% P3 P4 DB1 0% 11%

Cenni alle metodologie per misurazione & miglioramento in sistemi informativi cooperativi

Qualità dei Dati più complessa Sistemi eterogenei implicano con elevata probabilità schemi logici differenti La necessità di scambiarsi dati può determinare l’insorgere di problemi nello scambio (es.data entry dei dati acquisiti da un’altra organizzazione) Maggiore latenza del sistema cooperativo (es. la duplicazione di un dato su più organizzazioni comporta valori variabili della “tempestività” del dato)

Misurazione Possibilità di mutuare i risultati ottenuti per la QD delle sorgenti del World Wide Web (WWW) Sono stati realizzati sistemi che fanno un assessment della QD delle sorgenti mediante l’utilizzo di metadati per la qualità dei dati

Metadati per la qualità dei dati Esempi di metadati da associare ai dati esposti dalle singole organizzazioni cooperanti sono: data dell’ultimo aggiornamento; codifica del Data Steward del dato; codifica della sorgente che ha effettuato l’ultimo aggiornamento, etc. La valutazione dei metadati fornisce un livello di soglia di alcune dimensioni: Tempestività (data dell’ultimo aggiornamento) Affidabilità (se la sorgente che ha effettuato l’ultimo aggiornamento è il Data Steward è massima) …

Miglioramento Le tecnologie attuali abilitano un miglioramento della qualità dei dati quando sistemi diversi necessitano di cooperare: reingegnerizzaione IT-driven Due esempi: XML e Publish and Subscribe

XML come driver del re-engineering DQ-oriented XML: tecnologia per lo scambio dei dati fra le organizzazioni cooperanti Per ogni macro-processo accordo tra le organizzazioni partecipanti sullo schema logico delle informazioni di scambio (Es. DTD XML)

Le caratteristiche che migliorano: i valori + Accuratezza: si automatizza la fase di data entry, e quindi minor numero di errori = Completezza + Tempestivita’ + Consistenza : la consistenza semantica aumenta in virtù dell’ accordo tra le organizzazioni

Le caratteristiche che migliorano: il formato = Appropriatezza + Interpretabilità + Portabilità - Precisione + Flessibilità = Capacità di rappresentare valori nulli - Efficienza nell’impiego dei mezzi di registrazione

Publish&Subscribe come driver del re-engineering DQ-oriented Meccanismo di notifica basato su eventi Il ruolo dei Data Steward Esempio PA: il Data Steward delle informazioni anagrafiche (Es. l’indirizzo di nascita) è il Comune di nascita, e quindi idealmente una seconda amministrazione dovrebbe aggiornare i propri archivi solo in seguito all’emissione di un evento da parte del data steward.

Una possibile architettura di P&S DATA STEWARD

Le caratteristiche che migliorano Tempestività: l’architettura del P&S consente un miglioramento in termini di velocità con cui i dati sono aggiornati Ma anche: Accuratezza (assegnazione di responsabilità definita sul dato al Data Steward…) Consistenza etc.

Riferimenti REDMAN Thomas C. Redman - Data Quality for the information Age - 1996 Artech House BALLOU D. Ballou, G. Tayi - Enhancing Data quality in Data Warehouse Environments, Comm ACM January 1999, 42,1. MIHAILA G.,RASHID L.,VIDAL M.: “Querying quality of data metadata”. In Proceedings of the 6th International Conference on Extending Database Technology (EDBT), Valencia, Spain , 1998. MIHAILA G.: Publishing, Locating, and Querying Networked Information Sources. PhD thesis, University of Toronto, 2000. GALHARDAS H.,FLORESCU D. et alii: An Extensible Framework for Data Cleaning. In Proceedings of the 16th International Conference on Data Engineering (2000)