La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain.

Presentazioni simili


Presentazione sul tema: "1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain."— Transcript della presentazione:

1 1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain

2 2 Indice della presentazione Motivazioni per la qualita dei dati La qualita dei dati nei diversi tipi di sistemi informativi Le dimensioni della qualita dei dati Le metodologie per la misurazione e il miglioramento della qualita dei dati in sistemi informativi tradizionali Cenni alle metodologie per misurazione & miglioramento in sistemi informativi cooperativi

3 3 Motivazioni per la qualita dei dati

4 4 Perche la qualita dei dati e importante La scarsa qualita dei dati e pervasiva, soprattutto in un approccio a rete Influenza il successo e l immagine della organizzazione Eleva i costi Influenza i processi decisionali Impedisce il re-engineering Rende difficile una strategia a lungo termine

5 5 La qualità dei dati nei diversi tipi di sistemi informativi

6 6 Diversi tipi di sistemi informativi Sistemi informativi monoorganizzazione –Centralizzati classici –Distribuiti Sistemi informativi cooperativi Sistemi informativi direzionali di tipo data wharehouse

7 Rete unitaria e sistema informativo unitario della PA: situazione di partenza Amministrazione 2 Processi Applicazioni Dati Amministrazione 1 Processi Applicazioni Dati

8 Sistema AmmCentrale to AmmCentrale Amministrazione 1 Processi Applicazioni interne Dati esposti Dati Servizi di interoperabilità Servizi di trasporto Dati e servizi esposti Amministrazione 2 Processi Applicazioni interne Dati esposti Dati Dati e servizi esposti

9 Sistema AmmCentrale to AmmLocale Amministrazione 1 Processi Applicazioni interne Dati esposti Dati Servizi di interoperabilità Servizi di trasporto Dati e servizi esposti Amministrazione 2 Processi Applicazioni interne Dati esposti Dati Dati e servizi esposti Amministrazione 1 Processi Applicazioni interne Dati esposti Dati Servizi di interoperabilità Servizi di trasporto Dati e servizi esposti Amministrazione 2 Processi Applicazioni interne Dati esposti Dati Dati e servizi esposti Servizi di interoperabilità Servizi di trasporto

10 Sistema Amministrazione to Cittadino Internet e altri canali

11 11 Nei data wharehouse Integrazione di schemi logici Integrazione dei dati Individuazione e risoluzione delle incoerenze Pulizia dei dati

12 12 Le dimensioni della qualitadei dati

13 13 Il livello dello schema logico –Es archivio dipendenti, archivio stipendi, ecc. Il livello dei valori e del formato dei dati –Es per i valori Archivio dipendenti Mario Rossi, nato a Brescia il –Es per il formato Campo Cognome PICTURE X(12) In una qualunque base di dati o archivio possiamo distinguere..

14 14 Lo schema logico Comune Particella Bene Fabbricato Terreno Soggetto fisico o giuridico Catasto geometrico Catasto fabbricati Catasto terreni

15 15 I valori

16 16 Il formato

17 17 Schema logico dei dati

18 18 Le dimensioni dello schema logico Contenuto Copertura, cioe grado in cui lo schema logico comprende un adeguato numero di archivi e campi da incontrare le necessita delle applicazioni Livello di dettaglio Composizione, cioe la struttura interna dello schema Consistenza Economicita Flessibilita al cambiamento

19 19 Dettaglio delle proprietà Contenuto Rilevanza Ottenibilità Chiarezza della definizione Copertura Completezza Essenzialità Livello di dettaglio Granularità degli attributi Precisione dei domini Composizione Naturalezza Identificabilità Omogeneità Ridondanza minima necessaria Consistenza Consistenza semantica Consistenza strutturale Reazione al cambiamento Robustezza Flessibilità

20 20 Esempi di alcune proprietà Granularità degli attributi – Es. Il concetto di indirizzo può essere rappresentato in alcune applicazioni semplicemente da Stato, in altre da via+numero civico+ Città+ Stato Precisione dei domini – Es. Un dominio dellattributo altezza di una persona che la esprime in cm, risulta più preciso di un dominio che prevede i valori ALTA, MEDIA, BASSA Naturalezza – Es. Un attributo composto è poco naturale perché esprime due fatti naturalmente scorrelati

21 21 Esempi di alcune proprietà (continua) Consistenza strutturale – Es. Tutte le date devono avere un formato comune, anche se rappresentano attributi di archivi diversi Ottenibilità – Es. I dati di una società commerciale non sono disponibili nellanno corrente, per non facilitare la concorrenza (ma sono ottenibili solo quelli di anni precedenti)

22 22 Copertura Completezza - Ogni archivio e campo necessario agli utenti e incluso nello schema logico Essenzialita - nessun archivio e campo non indispoensabile agli utenti e incluso nello schema logico

23 23 Ma tradizionalmente anche.. Normalita: –Prima forma normale –Seconda forma normale –Terza forma normale –Quarta forma normale –Boyce Codd Normal Form –Quinta forma normale –Domain Key Normal Form

24 24 Le dimensioni non sono ortogonali Le dimensioni (o caratteristiche) non sono indipendenti tra di loro: – correlazioni positive : migliorare una caratteristica migliora anche laltra – correlazioni negative: migliorare una peggiora laltra Esempi: –Gode di correlazione positiva la terna comprensività, granularità degli attributi e precisione del dominio –Gode di correlazione negativa la coppia Economicita Completezza

25 25 Dimensioni dei valori e del formato

26 26 Valori dei dati Accuratezza, vicinanza del dato ad un valore nel dominio di definizione considerato corretto –importante, difficile da misurare (cfr realta, storici) Correttezza, accuratezza al grado massimo Completezza, l estensione con cui i valori sono presenti nella base di dati. –Importante, difficile da misurare –null values Tempestivita, adeguatezza dell aggiornamento –Importante, forse la maggior causa di processi scorretti –Esempio PA Dichiarazioni dei redditi (fino all anno scorso) 3 anni di ritardo Informazioni sugli impiegati 2 anni di ritardo Consistenza di differenti valori. –Quando tra dati consistenti vi e rapporto funzionale, porta a ridondanza

27 27 Formato Appropriatezza, rispetto alle esigenze dell utente –dipende dal mezzo usato (es. Codici a barre, grafi) Interpretabilita, aiuta l utente a interpretare i valori correttamente –Es. (1,2,3,4) vs (scarso, insufficiente, sufficiente, buono) Portabilita, o Universalita tra diverse tipologie di utenti –es le icone agli aeroporti Precisione, capacita di discriminare tra diversi valori –critica con le icone Flessibilita, rispetto ai requisiti utente Capacita di rappresentare valori nulli Uso efficiente della memoria Es. (0,1) vs (, )

28 28 Come procedere alla misura della qualita dei dati 1. Individuazione delle caratteristiche (dimensioni) e sottocaratteristiche (proprieta) prioritarie 2. Individuazione dei criteri (proprieta misurabili) 3. Scelta della procedura di misurazione 4. Processo di misurazione 5. Aggiunta delle valutazioni non quantitative 6. Valutazione complessiva

29 29 Esempio del passo 1: linee strategiche dell Aipa Nel campo specifico della qualita dei dati, da intendersi principalmente come correttezza, tempestivita di aggiornamento, completezza e coerenza, occorre intervenire …….

30 30 Proprieta richieste dalle metriche –misurabilita quanto possibile con strumenti automatici –affidabilità (essere non affette da errori casuali in maniera eccessiva), –ripetibilità (misure rilevate sul medesimo componente in differenti momenti nelle stesse condizioni di rilevazione devono dare lo stesso risultato), – riproducibilità (differenti valutatori debbono poter ottenere uguali risultati in uguali condizioni di valutazione), –disponibilità ad essere utilizzata, –efficacia (in relazione al costo di suo impiego), –correttezza (imparzialità e precisione), –obiettività (in grado di dare risultati non influenzabili dal valutatore o da altri fattori esterni), –significatività (dare indicazioni significative sul comportamento del componente valutato rispetto al requisito in esame);

31 31 Le metodologie per la misurazione e il miglioramento della qualita dei dati in sistemi informativi tradizionali

32 32 Metodi Ispezione e correzione –Comparazione dati con le controparti reali –Database bashing –Utilizzo di business rules Controllo e Miglioramento del Processo Reingegnerizzazione del Processo Approccio basato sui Processi

33 33 Ispezione e correzione: tre approcci 1. Confronto dei dati con la realta che rappresentano costoso, a campione, molto preciso, una tantum per orientare l intervento 2. Confronto dei dati tra due o piu archivi –+ Facilmente applicabile, costo medio – - Il matching non garantisce, se un dato e manifestamente errato forza a considerare l altro corretto, non garantisce per il futuro, abitua male, cioe falso senso di sicurezza (es. fatture vs fatture attese) 3. Confronto dei dati con vincoli o business rules –un campo, piu campi, probabilistico + spesso efficace, poco costoso - non garantisce per il futuro, riguarda solo la conformita alle regole, non la accuratezza, abitua male particolarmente adatti a dati permanenti

34 34 Miglioramento basato sui processi Realizzare gli interventi di miglioramento Identificare ilprocessowner (Data Steward) Descrivere il processo Stabilire un sistema di misura Definire un sistema di monitoraggio e controllo (dei dati e/ del processo) Identificare gli obiettivi di miglioramento Identificare il processo

35 35 Stabilire un sistema di misura Passo 1 Cosa misurare: processi, campi, metriche Passo 2 Definire il campionamento Passo 3 Tracking Passo 4 Identificazione degli errori e del tempo di ritardo

36 36 Il processo suddiviso in 5 sottoprocessi che alimentano 2 basi di dati DB1 e DB2 P1P2P3P4 P5 DB1 DB2

37 37 Esempio: accuratezza per un campo a della base dati DB1 P5DB2 P1P2P3P4DB1 1% 2%17% 0.5%

38 38 Esempio: consistenza tra due DB per un campo b P3P4 P5 DB1 DB2 11% 0%.5% 11%11.5%

39 39

40 40 Cenni alle metodologie per misurazione & miglioramento in sistemi informativi cooperativi

41 41 Qualità dei Dati più complessa Sistemi eterogenei implicano con elevata probabilità schemi logici differenti La necessità di scambiarsi dati può determinare linsorgere di problemi nello scambio (es.data entry dei dati acquisiti da unaltra organizzazione) Maggiore latenza del sistema cooperativo (es. la duplicazione di un dato su più organizzazioni comporta valori variabili della tempestività del dato)

42 42 Misurazione Possibilità di mutuare i risultati ottenuti per la QD delle sorgenti del World Wide Web (WWW) Sono stati realizzati sistemi che fanno un assessment della QD delle sorgenti mediante lutilizzo di metadati per la qualità dei dati

43 43 Metadati per la qualità dei dati Esempi di metadati da associare ai dati esposti dalle singole organizzazioni cooperanti sono: – data dellultimo aggiornamento; – codifica del Data Steward del dato; – codifica della sorgente che ha effettuato lultimo aggiornamento, etc. La valutazione dei metadati fornisce un livello di soglia di alcune dimensioni: – Tempestività (data dellultimo aggiornamento) – Affidabilità (se la sorgente che ha effettuato lultimo aggiornamento è il Data Steward è massima) – …

44 44 Miglioramento Le tecnologie attuali abilitano un miglioramento della qualità dei dati quando sistemi diversi necessitano di cooperare: reingegnerizzaione IT-driven – Due esempi: XML e Publish and Subscribe

45 45 XML come driver del re- engineering DQ-oriented XML: tecnologia per lo scambio dei dati fra le organizzazioni cooperanti Per ogni macro-processo accordo tra le organizzazioni partecipanti sullo schema logico delle informazioni di scambio (Es. DTD XML)

46 46 Le caratteristiche che migliorano: i valori + Accuratezza: si automatizza la fase di data entry, e quindi minor numero di errori = Completezza + Tempestivita + Consistenza : la consistenza semantica aumenta in virtù dell accordo tra le organizzazioni

47 47 Le caratteristiche che migliorano: il formato = Appropriatezza + Interpretabilità + Portabilità - Precisione + Flessibilità = Capacità di rappresentare valori nulli - Efficienza nellimpiego dei mezzi di registrazione

48 48 Publish&Subscribe come driver del re- engineering DQ-oriented Meccanismo di notifica basato su eventi Il ruolo dei Data Steward –Esempio PA: il Data Steward delle informazioni anagrafiche (Es. lindirizzo di nascita) è il Comune di nascita, e quindi idealmente una seconda amministrazione dovrebbe aggiornare i propri archivi solo in seguito allemissione di un evento da parte del data steward.

49 49 Una possibile architettura di P&S DATA STEWARD

50 50 Le caratteristiche che migliorano Tempestività: larchitettura del P&S consente un miglioramento in termini di velocità con cui i dati sono aggiornati Ma anche: –Accuratezza (assegnazione di responsabilità definita sul dato al Data Steward…) –Consistenza etc.

51 51 Riferimenti REDMAN Thomas C. Redman - Data Quality for the information Age Artech House BALLOU D. Ballou, G. Tayi - Enhancing Data quality in Data Warehouse Environments, Comm ACM January 1999, 42,1. MIHAILA G.,RASHID L.,VIDAL M.: Querying quality of data metadata. In Proceedings of the 6th International Conference on Extending Database Technology (EDBT), Valencia, Spain, MIHAILA G.: Publishing, Locating, and Querying Networked Information Sources. PhD thesis, University of Toronto, GALHARDAS H.,FLORESCU D. et alii: An Extensible Framework for Data Cleaning. In Proceedings of the 16th International Conference on Data Engineering (2000)


Scaricare ppt "1 La qualita dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain."

Presentazioni simili


Annunci Google