Università degli studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea Specialistica in Ingegneria Informatica Analisi e valutazione comparativa dei principali sistemi di integrazione dati commerciali rispetto al sistema MOMIS attraverso il benchmark THALIA Relatore Prof.ssa Sonia Bergamaschi Correlatore Prof. Maurizio Vincini Tesi di Laurea di Fabio Romano
Obiettivi 1 Analisi e studio della logica e dei metodi di integrazione dei sistemi commerciali: WebSphere Information Integrator Content Edition Microsoft SQL Server 2005 Integrazione Services Oracle Data Integrator MOMIS Valutazione tramite il benchmark THALIA
Data Integration System 2 DB XML DB virtuale DB materializzato 2 approcci diversi: Dati strutturati Dati semi-strutturati
Classificazione dei sistemi 3 WebSphere Information Integrator Content Edition Microsoft SQL Server 2005 Integrazione Services Oracle Data Integrator MOMIS ETL (Extract, Transform,Load) Aprroccio virtuale
Benchmark THALIA 4 Set di 12 query con lobiettivo di testare eterogeneità: Raccolta di 25 fonti di dati diverse (file XML) che rappresentano i cataloghi dei corsi di diverse università mondiali SintatticheSemantiche
Benchmark THALIA 5 5 query Eterogeneità degli attributi 3 query Dato mancante 4 query Eterogeneità strutturali 12 query Sinonimi Semplice mapping Tipi unione Mapping complesso Language Expression
Benchmark THALIA 5 5 query Eterogeneità degli attributi 3 query Dato mancante 4 query Eterogeneità strutturali 12 query Valori nulli Attributi virtuali Incompatibilità semantica
Benchmark THALIA 5 5 query Eterogeneità degli attributi 3 query Dato mancante 4 query Eterogeneità strutturali 12 query Stesso attributo in strutture differenti Trattamento di set di valori Il nome dellattributo non ne descrive la semantica Composizione di attributi
Microsoft Integration Services 6
IBM Information Integrator 7
Oracle Data Integrator 8
MOMIS 9
Confronto tra i sistemi 10 Produttore Tipi sorgenti dati ApproccioCreazione vista Query mana ger MOMIS DBGROUP- UNIMO Semistrutturati e strutturati Database virtuale (GAV) SemiautomaticaSI IICE 8.4IBM Strutturati, semistrutturati, dati multimediali Database virtuale (LAV) Manuale (interfaccia grafica) NO* Data Integrator Oracle Semistrutturati e strutturati DB materializzato (E-LT) Manuale (interfaccia grafica) SI Integration Services Microsoft Semistrutturati e strutturati DB materializzato (ETL) Manuale (interfaccia grafica) SI
Osservazioni sul confronto 11
Trasformazioni sui dati 12 Metodi e funzioni di trasformazione diversi per ogni sistema di integrazione: Oracle DI Funzioni personalizzate, in base alla tecnologia DBMS utilizzata MOMISFunzioni like SQL92 CASE WHEN ISNUMERIC(SUBSTRING(COURSE.Times, 1, 2)) = 1 THEN CASE WHEN CAST(SUBSTRING(COURSE.Times, 1, 2) AS int) > 12 THEN CAST(CAST(SUBSTRING(COURSE.Times, 1, 2) AS integer)- 12 AS nvarchar(2)) ELSE SUBSTRING(COURSE.Times, 1, 2) END + SUBSTRING(COURSE.Times, 3, 4) + CASE WHEN CAST(SUBSTRING(COURSE.Times, 7, 2) AS int) > 12 THEN CAST(CAST(SUBSTRING(COURSE.Times, 7, 2) AS integer)- 12 AS nvarchar(3)) ELSE SUBSTRING(COURSE.Times, 7, 2) END + SUBSTRING(COURSE.Times, 9, 3) END
Trasformazioni sui dati 13 Metodi e funzioni di trasformazione diversi per ogni sistema di integrazione: IBM Information Integrator Classe Java transformer: Metodo PreProcessQuery(); Metodo PostProcessQuery(); Microsoft IS Funzioni personalizzate, messe a disposizione dagli script component
Implementazione benchmark THALIA 15 S.I. Sorgenti dati Sorgenti dati Sorgenti dati Sorgenti dati Mapping F.d.T
Risultati benchmark THALIA 16
Costo delle licenze 17
Difficoltà dinstallazione 18
Conclusioni 19