Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoBerengar Giannini Modificato 10 anni fa
1
B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE
InfoSphere DataStage
2
(Extraction, Transformation and Loading)
I processi ETL (Extraction, Transformation and Loading) Estrazione, trasformazione e caricamento sono i componenti più importanti e con più valore aggiunto di un'infrastruttura di Business Intelligence (BI). Sebbene siano per lo più invisibili agli utenti della piattaforma di BI, i processi ETL recuperano i dati da tutti i sistemi e li pre-elaborano per i tool di analisi e di reporting. La precisione e la tempestività dell´intera piattaforma di BI dipendono in larga misura dai processi ETL.
3
(Extraction, Transformation and Loading)
ETL (Extraction, Transformation and Loading) I processi di estrazione, trasformazione e caricamento comprendono step multipli che hanno come obiettivo il trasferimento dei dati dalle applicazioni di produzione ai sistemi di Business Intelligence : Estrazione dei dati dalle applicazioni di produzione e dai database (ERP, CRM, RDBMS, file ecc.) Trasformazione di questi dati per la loro riconciliazione su tutti i sistemi sorgente, unione dei dati provenienti da sistemi eterogenei, eseguire calcoli o parsing di stringhe, arricchirli con informazioni di lookup esterne e confrontare il formato richiesto dal sistema target (Third Normal Form, Star Schema, Slowly Changing Dimensions, ecc.) Caricamento dei dati risultanti nelle varie applicazioni BI: Data Warehouse o Enterprise Data Warehouse, Data Mart, applicazioni Online Analytical Processing (OLAP) o “cubi”, ecc. La latenza dei processi ETL varia da batch (a volte mensilmente o settimanalmente, ma più spesso quotidianamente), in near-real-time con aggiornamenti più frequenti (ogni ora, ogni minuto, ecc).
4
IBM InfoSphere DataStage
Ambiente grafico di sviluppo con generazione automatica del codice e componenti riutilizzabili Engine di trasformazione scalabile da SMP a clusters/MPP e grid Facilità di deploy dagli ambienti di sviluppo a quelli di produzione Riutilizzo della logica di business attraverso le applicazioni Disponibilità di accesso nativo a mainframe, SAP ecc.
5
IBM InfoSphere DataStage
Operational Data Business Intelligence SAS CRM Exploration Warehouse Data Mart Targets ERP SCM External Lists Distribution Demographic Contact Billing / Accounts Integra i dati provenienti da sorgenti eterogenee Processa e trasforma grandi quantità di dati in real-time o in modalità batch Gestisce processi multipli di integrazione Gestisce tutte le tipologie di integrazione da quella più semplice a quella enterprise Fornisce connettività diretta ai dati delle applicazioni aziendali viste come sorgenti o come destinazioni Agevola l’utilizzo dei meta dati per analisi di impatto cross-tool e manutenzione
6
Architettura DataStage
Sistemi sorgenti destinazione
7
IBM InfoSphere DataStage
Semplice flusso di esempio Estrae da due DB Oracle diversi Stage di Join, Transform e Aggregate Produzione Vendite Scrive i risultati su un DB/DWH Teradata (SQL Server – DB2 – MySql ecc.)
8
IBM InfoSphere DataStage
monitoring e schedulazione grafica delle procedure Gestione attività a livello di ‘stage’ (non solo a livello di ‘job’) Monitoraggio in tempo reale Dettaglio di ogni singolo evento Ottimizzazione del processo Segnalazione di ogni anomalia o interruzzione di caricamento
9
Sistemi enterprise scalabili:
caratteristiche di DataStage Un’architettura “data flow” che permette l’elaborazione dei dati, dall’input all’output, minimizzando l’uso di dispositivi di storage, in scenari batch e real-time Partizionamento dinamico e Ripartizionamento “on the fly” dei dati Scalabilità rispetto agli ambienti hardware, portabilità attraverso sistemi SMP, Clustered SMP, MPP senza la necessità di modifiche ai processi già sviluppati Supporto nativo agli RDBMS paralleli, includendo IBM DB2 UDB, Oracle, SQL Server e Teradata in configurazioni parallele e partizionate
10
DataStage: il parallelismo in pratica
…DataStage crea n processi Unix a runtime per ogni stage, dove n è il numero dei nodi logici definiti nella configurazione
11
DataStage: monitoraggio delle risorse
Tempo totale di CPU e tempo di sistema Distribuzione media dei processi pie-chart del tempo di CPU
12
DataStage: connettività supportate
Oracle, DB2, Informix, Teradata, SQLServer, Sybase, DB2 Z/OS, ed altri… Supporto per sintassi SQL standard: autocostruzione degli statement SELECT autocostruzione delle clausole WHERE, ORDER BY, GROUP BY, etc. costruzione SQL via SQL Builder Supporto per comandi SQL di tipo user defined, oppure specifici in relazione all’RDBMS utilizzato Insert, update, delete, update/insert, insert/update, clear & insert, delete & insert Supporto per scritture transazionali Supporto per stored procedures ERP: SAP R/3 & SAP BW ….. e molto altro!
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.