La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Basi di dati distribuite Prof. M.T. PAZIENZA a.a. 2003-2004.

Presentazioni simili


Presentazione sul tema: "Basi di dati distribuite Prof. M.T. PAZIENZA a.a. 2003-2004."— Transcript della presentazione:

1 Basi di dati distribuite Prof. M.T. PAZIENZA a.a

2 DATA WAREHOUSING

3 Data Warehousing Il Data Warehousing è costituito dalla copia di una collezione di dati: che viene localizzata in un sito su cui si opera lasciando inalterata la collezione originale dei dati.

4 Data Warehousing Il Data Warehousing può essere considerato come una istanza speciale di duplicazione asincrona dei dati in cui la copia viene aggiornata non frequentemente i dati originali possono essere gestiti da un DBMS diverso su un sistema operativo diverso i dati originali appartengono in genere a proprietari diversi

5 Data Warehousing Il problema fondamentale del Data Warehousing è quello connesso al mantenimento della coerenza e correttezza delle informazioni nella warehouse (tabelle o viste duplicate) al variare delle informazioni di partenza.

6 DSS - Decision Support Systems Applicazioni che analizzano dati storici ed attuali per identificare trends, creare sommari, a fronte di un’analisi complessa dei dati provenienti anche da collezioni diverse di dati o da loro viste

7 OLAP - Online Analytic Processing OLAP si applicano a DBMS relazionali per gestire classi di query ad hoc (complesse) che: involvono operatori di aggregazione e group-by gestiscono agevolmente operazioni booleane anche complesse offrono funzioni di tipo statistico permettono di realizzare analisi temporali si applicano a dati multidimensionali

8 Data Warehouse I sistemi di Data Warehousing contengono dati ormai stabilizzati provenienti da molte sorgenti, arricchiti da informazioni di sintesi e relative a lunghi periodi di tempo. Hanno dimensioni di gran lunga maggiori delle normali basi di dati. I tempi di risposta sono ridotte grazie alla ottimizzazione dei processi di elaborazione.

9 Data Warehouse I DDBMS a base di sistemi di Data Warehousing, gestendo dati provenienti da molte sorgenti di tipo diverso, e dovendo offrire informazioni in tempi rapidi ed in maniera affidabile, memorizzano tabelle (metadati) in più di un sito e gestiscono schemi complessi.

10 Data Warehouse Problemi: Possibili inconsistenze semantiche tra i diversi db (diverse unità di misura, diversi nomi per attributi uguali, differenze nella normalizzazione e strutturazione delle tabelle) in fase di creazione e di aggiornamento nel tempo Schema complesso e di grandi dimensioni difficile da gestire e mantenere consistente con le modifiche nelle sorgenti esterne

11 Data Warehouse In fase di creazione ed aggiornamento i dati sono: Estratti dai db e da altre sorgenti Filtrati per minimizzare gli errori ed aggiungere informazioni, ove richiesto dallo schema ddb Trasformati per superare eventuali inconsistenze semantiche Memorizzati all’interno di viste specifiche (che sono diverse da quelle da cui provengono i dati)

12 Data Warehouse Ulteriori operazioni iniziali per migliorare la velocità e l’efficienza del sistema: Partizionamento Indicizzazione Eliminazione periodica di dati obsoleti Definizione di viste (anche alternative) …..

13 Data Warehouse Ulteriori operazioni iniziali: Sorting Generazione di sommari Produzione di dati aggregati Analisi statistiche ….

14 Data Warehouse Il valore di un sistema di data warehousing risiede nella varietà e ricchezza delle analisi articolate che permette di realizzare su dati disparati Supporto per i sistemi decisionali

15 Data Warehouse ed OLAP Necessari diverse insiemi di aggregazioni di query (viste) per rispondere velocemente a domande su collezioni molto grandi (più terabyte) di dati in tempi rapidissimi Le viste vengono pre-elaborate e si memorizzano i risultati: quando il DW viene interrogato, la query viene eseguita direttamente sui risultati precalcolti (view materialization)

16 View materialization Quali viste materializzare e quali indici devono essere definiti a supporto di tali materializzazioni? Dipende dal carico atteso o dalla rilevanza delle query attese. Necessità di mantenere aggiornate e consistenti (refresh) le viste materializzate (cosa aggiornare, quando aggiornare) Costi del refresh

17 View materialization Politica di aggiornamento delle viste: immediata / differita Costi e prestazioni diverse

18 Data Warehouse ed OLAP Esempi di funzioni aggregate (oltre le standard SUM, AVG)che operano su liste di valori: RANK: restituisce la posizione di una riga all’interno di una partizione che può avere righe multiple con lo stesso rank DENSE-RANK: genera rank senza gap tra righe PERCENT-RANK: fornisce la misura di di una posizione relativa di una riga all’interno di una partizione

19 Data Warehouse E’ una collezione di Tabelle (dati) duplicate asincronamente Viste sincronizzate asincronamente Caratterizzata da Una dimensione di dati considerevole Un elevato numero di tabelle coinvolte Una connessione logica con bdd indipendenti


Scaricare ppt "Basi di dati distribuite Prof. M.T. PAZIENZA a.a. 2003-2004."

Presentazioni simili


Annunci Google