La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Paolo Missier II semestre, 2002 Basi di Dati - Complementi Introduzione al Data Warehousing.

Presentazioni simili


Presentazione sul tema: "Paolo Missier II semestre, 2002 Basi di Dati - Complementi Introduzione al Data Warehousing."— Transcript della presentazione:

1 Paolo Missier II semestre, 2002 Basi di Dati - Complementi Introduzione al Data Warehousing

2 Data warehousing - Paolo Missier– 2 Riferimenti  A. Raffaeta’, Data Warehousing & OLAP, Introduzione. Lucidi delle lezioni, Universita’ di Venezia, 2002  Basi di Dati (Atzeni, Paraboschi, Torlone, )  D. Barbara’, Lucidi del corso di Data Warehousing,, George Mason University, VA, USA, 1999  Jim Gray, Adam Bosworth, Andrew Layman, Microsoft e Hamid Pirahesh, IBM, CUBE: A Relational Aggregate Operator Generalizing Group By, Presentazione

3 Data warehousing - Paolo Missier– 3 Processi, dati e decisioni  processi operativi –dati dipartimentali e dettagliati –decisioni strutturate, con regole precise  processi gestionali –dati settoriali, parzialmente aggregati –decisioni semistrutturate: regole più intervento creativo/responsabile  processi direzionali –dati integrati e fortemente aggregati –decisioni non strutturate processi operativi processi gestionali processi direzionali

4 Data warehousing - Paolo Missier– 4 Sistemi informatici: una classificazione  Transaction processing systems: –per i processi operativi  Management information systems: –settoriali, per i processi gestionali  Decision support systems: –fortemente integrati, di supporto ai processi direzionali

5 Data warehousing - Paolo Missier– 5 Sistemi di supporto alle decisioni  Richiedono operazioni non previste a priori  Coinvolgono spesso grandi quantità di dati, anche storici e aggregati  Coinvolgono dati provenienti da varie fonti operative, anche esterne

6 Data warehousing - Paolo Missier– 6 Il processo di scoperta: dai dati alla conoscenza

7 Data warehousing - Paolo Missier– 7 A quali domande vogliamo rispondere? What are Personnel Services costs across all departments for all funding sources? What are the effects of outsourcing specific services? What is the correlation between expenditures and collection of delinquent taxes? What is the impact on revenues and expenditures of changing the operating hours of the Dept. of Motor Vehicles? What is the economic impact of the small business initiative in our district?

8 Data warehousing - Paolo Missier– 8 OLAP  Elaborazione di operazioni per il supporto alle decisioni –Operazioni complesse e casuali –Ogni operazione può coinvolgere molti dati –Dati aggregati, storici, anche non attualissimi –Le proprietà “acide” non sono rilevanti, perché le operazioni sono di sola lettura  OLAP e OLTP  I requisiti sono contrastanti  Le applicazioni dei due tipi possono danneggiarsi a vicenda

9 Data warehousing - Paolo Missier– 9 Integrazione via warehousing Client Warehouse Source Query & Analysis Integration Metadata

10 Data warehousing - Paolo Missier– 10 Approcci alternativi: Multi-database e Warehousing client Gestore DW client DBMS BD Mediatore DW Integratore MultiDBMS DBMS BD Mediatore client Integratore

11 Data warehousing - Paolo Missier– 11 Data warehouse Una base di dati –utilizzata principalmente per il supporto alle decisioni direzionali –integrata — aziendale e non dipartimentale –orientata ai dati — non alle applicazioni –storici — con un ampio orizzonte temporale, e indicazione (di solito) di elementi di tempo –non volatile — i dati sono caricati e acceduti fuori linea –mantenuta separatamente dalle basi di dati operazionali

12 Data warehousing - Paolo Missier– integrata...  I dati di interesse provengono da tutte le sorgenti informative — ciascun dato proviene da una o più di esse  Il data warehouse rappresenta i dati in modo univoco — riconciliando le eterogeneità dalle diverse rappresentazioni –nomi –codifica –rappresentazione multipla

13 Data warehousing - Paolo Missier– orientata ai dati...  Le basi di dati operazionali sono costruite a supporto dei singoli processi operativi o applicazioni –produzione –vendita  Il data warehouse è costruito attorno alle principali entità del patrimonio informativo aziendale –prodotto –cliente

14 Data warehousing - Paolo Missier– dati storici...  Le basi di dati operazionali mantengono il valore corrente delle informazioni  L’orizzonte temporale di interesse è dell’ordine dei pochi mesi  Nel data warehouse è di interesse l’evoluzione storica delle informazioni  L’orizzonte temporale di interesse è dell’ordine degli anni

15 Data warehousing - Paolo Missier– non volatile...  In una base di dati operazionale, i dati vengono –acceduti, inseriti, modificati, cancellati  pochi record alla volta  Nel data warehouse, abbiamo –operazioni di accesso e interrogazione — “diurne” –operazioni di caricamento e aggiornamento dei dati — “notturne”  che riguardano milioni di record

16 Data warehousing - Paolo Missier– 16 Dati aggregati  Nell’attività di analisi dei dati per il supporto alle decisioni: –non interessa “chi” ma “quanti” –non interessa un singolo dato ma la somma, la media, il minimo, il massimo di un insieme di dati  Le operazioni di aggregazioni sono fondamentali  nel warehousing e nella costruzione/mantenimento di un data warehouse.

17 Data warehousing - Paolo Missier– una base di dati separata...  Per tanti motivi –non esiste un’unica base di dati operazionale che contiene tutti i dati di interesse –la base di dati deve essere integrata –non è tecnicamente possibile fare l’integrazione in linea –i dati di interesse sarebbero comunque diversi  devono essere mantenuti dati storici  devono essere mantenuti dati aggregati –l’analisi dei dati richiede per i dati organizzazioni speciali e metodi di accesso specifici –degrado generale delle prestazioni senza la separazione

18 Data warehousing - Paolo Missier– 18 Attività per popolare un data warehouse  Processo ETL: – Extraction – Transformation – Loading  Extraction –Estrazione dei dati dalle sorgenti informative operazionali –Opzioni: tutti i dati / solo dati modificati (incrementale)  Transformation –Pulizia, trasformazione di formato e correlazione con oggetti provenienti da altre sorgenti.  Loading –Caricamento con aggiunta di informazioni temporali e generazione di dati aggregati.

19 ETL Data Flow Sources Flat Files Transformation Flat Files Transformation Metadata Bulk Load Warehouse

20 Legacy & Other Sources Warehouse Data Metadata Source Structures Target Structures Field Mappings and Comments Sequence Numbers Grouped by Subject Area Trasformazione tramite metadati

21 Data warehousing - Paolo Missier– 21 Architettura base per il data warehousing Monitoraggio & Amministrazione Metadati Data Warehouse Data Mart Sorgenti dei dati Sorgentiesterne Basi di dati operazionali Strumenti di analisiAnalisidimensionale Data mining Visualizzazione

22 Modelli per Data Warehouse “Entity relation data models are a disaster for querying because they cannot be understood by users and they cannot be navigated usefully by DBMS software. Entity relation models cannot be used as the basis for enterprise data warehouses.” Ralph Kimball, The Data Warehouse Toolkit, 1996, John Wiley & Sons, Inc., ISBN

23 Analisi multidimensionale  L’analisi richiede normalmente dimensioni multiple: –“quanti items ho venduto –per regione –per mese –per tipo di cliente?”  Dimensioni normalmente utilizzate per l’analisi: –Tempo –Prodotto –Cliente –Area geografica –Dipartimento/settore

24 Data warehousing - Paolo Missier– 24 Il modello Multidimensionale  Un data warehouse si basa su un modello dei dati multidimensionale che rappresenta i dati sotto forma di data cube.  Un data cube permette di modellare e creare viste dei dati rispetto a molteplici dimensioni  Modello dati multidimensionale  Detto “Star Schema”  Implementabile su un DB relazionale  Consente volumi di dati molto grandi –volumi dell’ordine di 100 gbytes forniscono tempi di risposta sotto i 10 sec

25 Data warehousing - Paolo Missier– 25 Rappresentazione multidimensionale dei dati prodotto magazzino vinoacquacoca cola tempo mag apr feb set C B A

26 Data warehousing - Paolo Missier– 26 Data Cubes sum MilkBread…...sum Jan 96 …... sum Feb 96 Product Store Time Orange Pisa Roma Firenze All Products January 96, Pisa. Ogni dimensione contiene una gerarchia di valori una cella del cubo contiene valori aggregati (count, sum, max, etc.)

27 Data warehousing - Paolo Missier– 27 Concetti usati per definire un data cube  Fatto, un tema di interesse per l’organizzazione (vendite, spedizioni, acquisti).  Misura, una proprietà di un fatto da analizzare (num. di unità vendute, prezzo unitario).  Dimensione, descrive una prospettiva lungo la quale un’organizzazione vuole mantenere i dati (prodotto, negozio, data).

28 Data warehousing - Paolo Missier– 28 Modello dei dati multidimensionale  Ogni dimensione può avere una tabella ad essa associata. Es. item (item_name, brand, type), or time(day, week, month, quarter, year)  La Fact table contiene le misure (come dollars_sold) e chiavi esterne per ogni dimension table.

29 Data warehousing - Paolo Missier– 29 Organizzazione “star’’ Vendite Codice orario Codice luogo Codice prodotto Codice cliente Unità Incasso Tempo Codice orario Ora Giorno Settimana Mese Trimestre Anno Luogo Codice luogo Negozio Indirizzo Codice Città Città Codice Regione Regione Codice Stato Stato Prodotto Codice prodotto Descrizione Colore Modello Codice categoria Categoria Cliente Codice cliente Nome Cognome Indirizzo Età Codice professione Professione

30 Data warehousing - Paolo Missier– 30 Esempio di star schema

31 Data warehousing - Paolo Missier– 31 Dimensioni  Sono le entità rilevanti per l’analisi  Tipicamente sono caratterizzate da attributi testuali o discreti.  La dimensione temporale esiste sempre. Esempio: vendite in una catena di supermercati Dimensioni: tempo, prodotti, magazzino Iscrizioni universitarie Dimensioni: tempo, facoltà, tipologia studenti

32 Data warehousing - Paolo Missier– 32 Dimensioni e gerarchie di livelli  Ciascuna dimensione è organizzata in una gerarchia che rappresenta i possibili livelli di aggregazione per i dati.  Negozio, città, provincia, marca  Giorno, mese, trimestre, anno

33 Data warehousing - Paolo Missier– 33 Dimensioni e gerarchie di livelli  Ciascuna dimensione è organizzata in una gerarchia che rappresenta i possibili livelli di aggregazione per i dati giorno negozio prodotto città provincia regione mese trimestre anno categoria marca

34 Data warehousing - Paolo Missier– 34 Gerarchia di concetti: Dimensione (luogo) all EuropeNorth_America MexicoCanadaSpainGermany Vancouver M. WindL. Chan... TorontoFrankfurt all region office country city

35 Data warehousing - Paolo Missier– 35 Esempio di DW con gerarchie store sType cityregion

36 Data warehousing - Paolo Missier– 36 Misure  Le misure sono tipicamente numeriche  Es. Consideriamo le vendite in una catena di supermercati. Le misure possono essere –N. prodotti venduti –Incassi –Costi –…..

37 Data warehousing - Paolo Missier– 37 Esempi di fatti/misure/dimensioni  Catena di negozi –vendita –quantità venduta, incasso –prodotto, tempo, zona  Compagnia telefonica –telefonata –costo, durata –chiamante, chiamato, tempo

38 Data warehousing - Paolo Missier– 38 OLAP: On-Line Analytical Processing  Una visione multidimensionale, logica, dei dati  Analisi interattiva dei dati  Modellazione analitica: derivazione delle proporzioni, delle varianze, etc  Aggregazioni per ogni sottoinsieme delle dimensioni.  Previsione, trend analysis, e statistical analysis.  Calcola e visualizza i dati in 2D o 3D crosstabs, charts, e grafi, con semplici operazioni di rotazione degli assi

39 Data warehousing - Paolo Missier– 39 OLAP su data cubes Prodotti Periodi di tempo Mercati Quantità Vendite

40 Data warehousing - Paolo Missier– 40 Il manager regionale esamina la vendita dei prodotti in tutti i periodi relativamente ai propri mercat i Analisi per segmento di mercato

41 Data warehousing - Paolo Missier– 41 Il manager di prodotto esamina la vendita di un prodotto in tutti i periodi e in tutti i mercati Analisi per prodotto

42 Data warehousing - Paolo Missier– 42 Il manager finanziario esamina la vendita dei prodotti in tutti i mercati relativamente al periodo corrente e quello precedente Analisi per periodo di tempo

43 Data warehousing - Paolo Missier– 43 Il manager strategico si concentra su una categoria di prodotti, una area regionale e un orizzonte temporale medio Analisi multidimensionale

44 Data warehousing - Paolo Missier– 44 Generalizzazione: Organizzazione “snowflake” Categoria Codice categoria Categoria Codice Stato Stato CodiceRegione Regione Vendite Codice orario Codice luogo Codice prodotto Codice cliente Unità Incasso Tempo Codice orario Ora Giorno Settimana Mese Trimestre Anno Luogo Codice luogo Negozio Indirizzo Codice Città Città CodiceRegione Codice Stato Prodotto Codice prodotto Descrizione Colore Modello Codice categoria Cliente Codice cliente Nome Cognome Indirizzo Età Codice professione Professione

45 Data warehousing - Paolo Missier– 45 Operazioni tipiche su data cubes  Roll up: riassumi i dati, salendo nella gerarchia dei concetti per una dimensione o attraverso una riduzione di una dimensione –il volume totale di vendite per categoria di prodotto e per regione –si rimuove per esempio la dimensione tempo.  Roll down or drill down: passa da un livello di dettaglio basso ad un livello di dettaglio alto, scendendo nella gerarchia o introducendo una nuova dimensione. –per un particolare prodotto, trova le vendite dettagliate per ogni venditore e per ogni data

46 Data warehousing - Paolo Missier– 46 Operazioni tipiche (cont.)  Slice and dice: select & project. –L’operazione di Slice esegue una selezione su una dimensione del cubo. –L’operazione di Dice definisce un sottocubo eseguendo una selezione su due o più dimensioni. Vendite delle bevande nel West negli ultimi 6 mesi  Pivot (rotate): riorienta il cubo.

47 Data warehousing - Paolo Missier– 47 Operazioni tipiche: Roll-Up Product Store Month Product Store Year Roll-up Drill-Down Product Region Year Roll-up Drill-Down

48 Data warehousing - Paolo Missier– 48 Operazioni tipiche: Slice and Dice Product Store Month Slice Product Store Month

49 Data warehousing - Paolo Missier– 49 Primitive di linguaggio per la definizione e il calcolo di data cubes  Cube Definition (Fact Table) –define cube [ ]:  Dimension Definition ( Dimension Table ) –define dimension as ( )  Special Case (Shared Dimension Tables) –First time as “cube definition” –define dimension as in cube

50 Data warehousing - Paolo Missier– 50 Definizione di uno Star Schema  define cube sales_star [time, item, branch, location]:  dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)  define dimension time as (time_key, day, day_of_week, month, quarter, year)  define dimension item as (item_key, item_name, brand, type, supplier_type)  define dimension branch as (branch_key, branch_name, branch_type)  define dimension location as (location_key, street, city, province_or_state, country)

51 Data warehousing - Paolo Missier– 51 Operatori per il calcolo di Data Cubes  Una nuova sintassi (DMQL)  Define cube sales[item, city, year]: sum(sales_in_dollars) –compute cube sales  Transformazione in un linguaggio SQL-like (con un nuovo operatore cube by, introdotto da Gray et al.’96)  SELECT item, city, year, SUM (amount)  FROM SALES  CUBE BY item, city, year Presentazione di Jim Gray su DataCubes

52 Data warehousing - Paolo Missier– 52 Calcolo di Data Cubes  Richiede di calcolare i seguenti Group-Bys  (date, product, customer),  (date,product),(date, customer), (product, customer),  (date), (product), (customer)  () (product)(date) () (customer) (date, product)(date, customer)(product, customer) (date, product, customer)

53 Data warehousing - Paolo Missier– 53 Cubi e Cuboidi  Il data cube può essere visto come un reticolo di cuboidi  Livello più basso: cuboide di base –Livello più alto: cuboide apex, che contiene una sola cella. –Quanti cuboidi ci sono in un cubo n-dimensionale con L livelli?

54 Data warehousing - Paolo Missier– 54 Cuboidi all product date country product,dateproduct,countrydate, country product, date, country 0-D(apex) cuboid 1-D cuboids 2-D cuboids 3-D(base) cuboid

55 Data warehousing - Paolo Missier– 55 Materializzazioni del data cube  Per il calcolo efficiente dei data cubes, sono possibili diverse strategie:  Materializza ogni cuboide (materializzazione completa)  nessun cuboide (materializzazione nulla)  o qualche cuboide (materializzazione parziale)  Selezione dei cuboidi da materializzare –Basata sulla dimensione, sharing, frequenza di accesso, ecc.

56 Data warehousing - Paolo Missier– 56 Elaborazione Efficiente delle Query OLAP  Determina quali operazioni dovrebbero essere effettuate sui cuboidi disponibili: –transforma drill, roll, ecc. in corrispondenti operazioni SQL e/o OLAP, ad es., dice = selection + projection  Determina a quali cuboide(i) materializzato dovrebbero essere applicate le operazioni rilevanti.  Utilizza eventuali indici

57 Data warehousing - Paolo Missier– 57 Architettura per il data warehousing Monitoraggio & Amministrazione Metadati Data Warehouse Data Mart Sorgenti dei dati Sorgentiesterne Basi di dati operazionali Strumenti di analisiAnalisidimensionale Data mining Visualizzazione

58 Data warehousing - Paolo Missier– 58 Relational OLAP (ROLAP)  Utilizza DBMS relazionale o esteso per memorizzare e gestire i dati di un warehouse e middleware OLAP per ottenere i pezzi mancanti  fornisce ulteriori servizi OLAP –tools di disegno per schemi DSS –permette di utilizzare performance analysis tools  SQL strumento principale  elevata scalabilità

59 Data warehousing - Paolo Missier– 59 Multidimensional OLAP (MOLAP)  I dati sono fisicamente rappresentati sotto forma di cubo multidimensionale.  Indicizzazione veloce a dati riassuntivi pre-calcolati  Queries multidimensionali si mappano sul server in modo immediato  Ma: –Dati sparsi difficili da gestire –Memoria sottoutilizzata –… no interfaccia SQL (API) –… necessità sistema relazionale per dati dettaglio –… file molto grandi –… limitazioni a circa 10GB (problemi scalabilità)

60 Data warehousing - Paolo Missier– 60 Altre architetture  Hybrid OLAP (HOLAP) –Combina ROLAP e MOLAP –User flexibility, ad es., basso livello: relazionale, alto livello: array multidimensionale. – Scalabilità + Computazione veloce  SQL server specializzati –Query language avanzati e supporto specializzato per query SQL su schemi star/snowflake in un contesto di sola lettura.

61 Data warehousing - Paolo Missier– 61 ROLAP & MOLAP  Performance –Query: MOLAP –Caricamento: ROLAP  Analisi: MOLAP  Dimensione DW: ROLAP –MOLAP: problema sparsità  Flessibilità nello schema: ROLAP –MOLAP: minor numero di dimensioni ammesse

62 Confronto MOLAP - ROLAP  MOLAP  Multidimensional OLAP  Dati memorizzati in multi- dimensional cube  Richiede trasformazioni dei dati  Dati disponibili per l’analisi direttamente dai cube  analytical processing piu’ veloce  Limitazioni sulle dimensioni dei cubes  ROLAP  Relational OLAP  Dati memorizzati in relational database come cubes virtuali  Non richiede trasformazioni dei dati  Dati recuperati tramite SQL per l’analisi  analytical processing piu’ lento  Nessuna limitazione sulle dimensioni dei cubes

63 OLAP Tools  Cognos PowerPlay  Business Analyzer  Holos  BrioAnalyzer  Microstrategy  Oracle Express  SAS  Arbor Essbase

64 Data warehousing - Paolo Missier– 64 Utilizzo del Data Warehouse  Tre applicazioni del data warehouse:  Information processing –supporta interrogazioni, analisi statistiche elementari, con risposte in forma di crosstabs, tabelle, digrammi e grafici  Analytical processing –analisi multidimensionale dei dati del data warehouse –supporta operazioni OLAP di base, slice-dice, drilling, pivoting  Data mining –estrazione di informazione da schemi nascosti –supporta associazioni, costruzione di modelli analitici, classificazioni e predizioni, e la presentazione dei risultati del mining tramite tool visuali.

65 Data warehousing - Paolo Missier– 65 Dall' On-Line Analytical Processing all’On Line Analytical Mining (OLAM)  Perché il mining analitico online? –Alta qualità dei dati conenuti nei data warehouse  DW contengono dati integrati, consistenti e “puliti” –Sono disponibili numerosi strumenti per l’alaborazione di data warehouse  ODBC, OLEDB, Web accessing, service facilities, reporting e tool OLAP –OLAP-based exploratory data analysis  mining with drilling, dicing, pivoting, etc. –Selezione on-line delle funzioni di data mining  integrazione e swapping di funzioni di mining, algoritmi etask multipli.  Architettura OLAM

66 Data warehousing - Paolo Missier– 66 Un’architettura OLAM Data Warehouse Meta Data MDDB OLAM Engine OLAP Engine User GUI API Data Cube API Database API Data cleaning Data integration Layer3 OLAP/OLAM Layer2 MDDB Layer1 Data Repository Layer4 User Interface Filtering&IntegrationFiltering Databases Mining queryMining result

67 Data warehousing - Paolo Missier– 67 Data Mining & Forecasting  Mining sul Warehouse –Scelta della popolazione di dati –Scelta della tecnica di mining –Segmentazione dei dati in gruppi –Scoperta di patterns nei dati  Dati di previsione –Selezione dei dati di trend –Scelta del modello di previsione (forecast) –Esecuzione del forecast –Display dei risultati

68 Data warehousing - Paolo Missier– 68 Data Mining transaction id customer id products bought Record delle vendite: Trend: I prodotti p5, p8 vengono comprati spesso insieme Trend: Al cliente 12 piace il prodotto p9h

69 Data warehousing - Paolo Missier– 69 Mining and Forecasting Tools  Scenario  4Thought  Business Miner  Clementine  Darwin  Holos  SAS


Scaricare ppt "Paolo Missier II semestre, 2002 Basi di Dati - Complementi Introduzione al Data Warehousing."

Presentazioni simili


Annunci Google