Tema 2 - Unità di Bologna l Stefano Rizzi l Dario Maio l Matteo Golfarelli l Ettore Saltarelli.

Slides:



Advertisements
Presentazioni simili
L’esperienza di un valutatore nell’ambito del VII FP Valter Sergo
Advertisements

Università degli studi di Modena e Reggio Emilia
Richiesta finanziamento e Bioprocess design
Sistemi per lelaborazione dellinformazione Maria Teresa Pazienza DISP - Dipartimento di Informatica, Sistemi e Produzione aa
Very Small Databases (VSDB) C. Bolchini F. A. Schreiber L. Tanca Politecnico di Milano.
1 Esempi di consistenza sui limiti Non consistente sui limiti, considera Z=2, poi X-3Y=10 Ma il dominio qui sotto e consistente sui limiti: Confrontare.
Biometry to enhance smart card security (MOC using TOC protocol)
Tema 2 - Unità di Bologna l Stefano Rizzi l Dario Maio l Matteo Golfarelli l Ettore Saltarelli.
D2I Integrazione, Warehousing e Mining di sorgenti eterogenee Tema 2: Progettazione e interrogazione di Data Warehouse Unita' coinvolte nel tema Università
Queuing or Waiting Line Models
1 Sede, 11 luglio 2007 Emanuele Baldacci, Chief Economist Mercati globali: mind the gap!
11 1 Roma, 11 dicembre 2006 Laura Gasparini Garanzia su Portafogli Estero.
POLITECNICO DI BARI PRIN Genova - Febbraio 2004
Case Based Reasoning
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Efficient Region- Based Image Retrieval di Roger Weber e Michael Mlivoncic Swiss Federal Institute of Technology (ETH) Presentazione di Laura Galli, Mauro.
Distribuzione del numero di alleli condivisi da coppie di fratelli e di non-parenti tipizzati rispettivamente per 5, 9 e 13 markers.
Frequency Domain Processing
FASTVID RENTALS: BUSINESS MODELING 1. Business Modeling One of the major problems with most business engineering efforts, is that the software engineering.
Architettura software La scelta architetturale: MVA (Model – View – Adapter/Control) The view is completely decoupled from the model such that view and.
A PEACEFUL BRIDGE BETWEEN THE CULTURES TROUGH OLYMPICS OLYMPIC CREED: the most significant thing in the olympic games is not to win but to take part OLYMPIC.
Scenario e Prospettive della Planetologia Italiana
D2I Modena, 27 Aprile 2001 Progettazione e interrogazione di Data Warehouse (Tema 2) Unità Responsabile: Cosenza Unità Coinvolte: Cosenza - Bologna.
POLITECNICO DI BARI PRIN Genova - Febbraio 2004 Maria Pia FANTI Carlo MELONI Mariagrazia DOTOLI.
Ontologia AA F. Orilia. Lez. 16 Discussione dell'approccio controfattualista di lewis condotta da Antonio De Grandis.
4/20/20151 Metodi formali dello sviluppo software a.a.2013/2014 Prof. Anna Labella.
Tema 2: progettazione e interrogazione di data warehouse
Metodi Quantitativi per Economia, Finanza e Management Lezioni n° 7-8.
Taccani1 7.4 Identification ANALISI DEI PERICOLI Hazard Analysis Identificazione Valutazione Misure di Controllo Control Measures Assessment.
Chapter Eighteen1 CHAPTER 3 Distribution of national income A PowerPoint  Tutorial To Accompany MACROECONOMICS, 7th. ed. N. Gregory Mankiw Tutorial written.
STRUTTURA  FUNZIONE  EVOLUZIONE STRUTTURA  (FUNZIONE)  EVOLUZIONE Organi, tessuti ecc. Geni o segmenti genomici.
ANNUNCIO DI SEMINARIO Il giorno Venerdi' 21 Maggio 2004 alle ore 11:30 presso l'Aula C3.4 della Facolta' di Scienze Matematiche Fisiche e Naturali dell'Universita'
Extension pack per IIS7 Piergiorgio Malusardi IT Pro Evangelist
Un problema multi impianto Un’azienda dispone di due fabbriche A e B. Ciascuna fabbrica produce due prodotti: standard e deluxe Ogni fabbrica, A e B, gestisce.
D2I: Integrazione, warehousing e mining di sorgenti eterogenee di dati Tema2: Progettazione e interrogazione di data warehouse Unità: Bologna, Cosenza.
Accoppiamento scalare
Come capire quando le prove funzionali non sono attendibili Riccardo Pistelli Università Cattolica - Roma.
SUMMARY Time domain and frequency domain RIEPILOGO Dominio del tempo e della frequenza RIEPILOGO Dominio del tempo e della frequenza.
Filtri del primo ordine
SUMMARY Quadripoles and equivalent circuits RIEPILOGO Quadripoli e circuiti equivalenti RIEPILOGO Quadripoli e circuiti equivalenti.
From this year, by kind permission of Taeco S.r.l., the Working Retrievers Club Italia has the pleasure to award the prize “Big Hunter Project”. This.
SUMMARY Dinamic analysis RIEPILOGO Analisi dinamica RIEPILOGO Analisi dinamica.
RIEPILOGO Transistor JFET
SUMMARY Transmission and distribution of the electric energy RIEPILOGO Trasmissione e distribuzione dell’energia elettrica RIEPILOGO Trasmissione e distribuzione.
Summary Module 1 – Unit 1 (Current, potential difference, resistance) RIEPILOGO Modulo 1 – Unità 1 (Corrente, tensione, resistenza)
Filtri del secondo ordine e diagrammi di Bode
SUMMARY Real operational amplifiers RIEPILOGO Amplificatori operazionali reali RIEPILOGO Amplificatori operazionali reali.
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
SUMMARY Interconnection of quadripoles RIEPILOGO Interconnessione di quadripoli RIEPILOGO Interconnessione di quadripoli.
Progetti 2015/2016. Proj1: Traduzione di regole snort in regole iptables Snort: – analizza i pacchetti che transitano in rete, confrontandoli con un database.
Introduction The assets of a charity must be used to meet its statutory functions and to generate prudential social investments that offer a stable return.
PROGETTO COMENIUS Partenariato Scolastico Multilaterale Anno 2012/2013 CIRCOLO DIDATTICO S.G. BOSCO- BIANCAVILLA- CT.
Titolo evento Luogo, data Seminario INSPIRE Bologna, luglio 2012 Profili, strumenti ed implementazioni dei metadati Antonio Rotundo Agenzia per l’Italia.
#sqlsatPordenone #sqlsat495 February 27, 2016 SQL Server 2016 Query Store: un nuovo modo di monitorare le query Saverio Lorenzini PFE Principal Engineer.
Lina, Paolo, Tonino, Riccardo.   An assessment of the need for a photo-production facility and its design  The neutron part should not exceed 20 pages.
#sqlsatParma #sqlsat462 November 28°, 2015 SQL Server 2016 Query Store: un nuovo modo di ottimizzare le query Saverio Lorenzini PFE Principal Engineer.
SUMMARY Checking RIEPILOGO Verifiche RIEPILOGO Verifiche.
Università degli Studi di Cagliari Dipartimento di Ingegneria Elettrica ed Elettronica Sara Carcangiu Anna Mereu An Optimization Tool for Telecommunication.
1. ELASTICITA’ DELLA DOMANDA potere di mercato (FISSARE IL PREZZO) ≠ da potere contrattuale (TAKE OR LEAVE OFFER CAP 3 e 4) e da potere nell’impresa (CAPACITA’
Do You Want To Pass Actual Exam in 1 st Attempt?.
Dichiarazione dei servizi di sito nel GOCDB
Statute of the ICJ, Article 38
Architetture della Informazione Anno accademico C. Batini 5
X. Specifications (IV).
Geni o segmenti genomici
Il condizionale.
Singular Value Decomposition Applications
CdS 2017: embargo fino a TAUP2017
A comparison between day and night cosmic muons flux
Wikipedia Wikipedia è un'enciclopedia online, collaborativa e libera. Grazie al contributo di volontari da tutto il mondo, Wikipedia ad ora è disponibile.
Transcript della presentazione:

Tema 2 - Unità di Bologna l Stefano Rizzi l Dario Maio l Matteo Golfarelli l Ettore Saltarelli

Tecniche di progettazione logica e di interrogazione efficiente di DW l Espressioni NGPSJ (Nested Generalized Projection / Selection / Join) l Materializzazione di viste sulla base di un carico di lavoro complesso l Stima della cardinalità delle viste candidate tenendo conto di vincoli di cardinalità suggeriti dal dominio applicativo l Tecniche di interrogazione (CS)

Higher expressive power Nested GPSJ expressions l NGPSJ expressions extend GPSJ expressions (Gupta-Harinarayan-Quass) considering nesting. generalized projection PM A generalized projection  P,M (R) is an extension of duplicate eliminating projection, where P is a set of GROUP-BY attributes and M a set of aggregate measures, each defined by applying an aggregate function involving attributes in R GPSJ expression A GPSJ expression is a selection    over a generalized projection  over a selection   over a set of joins       l Nesting l Nesting GPSJ expressions means using the result from an expression as the input for another:  n  n-1     1    Sequences of aggregate operators can be used on the same measure Selections may affect the results of aggregations Derived measures can be added

The ancestor rewritable equivalent l Given two NGPSJ expressions e, e' on schema S, we say that e' is rewritable on e (e'  e) if, by applying a sequence of generalized projections and selections to e, it is possible to obtain a NGPSJ expression that is equivalent to e'. ancestor Given two NGPSJ expression e and e', the ancestor of e and e' is the least NGPSJ expression on which both e and  e' can be rewritten.

View materialization l In our approach a candidate view  may contain a subset of the tuples at a given aggregation pattern as a consequence of selections on dimension attributes and measures;  may contain only a subset of the measures in the fact table as a result of projections;  may include measures obtained by applying different aggregation sequences to the same measure  may include derived measures and support measures necessary to support queries based on algebraic operators. l The candidate views and the relationships between them can be represented in a query view graph.

Results l Computation of the ancestor of two NGPSJ expressions l Comparison between two NGPSJ expressions l Construction of the query view graph for a given workload, i.e. determination of the set of candidate views

Estimating the cardinality of views l Accurately estimating the actual cardinality of views in DWs is crucial for logical and physical design as well as for query processing and optimization. l If the DW has already been loaded, cardinalities can be estimated by using statistical techniques based on histograms or sampling. l Such techniques cannot be applied if the data warehouse is still under development, and the estimation of view cardinalities is needed for design purposes. l Current approaches are based on estimation models that only exploit the cardinality of the base cube and that of the single attribute domains, which leads to significant overestimation.

Approach overview l We propose a novel approach to estimate the cardinality of views based on a-priori information derived from the application domain (cardinality constraints). l 2-steps approach: first compute bounds for the cardinality, then determine a probabilistic estimate for it.

Cardinality constraints Àlower (w - ) and/or upper (w + ) bound of the cardinality w of a view W; Ák-dependency X  Y expressing an upper bound of the ratio between the cardinalities of two views X and Y. l k-dependencies naturally generalize functional dependencies and are useful to characterize the knowledge of the business domain held by the experts in the field. k

Results l Bounding strategy to determine an upper bound for the cardinality of V, given a set of cardinality constraints. l In the absence of k-dependencies: –Domination and minimality results –Branch-and-bound approach l Preliminary results on domination in the presence of k- dependencies l Preliminary results on lower bounding

Scelta ottimale di indici in sistemi di data warehouse 1 Introduzione 1.1 Progettazione Logica 1.2 Progettazione Fisica 2 Architettura del componente di selezione degli indici 3 Determinazione dei piani di accesso 3.1 Caratterizzazione delle interrogazioni 3.2 CBO e RBO 3.3 Elementi di un piano di accesso 3.4 Algoritmo di selezione dei piani 4 Il modello dei costi 4.1 Costi di base 4.2 Costo composto 5 Algoritmo di selezione degli indici 5.1 Dominazione tra indici 5.2 Descrizione dell’algoritmo 6 Conclusioni e problematiche aperte

Architettura del componente di selezione degli indici Physical Scheme WorkloadData Volume Physical Scheme Generation Execution Plan Generation Cost Evaluation queries ph.schema ph.scheme queries execution plan cardinalities cost System Constraints constraints cardinalities

Selezione dei Piani di Accesso (1) l RedBrick e Oracle l Rule-Based Optimizer e Cost-Based Optimizer l Indici considerati: –B + -tree / Bitmap Index –Su singoli attributi e sulle chiavi primarie l Tipologie di Piani di Esecuzione considerate: –Nested Loops –Hybrid Hash Join

Selezione dei Piani di Accesso (2) l Componenti di base: –Table Scan (TS)TS(table) Pred  {(tid, value)} –Index Scan (XS)XS(index) Pred  {(tid, value)} –Table Access (TA)tid  TA(table) Pred  (tid, value) –Index Access (XA)value  XA(index)  {(tid, value)} –Hash Join (HJ)[{value}; {value}]  HJ(table, table) Pred  {(tid, value)} –TID Intersection (TI)[{tid}; …; {tid}]  TI(table)  {tid} –Aggregation (AG)[{value}; …; {value}]  AG()  {value}

Modello dei costi l Costo = numero di pagine di disco a cui si accede l Definizione di una funzione di costo per ogni componente di base l Determinazione del costo di un piano sulla base dei costi elementari e delle cardinalità dell’output TS(FT) PredM  [XA(PK_DT1)  TA(DT1); XA(PK_DT2)  TA(DT12]  AG() TS(FT) PredM XA(PK_DT1) XA(PK_DT2) TA(DT1) AG() TA(DT2)

Algoritmo di selezione degli indici l Generazione dell’insieme dei possibili indici l Eliminazione degli insiemi di indici dominati –dominazione intra-vista –dominazione inter-vista l Determinazione dell’insieme ottimale

Deliverable previsti per la fase 3 l D2.P1: prototipo sviluppato per la progettazione logico-fisica