Architetture della Informazione Anno accademico C. Batini 5

Slides:



Advertisements
Presentazioni simili
Primary Italian Saying How You Are.
Advertisements

Giovanni Falcone & Paolo Borsellino.
Cache Memory Prof. G. Nicosia University of Catania
DG Ricerca Ambientale e Sviluppo FIRMS' FUNDING SCHEMES AND ENVIRONMENTAL PURPOSES IN THE EU STRUCTURAL FUNDS (Monitoring of environmental firms funding.
© and ® 2011 Vista Higher Learning, Inc.4B.1-1 Punto di partenza Italian uses two principal tenses to talk about events in the past: the passato prossimo.
Corso di Laurea in Ingegneria Elettronica - U niversità di N apoli F EDERICO II Autori XXXXX XXXXXXX YYYYY YYYYYYY ZZZZZ ZZZZZZZ Titolo tesina Parte X:
Queuing or Waiting Line Models
Chistmas is the most loved holiday of the years. Adults and children look forward to Chistmas and its magical atmosphere. It is traditional to decorate.
1 Sede, 11 luglio 2007 Emanuele Baldacci, Chief Economist Mercati globali: mind the gap!
11 1 Roma, 11 dicembre 2006 Laura Gasparini Garanzia su Portafogli Estero.
Players: 3 to 10, or teams. Aim of the game: find a name, starting with a specific letter, for each category. You need: internet connection laptop.
Guardate le seguenti due frasi:
Motor Sizing.
Distribuzione del numero di alleli condivisi da coppie di fratelli e di non-parenti tipizzati rispettivamente per 5, 9 e 13 markers.
UG40 Energy Saving & Twin Cool units Functioning and Adjustment
EMPOWERMENT OF VULNERABLE PEOPLE An integrated project.
Guida alla compilazione del Piano di Studi Curricula Sistemi per l’Automazione Automation Engineering.
WP4 – Software Infrastructures. How it was Overall goal “The outcome of WP4 is the design, implementation and evaluation of software components that will.
Metodi Quantitativi per Economia, Finanza e Management Lezioni n° 7-8.
Taccani1 7.4 Identification ANALISI DEI PERICOLI Hazard Analysis Identificazione Valutazione Misure di Controllo Control Measures Assessment.
Successione degli Stati nei trattati Successione di Stati = mutamento di sovranità territoriale. Conseguenze di tale mutamento sui diritti ed obblighi.
Chapter Eighteen1 CHAPTER 3 Distribution of national income A PowerPoint  Tutorial To Accompany MACROECONOMICS, 7th. ed. N. Gregory Mankiw Tutorial written.
Un problema multi impianto Un’azienda dispone di due fabbriche A e B. Ciascuna fabbrica produce due prodotti: standard e deluxe Ogni fabbrica, A e B, gestisce.
Accoppiamento scalare
SUMMARY Time domain and frequency domain RIEPILOGO Dominio del tempo e della frequenza RIEPILOGO Dominio del tempo e della frequenza.
SUMMARY Quadripoles and equivalent circuits RIEPILOGO Quadripoli e circuiti equivalenti RIEPILOGO Quadripoli e circuiti equivalenti.
SUMMARY Dinamic analysis RIEPILOGO Analisi dinamica RIEPILOGO Analisi dinamica.
Summary Module 1 – Unit 1 (Current, potential difference, resistance) RIEPILOGO Modulo 1 – Unità 1 (Corrente, tensione, resistenza)
Click to continue. “Abbiamo sentito dire d’una speciale disposizione della marina inglese. Tutti i sartiami della regia flotta, dal più robusto al più.
Tipologie e caratteristiche degli amplificatori a retroazione
SUMMARY Real operational amplifiers RIEPILOGO Amplificatori operazionali reali RIEPILOGO Amplificatori operazionali reali.
SUMMARY Interconnection of quadripoles RIEPILOGO Interconnessione di quadripoli RIEPILOGO Interconnessione di quadripoli.
LE PREPOSIZIONI. Le Preposizioni semplici (Simple prepositions) A preposition describes a relationship between other words in a sentence. In itself, a.
STMan Advanced Graphics Controller. What is STMan  STMan is an advanced graphic controller for Etere automation  STMan is able to control multiple graphics.
Silvia Minardi, Pavia 14 December maps and directions hours.
Organizzazione e Formazione per l’arresto cardiaco in ospedale Overview Epidemiologia dell’ arresto intraospedaliero Criticita’ organizzative Applicazioni.
PANNON GÉP PANNON GÉP KFT Production of agricoltural tools and equipments since Our company is distinguished for the use of high quality material.
Do You Want To Pass Actual Exam in 1 st Attempt?.
1. SUCCESSI E FALLIMENTI DEL MERCATO (CAP
WRITING – EXERCISE TYPES
Present progressive Past progressive verbs. Present progressive Present progressive: formula positive; subject + ___/___/___ + verb+ ing + complimentary.
I cambiamenti climatici
Calorimetro LAR ATLAS Italia Roma 28 novembre 2008
Dichiarazione dei servizi di sito nel GOCDB
PROGETTO SOCRATES Dante Alighieri Primary School Classes 2A-B-C GENERAL OBJECTIVES: -To increase the motivation and the pleasure for reading -To pass.
SOS, HELP; WE ARE BEING ASSASSINATED
The Scientific Revolution
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Accelerator Disision March 3rd 2015
Highlights del meeting ESPP di Cracovia Settembre 2012 (FISICA DI G1)
Cyber Safety.
X. Specifications (IV).
Bubble Sort.
Adolf Luther Born 1912 in Krefeld, Germany. Died 1990 Krefeld.
Studente : Andrea Cassarà Classe: 5AII A.S. 2014/2015 Link Sito
A.A Architetture di data integration
*******Più o meno + aggettivo + di *******
Proposal for the Piceno Lab on Mediterranean Diet
Service Level The Service Level is defined as the percentage of orders cycles in which inventory is sufficient to cover demands, or.
SOS, HELP; WE ARE BEING ASSASSINATED
SOS, HELP; WE ARE BEING ASSASSINATED
Progettazione concettuale
SOS, HELP; WE ARE BEING ASSASSINATED
Study of Bc in CMSSW: status report Silvia Taroni Sandra Malvezzi Daniele Pedrini INFN Milano-Bicocca.
Preliminary results of DESY drift chambers efficiency test
Accesso al corpus it. / ing. parola cercata sintagmi preposizioni.
A comparison between day and night cosmic muons flux
Andrea CORSONELLO IRCCS INRCA Cosenza
Integrazione di dati provenienti da più fonti
Wikipedia Wikipedia è un'enciclopedia online, collaborativa e libera. Grazie al contributo di volontari da tutto il mondo, Wikipedia ad ora è disponibile.
Transcript della presentazione:

Architetture della Informazione Anno accademico 2009-2010 C. Batini 5 Architetture della Informazione Anno accademico 2009-2010 C. Batini 5.7.2 Metodologie per scegliere la architettura ottima dei dati 1

Modello di ottimizzazione versione 1 Concept: scegliere tra le tante soluzioni EII quella che porta al miglior rapporto costi benefici. Costi: costi a design time + costi a run time + costi di manutenzione Unita’ di misura dei costi  € Benefici: maggiore efficacia informativa, intesa come maggiore efficienza e soprattutto di efficacia dei processi che utilizzano la nuova informazione che possiamo estrarre dalla architettura integrata rispetto alla informazione estraibile dalla architettura attuale Unita’ di misura dei benefici  Δ efficacia processi, misurata come maggiori guadagni economici possibili per il processo  € Ma siccome e’ difficile da modellare, scegliamo 

Modello di ottimizzazione versione 2 Concept: scegliere tra le tante soluzioni EII quella che porta al miglior rapporto costi benefici. Costi: costi a design time + costi a run time + costi di manutenzione Unita’ di misura dei costi  € Benefici: maggiore capacita’ informativa, intesa come maggiore informazione che possiamo estrarre dalla architettura integrata rispetto alla architettura attuale Unita’ di misura dei benefici  Δ Capacita’ informativa Remark: numeratore ( € ) e denominatore (Δ Capacita’ informativa) vanno omogeneizzati!!

On information capacity

Δ information capacity of a schema resulting from the integration of n local schemas The difference between the IC of the integrated schema w.r.t the sum of ICs of the non integrated schemas

Information capacity The concept of information capacity is quite general, as much as is the concept of information. Let’s introduce several definitions, and comment how each one of them catches the intuition

Information capacity 1 - IC1 The number of queries that can be expressed on the schema E3 R34 E4 R131 R132 E1 E2 R12 E5 It is possibile to define more than 1100 type of queries over this schema We do not consider attributes

IC1 – Example - 1 ICA=3+24=27 ICB=2+2=4 Schema B Schema A E1 E2 E3 E3

Δ IC1 – Example E1 E2 E3 ICA=3+24=27 ICAB=4+76=80 E1 E2 E3 E4 ICB=2+2=4 E3 E4 Integrated schema

IC2 – Information capacity considering the actual load Queries in the application load are a subset of all the queries. IC2 considers only cross queries between schemas that enrich actual queries in the application load Furthermore weights can be assigned based on the number of executions of queries

IC2 – Example - 2 Only Q12 has to be considered! E1 E2 E6 Q11 Q12 S1

Application load IC – Example - 2 Local schema 1 AL: 1. E1-E3 2. E3 Local schema 2 AL: 1. E4-E3 Δ Integrated schema AL: E1-E3-E4 E4-E3-E1 E4-E3-E2 Integrated schema

Application load information capacity Per ogni schema e’ in genere noto l’insieme delle queries che costituiscono l’application load. Ogni query viene eseguita un certo numero di volte x e restituisce un certo insieme di tuple t. Possiamo percio’ definire una information capacity dello schema integrato che estende le sole interrogazioni degli application load degli schemi locali che visitano entita’ sulla frontiera.

Observation Until now we have considered only schemas and not values! Moreover …. the world is dirty! Thus……we propose two further definitions

Error free Instance based IC In questa tipologia di capacita’ informativa i cammini delle query vengono pesati sulla base delle istanze delle entita’ collegabili, e si assume che tutte le istanze dei due schemi siano collegabili da join Quindi in questo caso: Detto #Inst(E) il numero di istanze di una entita’ C un cammino E1_R1_..._Rn-1_En #Inst(C) e’ #Inst(E1) * #Inst(R1) * …*#Inst(En) Intuitivamente #Inst(C) e’ il numero di istanze collegabili, assumendo che tutti i join effettuabili siano completi. Capacita’ informativa instance based error free di uno schema SC, e’ la somma di tutti gli #Inst(C) per tutti i cammini dello schema SC.

Error dependent instance based IC In questa tipologia di capacita’ informativa i cammini continuano a essere valutati sulla base del numero di istanze collegabili, ma si tiene conto del fatto che, a seguito di errori o eterogeneita’, non tutte le istanze potrebbero essere riconosciute come identiche e quindi collegabili con un join esatto. Per cui, nel caso di uno schema S risultato della integrazione di due schemi S1 e S2, si assume che: Per ogni coppia di entita’ facenti parte dell’insieme comune {E121, E122, …E12n} sia nota, in quanto misurata, la percentuale di istanze collegabili in join, dove la percentuale puo’ essere compresa tra 0 e 1.

Coming back to Integration cost Building and mantaining a schema is costly. The design cost increases often with an order of O(n2) with the number of sources (due to the correlations existing among sources). The maintenance cost is greater in GAV (since the global mapping has to be changed, so it is O(n) x # of new sources) than in LAV (usually only the local mapping has to be added, so is # of new sources)

Naive algorithm Assumption: the final choice results in one and only one cluster of schemas (this is not the most general choice, we could select n clusters) Given a set of schemas generate the set of all possible subsets of schemas For each subset Si of schemas calculate costs C(Si) and the increment of information capacity IIC(Si) Relate C and IIC using a normalization factor nf Choose the subset Si where [IIC (Si) / nf * C(Si)] is optimal The above algorithm is non polinomial, an improvement may be obtained by branch and bound techniques.

Improvement Use branch and bound operation research techniques

The end