Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.

Slides:



Advertisements
Presentazioni simili
Algoritmi e Strutture Dati
Advertisements

Structured Query Language (SQL) Presentazione 13.1 Informatica Generale (Prof. Luca A. Ludovico)
Codifica dei Dati Idea: vogliamo rappresentare dati eterogenei utilizzando un linguaggio che l’elaboratore puo’ facilmente manipolare Essenzialmente vogliamo.
Data warehousing con SQL Server
Algoritmi e Strutture Dati
Assenze per malattia secondo la certificazione on line: PRIME EVIDENZE Roma, 2 febbraio 2011.
Alberi binari di ricerca
Insiemi disgiunti.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
III. Valutazione. La valutazione si avvale di quanto ci dicono gli indicatori e della correlazione fra essi, allo scopo di ricavarne suggerimenti di carattere.
Capitolo 4 Ordinamento Algoritmi e Strutture Dati.
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
ON LINE ANALYTICAL TRANSACTION PROCESSING (OLAP)
Stato di Avanzamento dello sviluppo del modulo Concretizator
1 L 19 Pianificare la gestione: la politica Andrea Castelletti.
Modelli aggregati MCSA 07/08 L15 Andrea Castelletti
LA TEORIA DELLE SCELTE DEL CONSUMATORE
Apprendimento Non Supervisionato
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 22/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
Dip. Economia Politica e Statistica
ALBERI DECISIONALI prima parte
Corso di Finanza Aziendale
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Capitolo 4 Ordinamento:
Il problema del dizionario
Algoritmi e Strutture Dati
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Capitolo 6 Il problema.
Capitolo 9 Il problema della gestione di insiemi disgiunti (Union-find) Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Capitolo 6 Il problema.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Alberi AVL (Adelson-Velskii.
Algoritmi e Strutture Dati
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Alberi AVL (Adelson-Velskii.
Algoritmi e Strutture Dati (Mod. A)
Algoritmi e Strutture Dati
Brescia, lunedì 10 Maggio ^ Giornata dellinnovazione Il Distretto Biomedicale.
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
Laboratorio di Basi di Dati Introduzione ad Access 2ª Parte.
Ottimizzazione nella gestione dei progetti
Algoritmi e Strutture Dati 20 aprile 2001
07/04/2003Algoritmi Ricerca in una sequenza di elementi Data una sequenza di elementi, occorre verificare se un elemento fa parte della sequenza oppure.
CORSO DI ECONOMIA POLITICA 3° parte Docente Prof. GIOIA
Dietro alla curva di domanda
Impostazione Assiomatica del Calcolo della Probabilità
Fondamenti di Informatica1 Ripetizioni di segmenti di codice Spesso è necessario ripetere più volte uno stesso segmento dell'algoritmo (e.g. I/O, elaborazioni.
Intelligenza Artificiale
Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002.
DBMS ( Database Management System)
Radix-Sort(A,d) // A[i] = cd...c2c1
Discovering Relative Importance of Skyline Attributes Gruppo 8 Altobelli Andrea (Relatore) Ciotoli Fabio Denis Mindolin, Jan Chomicki.
Algoritmi e Strutture Dati
Index Land Surface for Efficient kNN Query Gruppo 2 Riccardo Mascia Roberto Saluto Relatore Roberto Saluto Cyrus Shahabi Lu-An TangSonghua Xing.
Continuos Query Processing in Data Streams Using Duality of Data and Queries Hyo-Sang Lim, Jae-Gil Lee, Min-Jae Lee,Kyu-Young Whang, Il-Yeol Song GRUPPO.
Impostazione Assiomatica del Calcolo della Probabilità
Corso di Programmazione Grafica e Laboratorio Daniele Marini
Microsoft Access (parte 5) Introduzione alle basi di dati Scienze e tecniche psicologiche dello sviluppo e dell'educazione, laurea magistrale Anno accademico:
Numeri figurati Numeri triangolari fine
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Sistemi Informativi per le Decisioni a.a. 2005/2006.
Laurea Ing EO/IN/BIO;TLC D.U. Ing EO 10 PROBABILITA’ E VARIABILI ALEATORIE.
1/32 Algoritmi e Strutture Dati HEAP Anno accademico
Kyriakos Mouraditis, Spiridon Bakiras, Dimitris Papadias Enrico Bergamini, Enrico Grassi Gruppo 19.
Capitolo 9 Il problema della gestione di insiemi disgiunti (Union-find) Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Capitolo 4 Ordinamento:
Intelligenza Artificiale Risoluzione di Problemi
B IBLIO S ERVICE consultazione di articoli online Anna Riccioni Progetto per il corso di Reti di Calcolatori L-S Anno Accademico
La codifica dei numeri.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Capitolo 6 Il problema.
Algoritmi e Strutture Dati
Access Breve introduzione. Componenti E’ possibile utilizzare Access per gestire tutte le informazioni in un unico file. In un file di database di Access.
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
Transcript della presentazione:

Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5

Indicizzazione Pre-analisi Top-K Query efficienti Metodi di indicizzazione esistenti influenzabili dai parametri delle query IDEA nuovo criterio per costruire indici a livelli: disporre le tuple in livelli multipli consecutivi soddisfare ogni Top-k query esplorando al più k livelli migliorare le performance + Punto di partenza 1

Focus on - ogni tupla deve appartenere ad un solo livello; - sfruttare relazione di dominanza tra livelli consecutivi; - approccio di tipo sequenziale; - per ogni k, il numero delle tuple nei primi k livelli sia il minore possibile - default: query di minimizzazione - valido sia per query con pesi postivi che negativi Obiettivi raggiungibili riduce i costi di I/O del database semplice da integrare in qualsiasi database minore sensibilità ai parametri della query Aspetti chiave 2

(2) 3x+y (ranking function della query in esame) (1) x+y (ranking function della pre-elaborazione) -Supponiamo che la query sia di tipo top-2 (t1 e t2 sono i risultati attesi) -t1 è in ultima posizione rispetto a (1) -Necessità di recuperare TUTTE le tuple per rispondere alla query! Approccio non a livelli 3

Sfruttiamo le opportunità offerte dai livelli: ne costruiamo 4. Ogni top-2 query restituirà solo 6 tuple! (quelle dei primi 2 livelli) La tupla t6 viene messa nel quarto livello perchè per ogni query lineare con pesi non negativi, t3 deve essere classificata prima di t6, una delle tuple tra t2 e t4 deve essere classificata prima di t6 e una delle tuple tra t1 e t7 deve essere classificata prima di t6 (linee tratteggiate). Per la stessa ragione, t8 viene messa nel terzo livello. La tupla t6 viene messa nel quarto livello perchè per ogni query lineare con pesi non negativi, t3 deve essere classificata prima di t6, una delle tuple tra t2 e t4 deve essere classificata prima di t6 e una delle tuple tra t1 e t7 deve essere classificata prima di t6 (linee tratteggiate). Per la stessa ragione, t8 viene messa nel terzo livello. Livello 1 Livello 2 Livello 3 Livello 4 Indice Robusto L*: individua, per ogni tupla t, il livello di ranking minimo di t per tutte le possibili query lineari. Approccio a livelli: intuizione 4

Approccio a livelli: soluzione esatta Retta che rappresenta i pesi della generica query Obiettivo: trovare il livello minimo per ogni t I quadranti II e IV contengono rispettivamente la migliore e la peggiore soluzione. Il ranking minimo di t (5 in questo caso) è determinato dal numero di tuple nel lato inferiore sinistro di ogni retta l considerata. Complessità: O( log n) inaccettabile per applicazioni reali! 5

Il livello robusto di una tupla (rank minimo) può essere limitato inferiormente dal numero di set dominanti esclusivi della stessa Set monodominanti (numero di tuple nella regione II) Set bidominanti (coppie di tuple la cui retta che le congiunge lascia in alto a destra la tupla t) IIIII IVI t A1A1 A2A2 Set dominanti 6

RISULTATO APPROSSIMATO NUMERO TUPLE REGIONE II NUMERO TUPLE NELLE SOTTOREGIONI DI I e III (per approssimare il numero di set bidominanti) + DOMINATION FACTOR DF(t) = numero di tuple che dominano t, ). Risultato approssimato 7

7 RISULTATO APPROSSIMATO NUMERO TUPLE REGIONE II NUMERO TUPLE NELLE SOTTOREGIONI DI I e III (per approssimare il numero di set bidominanti) + Risultato approssimato II I1I1 IV I2I2 I3I3 I4I4 III 1 III 2 III 3 III 4 t A2A2 A1A1 w 1 A 1 +w 2 A 2 -A 1 t 7

RISULTATO APPROSSIMATO NUMERO TUPLE REGIONE II NUMERO TUPLE NELLE SOTTOREGIONI DI I e III (per approssimare il numero di set bidominanti) + DOMINATION FACTOR DF(t) = numero di tuple che dominano t Risultato approssimato Il limite inferiore dei set bidominanti è il valore minimo tra le somme delle cardinalità dei sottospazi evidenziati 7

Lalgoritmo che utilizziamo per il calcolo delle tuple dominanti (DF) necessita di un albero binario che può restituire, in tempo O(log n), il numero di records che contengono valori più piccoli del valore che vogliamo inserire AVL-tree AVL-tree modificato Campo.left AVL-tree modificato per DF 8

Ordino tutte le tuple rispetto allattributo A 1 A1A1 A2A2 t2 t4 t1 t3 t5 t2 t5 t3 t4 t1 Algoritmo Domination Factor (DF) 9

Ordino tutte le tuple rispetto allattributo A 1 Inizializzo un albero AVL-tree modificato e: per ogni t, interrogo lalbero e trovo il numero di tuple il cui valore, che corrisponde a quello del secondo attributo, è inferiore a quello attualmente considerato, poi lo inserisco Algoritmo Domination Factor (DF) t2 t5 t3 t4 t1 9

Per ogni tupla della relazione calcolo il livello robusto come: set monodominanti + limite inferiore dei set bidominanti Limito inferiormente il numero di set bidominanti Per ogni partizione delle regioni I e III trasformo il sottospazio Calcolo dei set monodominanti per ogni t con DF Soluzione approssimata: lalgoritmo 1010

Impostazioni di Sistema: Intel Pentium-4 3.2GHz 1G di RAM Windows server 2003 Criteri di giudizio: 1. Tempo di costruzione dellIndice 2. Numero di tuple restituite Assunzioni: Query monotone Data set utilizzati: DS artificiali a 3 DIM DS reali a 3 DIM abalone3D con tuple Cover3D con tuple Risultati 1

Numero di partizioni B: tempo lineare con B B = 10 Dati utilizzati: artificiali, 3D tuple uniformemente distribuiti Partizioni e costruzione dellindice 1212

Tempo di costruzione dellindice …lapproccio studiato risulta il più efficiente fra tutti Dati utilizzati: artificiali, 3D tuple uniformemente distribuiti Tempo di costruzione dellindice confrontato con altri algoritmi presenti in letteratura… 1313

Numero di tuple per le Top-K Impostazioni: artificiali, 3D tuple uniformemente distribuiti Numero di tuple restituite al crescere di K… 1414

Parametro di correlazione maggiori benefici sono ottenuti per merito delle relazioni di dominanza tra le query Impostazioni: Dati utilizzati: artificiali, 3D tuple Query Top-50 Correlazione c [0,1]: al crescere di c… … diminuiscono il numero di tuple restituite 1515

Numero di tuple per le Top-K Impostazioni: Dati: artificiali, 3D c = 0.5 Query Top-50 Numero di tuple restituite al crescere della quantità di dati… 1616

Numero di tuple per le Top-K abalone3D Cover3D Numero di tuple restituite al crescere di K per dati reali… 17

Possibili estensioni Indici parziali (in molte top-k query il valore di k è relativamente piccolo se lo confrontiamo con la dimensione del database: risulta quindi superfluo calcolare un indice completo che includi tutti i livelli) Manutenzione dellIndice (per quanto concerne operazioni di update) Dati di elevata dimensionalità 1818

Grazie per lattenzione