Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

Slides:



Advertisements
Presentazioni simili
CORSO DI RECUPERO CONTROLLI AUTOMATICI Prof. Filippo D’Ippolito
Advertisements

1 t Mobilità internazionale e conversione dei voti Maria Sticchi Damiani Università della Calabria 8 febbraio 2013.
ECTS: la conversione dei voti Maria Sticchi Damiani Parte IV Conservatorio di Musica “N. Paganini” Genova, 2 maggio
II° Circolo Orta Nova (FG)
/ fax
MOTECHECO, 2012 Il progetto Europeo SafeCycle WORKSHOP: Ciclabilita' e Trasporto Pubblico in Ambito Urbano CIVINET 26 Settembre 2012.
1 Processi e Thread Processi Thread Meccanismi di comunicazione fra processi (IPC) Problemi classici di IPC Scheduling Processi e thread in Unix Processi.
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
Algoritmi e Strutture Dati
1 Tavolo del Patto per la crescita intelligente, sostenibile e inclusiva Il ricorso agli ammortizzatori sociali nei territori colpiti dagli eventi sismici.
Scheduling della CPU Concetti di base Criteri di scheduling
Esercitazioni su circuiti combinatori
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Usa la tecnica del.
Inferenza statistica per un singolo campione
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Usa la tecnica del.
R. Torlone, A. Calì, G. Lorenzo, G. Solazzo Profilo utente Milano – 17 Novembre 04.
Apprendimento Non Supervisionato
CAPITOLO 5 Elasticità.
1 Il sistema di controllo organizzativo 4 marzo 2008 Programmazione e Controllo Università degli Studi di Cagliari.
Corso di Informatica (Basi di Dati)
1 Corso di Informatica (Programmazione) Lezione 10 (12 novembre 2008) Programmazione in Java: espressioni booleane e controllo del flusso (selezione)
Corso di Informatica (Programmazione)
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Problemi e algoritmi Anno Accademico 2009/2010.
G. Pugliese, corso di Fisica Generale
Seminario su clustering dei dati – Parte II
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
OPERAZIONI CON TRINOMI DI II° GRADO
ASCOLTI TOTALE TV SATELLITE ANALISI SULLULTIMO ANNO MOBILE Marzo 2007 – Febbraio 2008 vs. Marzo 2006 – Febbraio 2007.
Strutture di controllo in C -- Flow Chart --
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
Qualità - 1 / 26 Lezione 1 La qualità del prodotto.
Notazioni Asintotiche e Ordini di Grandezza delle funzioni
Intelligenza Artificiale
Daniel Stoilov Tesi di Laurea
EXCEL FORMATTAZIONE DATI.
Modellazione di terreni a risoluzione adattiva
Chinosi Michele – matr.: La seconda release di Virtuose basata su database XML La seconda release di Virtuose basata su.
Algoritmi di String Matching
1. Obiettivo del PSL rafforzare lidentità dellarea del GAL e aumentare la sua attrattività come luogo di residenza, produzione, turismo 2.
Elementi di Informatica di base
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
INPS - COMUNI SERVIZI AL CITTADINO.
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
Progettare un database
1 Questionario di soddisfazione ATA - a. sc. 2008/09 Il questionario è stato somministrato nel mese di aprile Sono stati restituiti 29 questionari.
La tabella dei voti ECTS Maria Sticchi Damiani Sapienza, Roma 26 settembre
Algoritmi e Strutture Dati
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
1101 = x 10 x 10 x x 10 x = CORRISPONDENZE
Discovering Relative Importance of Skyline Attributes Gruppo 8 Altobelli Andrea (Relatore) Ciotoli Fabio Denis Mindolin, Jan Chomicki.
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
Ad opera di: Matteo Donatelli e Maurizio Di Paolo Presentazione su : Elettropneumatica 1.
I Numeri.
Voronoi-Based K Nearest Neighbor Search for Spatial Network Databases
Pippo.
Bando Pittori e Scultori in Piemonte alla metà del ‘700
Capitolo 7 Tavole hash Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
lun mar mer gio ven SAB DOM FEBBRAIO.
1 PerfectFit06 Sistema di personalizzazione dei contenuti per gli scavi archeologici di Ercolano Candidato: Vincenzo Scognamiglio Relatore: Prof. Ernesto.
OPERAZIONI CON TRINOMI DI II° GRADO
R. Soncini Sessa, MODSS, S27 Stima degli effetti (Wald) Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini Sessa.
COMUNE DI BOLOGNA Dipartimento Riqualificazione Urbana Simulazione invio telematico SCIA Processo di dematerializzazione per la presentazione delle pratiche.
1 Analisi della gestione finanziaria dal 04 Gennaio 2008 Fondo Pensione Astri Comparto Bilanciato report al: 4 giugno 2010.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Tema 2: progettazione e interrogazione di data warehouse
Modulo 5 – Database ACCESS LICEO SCIENTIFICO “ B. RESCIGNO COMPUTER SCUOLA PIANO INTEGRATO 2008/09 ESPERTO prof.ssa Rita Montella.
Transcript della presentazione:

Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto, Michele Dinardo, Vito La Porta Relatore: Michele Dinardo

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 2 Visione di alto livello DBMS: risposte esatte su dati precisi I dati sono spesso imprecisi Match tra oggetti di database diversi Dati estratti automaticamente da testi Database probabilistici gestiscono limprecisione La valutazione delle query SQL è NP-completa Molte risposte dovute a improbabili corrispondenze Utente interessato alle risposte di alta qualità Efficiente Top-k, ordinato per probabilità

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 3 Overview Esempio motivante e nozioni di base Esempio motivante e nozioni di base Multisimulazione Multisimulazione Risultati sperimentali Risultati sperimentali

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 4 Alice necessita di fare estrazione e riconciliazione di dati Grande interesse per i dati riguardanti film (attori, registi, ecc) Dati ben mantenuti e precisi Ma mancano le recensioni… Un database probabilistico può aiutare Alice a memorizzare e interrogare i suoi dati incerti Come faccio a sapere a quali film si riferiscono? Alice necessita di analisi di confidenza Sul web ci sono molte recensioni Scenario IMDB Recensioni In quali anni Anthony Hopkins è apparso in film con alta votazione? Quali attori di Pulp Fiction sono apparsi in due film scarsi nei cinque anni precedenti a Pulp Fiction?

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 5 Riconciliazione di dati Mokey Lovea Monkeysa282 Titleasin Monkm656 Twelve Monkeys (1995)m389 Love Storym845 Twelve Monkeysm897 Titlemid 0.1m656a m897a m389a m845a m897a282 pmidasin Tabella di match che cattura lincertezza Dati di IMDB Recensioni di Amazon [ACG02], [CGG03] e [HS95] per score di similarità automatizzati

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 6 Associamo variabili booleane alle tuple Tuple come variabili booleane asinmidp a282m a282m Ogni istruzione SQL costruisce unespressione di variabili booleane, secondo lalgebra relazionale probabilistica ([FR97])

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 7 Cenni alla Selezione asinmidp a282m a282m asinmid a282m389

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 8 Cenni al Prodotto Incrociato asinmidp a282m a282m asinp a asinmid a282m897 a282m389

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 9 Cenni alla Proiezione asinmidp a282m a282m asin a282

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 10 Formule DNF su Tuple Obiettivo: ottenere una formula DNF Ma DNF SAT è NP-completo... E qui entrano in gioco gli algoritmi approssimativi...

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 11 Metodo Monte Carlo: intuizione Superficie terreno = 1000 m² X colpi di cannone N numero palle cadute sulla terra … Come calcolare la superficie del lago?

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 12 La simulazione riduce lincertezzaIncertezza sulla probabilità Dopo N passi di simulazione garantisce, con alta probabilità, che: Algoritmo di Luby-Karp [LK84]

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 13 Per ogni tupla candidata, applica lalgoritmo di Luby-Karp fino a quando lintervallo non raggiunge unampiezza prefissata ε (N libero). Simulazione Naive Christopher Walken Harvey Keitel Samuel L. Jackson Bruce Willis ε ε

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 14 Analisi della Simulazione Naive Esempio: i = 4 k = 2 ε troppo piccoloε troppo grande Non è proprio il meglio che possiamo avere...

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 15 Overview Esempio motivante e nozioni di base Esempio motivante e nozioni di base Multisimulazione Multisimulazione Risultati sperimentali Risultati sperimentali

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 16 Multisimulazione k-separazione: esiste un insieme T di k intervalli tale che nessuno di essi è annidato ad un intervallo non appartenente a T. Es.: k = 2 Christopher Walken Harvey Keitel Samuel L. Jackson Bruce Willis T

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 17 Quando la ragione critica diventa vuota......otteniamo la k-separazione Idea chiave: Regione Critica Ad ogni passo, la regione critica è lintervallo: Mitico!!! Es.: k = 2

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 18 Algoritmo MS_TopK

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 19 Algoritmo MS_RankK Algoritmo ricorsivo che classifica le top-k tuple Es.: k = 2 1 2

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 20 Overview Esempio motivante e nozioni di base Esempio motivante e nozioni di base Multisimulazione Multisimulazione Risultati sperimentali Risultati sperimentali

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 21 Dettagli sullesperimento Tabella di matchNumero Tuple Match tra titoli339k Match tra attori6758k Match tra registi18k AmazonIMDB Attori Film Recensioni

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 22 Tempo di esecuzione Il metodo naive impiega circa 20 minuti La multisimulazione ha tempi di risposta nettamente migliori In quali anni Anthony Hopkins è apparso in film con alta votazione?

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 23 Numero Totale di Simulazioni RankK trae benefici da valori bassi di k; Per TopK il numero di step è indipendente da k; Quali attori di Pulp Fiction sono apparsi in due film scarsi nei cinque anni precedenti a Pulp Fiction?

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 24 Conclusioni OPT: Algoritmo non deterministico ottimale che conosce il numero di passi da simulare Confronto con OPT: 1) La multisimulazione compie al più il doppio dei passi di simulazione rispetto a OPT 2) Nessun algoritmo deterministico è migliore su ogni istanza Estensione: Algoritmo any-time per lordinamento

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 25 E se non ci sono domande... grazie per lattenzione