La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,

Presentazioni simili


Presentazione sul tema: "Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,"— Transcript della presentazione:

1 Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto, Michele Dinardo, Vito La Porta Relatore: Michele Dinardo

2 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 2 Visione di alto livello DBMS: risposte esatte su dati precisi I dati sono spesso imprecisi Match tra oggetti di database diversi Dati estratti automaticamente da testi Database probabilistici gestiscono limprecisione La valutazione delle query SQL è NP-completa Molte risposte dovute a improbabili corrispondenze Utente interessato alle risposte di alta qualità Efficiente Top-k, ordinato per probabilità

3 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 3 Overview Esempio motivante e nozioni di base Esempio motivante e nozioni di base Multisimulazione Multisimulazione Risultati sperimentali Risultati sperimentali

4 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 4 Alice necessita di fare estrazione e riconciliazione di dati Grande interesse per i dati riguardanti film (attori, registi, ecc) Dati ben mantenuti e precisi Ma mancano le recensioni… Un database probabilistico può aiutare Alice a memorizzare e interrogare i suoi dati incerti Come faccio a sapere a quali film si riferiscono? Alice necessita di analisi di confidenza Sul web ci sono molte recensioni Scenario IMDB Recensioni In quali anni Anthony Hopkins è apparso in film con alta votazione? Quali attori di Pulp Fiction sono apparsi in due film scarsi nei cinque anni precedenti a Pulp Fiction?

5 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 5 Riconciliazione di dati Mokey Lovea Monkeysa282 Titleasin Monkm656 Twelve Monkeys (1995)m389 Love Storym845 Twelve Monkeysm897 Titlemid 0.1m656a m897a m389a m845a m897a282 pmidasin Tabella di match che cattura lincertezza Dati di IMDB Recensioni di Amazon [ACG02], [CGG03] e [HS95] per score di similarità automatizzati

6 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 6 Associamo variabili booleane alle tuple Tuple come variabili booleane asinmidp a282m a282m Ogni istruzione SQL costruisce unespressione di variabili booleane, secondo lalgebra relazionale probabilistica ([FR97])

7 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 7 Cenni alla Selezione asinmidp a282m a282m asinmid a282m389

8 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 8 Cenni al Prodotto Incrociato asinmidp a282m a282m asinp a asinmid a282m897 a282m389

9 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 9 Cenni alla Proiezione asinmidp a282m a282m asin a282

10 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 10 Formule DNF su Tuple Obiettivo: ottenere una formula DNF Ma DNF SAT è NP-completo... E qui entrano in gioco gli algoritmi approssimativi...

11 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 11 Metodo Monte Carlo: intuizione Superficie terreno = 1000 m² X colpi di cannone N numero palle cadute sulla terra … Come calcolare la superficie del lago?

12 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 12 La simulazione riduce lincertezzaIncertezza sulla probabilità Dopo N passi di simulazione garantisce, con alta probabilità, che: Algoritmo di Luby-Karp [LK84]

13 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 13 Per ogni tupla candidata, applica lalgoritmo di Luby-Karp fino a quando lintervallo non raggiunge unampiezza prefissata ε (N libero). Simulazione Naive Christopher Walken Harvey Keitel Samuel L. Jackson Bruce Willis ε ε

14 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 14 Analisi della Simulazione Naive Esempio: i = 4 k = 2 ε troppo piccoloε troppo grande Non è proprio il meglio che possiamo avere...

15 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 15 Overview Esempio motivante e nozioni di base Esempio motivante e nozioni di base Multisimulazione Multisimulazione Risultati sperimentali Risultati sperimentali

16 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 16 Multisimulazione k-separazione: esiste un insieme T di k intervalli tale che nessuno di essi è annidato ad un intervallo non appartenente a T. Es.: k = 2 Christopher Walken Harvey Keitel Samuel L. Jackson Bruce Willis T

17 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 17 Quando la ragione critica diventa vuota......otteniamo la k-separazione Idea chiave: Regione Critica Ad ogni passo, la regione critica è lintervallo: Mitico!!! Es.: k = 2

18 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 18 Algoritmo MS_TopK

19 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 19 Algoritmo MS_RankK Algoritmo ricorsivo che classifica le top-k tuple Es.: k = 2 1 2

20 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 20 Overview Esempio motivante e nozioni di base Esempio motivante e nozioni di base Multisimulazione Multisimulazione Risultati sperimentali Risultati sperimentali

21 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 21 Dettagli sullesperimento Tabella di matchNumero Tuple Match tra titoli339k Match tra attori6758k Match tra registi18k AmazonIMDB Attori Film Recensioni

22 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 22 Tempo di esecuzione Il metodo naive impiega circa 20 minuti La multisimulazione ha tempi di risposta nettamente migliori In quali anni Anthony Hopkins è apparso in film con alta votazione?

23 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 23 Numero Totale di Simulazioni RankK trae benefici da valori bassi di k; Per TopK il numero di step è indipendente da k; Quali attori di Pulp Fiction sono apparsi in due film scarsi nei cinque anni precedenti a Pulp Fiction?

24 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 24 Conclusioni OPT: Algoritmo non deterministico ottimale che conosce il numero di passi da simulare Confronto con OPT: 1) La multisimulazione compie al più il doppio dei passi di simulazione rispetto a OPT 2) Nessun algoritmo deterministico è migliore su ogni istanza Estensione: Algoritmo any-time per lordinamento

25 5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data 25 E se non ci sono domande... grazie per lattenzione


Scaricare ppt "Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu University of Washington Presentazione di: Giacomo Aceto,"

Presentazioni simili


Annunci Google