Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002.

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

Premessa: si assume di aver risolto (correttamente
Politecnico di Torino Tesi di Laurea
All-Against-All Sequence Matching Implementazione Mediante Suffix Array e Analisi Prestazionale Comparata Corelatori: Dott. Federica Mandreoli Ing. Riccardo.
una interfaccia internet per il sistema Momis
di Architetture Peer to Peer per la Gestione di Database Distribuiti
Query OQL e XQUERY a confronto
Facoltà di Ingegneria di Modena ANALISI E SVILUPPO DI TECNICHE PER
Università degli studi di Modena e Reggio Emilia
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
Università degli studi di Modena e Reggio Emilia
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e realizzazione.
Progetto e realizzazione del software "Solar Data Manager"
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
COMPARAZIONE DI STRUMENTI SOFTWARE PER LA CREAZIONE, LA GESTIONE E LINTEGRAZIONE DI ONTOLOGIE Università degli Studi Modena e Reggio Emilia Facoltà di.
Algoritmi e Strutture Dati
Intelligenza Artificiale 1 Gestione della conoscenza lezione 5 Prof. M.T. PAZIENZA a.a
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Macchine non completamente specificate
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Capitolo 6 Il problema.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Capitolo 6 Il problema.
Algoritmi e Strutture Dati (Mod. A)
Algoritmi e Strutture Dati
Dinamica di corpi deformabili basata sulle posizioni
D2I - Tema 3: Data Mining Stato di avanzamento Roma 11/10/2002.
Apprendimento di movimenti della testa tramite Hidden Markov Model
Algoritmi e Strutture Dati 20 aprile 2001
Intelligenza Artificiale
Interrogazione Efficiente di Documenti XML Temporali e una sua Applicazione in Ambito Normativo Enrico Ronchetti Enrico Ronchetti Università degli Studi.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA INFORMATICA Relatore: Chiar.mo Prof. Paolo Tiberio.
Daniel Stoilov Tesi di Laurea
Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA DI MODENA Corso di Laurea Specialistica in Ingegneria Informatica PROGETTO E REALIZZAZIONE.
Università degli Studi di Bologna Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica Materia della tesi: Sistemi Distribuiti L-S VIDEOSORVEGLIANZA.
Elementi di Informatica di base
Proposta di unImplementazione per i Servizi di Localizzazione e Traffic Monitoring nellIntelligent Trasportation System Pegasus UNIVERSITÀ DEGLI STUDI.
Modelli e algoritmi per l’ottimizzazione di layout fieristici
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria “Enzo Ferrari” – Sede di Modena Corso di Laurea Specialistica in Ingegneria Informatica.
Strutture dati per insiemi disgiunti
Prof. Cerulli – Dott.ssa Gentili
Tesi di Laurea in Ingegneria Meccanica
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
Un motion planner per guide multimediali interattive
Prof. Cerulli – Dott.ssa Gentili
Università degli Studi di Cassino
Discovering Relative Importance of Skyline Attributes Gruppo 8 Altobelli Andrea (Relatore) Ciotoli Fabio Denis Mindolin, Jan Chomicki.
Efficient Region- Based Image Retrieval di Roger Weber e Michael Mlivoncic Swiss Federal Institute of Technology (ETH) Presentazione di Laura Galli, Mauro.
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.
Università degli Studi di Cagliari
Università degli Studi di Modena e Reggio Emilia
1 PerfectFit06 Sistema di personalizzazione dei contenuti per gli scavi archeologici di Ercolano Candidato: Vincenzo Scognamiglio Relatore: Prof. Ernesto.
POLITECNICO DI MILANO Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica STUDIO E REALIZZAZIONE DI UN BRACCIO ROBOTICO ANTROPOMORFO E SOLUZIONE.
PROGETTO E REALIZZAZIONE DI UN COMPONENTE SOFTWARE PROGRAMMABILE PER LA PIANIFICAZIONE DI COMMISSIONI DI LAUREA FACOLTA’ DI INGEGNERIA Corso di Laurea.
UNIVERSITÀ DEGLI STUDI DI CATANIA FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI Corso di Laurea in Scienze dell’Informazione Indici gerarchizzati.
Algoritmi euristici per l’ottimizzazione dell’offerta nella raccolta di rifiuti Tesi di laurea di Nicola Bindini Relatore: Chiar.mo Prof. Ing. DANIELE.
D.I.Me.Ca. – D.I.Me.Ca. – Università degli Studi di Cagliari Facoltà di Ingegneria Dipartimento di Ingegneria.
Riunione conclusiva della prima fase del progetto Dipartimento di Scienze dell’Ingegneria dell’Università di Modena e Reggio Emilia.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Università degli Studi di Bologna FACOLTÀ DI INGEGNERIA Corso di Laurea in Ingegneria Gestionale Ricerca Operativa MODELLI PER L’OTTIMIZZAZIONE DELL’OFFERTA.
Università degli Studi di Firenze Facoltà di Ingegneria Dipartimento di Sistemi e Informatica Corso di Laurea in Ingegneria Informatica Modelli e strumenti.
A.A Roma Tre Università degli studi “Roma Tre” Facoltà di Ingegneria Corso di Laurea in Ingegneria Elettronica Servizi di localizzazione a livello.
Università degli Studi di Cagliari FACOLTA’ DI INGEGNERIA
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Le basi di dati.
Esercitazione 02/12/2008 Ing. Maria Teresa Borzacchiello Corso di Tecnica ed Economia dei Trasporti Prof. Vincenzo Torrieri 1 Il problema dell’ottimo di.
Transcript della presentazione:

Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002 Relatore: Prof. Paolo Tiberio Correlatore: Dott. Federica Mandreoli Ing. Riccardo Martoglia Controrelatore Controrelatore: Prof. Sonia Bergamaschi Tecniche di ranking per linterrogazione approssimata di dati XML

Interrogazione approssimata XML D. Shasha K. Zang J.T.L. Wang Approximate tree matching in the presence of… Journal of algorithms TR June 1994 Documento XML D. Shasha K. Zhang 1994 Interrogazione XML yearauthor article 1994K. ZhangD.shasha Necessità di criteri per la selezione delle risposte approssimate Non sempre esistono soluzioni che rispondono a pieno allinterrogazione Interrogando lalbero XML accediamo a dati di cui non conosciamo lo schema date author article 1994 K. Zang D. Shasha year journal J.T.L. Wang Corr. author keytitle dblp Journal of algorithms

Obiettivi della tesi Metrica di similarità tra alberi Flessibile (fornendo allutente la possibilità di esprimere le proprie Flessibile (fornendo allutente la possibilità di esprimere le proprie preferenze attraverso appositi parametri) preferenze attraverso appositi parametri) Rigorosa (quantificando il valore di dissimilianza tra alberi attraverso Rigorosa (quantificando il valore di dissimilianza tra alberi attraverso il calcolo della tree edit distance unordered) il calcolo della tree edit distance unordered) Efficace (garantendo di produrre risultati utili e di qualità) Efficace (garantendo di produrre risultati utili e di qualità) Algoritmi per la risoluzione di interrogazioni Completi (fornendo allutente tutti e solo i risultati effettivamente utili) Completi (fornendo allutente tutti e solo i risultati effettivamente utili) Efficienti (garantendo prestazioni soddisfacenti attraverso lutilizzo Efficienti (garantendo prestazioni soddisfacenti attraverso lutilizzo di filtri costruiti ad hoc) di filtri costruiti ad hoc)

Parametri year author article 1994D. ShashaK. Zhang Lutente deve poter decidere come penalizzare le soluzioni approssimate trovate Costo locale per ogni rilassamento sui vincoli di parentela padre figlio nellalbero dati Costo locale per ogni nodo query non trovato nellalbero dati Penalizzazioni: Albero query Occorre specificare un limite alle soluzioni approssimate attraverso lintroduzione di un valore di soglia di dissimilarità che permetta di selezionare le soluzioni. Soglia = 3 Parentela: Distanza massima che può esistere nellalbero dati tra due nodi legati nellalbero query, da una relazione padre-figlio Parentela = 2 Per ogni inconsistenza sul contenuto la metrica di dissimilarità e espressa dalla edit distance

Tree Edit Distance Unordered Edit operation: Inserimento Cancellazione Sostituzione Necessità di misurare una distanza tra alberi (unordered) che sia una metrica e che permetta in seguito di selezionare solo le soluzioni per le quali la distanza è inferiore alla soglia T1 R EA BC D T2 R AB CE F Tree edit distance = 2 Costo di cancellazione del nodo D Inserimento del nodo F in T1(Costo di cancellazione nodo F in T2) Supponendo per ciascuna edit operation un costo unitario:

Algoritmo tree edit distance unordered T D CF AB K(T) D CF A Costruiamo tutti i possibili sottoalberi RK(T) D A_C F Riduciamo lalbero affinchè contenga solo nodi Head RK(T) 1 nodo RK(T) 3 nodi RK(T) 5 nodi RK(T) Memorizziamo gli RK(T) secondo Il numero di Head che contengono Consideriamo un albero alla volta e per entrambi determiniamo tutti i possibili sotto alberi

Algoritmo per tree edit distance tra alberi unordered C AB C BARK 3 nodi RK(T1)RK(T2) D CF AB RK 5 nodi D CEGH Teorema: Ogni confronto tra RK(T1) e RK(T2) nel quale Head(RK(T1)) Head(RK(T2)) ha distanza infinita. Tabella HASH Nella tabella Hash il confronto a costo minore rappresenta la tree edit distance Dist = 0 Dist =

Unordered Tree Edit Distance per Interrogazioni Approssimate T1 D CF AB T2 D C F BAHGE Tree Edit Distance: ottima metrica per esprimere la distanza tra alberi ma non adatta alla risoluzione di query Occorre adattare la metrica al contesto delle interrogazioni: Necessità di valutare la distanza tra lalbero query e le sotto parti dellalbero dati per tutti nodi dellalbero dati: Costo_del = 0 Resta problema della complessità: NP-completo Per un albero di m=18 nodi il numero di sottoalberi è limitato da 2 m –1= La complessità è esponenziale al crescere del numero dei nodi degli alberi

Filtro per la ricerca delle parti Necessità di un filtro che limiti la complessità della funzione per il calcolo della Tree Edit Distance T1 D CF AB T2 D C F BAHGE La complessità rimane esponenziale solo per quanto riguarda le dimensioni dellalbero query Identificando i gruppi di nodi dellalbero dati che possono risolvere la query otteniamo degli alberi che contengono al più lo stesso numero di nodi dellalbero query.

Algoritmo Filtro Nodo query BB: 7; 6; 7,2; 7,5; 7,6; 6,5; 2; 5; 6; Nodo query CC: 7,2,4; 7,5,4; 7,6,4; 6,5,4; 7,5; 6,5; 7,4 Gruppi generati: Nodo query AA: 7; 6 3, AA 1, BB2, CC 2, GB 6, AB3, GG 7, AA 1, GF4, CC5, BB Albero query Albero dati Filtro basato sul contenuto: per ogni nodo query si cercano i nodi dati simili per ogni nodo query processato si generano tutti i gruppi di nodi che sono possibili soluzioni 7,2,4; 7,5,4; 7,6,4; 6,5,4;Risultati del filtro: Assunzioni per Tutti i nodi query: Costo_del = 2 Ril_par = 1 Soglia = 3 Parentela = 2

Risultati del filtro 3, AA 1, BB2, CC 2, GB 6, AB3, GG 7, AA 1, GF4, CC5, BB Il filtro individua i gruppi di nodi che possono rispondere alla interrogazione Per i gruppi candidati che soddisfano la query, la distanza coincide con quella calcolata dal filtro 7,2,4 con distanza filtro 3 (reale 3) Risultati del filtro: 7,5,4 con distanza filtro 2 (reale 2) 6,5,4 con distanza filtro 1 (reale 1) 7,6,4 con distanza filtro 1 (reale infinito) Albero query Albero dati

Interrogazione approssimata XML yearauthor article 1994K. ZhangD.shasha date author article 1994 K. Zang D. Shasha year journal J.T.L. Wang Corr. author keytitle dblp Journal of algorithms Riconsideriamo linterrogazione iniziale per la quale lutente ha specificato I seguenti parametri: In dblp esiste una soluzione approssimata. Il filtro propone il gruppo di nodi evidenziati come candidato (distanza 3) Lalgoritmo calcola il relativo valore di dissimilianza con lalbero query mediante la funzione di tree edit distance: Soglia = 3 Parentela = 2 Il candidato è soluzione con valore di dissimilianza = 3

Selettività filtro Efficacia del filtro realizzato al variare del valore di soglia per una interrogazione contenente 6 nodi su di un albero composto da 22. la dimensione dellinsieme candidato prodotto dal filtro è vicina a quella delle soluzioni alla query Il filtro si adatta al valore dei parametri imposti dallutente I parametri della interrogazione sono: Costo_del = 2 Ril_par = 2 Parentela = 2 La complessità dellalgoritmo, complessivamente viene ridotta nel caso peggiore da 2 22 = a 65 x ( 2 6 ) = 4160 con un fattore di riduzione pari a 1000.

Scalabilità (1) Prestazioni dellalgoritmo nel suo complesso al variare del numero di nodi presenti nella query. Valore dei parametri: Soglia = 3 Parentela = 2 Costo_del = 2 Ril_par = 1 Il tempo necessario per convertire il documento XML nella struttura ad albero rappresenta il tempo maggiore e indica la scarsa efficienza di tale funzione. Il tempo richiesto per lesecuzio dellinterrogazione rimane limitato poiché aumentando il numero di nodi della query aumentano i criteri di selettività del filtro.

Scalabilità (2) Loccupazione di memoria presenta un andamento di tipo esponenziale al crescere del numero di nodi della query Valore dei parametri: Soglia = 3 Parentela = 2 Costo_del = 2 Ril_par = 1 Prestazioni dellalgoritmo nel suo complesso al variare del numero di nodi presenti nella query.

Conclusioni Obiettivi conseguiti: Sviluppi futuri: E stata definita una metrica di similarità tra alberi efficace basata sul concetto di Unordered Tree Edit Distance Utilizzando questa metrica è stato definito e affrontato il problema di risoluzione di una query. E stato definito un filtro in grado di ricercare le parti di un albero dati di grandi dimensioni simili allalbero query E stato realizzato in Java un ambiente comune che riunisce queste funzionalità Ricercare criteri per la costruzione dei soli sottoalberi utili Potenziare gli algoritmi proposti per la realizzazione del filtro Migliorare le prestazioni della funzione che converte il documento XML nella struttura ad albero utilizzata dallalgoritmo