Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoGervasio Costa Modificato 10 anni fa
1
Approssimazione semantica per routing di interrogazioni in un PDMS Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea Specialistica in Ingegneria Informatica Anno Accademico 2004/2005 Relatore: Dott. Federica Mandreoli Correlatore Correlatore: Ing. Riccardo Martoglia Simona Sassatelli
2
Ambito di ricerca: Progetto nazionale WISDOM (Web Intelligent Search based on DOMain ontologies) definizione di tecniche e strumenti per la ricerca, la localizzazione e la fruizione personalizzata di risorse informative disponibili su Web Obiettivo Peer Data Management System (PDMS) Architettura di riferimento Ambito di indagine della tesi: Sviluppo di tecniche che permettono di operare sulla base di informazioni semantiche Processo di routing delle interrogazioni Obiettivo
3
Peer Data Management System (PDMS) Rete di peer indipendenti ed autonomi Rete di peer indipendenti ed autonomi Architettura decentralizzata e facilmente estensibile (Peer-to-Peer) Architettura decentralizzata e facilmente estensibile (Peer-to-Peer) I peer decidono liberamente di condividere i propri dati I peer decidono liberamente di condividere i propri dati nessuno schema logico mediato globale nessuno schema logico mediato globale relazioni semantiche stabilite localmente tra i singoli peer (mapping) relazioni semantiche stabilite localmente tra i singoli peer (mapping) I peer collaborano nel risolvere le interrogazioni poste dagli utenti I peer collaborano nel risolvere le interrogazioni poste dagli utenti query poste usando lo schema del peer query poste usando lo schema del peer risposte provenienti da tutto il sistema risposte provenienti da tutto il sistema UWStanford DBLP Roma Paris CiteSeer Vienna Q Q Q Q Q Q Q
4
Problematiche affrontate nella tesi Gestione delleterogeneità delle sorgenti coinvolte Gestione delleterogeneità delle sorgenti coinvolte Indici di Routing Semantici (SRI) Indici di Routing Semantici (SRI) Gestione dellambiente P2P Gestione dellambiente P2P Simulazione Simulazione
5
Gestione delleterogeneità dei peer Mapping semantici locali Mapping semantici locali approccio basato sul concetto di approssimazione semantica approccio basato sul concetto di approssimazione semantica Peer indipendenti Peer indipendenti eterogenei negli schemi adottati per rappresentare i dati eterogenei negli schemi adottati per rappresentare i dati Sistema XML S 3 MART Sistema XML S 3 MART sviluppato presso lUniversità di Modena e Reggio Emilia sviluppato presso lUniversità di Modena e Reggio Emilia riscrittura di interrogazioni su insiemi di documenti eterogenei riscrittura di interrogazioni su insiemi di documenti eterogenei
6
Schema A Schema B cdstore cdtitle cd vocalist address statecity tracklist passage title street musicstore compactDisk storage stock signboard countrynamesign colorsign songlist songtitle singer track albumTitle location town name XML S 3 MART B B C C A A D D …/stock/compactDisk /cdstore/cdA /musicstore/location/cdstore/addressB …/track/songtitle…/passage/titleC …/compactDisk/albumTitle…/cd/cdtitleD… 1. SCHEMA MATCHING 2. QUERY REWRITING FOR $x IN /musicstore WHERE $x//compactDisk/songlist/track/singer = "elisa" AND $x//compactDisk/songlist/track/songtitle = "gift" RETURN $x/signboard/namesign FOR $x IN /cdstore WHERE $x/cd/vocalist = "elisa" AND $x/cd/tracklist/passage/title = "gift" RETURN $x/name
7
Limiti di XML S 3 MART Progettato per un contesto centralizzato (digital library eterogenee) Progettato per un contesto centralizzato (digital library eterogenee) per ogni coppia di schemi individua le migliori corrispondenze tra i concetti per ogni coppia di schemi individua le migliori corrispondenze tra i concetti Ambiente distribuito P2P Ambiente distribuito P2P routing delle query routing delle query A D C B E F G H I J Q Q Q Q Q Q Q Q Q Q Non è sempre conveniente propagare una query verso altri nodi Non è sempre conveniente propagare una query verso altri nodi traffico di rete traffico di rete dati inutili per lutente dati inutili per lutente
8
Modifiche a XML S 3 MART XML S 3 MART processa gli schemi a coppie XML S 3 MART processa gli schemi a coppie punteggi di mapping non utilizzabili per eseguire il routing punteggi di mapping non utilizzabili per eseguire il routing A D C B Q? Q Reingegnerizzazione: Reingegnerizzazione: modifica della struttura concettuale da uno-a-uno a uno-a-molti modifica della struttura concettuale da uno-a-uno a uno-a-molti correzione del calcolo iterativo di fixpoint correzione del calcolo iterativo di fixpoint adattamento delloperazione di normalizzazione adattamento delloperazione di normalizzazione Punteggi comparabili Punteggi comparabili Calcolo dei punteggi efficiente e incrementale Calcolo dei punteggi efficiente e incrementale
9
Problematiche affrontate nella tesi Gestione delleterogeneità delle sorgenti coinvolte Gestione delleterogeneità delle sorgenti coinvolte Indici di Routing Semantici (SRI) Indici di Routing Semantici (SRI) Gestione dellambiente P2P Gestione dellambiente P2P Simulazione Simulazione
10
Routing by mapping Necessità di considerare le intere sottoreti che hanno origine dai peer vicini. Necessità di considerare le intere sottoreti che hanno origine dai peer vicini. Informazioniriassuntive A D C B E F G H I J Non è possibile che ogni peer calcoli i mapping con tutti gli altri Non è possibile che ogni peer calcoli i mapping con tutti gli altri query propagate solo ai peer con un elevato punteggio per i concetti richiesti Q
11
Indici di Routing Semantici (SRI) Strutture dati locali ad ogni peer Strutture dati locali ad ogni peer Informazioni riassuntive di come ogni elemento dello schema di un peer viene approssimato semanticamente nelle sottoreti che hanno origine dai vicini Informazioni riassuntive di come ogni elemento dello schema di un peer viene approssimato semanticamente nelle sottoreti che hanno origine dai vicini J A B C I SRI A a1a1a1a1 a2a2a2a2… a5a5a5a5 A0.80.9…0.7 B0.60.0…0.5 C0.40.5…0.6 Esempio: Esempio:
12
Costruzione delle informazioni riassuntive Calcolate a partire dai punteggi di mapping determinati con XML S 3 MART: 1. AGGREGAZIONE: informazione riassuntiva per punteggi di mapping che hanno lo stesso schema source 2. COMPOSIZIONE: informazione riassuntiva per due punteggi di mapping in cui lo schema target del primo corrisponde allo schema source del secondo. A B C D A B C SRI A a1a1a1a1 a2a2a2a2… anananan A0.80.9…0.7 B0.60.6…0.5 C0.40.5…0.6 D0.70.7…0.3 …………… a1a1a1a1 a2a2a2a2… ananananA0.80.9…0.7 B0.60.6…0.5 …………… SRI B b1b1b1b1 b2b2b2b2… bmbmbmbmB0.80.9…0.7 C0.60.6…0.5 A0.40.70.3 ……………
13
Modello matematico ispirato alla logica fuzzy Modello matematico ispirato alla logica fuzzy mapping relazione fuzzy mapping relazione fuzzy punteggio grado di membership punteggio grado di membership M(S A,S B ) S A S B Costruzione delle informazioni riassuntive AGGREGAZIONE unione tra fuzzy set AGGREGAZIONE unione tra fuzzy set COMPOSIZIONE composizione tra relazioni fuzzy rappresentate dai corrispondenti fuzzy set COMPOSIZIONE composizione tra relazioni fuzzy rappresentate dai corrispondenti fuzzy set μ M : S A S B [0,1]
14
Funzioni matematiche da impiegare: AGGREGAZIONE Proprietà: Esempi:
15
Funzioni matematiche da impiegare: COMPOSIZIONE Proprietà: Esempi:
16
Problematiche affrontate nella tesi Gestione delleterogeneità delle sorgenti coinvolte Gestione delleterogeneità delle sorgenti coinvolte Indici di Routing Semantici (SRI) Indici di Routing Semantici (SRI) Gestione dellambiente P2P Gestione dellambiente P2P Simulazione Simulazione
17
Gestione dellambiente P2P Ambiente P2P: entità autonome e indipendenti Ambiente P2P: entità autonome e indipendenti libera scelta degli istanti di connessione libera scelta degli istanti di connessione libera scelta dei vicini libera scelta dei vicini Nuovo modulo che gestisce lambiente P2P Nuovo modulo che gestisce lambiente P2P Strutture dati Strutture dati Protocollo di interazione tra i peer Protocollo di interazione tra i peer Algoritmi per la connessione di nuovi nodi e laggiornamento degli indici Algoritmi per la connessione di nuovi nodi e laggiornamento degli indici
18
Esempio di connessione e aggiornamento A SRI D d1d1d1d1 d2d2d2d2… djdjdjdj D E F SRI B b1b1b1b1 b2b2b2b2… bmbmbmbmB A SRI C c1c1c1c1 c2c2c2c2… crcrcrcrC A SRI E e1e1e1e1 e2e2e2e2… ekekekekE D SRI F f1f1f1f1 f2f2f2f2… fifififiF D F E C B D 1. RICHIESTA CONNESSIONE 2. RISPOSTA CONNESSIONE SRI A a1a1a1a1 a2a2a2a2… ananananA B C D a1a1a1a1 a2a2a2a2… ananananA B C SRI D d1d1d1d1 d2d2d2d2… djdjdjdjD E F A 3. RICHIESTA AGGIORNAMENTO 4.1 RISPOSTA AGGIORNAMENTO 4.2 RISPOSTA AGGIORNAMENTO 4.3 RISPOSTA AGGIORNAMENTO SRI A a1a1a1a1 a2a2a2a2… ananananA B C D SRI D d1d1d1d1 d2d2d2d2… djdjdjdjD E F A
19
Problematiche affrontate nella tesi Gestione delleterogeneità delle sorgenti coinvolte Gestione delleterogeneità delle sorgenti coinvolte Indici di Routing Semantici (SRI) Indici di Routing Semantici (SRI) Gestione dellambiente P2P Gestione dellambiente P2P Simulazione Simulazione
20
Prove sperimentali Carenza di PDMS liberamente impiegabili e modificabili a scopo di test Carenza di PDMS liberamente impiegabili e modificabili a scopo di test simulazione simulazione Ambiente di simulazione a eventi discreti Ambiente di simulazione a eventi discreti definizione di un modello per il sistema definizione di un modello per il sistema utilizzo di SimJava 2.0 utilizzo di SimJava 2.0 Scenario per la simulazione Scenario per la simulazione rete di peer rete di peer schemi di argomento diverso schemi di argomento diverso due tipi di test: due tipi di test: 1.Confrontabilità tra i punteggi di mapping 2.Efficacia degli indici di routing semantici
21
Risultati: Confrontabilità dei mapping 1
22
Risultati: Efficacia degli indici di routing semantici (a) Situazione iniziale (b) Situazione finale
23
Efficacia degli indici di routing semantici
24
Conclusioni Studio delle problematiche dei PDMS Studio delle problematiche dei PDMS Gestione delleterogeneità dei peer Gestione delleterogeneità dei peer Mapping semantici locali Mapping semantici locali Modifiche a XML S 3 MART Modifiche a XML S 3 MART Indici di routing semantici Indici di routing semantici Routing by mapping Routing by mapping Creazione delle informazioni riassuntive Creazione delle informazioni riassuntive Modello matematico fuzzy Modello matematico fuzzy Gestione dellambiente P2P Gestione dellambiente P2P Nuovo modulo Nuovo modulo Strutture dati e protocollo Strutture dati e protocollo Simulazione Simulazione Ambiente di esecuzione P2P Ambiente di esecuzione P2P Prove sperimentali Prove sperimentali Sviluppi futuri Informazioni quantitative Informazioni quantitative dati indici di routing quantitativi dati indici di routing quantitativi valori content summary valori content summary Simulazione con reti più complesse e query reali Simulazione con reti più complesse e query reali Introdurre metriche di valutazione proprie dei sistemi di information retrieval Introdurre metriche di valutazione proprie dei sistemi di information retrieval
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.