Approssimazione semantica per routing di interrogazioni in un PDMS Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea.

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

Presentazione della tesi di laurea di Flavio Casadei Della Chiesa Newsletter: un framework per una redazione web.
UnIntroduzione allInteroperabilità di Impresa Claudia Diamantini Dipartimento di Ingegneria Informatica, Gestionale e dellAutomazione Università Politecnica.
UNIVERSITÀ DEGLI STUDI DI PARMA
Classe III A A.s – 2010 Programma di Informatica
Classe IV B A.s – 2009 Programma di Informatica 6 ore (3 laboratorio) Docenti –Prof. Alberto Ferrari –Prof. Alberto Paganuzzi.
Classe V B A.s – 2008 Programma di Informatica Docenti
Classe V A A.s – 2013 Programma di Informatica 5 ore (3 laboratorio) Docenti –Prof. Alberto Ferrari –Prof. Alberto Paganuzzi.
Classe III A A.s – 2011 Programma di Informatica 5 ore settimanali (3 laboratorio) Docenti –Prof. Alberto Ferrari –Prof. Alberto Paganuzzi.
una interfaccia internet per il sistema Momis
di Architetture Peer to Peer per la Gestione di Database Distribuiti
Query OQL e XQUERY a confronto
Progetto e realizzazione di un wrapper XML Schema per il sistema MOMIS
Obiettivo della tesi Percorso
Università degli studi di Modena e Reggio Emilia
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Analisi.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Re-engineering del wrapper XML Schema per il sistema MOMIS
Peer to Peer DBMS: il sistema FOAF Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Università degli.
1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.
U NIVERISTÀ DEGLI S TUDI DI M ODENA E R EGGIO E MILIA Facoltà di Ingegneria - Sede di Modena Corso di Laurea in Ingegneria Informatica Dinamica delle Ontologie:
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA
Università degli studi di Modena e Reggio Emilia
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e realizzazione.
Progetto e realizzazione del software "Solar Data Manager"
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Ontologie Lessicali Multilingua:
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA
COMPARAZIONE DI STRUMENTI SOFTWARE PER LA CREAZIONE, LA GESTIONE E LINTEGRAZIONE DI ONTOLOGIE Università degli Studi Modena e Reggio Emilia Facoltà di.
Il progetto Media Library e nuovi servizi via web Gabriele Iotti 18 novembre Biblioteca di Scandiano Conferenze di Servizio.
IL PATRIMONIO DI DATI - LE BASI DI DATI. Il patrimonio dei dati Il valore del patrimonio di dati: –Capacità di rispondere alle esigenze informative di.
Progetto e Sviluppo di un algoritmo per la gestione della Federazione Interdominio in unarchitettura di Service Discovery Candidato: XXX Roma, Febbraio.
Tema 1: Integrazione di dati provenienti da sorgenti eterogenee
Rassegna sui metodi per query rewriting e il query answering using views.
D2I Integrazione, Warehousing e Mining di sorgenti eterogenee Tema 2: Progettazione e interrogazione di Data Warehouse Unita' coinvolte nel tema Università
Interrogazione Efficiente di Documenti XML Temporali e una sua Applicazione in Ambito Normativo Enrico Ronchetti Enrico Ronchetti Università degli Studi.
Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA INFORMATICA Relatore: Chiar.mo Prof. Paolo Tiberio.
Daniel Stoilov Tesi di Laurea
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA
Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Scienze dellInformazione Applicazione.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Progetto e sviluppo.
Università di Roma La Sapienza Dipartimento di Informatica e Sistemistica Progetto IS-MANET WP3: Algoritmi e modelli Milano
KAPPAELLE 2008 Roberto Pirrone Università degli Studi Palermo
1 Internet e nuove tecnologie Anno Accademico Prof. Flavio De Paoli Dott. Marco Loregian.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA DI MODENA Corso di Laurea Specialistica in Ingegneria Informatica PROGETTO E REALIZZAZIONE.
Applicazioni di modelli matematici alla ricerca semantica
Frontespizio tesi Fromtespizio tesi Introduzione
Proposta di unImplementazione per i Servizi di Localizzazione e Traffic Monitoring nellIntelligent Trasportation System Pegasus UNIVERSITÀ DEGLI STUDI.
UNIVERSITA’ POLITECNICA DELLE MARCHE
LA QUALITA’ NELLA PROGRAMMAZIONE DELL’ESERCIZIO
Introduzione a Oracle 9i
Un motion planner per guide multimediali interattive
Risultati complessivi Diego Ragazzi
Tecnologie delle Costruzioni Aeronautiche 1 Esercitazione 3 © Goran Ivetic.
 La tesi si inquadra nell’ambito del Sistema MOMIS, realizzato da DataRiver, rilasciato giovedì15 aprile in una prima versione Open Source, ed è stata.
Architettura dei Servizi di Directory Università Cattolica del Sacro Cuore - Sede di Brescia - Facoltà di Scienze Matematiche Fisiche e Naturali Corso.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA DIPARTIMENTO DI INGEGNERIA “Enzo Ferrari” Corso di Laurea in Ingegneria Informatica Anno Accademico 2013/2014.
Classe IV A A.s – 2013 Programma di Informatica 5 ore (3 laboratorio) Docenti –Prof. Alberto Ferrari –Prof. Alberto Paganuzzi.
Progettazione di basi di dati: metodologie e modelli
Università degli Studi di Firenze Facoltà di Ingegneria Dipartimento di Sistemi e Informatica Corso di Laurea in Ingegneria Informatica Modelli e strumenti.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
Tecniche di ricerca semantica a supporto del recupero di link di tracciabilità tra artefatti software RelatoreCandidato Chiar.mo Prof. Rocco OlivetoStefano.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Le basi di dati.
Laurea Magistrale in Informatica Architetture basi di dati A.A Docente: Prof. Carlo Batini Proprieta’ e caratteristiche strutturali dei sistemi.
Transcript della presentazione:

Approssimazione semantica per routing di interrogazioni in un PDMS Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea Specialistica in Ingegneria Informatica Anno Accademico 2004/2005 Relatore: Dott. Federica Mandreoli Correlatore Correlatore: Ing. Riccardo Martoglia Simona Sassatelli

Ambito di ricerca: Progetto nazionale WISDOM (Web Intelligent Search based on DOMain ontologies) definizione di tecniche e strumenti per la ricerca, la localizzazione e la fruizione personalizzata di risorse informative disponibili su Web Obiettivo Peer Data Management System (PDMS) Architettura di riferimento Ambito di indagine della tesi: Sviluppo di tecniche che permettono di operare sulla base di informazioni semantiche Processo di routing delle interrogazioni Obiettivo

Peer Data Management System (PDMS) Rete di peer indipendenti ed autonomi Rete di peer indipendenti ed autonomi Architettura decentralizzata e facilmente estensibile (Peer-to-Peer) Architettura decentralizzata e facilmente estensibile (Peer-to-Peer) I peer decidono liberamente di condividere i propri dati I peer decidono liberamente di condividere i propri dati nessuno schema logico mediato globale nessuno schema logico mediato globale relazioni semantiche stabilite localmente tra i singoli peer (mapping) relazioni semantiche stabilite localmente tra i singoli peer (mapping) I peer collaborano nel risolvere le interrogazioni poste dagli utenti I peer collaborano nel risolvere le interrogazioni poste dagli utenti query poste usando lo schema del peer query poste usando lo schema del peer risposte provenienti da tutto il sistema risposte provenienti da tutto il sistema UWStanford DBLP Roma Paris CiteSeer Vienna Q Q Q Q Q Q Q

Problematiche affrontate nella tesi Gestione delleterogeneità delle sorgenti coinvolte Gestione delleterogeneità delle sorgenti coinvolte Indici di Routing Semantici (SRI) Indici di Routing Semantici (SRI) Gestione dellambiente P2P Gestione dellambiente P2P Simulazione Simulazione

Gestione delleterogeneità dei peer Mapping semantici locali Mapping semantici locali approccio basato sul concetto di approssimazione semantica approccio basato sul concetto di approssimazione semantica Peer indipendenti Peer indipendenti eterogenei negli schemi adottati per rappresentare i dati eterogenei negli schemi adottati per rappresentare i dati Sistema XML S 3 MART Sistema XML S 3 MART sviluppato presso lUniversità di Modena e Reggio Emilia sviluppato presso lUniversità di Modena e Reggio Emilia riscrittura di interrogazioni su insiemi di documenti eterogenei riscrittura di interrogazioni su insiemi di documenti eterogenei

Schema A Schema B cdstore cdtitle cd vocalist address statecity tracklist passage title street musicstore compactDisk storage stock signboard countrynamesign colorsign songlist songtitle singer track albumTitle location town name XML S 3 MART B B C C A A D D …/stock/compactDisk /cdstore/cdA /musicstore/location/cdstore/addressB …/track/songtitle…/passage/titleC …/compactDisk/albumTitle…/cd/cdtitleD… 1. SCHEMA MATCHING 2. QUERY REWRITING FOR $x IN /musicstore WHERE $x//compactDisk/songlist/track/singer = "elisa" AND $x//compactDisk/songlist/track/songtitle = "gift" RETURN $x/signboard/namesign FOR $x IN /cdstore WHERE $x/cd/vocalist = "elisa" AND $x/cd/tracklist/passage/title = "gift" RETURN $x/name

Limiti di XML S 3 MART Progettato per un contesto centralizzato (digital library eterogenee) Progettato per un contesto centralizzato (digital library eterogenee) per ogni coppia di schemi individua le migliori corrispondenze tra i concetti per ogni coppia di schemi individua le migliori corrispondenze tra i concetti Ambiente distribuito P2P Ambiente distribuito P2P routing delle query routing delle query A D C B E F G H I J Q Q Q Q Q Q Q Q Q Q Non è sempre conveniente propagare una query verso altri nodi Non è sempre conveniente propagare una query verso altri nodi traffico di rete traffico di rete dati inutili per lutente dati inutili per lutente

Modifiche a XML S 3 MART XML S 3 MART processa gli schemi a coppie XML S 3 MART processa gli schemi a coppie punteggi di mapping non utilizzabili per eseguire il routing punteggi di mapping non utilizzabili per eseguire il routing A D C B Q? Q Reingegnerizzazione: Reingegnerizzazione: modifica della struttura concettuale da uno-a-uno a uno-a-molti modifica della struttura concettuale da uno-a-uno a uno-a-molti correzione del calcolo iterativo di fixpoint correzione del calcolo iterativo di fixpoint adattamento delloperazione di normalizzazione adattamento delloperazione di normalizzazione Punteggi comparabili Punteggi comparabili Calcolo dei punteggi efficiente e incrementale Calcolo dei punteggi efficiente e incrementale

Problematiche affrontate nella tesi Gestione delleterogeneità delle sorgenti coinvolte Gestione delleterogeneità delle sorgenti coinvolte Indici di Routing Semantici (SRI) Indici di Routing Semantici (SRI) Gestione dellambiente P2P Gestione dellambiente P2P Simulazione Simulazione

Routing by mapping Necessità di considerare le intere sottoreti che hanno origine dai peer vicini. Necessità di considerare le intere sottoreti che hanno origine dai peer vicini. Informazioniriassuntive A D C B E F G H I J Non è possibile che ogni peer calcoli i mapping con tutti gli altri Non è possibile che ogni peer calcoli i mapping con tutti gli altri query propagate solo ai peer con un elevato punteggio per i concetti richiesti Q

Indici di Routing Semantici (SRI) Strutture dati locali ad ogni peer Strutture dati locali ad ogni peer Informazioni riassuntive di come ogni elemento dello schema di un peer viene approssimato semanticamente nelle sottoreti che hanno origine dai vicini Informazioni riassuntive di come ogni elemento dello schema di un peer viene approssimato semanticamente nelle sottoreti che hanno origine dai vicini J A B C I SRI A a1a1a1a1 a2a2a2a2… a5a5a5a5 A0.80.9…0.7 B0.60.0…0.5 C0.40.5…0.6 Esempio: Esempio:

Costruzione delle informazioni riassuntive Calcolate a partire dai punteggi di mapping determinati con XML S 3 MART: 1. AGGREGAZIONE: informazione riassuntiva per punteggi di mapping che hanno lo stesso schema source 2. COMPOSIZIONE: informazione riassuntiva per due punteggi di mapping in cui lo schema target del primo corrisponde allo schema source del secondo. A B C D A B C SRI A a1a1a1a1 a2a2a2a2… anananan A0.80.9…0.7 B0.60.6…0.5 C0.40.5…0.6 D0.70.7…0.3 …………… a1a1a1a1 a2a2a2a2… ananananA0.80.9…0.7 B0.60.6…0.5 …………… SRI B b1b1b1b1 b2b2b2b2… bmbmbmbmB0.80.9…0.7 C0.60.6…0.5 A ……………

Modello matematico ispirato alla logica fuzzy Modello matematico ispirato alla logica fuzzy mapping relazione fuzzy mapping relazione fuzzy punteggio grado di membership punteggio grado di membership M(S A,S B ) S A S B Costruzione delle informazioni riassuntive AGGREGAZIONE unione tra fuzzy set AGGREGAZIONE unione tra fuzzy set COMPOSIZIONE composizione tra relazioni fuzzy rappresentate dai corrispondenti fuzzy set COMPOSIZIONE composizione tra relazioni fuzzy rappresentate dai corrispondenti fuzzy set μ M : S A S B [0,1]

Funzioni matematiche da impiegare: AGGREGAZIONE Proprietà: Esempi:

Funzioni matematiche da impiegare: COMPOSIZIONE Proprietà: Esempi:

Problematiche affrontate nella tesi Gestione delleterogeneità delle sorgenti coinvolte Gestione delleterogeneità delle sorgenti coinvolte Indici di Routing Semantici (SRI) Indici di Routing Semantici (SRI) Gestione dellambiente P2P Gestione dellambiente P2P Simulazione Simulazione

Gestione dellambiente P2P Ambiente P2P: entità autonome e indipendenti Ambiente P2P: entità autonome e indipendenti libera scelta degli istanti di connessione libera scelta degli istanti di connessione libera scelta dei vicini libera scelta dei vicini Nuovo modulo che gestisce lambiente P2P Nuovo modulo che gestisce lambiente P2P Strutture dati Strutture dati Protocollo di interazione tra i peer Protocollo di interazione tra i peer Algoritmi per la connessione di nuovi nodi e laggiornamento degli indici Algoritmi per la connessione di nuovi nodi e laggiornamento degli indici

Esempio di connessione e aggiornamento A SRI D d1d1d1d1 d2d2d2d2… djdjdjdj D E F SRI B b1b1b1b1 b2b2b2b2… bmbmbmbmB A SRI C c1c1c1c1 c2c2c2c2… crcrcrcrC A SRI E e1e1e1e1 e2e2e2e2… ekekekekE D SRI F f1f1f1f1 f2f2f2f2… fifififiF D F E C B D 1. RICHIESTA CONNESSIONE 2. RISPOSTA CONNESSIONE SRI A a1a1a1a1 a2a2a2a2… ananananA B C D a1a1a1a1 a2a2a2a2… ananananA B C SRI D d1d1d1d1 d2d2d2d2… djdjdjdjD E F A 3. RICHIESTA AGGIORNAMENTO 4.1 RISPOSTA AGGIORNAMENTO 4.2 RISPOSTA AGGIORNAMENTO 4.3 RISPOSTA AGGIORNAMENTO SRI A a1a1a1a1 a2a2a2a2… ananananA B C D SRI D d1d1d1d1 d2d2d2d2… djdjdjdjD E F A

Problematiche affrontate nella tesi Gestione delleterogeneità delle sorgenti coinvolte Gestione delleterogeneità delle sorgenti coinvolte Indici di Routing Semantici (SRI) Indici di Routing Semantici (SRI) Gestione dellambiente P2P Gestione dellambiente P2P Simulazione Simulazione

Prove sperimentali Carenza di PDMS liberamente impiegabili e modificabili a scopo di test Carenza di PDMS liberamente impiegabili e modificabili a scopo di test simulazione simulazione Ambiente di simulazione a eventi discreti Ambiente di simulazione a eventi discreti definizione di un modello per il sistema definizione di un modello per il sistema utilizzo di SimJava 2.0 utilizzo di SimJava 2.0 Scenario per la simulazione Scenario per la simulazione rete di peer rete di peer schemi di argomento diverso schemi di argomento diverso due tipi di test: due tipi di test: 1.Confrontabilità tra i punteggi di mapping 2.Efficacia degli indici di routing semantici

Risultati: Confrontabilità dei mapping 1

Risultati: Efficacia degli indici di routing semantici (a) Situazione iniziale (b) Situazione finale

Efficacia degli indici di routing semantici

Conclusioni Studio delle problematiche dei PDMS Studio delle problematiche dei PDMS Gestione delleterogeneità dei peer Gestione delleterogeneità dei peer Mapping semantici locali Mapping semantici locali Modifiche a XML S 3 MART Modifiche a XML S 3 MART Indici di routing semantici Indici di routing semantici Routing by mapping Routing by mapping Creazione delle informazioni riassuntive Creazione delle informazioni riassuntive Modello matematico fuzzy Modello matematico fuzzy Gestione dellambiente P2P Gestione dellambiente P2P Nuovo modulo Nuovo modulo Strutture dati e protocollo Strutture dati e protocollo Simulazione Simulazione Ambiente di esecuzione P2P Ambiente di esecuzione P2P Prove sperimentali Prove sperimentali Sviluppi futuri Informazioni quantitative Informazioni quantitative dati indici di routing quantitativi dati indici di routing quantitativi valori content summary valori content summary Simulazione con reti più complesse e query reali Simulazione con reti più complesse e query reali Introdurre metriche di valutazione proprie dei sistemi di information retrieval Introdurre metriche di valutazione proprie dei sistemi di information retrieval