UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA

Slides:



Advertisements
Presentazioni simili
I bridge Standard IEEE 802.1D.
Advertisements

UNIVERSITÀ DEGLI STUDI DI PARMA
3A Informatica A.s
una interfaccia internet per il sistema Momis
di Architetture Peer to Peer per la Gestione di Database Distribuiti
Query OQL e XQUERY a confronto
Progetto e realizzazione di un wrapper XML Schema per il sistema MOMIS
Facoltà di Ingegneria di Modena ANALISI E SVILUPPO DI TECNICHE PER
Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico.
a mediatore MOMIS nell’integrazione di
Università degli studi di Modena e Reggio Emilia
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Relatore: Prof. Sonia Bergamaschi Correlatore: Alexandre Passant
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Analisi.
Integrazione di standard di classificazione per le-commerce: una nuova metodologia basata sul sistema MOMIS UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA.
SQL92 e XQuery1.0 a confronto1 SQL92 E XQUERY1.0 A CONFRONTO Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria - Sede di Modena Corso.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Re-engineering del wrapper XML Schema per il sistema MOMIS
1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
Serializzazione di oggetti in formato XML nellambito del sistema MOMIS Davide Lenzi Chiar.mo Prof. Sonia Bergamaschi Chiar.mo Prof. Michele.
Il mio nome è Alain Fergnani e nel corso della tesi mi sono occupato della dinamica delle ontologie per il Web Semantico, e in particolare dell’approccio.
Università degli Studi di Modena e Reggio Emilia
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
Università degli studi di Modena e Reggio Emilia
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e realizzazione.
Progetto e realizzazione del software "Solar Data Manager"
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Ontologie Lessicali Multilingua:
Analisi e Contromisure di tecniche di Sql Injection
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA
Generazione di Piani attraverso Grafi di Pianificazione
Metodologie per la gestione di conoscenza ontologica Prof. M.T. PAZIENZA a.a
Basi di Dati II Sara Romano
Progetto e Sviluppo di un algoritmo per la gestione della Federazione Interdominio in unarchitettura di Service Discovery Candidato: XXX Roma, Febbraio.
Apprendimento di movimenti della testa tramite Hidden Markov Model
Fogli elettronici - Spreadsheet
Fogli di Calcolo Elettronici Corso di Informatica Generale per SMID a.a. 2002/03 docente: Giorgio Delzanno (DISI)
Dipartimento di Sistemi e Informatica
Interrogazione Efficiente di Documenti XML Temporali e una sua Applicazione in Ambito Normativo Enrico Ronchetti Enrico Ronchetti Università degli Studi.
Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA INFORMATICA Relatore: Chiar.mo Prof. Paolo Tiberio.
Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria.
Approssimazione semantica per routing di interrogazioni in un PDMS Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Scienze dellInformazione Applicazione.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Progetto e sviluppo.
Università degli studi di Modena e Reggio Emilia Facoltà di Ingegneria Enzo Ferrari Modena Corso di Laurea in Ingegneria Informatica PROGETTO E SVILUPPO.
Documentazione automatica su un linguaggio schema di Alessandro Modica Relatore: Fabio Vitali.
Studio di euristiche per il miglioramento di algoritmi di ranking per il World-Wide Web Università degli Studi di Milano Corso di Laurea in Informatica.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA DI MODENA Corso di Laurea Specialistica in Ingegneria Informatica PROGETTO E REALIZZAZIONE.
1 Riccardo Mazza Un sistema per la gestione di riferimenti bibliografici con schede di catalogazione in XML Riccardo Mazza SUPSI-Scuola universitaria professionale.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria “Enzo Ferrari” – Sede di Modena Corso di Laurea Specialistica in Ingegneria Informatica.
UNIVERSITA FEDERICO II DI NAPOLI Dipartimento di Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Strumenti per la gestione di DataBase.
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Tesi di Laurea in Ingegneria Informatica
Presentazione del problema Obiettivo: Lapplicazione di Search of Sematic Services permette di ricercare sevizi semantici, ossia servizi a cui sono associati.
1 di 15 Università degli studi di Modena e Reggio Emilia Mail Configurator: un’applicazione ad agenti mobili basata su ruoli dinamici Correlatori: Ing.
Informatica e Algoritmi
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA DIPARTIMENTO DI INGEGNERIA “Enzo Ferrari” Corso di Laurea in Ingegneria Informatica Anno Accademico 2013/2014.
PROGETTO E REALIZZAZIONE DI UN COMPONENTE SOFTWARE PROGRAMMABILE PER LA PIANIFICAZIONE DI COMMISSIONI DI LAUREA FACOLTA’ DI INGEGNERIA Corso di Laurea.
Tecnologie di InternetDocument Type Definition Dott. Nicola Dragoni Document Type Definition  Document Type Definition (DTD)  Documento XML valido 
D.I.Me.Ca. – D.I.Me.Ca. – Università degli Studi di Cagliari Facoltà di Ingegneria Dipartimento di Ingegneria.
Riunione conclusiva della prima fase del progetto Dipartimento di Scienze dell’Ingegneria dell’Università di Modena e Reggio Emilia.
SISTEMI DIDATTICI PER L’ E- LEARNING
B IBLIO S ERVICE consultazione di articoli online Anna Riccioni Progetto per il corso di Reti di Calcolatori L-S Anno Accademico
Università degli Studi di Firenze Facoltà di Ingegneria Dipartimento di Sistemi e Informatica Corso di Laurea in Ingegneria Informatica Modelli e strumenti.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
1 Lixto tools evaluations for HTML data Integration in Momis Lixto tools evaluations for HTML data Integration in Momis Università degli Studi di Modena.
Fabio Rinnone Matricola 667/ Università di Catania Facoltà di SS. MM. FF. NN. Dipartimento di Matematica e Informatica Corso di Laurea di Primo Livello.
Transcript della presentazione:

UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Algoritmi di matching tra schemi XML per la riscrittura di query Relatore: Prof. Paolo Tiberio Correlatore: Dott.sa Federica Mandreoli Tesi di laurea di: Milena Cevolani

Sommario Il progetto ECD e le biblioteche digitali XML Il problema della riscrittura delle query Il matching fra schemi XML Prove sperimentali

Biblioteche Digitali XML Il progetto ECD si concentra sullo sviluppo di tecnologie e strumenti per offrire contenuti arricchiti Uno dei mezzi di distribuzione dei contenuti arricchiti è dato dalle biblioteche digitali Una BD è una raccolta gestita di informazioni, con servizi associati, in cui l’informazione è memorizzata in formato digitale e accessibile su una rete Nelle BD XML lo standard scelto per la rappresentazione dei documenti è il linguaggio XML Nelle BD XML i dati sono semistrutturati

Biblioteche Digitali XML DATI SEMISTRUTTURATI Pregi: Flessibilità Facilità d’uso Difetti: Grandi quantità di informazioni eterogenee Difficoltà a reperire le informazioni nel repository della BD Necessità di eseguire interrogazioni approssimate Uso del linguaggio XML Schema Necessità di uso di metadati che descrivano la struttura dei documenti XML

La riscrittura delle query Per interrogare i documenti XML nell’archivio di una BD bisogna: Definire un linguaggio di interrogazione (XQuery) Riscrivere ogni query posta dall’utente in modo automatico per ogni documento della BD utile a soddisfare la richiesta dell’utente Un possibile approccio Sfruttare le informazioni strutturali fornite dagli schemi XML

La riscrittura delle query “i nomi di negozi che vendono cd di ‘Elisa’ e che contengano canzoni con ‘gift’ nel titolo “ for $x in /cdstore where $x/cd/singer = ELISA and $x/cd/song/title = gift return $x/name  ? ? Schema A Schema B musicstore compackDisk storage stock signboard country namesign colorsign songlist songtitle singer track albumTitle location town cdstore cdtitle cd vocalist address state city tracklist passage title street name

La riscrittura della query Riscrittura automatica di una query: Da dove partire? Uso di ontologie per “annotare” i termini degli schemi XML Una ontologia può essere vista come un insieme di concetti in grado di definire in modo univoco una determinata realtà di interesse Annotazione: codice in Wordnet del significato espresso dal termine Uso di un algoritmo di matching Prende in input coppie di schemi XML “annotati” Restituisce una mappatura con i punteggi di similarità fra le coppie di termini appartenenti ai due schemi

Algoritmo per il matching fra schemi XML Trasformazione degli schemi annotati in grafi etichettati diretti GA=XMLDOMGraph(schema A) GB=XMLDOMGraph(schema B) Creazione della mappatura iniziale initialMap=StringMatcher(GA,GB) Creazione di un multimapping tramite un calcolo di fixpoint multimapping=match(GA,GB,initialMap) Filtraggio del multimapping result=Filter(multimapping)

Trasformazione degli schemi XML Trasformazione degli schemi XML annotati in grafi RDF Gli archi sono identificati da delle triple (s,p,o) Uso dell’etichetta child per identificare le relazioni parent-child bi  [tag:name] schema b0 b1 b3 b2 complexType element cdstore cdstoreType string name tag child type SCHEMA B <schema> <element name="cdstore@3662068" type="cdstoreType@3662068"/> <complexType name="cdstoreType@3662068"> <element name="name@5332759" type="string@5863361"/> <element name="address@6991355" type="addressType@6991355"/> <element name="cd@2679407" type="cdType@2679407"/> </complexType> <complexType name="addressType@6991355"> <element name="city@7017487" type="string@5863361"/> <element name="street@3777764" type="string@5863361"/> <element name="state@6772345" type="string@5863361"/> <complexType name="cdType@2679407"> <element name="vocalist@8680915" type="string@5863361"/> <element name="cdtitle@5337484" type="string@5863361"/> <element name="tracklist@5429385" type="tracklistType@5429385"/> <complexType name="tracklistType@5429385"> <element name="passage@5886415" type="passageType@5886415"/> <complexType name="passageType@5886415"> <element name="title@5337484" type="string@5863361"/> </schema>

Creazione della mappatura iniziale Dai grafi GA e GB si ricava il grafo di connettività a coppie (PCG): (a2, child ,a9)  GA e (b0, child, b1)  GB  ((a2,b0), child, (a9,b1))  PCG GA GB Grafo di connettività a coppie schema schema storageType, string tag type tag musicstore complexType cdstore complexType name tag storage,name a9,b3 element,element b0 name child name a0 tag child tag child child child child a9,b2 a2,b0 a9,b1 b2 b1 name name a2 type name type a1 child type name storage,cdstore tag storage,cdstoreType type child musicstoreType tag cdstoreType element,complexType tag tag storageType,cdstoreType element b3 element a9 complexType,element type type name name musicstoreType,cdstore tag name storage storageType string name a2,b1

Creazione della mappatura iniziale Per ogni coppia di mappe (a,b)  PCG, si calcola il valore iniziale di similarità σ0 come segue: Coppie (risorsa,risorsa) e (risorsa,letterale): σ0 = minSim Coppie (letterale,letterale): Uso del modello Vector Space Generalizzato Uso delle gerarchie di ipernimi di WordNet livello 8 =>singer, vocalist, vocalizer, vocaliser livello 7 =>musician, instrumentalist, player livello 6 =>performer, performing artist livello 5 =>entertainer livello 4 =>person, individual, someone, somebody, mortal, human, soul livello 3 =>organism, being livello 2 =>living thing, animate thing livello 1 =>object, physical object livello 0 =>entity, physical thing livello 3 =>causal agent, cause, causal agency livello 2 =>entity, physical thing livello 8 =>singer,vocalist, vocalizer, vocaliser livello 7 =>musician, instrumentalist, player livello 6 =>performer, performing artist livello 5 =>entertainer livello 4 =>person, individual, someone, somebody, mortal, human, soul livello 3 =>organism, being livello 2 =>living thing, animate thing livello 1 =>object, physical object livello 0 =>entity, physical thing livello 3 =>causal agent, cause, causal agency livello 2 =>entity, physical thing

Creazione della mappatura iniziale Nodi in Schema A Nodi in Schema B 0 musicstore cdstore 1.0 songlist tracklist namesign name track passage 0.5 songtitle title compackDisk cd singer vocalist

Creazione del multimapping Creazione del grafo di propagazione della similarità : Aggiunta di un arco, con direzione opposta Aggiunta dei coefficienti di propagazione w sugli archi con la formula inverse product: storageType,string 0.143 1.0 1.0 0.005 storage,name element, element a9,b3 1.0 1.0 1.0 0.005 1.0 1.0 a9,b2 a2,b0 a9,b1 0.005 0.005 1.0 1.0 1.0 1.0 1.0 1.0 1.0 storage, cdstore storage, cdstoreType 0.013 storageType,cdstoreType element, complexType 1.0 1.0 complexType, element a2,b1 musicstoreType, cdstore 0.01 1.0

Creazione del multimapping Formula di fixpoint: σn + 1 = normalize (σ0 + σn + φ(σ0 + σn)) a2,b1 musicstoreType, cdstore complexType, element 1.0 0.01 storageType,string element, element storage,name a9,b3 a9,b1 a2,b0 a9,b2 storageType,cdstoreType storage, cdstore element, complexType storage, cdstoreType a2,b1 musicstoreType, cdstore complexType, element 1.0 0.005 0.143 0.013 0.01

Convergenza del calcolo di fixpoint La formula di fixpoint corrisponde al calcolo dei cammini casuali sulle catene di Markov L’iterazione continua fino a che (n,n+1) <  Il calcolo converge se il grafo di propagazione è strettamente connesso Uso del dampening: si aggiunge σ0 al calcolo di φ con σ0(a,b) > 0

Filtraggio dei risultati Problema del matrimonio stabile Problema di assegnamento Similarità cumulativa [0,1]-[0,1] Multimapping Vincoli di typing [element:name] [complexType:name] Vincoli di cardinalità [0.n]-[0,n] Filtro Valore di soglia 0.4 mappatura finale (similarità assoluta)

Prove sperimentali Schema B Schema A Nodi in A Nodi in B  0  musicstore compackDisk storage stock signboard country namesign colorsign songlist songtitle singer track albumTitle location town cdstore cdtitle cd vocalist address state city tracklist passage title street Nodi in A Nodi in B  0  [element:musicstore] [complexType:cdstoreType] 0.001 1.0 [complexType:compackDiskType] [element:cd] [complexType:songlistType] [element:tracklist] [element:compackDisk] [complexType:cdType] 0.779 0.755 [complexType:musicstoreType] [element:cdstore] [element:namesign] [element:name] 0.637 [element:songlist] 0.506 [complexType:tracklistType] [element:track] [complexType:passageType] 0.504 [element:passage]

Prove sperimentali Schema A Schema B Schema B1 musicstore compackDisk storage stock signboard country namesign colorsign songlist songtitle singer track albumTitle location town cdstore cdtitle cd vocalist address state city tracklist passage title street cdstore cdtitle cd vocalist address state city tracklist passage title street

Prove sperimentali Schema A Schema B Schema B2 musicstore compackDisk storage stock signboard country namesign colorsign songlist songtitle singer track albumTitle location town cdstore cdtitle cd vocalist address state city tracklist passage title street tradecenter middletown cdstore cdtitle cd vocalist address state city tracklist passage title street

Prove sperimentali Schema A Schema B3 Schema B1 musicstore compackDisk storage stock signboard country namesign colorsign songlist songtitle singer track albumTitle location town cdstore cdtitle cd vocalist address state city tracklist passage title street catalog category code music cdtitle cd vocalist tracklist passage title

Parametri di modulazione Approccio p = q p  q Inverse product Inverse average Inverse total product Inverse total average Combined inverse average Equal 1.0

Parametri di modulazione SIGLA FORMULE DI FIXPOINT FTF σn + 1 = normalize (φ(σ0 + σn)) TFF σn + 1 = normalize (σ0 + φ(σn)) FFT σn + 1 = normalize (σn + φ(σn)) TTF σn + 1 = normalize (σ0 + φ(σ0 + σn)) FTT σn + 1 = normalize (σn + φ(σ0 + σn)) TFT σn + 1 = normalize (σ0 + σn + φ(σn)) TTT σn + 1 = normalize (σ0 + σn + φ(σ0 + σn))

Conclusioni E’ stato implementato un metodo per effettuare in modo automatico il matching fra schemi XML Il metodo proposto si basa sull’utilizzo di ontologie e di informazioni strutturali fornite dagli schemi XML Il valore iniziale di similarità trovato è stato “affinato” tramite un calcolo iterativo di fixpoint Per limitare le mappature trovate, si sono usati dei filtri

Sviluppi Futuri Il software progettato potrà, in futuro, essere sfruttato in un modulo di gestione delle query Un criterio per la riscrittura delle query potrebbe fare uso dei valori σ trovati e combinare insieme : Il problema del matrimonio stabile: implica la determinazione di un matching stabile La similarità relativa: rendere significativo il verso di “attraversamento” degli schemi Query Schema  musicstore compackDisk storage stock signboard country namesign colorsign songlist songtitle singer track albumTitle cdstore location name cd town singer song title