La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Algoritmi di matching tra schemi XML per la riscrittura di query Tesi di laurea di: Milena Cevolani UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà

Presentazioni simili


Presentazione sul tema: "Algoritmi di matching tra schemi XML per la riscrittura di query Tesi di laurea di: Milena Cevolani UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà"— Transcript della presentazione:

1 Algoritmi di matching tra schemi XML per la riscrittura di query Tesi di laurea di: Milena Cevolani UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Relatore: Prof. Paolo Tiberio Correlatore: Dott.sa Federica Mandreoli

2 Sommario Il progetto ECD e le biblioteche digitali XML Il progetto ECD e le biblioteche digitali XML Il problema della riscrittura delle query Il problema della riscrittura delle query Il matching fra schemi XML Il matching fra schemi XML Prove sperimentali Prove sperimentali

3 Biblioteche Digitali XML Il progetto ECD si concentra sullo sviluppo di tecnologie e strumenti per offrire contenuti arricchiti Uno dei mezzi di distribuzione dei contenuti arricchiti è dato dalle biblioteche digitali Una BD è una raccolta gestita di informazioni, con servizi associati, in cui linformazione è memorizzata in formato digitale e accessibile su una rete Nelle BD XML lo standard scelto per la rappresentazione dei documenti è il linguaggio XML Nelle BD XML i dati sono semistrutturati

4 Biblioteche Digitali XML DATI SEMISTRUTTURATI Pregi: Flessibilità Facilità duso Difetti: Grandi quantità di informazioni eterogenee Difficoltà a reperire le informazioni nel repository della BD Necessità di uso di metadati che descrivano la struttura dei documenti XML Uso del linguaggio XML Schema Necessità di eseguire interrogazioni approssimate

5 La riscrittura delle query Definire un linguaggio di interrogazione (XQuery) Riscrivere ogni query posta dallutente in modo automatico per ogni documento della BD utile a soddisfare la richiesta dellutente Un possibile approccio Sfruttare le informazioni strutturali fornite dagli schemi XML Per interrogare i documenti XML nellarchivio di una BD bisogna:

6 La riscrittura delle query Schema ASchema B for $x in /cdstore where $x/cd/singer = ELISA and $x/cd/song/title = gift return $x/name i nomi di negozi che vendono cd di Elisa e che contengano canzoni con gift nel titolo ?? name cdstore cdtitle cd vocalist address statecity tracklist passage title street musicstore compackDisk storage stock signboard countrynamesigncolorsign songlist songtitlesinger track albumTitle location town

7 La riscrittura della query Uso di ontologie per annotare i termini degli schemi XML Una ontologia può essere vista come un insieme di concetti in grado di definire in modo univoco una determinata realtà di interesse Annotazione: codice in Wordnet del significato espresso dal termine Uso di un algoritmo di matching Prende in input coppie di schemi XML annotati Restituisce una mappatura con i punteggi di similarità fra le coppie di termini appartenenti ai due schemi Riscrittura automatica di una query: Da dove partire?

8 Algoritmo per il matching fra schemi XML Trasformazione degli schemi annotati in grafi etichettati diretti G A =XMLDOMGraph(schema A) G B =XMLDOMGraph(schema B) Creazione della mappatura iniziale initialMap=StringMatcher(G A,G B ) Creazione di un multimapping tramite un calcolo di fixpoint multimapping=match(G A,G B,initialMap) Filtraggio del multimapping result=Filter(multimapping)

9 Trasformazione degli schemi XML Trasformazione degli schemi XML annotati in grafi RDF SCHEMA B schema b0 b1 b3 b2 complexType element cdstore cdstoreType string name tag child type name Gli archi sono identificati da delle triple (s,p,o) Uso delletichetta child per identificare le relazioni parent-child bi [tag:name]

10 Creazione della mappatura iniziale Dai grafi G A e G B si ricava il grafo di connettività a coppie (PCG): GAGA GBGB Grafo di connettività a coppie (a2, child,a9) G A e (b0, child, b1) G B ((a2,b0), child, (a9,b1)) PCG schema b0 b1 b3 b2 complexType element cdstore cdstoreType stringname tag child type name storageType, string element,elementstorage,namea9,b3 storage,cdstoreType a9,b2a9,b1a2,b0 element,complexType storage,cdstore storageType,cdstoreType a2,b1 complexType,element musicstoreType,cdstore tag name type child schema element complexType a2 a1 a0 a9 musicstore storagestorageType musicstoreType tag child name type

11 Creazione della mappatura iniziale Per ogni coppia di mappe (a,b) PCG, si calcola il valore iniziale di similarità σ 0 come segue: Coppie (risorsa,risorsa) e (risorsa,letterale): σ 0 = minSim Coppie (letterale,letterale): Uso del modello Vector Space Generalizzato Uso delle gerarchie di ipernimi di WordNet livello 8 =>singer, vocalist, vocalizer, vocaliser livello 7 =>musician, instrumentalist, player livello 6 =>performer, performing artist livello 5 =>entertainer livello 4 =>person, individual, someone, somebody, mortal, human, soul livello 3 =>organism, being livello 2 =>living thing, animate thing livello 1 =>object, physical object livello 0 =>entity, physical thing livello 3 =>causal agent, cause, causal agency livello 2 =>entity, physical thing livello 8 =>singer,vocalist, vocalizer, vocaliser livello 7 =>musician, instrumentalist, player livello 6 =>performer, performing artist livello 5 =>entertainer livello 4 =>person, individual, someone, somebody, mortal, human, soul livello 3 =>organism, being livello 2 =>living thing, animate thing livello 1 =>object, physical object livello 0 =>entity, physical thing livello 3 =>causal agent, cause, causal agency livello 2 =>entity, physical thing

12 Creazione della mappatura iniziale Nodi in Schema ANodi in Schema B 0 musicstorecdstore1.0 songlisttracklist1.0 namesignname1.0 trackpassage0.5 songtitletitle1.0 compackDiskcd1.0 singervocalist1.0

13 Creazione del multimapping w Aggiunta dei coefficienti di propagazione w sugli archi con la formula inverse product: Creazione del grafo di propagazione della similarità : Aggiunta di un arco, con direzione opposta storageType,string element, elementstorage,name a9,b3 a9,b1a2,b0 a9,b2 storageType,cdstoreType storage, cdstore element, complexType storage, cdstoreType a2,b1musicstoreType, cdstorecomplexType, element

14 Creazione del multimapping storageType,string element, elementstorage,name a9,b3 a9,b1a2,b0 a9,b2 storageType,cdstoreType storage, cdstore element, complexType storage, cdstoreType a2,b1musicstoreType, cdstorecomplexType, element Formula di fixpoint: σ n + 1 = normalize (σ 0 + σ n + φ(σ 0 + σ n )) a2,b1musicstoreType, cdstorecomplexType, element

15 Convergenza del calcolo di fixpoint La formula di fixpoint corrisponde al calcolo dei cammini casuali sulle catene di Markov Literazione continua fino a che ( n, n+1 ) < Il calcolo converge se il grafo di propagazione è strettamente connesso Uso del dampening: si aggiunge σ 0 al calcolo di φ con σ 0 (a,b) > 0

16 Filtraggio dei risultati Filtro Vincoli di typing [element:name] [complexType:name] Vincoli di cardinalità [0.n]-[0,n] Multimapping mappatura finale (similarità assoluta) Problema di assegnamento Similarità cumulativa [0,1]-[0,1] Problema del matrimonio stabile Valore di soglia 0.4

17 Prove sperimentali Schema BSchema A musicstore compackDisk storage stock signboard countrynamesigncolorsign songlist songtitlesinger track albumTitle location town cdstore cdtitle cd vocalist address statecity tracklist passage title street Nodi in ANodi in B 0 [element:musicstore][complexType:cdstoreType] [complexType:compackDiskType][element:cd] [complexType:songlistType][element:tracklist] [element:compackDisk][complexType:cdType] [element:compackDisk][element:cd] [complexType:musicstoreType][element:cdstore] [element:namesign][element:name] [element:musicstore][element:cdstore] [element:songlist][element:tracklist] [element:songlist][complexType:tracklistType] [element:track][complexType:passageType] [element:track][element:passage]

18 Prove sperimentali Schema A musicstore compackDisk storage stock signboard countrynamesigncolorsign songlist songtitlesinger track albumTitle location town cdstore cdtitle cd vocalist address statecity tracklist passage title street Schema BSchema B1 cdstore cdtitle cd vocalist address statecity tracklist passage title street

19 Prove sperimentali Schema A cdstore cdtitle cd vocalist address statecity tracklist passage title street musicstore compackDisk storage stock signboard countrynamesigncolorsign songlist songtitlesinger track albumTitle location town Schema BSchema B2 cdstore cdtitle cd vocalist address statecity tracklist passage title street tradecenter middletown

20 Prove sperimentali Schema A musicstore compackDisk storage stock signboard countrynamesigncolorsign songlist songtitlesinger track albumTitle location town cdstore cdtitle cd vocalist address statecity tracklist passage title street catalog categorycode music cdtitle cd vocalist tracklist passage title Schema B1 Schema B3

21 Parametri di modulazione Approcciop = q p q Inverse product0 Inverse average0 Inverse total product 0 Inverse total average 0 Combined inverse average 0 Equal1.00

22 Parametri di modulazione SIGLAFORMULE DI FIXPOINT FTFσ n + 1 = normalize (φ(σ 0 + σ n )) TFFσ n + 1 = normalize (σ 0 + φ(σ n )) FFTσ n + 1 = normalize (σ n + φ(σ n )) TTFσ n + 1 = normalize (σ 0 + φ(σ 0 + σ n )) FTTσ n + 1 = normalize (σ n + φ(σ 0 + σ n )) TFTσ n + 1 = normalize (σ 0 + σ n + φ(σ n )) TTTσ n + 1 = normalize (σ 0 + σ n + φ(σ 0 + σ n ))

23 Conclusioni E stato implementato un metodo per effettuare in modo automatico il matching fra schemi XML Il metodo proposto si basa sullutilizzo di ontologie e di informazioni strutturali fornite dagli schemi XML Il valore iniziale di similarità trovato è stato affinato tramite un calcolo iterativo di fixpoint Per limitare le mappature trovate, si sono usati dei filtri

24 Sviluppi Futuri Il software progettato potrà, in futuro, essere sfruttato in un modulo di gestione delle query Un criterio per la riscrittura delle query potrebbe fare uso dei valori σ trovati e combinare insieme : Il problema del matrimonio stabile: implica la determinazione di un matching stabile La similarità relativa: rendere significativo il verso di attraversamento degli schemi QuerySchema cdstore songsinger cdname title town location musicstore compackDisk storage stock signboard countrynamesigncolorsign songlist songtitlesinger track albumTitle


Scaricare ppt "Algoritmi di matching tra schemi XML per la riscrittura di query Tesi di laurea di: Milena Cevolani UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà"

Presentazioni simili


Annunci Google