D2I- Integrazione, Warehousing e Mining di sorgenti eterogenee Francesco Buccafurri, Luigi Palopoli, Domenico Rosaci, Giorgio Terracina, Domenico Ursino SIPE – Prototipo per lestrazione di proprietà inter-sorgente
Estrazione di Proprietà inter-sorgente Le proprietà intersorgente considerate sono: –Sinonimie –Omonimie –Similarità tra sotto-sorgenti
Rappresentazione delle sorgenti Data una sorgente S, la SDR-Network Net(S) associate è Net(S) = N(S) rappresenta linsieme dei nodi; ciascun nodo e associato ad un concetto ed e caratterizzato dal nome del concetto che rappresenta A(S) indica un insieme di archi; ciascun arco è rappresentato dalla tripletta ed indica una relazione tra concetti –x è il nodo sorgente, –y è il nodo target, –L xy = [d xy, r xy ] è unetichetta associata allarco d xy rappresenta la distanza semantica r xy indica la rilevanza semantica
Esempio
Estrazione delle proprietà inter-sorgente Estrazione di Sinonimie ed omonimie –Per derivare la similarità tra due concetti C1 and C2, si analizzano i due concetti ed i loro vicinati –Linfluenza della similarità tra i vicinati di C1 e C2 nel calcolo della similarità tra C1 e C2 è inversamente proporzionale alla distanza dei vicinati dai concetti in considerazione –La similarità tra i vicinati è ottenuta calcolando una funzione obiettivo associata ad un problema di maximum weight matching; il matching è calcolato su un grafo bipartito costruito a partire dallinsieme dei nodi appartenenti ai vicinati –I coefficienti di distanza semantica e di rilevanza semantica sono utilizzati per pesare limportanza (relativa) di ciascun concetto allinterno della sorgente
Estrazione di proprietà inter-sorgente Estrazione di similarità tra sotto-sorgenti –La similarità tra due sotto-sorgenti è ottenuta calcolando una funzione obiettivo associata ad un problema di maximum weight matching; il matching è calcolato su un grafo bipartito costruito a partire dai nodi che compongono la sotto-sorgente –Tuttavia, il numero di possibili sotto-sorgenti è esponenziale nel numero dei nodi in Net(S) –Attraverso luso di tecniche che tengono conto delle similarità tra i singoli concetti delle sorgenti si seleziona un numero polinomiale di sotto-sorgenti promettenti da analizzare