1 Lixto tools evaluations for HTML data Integration in Momis Lixto tools evaluations for HTML data Integration in Momis Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica February – May 2003 Projects by Lorenzo Lugli Lixto Software – Vienna University of Technology Data Base and Artificial Intelligence Department
2 Tool semiautomatici Generazione assistita dal progettista Robustezza dell’estrattore Basata sul contenuto della pagina HTML (dati di interesse ancorati a parole chiave)
3 Obiettivo LIXTO Visual Wrapper XML data Sito Web contenente dettagli di aziende tessili XSLT stylesheets XML per l’integrazione in MOMIS
4 Architettura di Momis
5 Processo di definizione Pagine HTML di esempio Individuazione dei dati di interesse per l’estrazione Definizione della gerarchia dei modelli e relativi filtri e condizioni necessari per la costruzione del wrapper
6 Interfaccia di sistema
7 Architettura di sistema Visual Builder Program Evaluator Creazione e visualizzazione di un wrapper Definizione delle specifiche di conversione in formato XML dei dati estratti Esegue un programma di estrazione e trasforma i dati estratti in XML
8 Il sistema Lixto Principale caratteristica: Interfaccia visuale e interattiva Modelli: Specificano come estrarre sezioni di dati da pagine Web Formano una struttura gerarchica all’interno di un wrapper Ogni modello viene mappato in un tag XML Filtri: Forniscono una rappresentazione alternativa dei dati che devono essere estratti Condizioni: Servono a restringere il numero di data-object restituiti da un filtro
9 Il sistema Lixto Processo di costruzione di un wrapper: Modello Filtro Condizione...
10 Categorizzazione dei modelli Modello Albero Stringa Documento Modello (Nome) Filtro
11 Modelli Filtri e Condizioni ModelloContenitore per i dati Servono a selezionare i dati da mettere in un determinato contenitore Filtri Condizione Restringono il numero di contenitori aventi uguale struttura
12 Generazione dell’XML
13 Concetti semantici e sintattici