1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Relatore Chiar.mo Prof. Sonia Bergamaschi Correlatore Dott. Maurizio Vincini Tesi di Laurea Lorenzo Lugli Controrelatore Prof. Domenico Beneventano Anno Accademico
2 Introduzione Crescita mole dati disponibili Soluzione adottata dai motori di ricerca tradizionali Ritrovamento dei dati ad un punto critico Problemi: Velocità di crescita del Web I contenuti delle pagine dinamiche vengono ignorati Max accuratezza raggiungibile pagina Web Indicizzazione di tutte le pagine presenti sul Web
3 Introduzione Human Readable HTML Machine Readable XML wrapper Wrapper XML HTML Generatore di wrapper XML Soluzione adottata: MOMIS (Mediator EnvirOnment for Multiple Information Sources)
4 Obiettivo della tesi Analisi dei generatori di wrapper HTML XML Test Generazione di wrapper per siti di esempio Utilizzo dei wrapper per trasformare le pagine HTML in XML Individuazione di uno strumento per MOMIS Robustezza: capacità dei wrapper di fornire unestrazione efficace anche in seguito a cambiamenti nelle pagine sulle quali sono stati messi a punto.
5 Generatori di Wrappers XWRAP Elite Georgia Institute of Technology RoadRunner Università di Roma Tre Andes IBM Almaden Research Center Lixto Lixto Software DBAI University of Technology Vienna Lapis Carnegie Mellon University Pittsburgh
6 XWRAP Elite Obiettivo: Pagine Web data-intensive Processo di generazione del wrapper: Individuazione dei dati e separazione in data object Decomposizione degli oggetti in elementi Marcatura di oggetti ed elementi Contributo Primario: Euristiche ed algoritmi per sopperire alla necessità di input semantici da parte del progettista
7 XWRAP Elite Fase di Test: Problemi Immagini, Javascript Sottoalbero minimo HTTPS Frame Tabelle complesse
8 Il sistema RoadRunner Obiettivo Raggiungere completa automatizzazione Principale intuizione: Studio di analogie e differenze Scoperta di modelli di estrazione
9 Il sistema RoadRunner Architettura Classifier Aligner Expander Labeler Classifier Labeler Expander Aligner Dati Estratti Wrapper con campi non etichettati Classi di Pagine Pagine Singole Input Punto di Accesso al sito XML
10 Il sistema RoadRunner Labeler … Nome Telefono ( $A $B )+ … + $A $B NomeTelefono
11 Il sistema Andes della IBM HTMLXML XPath Processo di conversione HTML - XML Estrattori Estrattore XSL Processor Output XML … XSLT nXSLT 1 XHTML URL XSLT Set
12 Il sistema Andes Sintesi degli hyperlink Ancore: punti di riferimento per individuare concetti di interesse Salti: percorso che porta al dato di interesse partendo dallancora più vicina Filtri HTML Filtro XHTML Navigatore Deposito URL URLs HTML con Hyperlink Sintetici HTML con JavaScript e FORM HTML HTML XSLT
13 Il sistema Lixto Principale caratteristica: Interfaccia visuale e interattiva Modelli: Specificano come estrarre sezioni di dati da pagine Web Ogni modello viene mappato in un tag XML Filtri : Forniscono una rappresentazione alternativa dei dati che devono essere estratti Condizioni: Servono a restringere il numero di data-object restituiti da un filtro
14 Il sistema Lixto Risultati dei test: problemi Frame Concetti aventi differenti significati innestati allo stesso livello di una struttura dati Ricostruzione simple element Estrazione multipagina Browser interno Risultati dei test: successo Struttura dei dati Struttura della pagina HTML
15 XWRAP Elite Data-intensive Lixto Individuali RoadRunner Andes IBM Conclusioni