Indicizzazione di documenti semistrutturati Sistemi informativi – AA 2006-2007 D’Este Laura.

Slides:



Advertisements
Presentazioni simili
Ricorsione in SQL-99.
Advertisements

S C O P E Il direttore dOrchestra eTecna. S C O P E è un gestore dei processi aziendali Non vuole sostituirsi ai gestionali già in uso nelle varie realtà
Introduzione ad XML Mario Arrigoni Neri.
DBMS (DataBase Management System)
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità B1 Introduzione alle basi di dati.
1 Introduzione ad XML. 2 Problemi con SGML Complesso da comprendere ed utilizzare Non è pensato per la rete: mancano link ipertestuali e specifiche grafiche.
Document Type Definition per XML Presentazione 8.1 Informatica Generale (Prof. Luca A. Ludovico)
Structured Query Language (SQL) Presentazione 13.1 Informatica Generale (Prof. Luca A. Ludovico)
8-XML e basi di dati in Internet
XSLT (eXtensible Stylesheet Language Transformation) Laurea Magistrale in Informatica Reti 2 (2005/06) dott. Francesco De Angelis
1 Basi di Dati Semistrutturate e XML Carlo Sartiani Dipartimento di Informatica Università di Pisa Questo lavoro è stato in parte finanziato con i fondi.
Query OQL e XQUERY a confronto
Biglietti e Ritardi: schema E/R
Re-engineering del wrapper XML Schema per il sistema MOMIS
Biglietti e Ritardi: schema E/R
Esercitazioni del Corso di Sistemi Informativi Marina Mongiello
Esercitazioni del Corso di Sistemi Informativi Marina Mongiello
XML Prof. Alfredo Pulvirenti. XML XML (eXtensible Markup Language) è un meta linguaggio. Può essere definito come un insieme di regole e convenzioni che.
Cluster openMosix Linux Day ’04 Caserta Ing. Diego Bovenzi.
Archivi   L’uso degli archivi deriva dalla necessità di conservare dati e informazioni in modo permanente affinché possano essere riutilizzate anche.
NESSUS.
IL PATRIMONIO DI DATI - LE BASI DI DATI. Il patrimonio dei dati Il valore del patrimonio di dati: –Capacità di rispondere alle esigenze informative di.
Il software QSR-NUD*IST Qualitative Solutions and Research, Non-Numerical Unstructured Data Indexing, Searching and Theorizing Laura Borghi, 08 Giugno.
Corso di basi di dati II Prof. Francesco Cutugno Dott. Sara Romano
Basi di Dati II Sara Romano
1 Anatomia di una pagina Un insieme di pagine web hanno generalmente una parte invariante (o poco): header, navigazione, footer una parte variabile: contenuti.
Architettura del World Wide Web
Perché.Net e non più COM/DCOM ? Superamento dei problemi di COM: Richiede una infrastruttura "non semplice" da ogni applicazione (ad esempio Class Factory.
Basi di dati. Vantaggi degli archivi digitali Risparmio di spazio: sono facilmente trasferibili e duplicabili Risparmio di tempo: si può accedere ai dati.
Access: Query semplici
SQL: Lezione 7 Nataliya Rassadko
Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006.
Bioinformatica Andrea G. B. Tettamanzi.
I database per il medico / 2 n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois.
Algoritmi e Programmazione Avanzata
Daniel Stoilov Tesi di Laurea
DBMS ( Database Management System)
1 XPath. 2 What is XPath? XPath is a syntax for defining parts of an XML document XPath uses paths to define XML elements XPath defines a library of standard.
Namespace Spazio dei nomi Ing. Luca Sabatucci. Scopo I Namespace servono a: I Namespace servono a: distinguere tra elementi e attributi con lo stesso.
Database & Information Retrieval
Descrizione Semantica ad Alto Livello di Ambienti Virtuali in X3D
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Array a un dimensione : vettori
ACCESS Introduzione Una delle necessità più importanti in informatica è la gestione di grandi quantità di dati. I dati possono essere memorizzati.
MODELLO LOGICO DEI DATI
Gerarchie Ricorsive Una gerarchia ricorsiva deriva dalla presenza di una ricorsione o ciclo (un anello nel caso più semplice) nello schema operazionale.
Elenchi in Excel E’ possibile inserire le voci del nuovo elenco oppure
Peer-to-Peer Systems Content-Based Routing of Path Queries in Peer-to-Peer Systems Georgia Koloniari and Evaggelia Pitoura Ingargiola Salvatore Montauti.
Valutazione delle prstazioni di un sistema di retrieval
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
ANALYSIS & DESIGN 1. Analysis & Design The goal of the Analysis & Design workflow is to show how the system will be realized in the implementation phase.
PARSERIZZAZIONE DI FILE
EIPASS MODULO 5 Access 2007.
Microsoft Access Query (II), filtri.
Modulo 5 DataBase ACCESS. Informazioni e Dati INFORMAZIONI vengono scambiate con linguaggio scritto o parlato DATI rappresentazione di informazioni in.
I DATABASE.
Programmazione Web PHP e MySQL 1. 2Programmazione Web - PHP e MySQL Esempio: un blog.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Fondamenti di Markup Languages: Richiami di HTML © 2005 Stefano Clemente Stefano Clemente
Modulo 5 Uso delle Basi di dati Paola Pupilli
Mapping Database Atsilo
NiXuS srl1 Training Galco Italia 22 Gennaio 2000 pMeter Software per l’analisi delle performance aziendali. N I X U S srl Via G. Scarabelli Roma,
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Linguaggio SQL prima parte Linguaggio SQL prima parte A. Lorenzi, E. Cavalli INFORMATICA PER SISTEMI INFORMATIVI AZIENDALI Copyright © Istituto Italiano.
Programmazione Fondi Strutturali 2007/2013 Programma Operativo Nazionale: “Competenze per lo Sviluppo” finanziato con il Fondo Sociale Europeo Piano Integrato.
1 “ Le Basi di Dati ”. 2 Parte 5: Tabelle –Creazione di una tabella –Indici e chiavi primarie –Relazioni e integrità referenziale Basi di Dati Struttura.
Modulo 5 – Database ACCESS LICEO SCIENTIFICO “ B. RESCIGNO COMPUTER SCUOLA PIANO INTEGRATO 2008/09 ESPERTO prof.ssa Rita Montella.
Parsing ricorsivo discendente Il parsing ricorsivo discendente (recursive descent parsing) è un metodo di tipo top-down che può essere facilmente codificato.
Conservazione e gestione delle informazioni Progettazione di sistemi multimediali U NIVERSITÀ DEGLI S TUDI DI M ACERATA D IPARTIMENTO DI S CIENZE P OLITICHE,
Transcript della presentazione:

Indicizzazione di documenti semistrutturati Sistemi informativi – AA D’Este Laura

Indicizzazione di documenti semistrutturati2 Overview

Indicizzazione di documenti semistrutturati3 Overview I sistemi di IR nascono per cercare informazioni su testi senza una struttura stabilita, locali o sul web. I DB nascono per cercare informazioni in tabelle di dati ben strutturati: insiemi di elementi che presentano valori per attributi ben definiti.

Indicizzazione di documenti semistrutturati4 Overview Oggi ci occuperemo dei problemi che si trovano nel creare un motore di ricerca per i dati semistrutturati, in particolare nella fase dell’indicizzazione.

Indicizzazione di documenti semistrutturati5 Overview: dati semistrutturati (1) Un database di dati semistrutturati può essere visto come un albero in cui le foglie contengono testo e i nodi specificano quale ruolo semantico ha quella stringa all’interno del documento.

Indicizzazione di documenti semistrutturati6 Overview: dati semistrutturati (2) XML is Everywhere XML is.. The main goal XML come XML become......

Indicizzazione di documenti semistrutturati7 Overview: indicizzazione (1) L’indexing è quel processo in cui i dati su cui compiere la ricerca vengono analizzati e organizzati in un indice che agevolerà le operazioni di ricerca.

Indicizzazione di documenti semistrutturati8 Esempi:  Indice analitico  Inverted index  … Overview: indicizzazione (2)

Indicizzazione di documenti semistrutturati9 XML: lo standard per i dati semistrutturati eXtended Markup Language: XML XML viene utilizzato per i contenuti Web, per alcuni programmi aziendali, per lo scambio di testi e per molte altre applicazioni.

Indicizzazione di documenti semistrutturati10 Problemi

Indicizzazione di documenti semistrutturati11 Problema 1 Mancanza di un’unità naturale per il documento, non è facile individuare una indexing unit. Bisogna rispettare lo Structured document retrieval principle: a system should always retrieve the most specific part of a document answering the query.

Indicizzazione di documenti semistrutturati12 Problema 1 La strategia ricercata è quella che ci permette di ritornare come risultato la più piccola unità che contiene l’informazione richiesta. Sono state assunte diverse soluzioni alla questione.

Indicizzazione di documenti semistrutturati13 Problema 1 1. Indicizzare tutti i componenti che possono essere restituiti in una ricerca: I risultati possono contenere unità ridondanti che vengono filtrate in un secondo momento.

Indicizzazione di documenti semistrutturati14 Problema 1 2. Raggruppare i nodi in pseudodocumenti non coincidenti. Risolve il problema della ridondanza ma le unità scelte potrebbero essere meno intuitive per l’utente e difficili da gestire, in quanto fissate durante l’indexing e non legate alla ricerca effettuata.

Indicizzazione di documenti semistrutturati15 Problema 1 3. Fissare un attributo XML come unità di documento. Come nella tecnica precedente le unità di indexing sono fissate costringendoci a rielaborare i risultati in un post-processing.

Indicizzazione di documenti semistrutturati16 Problema 2 Necessità di distinguere il diverso contesto di un termine a seconda dell’attributo a cui è legato. Ad esempio distinguere uno scritto di Bruno Vespa con un libro sul ciclo di vita di una vespa.

Indicizzazione di documenti semistrutturati17 Problema 2 E’ necessario dunque collegare ad ogni contenuto il suo contesto: autore/”Vespa” titolo/”Vita di una vespa”

Indicizzazione di documenti semistrutturati18 Problema 3 Gli schemi dei documenti XML spesso sono differenti tra loro dunque uno stesso attributo può variare nome o addirittura essere smembrato in più parti.

Indicizzazione di documenti semistrutturati19 Problema 3 L’unica soluzione disponibile è quella di collegare manualmente o semiautomaticamente (anche se con un peggiore risultato) le diverse etichette che rappresentano lo stesso attributo.

Indicizzazione di documenti semistrutturati20 Un indexer per XML Index Fabric Cooper, Sample, Franklin, Hjaltason, Shadmon Proceedings of the 27th VLDB Conference, Roma, Italy, 2001

Indicizzazione di documenti semistrutturati21 Index Fabric Our solution encodes paths as strings, and inserts those strings into a special index that is highly optimized for long and complex keys.

Indicizzazione di documenti semistrutturati22 Index Fabric L’idea che è al centro di questo progetto è quella di rappresentare ogni elemento con il suo percorso e di rappresentare questo path come una stringa da inserire in un database altamente ottimizzato per la ricerca di stringhe.

Indicizzazione di documenti semistrutturati23 Index Fabric: il database Viene utilizzato il Patricia Trie, una tecnica che permette di lavorare agilmente con un grande numero di stringhe. L’albero ottenuto è a sua volta elaborato per permetterci di avere il risultato con un numero piccolo e costante di operazioni di I/O.

Indicizzazione di documenti semistrutturati24 Fabric Index: il database, un esempio

Indicizzazione di documenti semistrutturati25 Fabric Index: il database, un esempio

Indicizzazione di documenti semistrutturati26 Fabric Index: il database, un esempio

Indicizzazione di documenti semistrutturati27 Fabric Index: il database, un esempio

Indicizzazione di documenti semistrutturati28 Fabric Index: il database, un esempio

Indicizzazione di documenti semistrutturati29 Fabric Index: il database, un esempio DiscoMemoria Una sola operazione di I/O

Indicizzazione di documenti semistrutturati30 Dal documento XML alla stringa

Indicizzazione di documenti semistrutturati31 Row paths & Refined paths Oltre alla rappresentazione “grezza” dell’albero del documento, si possono inserire dei percorsi “raffinati” che aumentano la velocità di alcune ricerche che sono ritenute frequenti”. Es.”Trova le fatture in cui la compagnia X ha venduto alla compagnia y.” Assegnamo Z come designatore a questo path e troviamo le corrispondenze. Se Acme Inc ha venduto ad ABC Corp potremo scrivere “Z ABC Corp Acme Inc” ed inserire questa stringa nell’index.

Indicizzazione di documenti semistrutturati32 Risultati sperimentali

Indicizzazione di documenti semistrutturati33 Bibliografia  Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press  B. Cooper, N. Sample, M. J. Franklin, G. R. Hjaltason, and M. Shadmon. A fast index for semistructured data. In Proceedings of VLDB,  B. Cooper, N. Sample, and M. Shadmon. A parallel index for semistructured data. ACM Symposium on Applied Computing 2002, to appear.