Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoIrma Martelli Modificato 9 anni fa
1
Indicizzazione di documenti semistrutturati Sistemi informativi – AA 2006-2007 D’Este Laura
2
Indicizzazione di documenti semistrutturati2 Overview
3
Indicizzazione di documenti semistrutturati3 Overview I sistemi di IR nascono per cercare informazioni su testi senza una struttura stabilita, locali o sul web. I DB nascono per cercare informazioni in tabelle di dati ben strutturati: insiemi di elementi che presentano valori per attributi ben definiti.
4
Indicizzazione di documenti semistrutturati4 Overview Oggi ci occuperemo dei problemi che si trovano nel creare un motore di ricerca per i dati semistrutturati, in particolare nella fase dell’indicizzazione.
5
Indicizzazione di documenti semistrutturati5 Overview: dati semistrutturati (1) Un database di dati semistrutturati può essere visto come un albero in cui le foglie contengono testo e i nodi specificano quale ruolo semantico ha quella stringa all’interno del documento.
6
Indicizzazione di documenti semistrutturati6 Overview: dati semistrutturati (2) XML is Everywhere XML is.. The main goal...... XML come XML become......
7
Indicizzazione di documenti semistrutturati7 Overview: indicizzazione (1) L’indexing è quel processo in cui i dati su cui compiere la ricerca vengono analizzati e organizzati in un indice che agevolerà le operazioni di ricerca.
8
Indicizzazione di documenti semistrutturati8 Esempi: Indice analitico Inverted index … Overview: indicizzazione (2)
9
Indicizzazione di documenti semistrutturati9 XML: lo standard per i dati semistrutturati eXtended Markup Language: XML XML viene utilizzato per i contenuti Web, per alcuni programmi aziendali, per lo scambio di testi e per molte altre applicazioni.
10
Indicizzazione di documenti semistrutturati10 Problemi
11
Indicizzazione di documenti semistrutturati11 Problema 1 Mancanza di un’unità naturale per il documento, non è facile individuare una indexing unit. Bisogna rispettare lo Structured document retrieval principle: a system should always retrieve the most specific part of a document answering the query.
12
Indicizzazione di documenti semistrutturati12 Problema 1 La strategia ricercata è quella che ci permette di ritornare come risultato la più piccola unità che contiene l’informazione richiesta. Sono state assunte diverse soluzioni alla questione.
13
Indicizzazione di documenti semistrutturati13 Problema 1 1. Indicizzare tutti i componenti che possono essere restituiti in una ricerca: I risultati possono contenere unità ridondanti che vengono filtrate in un secondo momento.
14
Indicizzazione di documenti semistrutturati14 Problema 1 2. Raggruppare i nodi in pseudodocumenti non coincidenti. Risolve il problema della ridondanza ma le unità scelte potrebbero essere meno intuitive per l’utente e difficili da gestire, in quanto fissate durante l’indexing e non legate alla ricerca effettuata.
15
Indicizzazione di documenti semistrutturati15 Problema 1 3. Fissare un attributo XML come unità di documento. Come nella tecnica precedente le unità di indexing sono fissate costringendoci a rielaborare i risultati in un post-processing.
16
Indicizzazione di documenti semistrutturati16 Problema 2 Necessità di distinguere il diverso contesto di un termine a seconda dell’attributo a cui è legato. Ad esempio distinguere uno scritto di Bruno Vespa con un libro sul ciclo di vita di una vespa.
17
Indicizzazione di documenti semistrutturati17 Problema 2 E’ necessario dunque collegare ad ogni contenuto il suo contesto: autore/”Vespa” titolo/”Vita di una vespa”
18
Indicizzazione di documenti semistrutturati18 Problema 3 Gli schemi dei documenti XML spesso sono differenti tra loro dunque uno stesso attributo può variare nome o addirittura essere smembrato in più parti.
19
Indicizzazione di documenti semistrutturati19 Problema 3 L’unica soluzione disponibile è quella di collegare manualmente o semiautomaticamente (anche se con un peggiore risultato) le diverse etichette che rappresentano lo stesso attributo.
20
Indicizzazione di documenti semistrutturati20 Un indexer per XML Index Fabric Cooper, Sample, Franklin, Hjaltason, Shadmon Proceedings of the 27th VLDB Conference, Roma, Italy, 2001
21
Indicizzazione di documenti semistrutturati21 Index Fabric Our solution encodes paths as strings, and inserts those strings into a special index that is highly optimized for long and complex keys.
22
Indicizzazione di documenti semistrutturati22 Index Fabric L’idea che è al centro di questo progetto è quella di rappresentare ogni elemento con il suo percorso e di rappresentare questo path come una stringa da inserire in un database altamente ottimizzato per la ricerca di stringhe.
23
Indicizzazione di documenti semistrutturati23 Index Fabric: il database Viene utilizzato il Patricia Trie, una tecnica che permette di lavorare agilmente con un grande numero di stringhe. L’albero ottenuto è a sua volta elaborato per permetterci di avere il risultato con un numero piccolo e costante di operazioni di I/O.
24
Indicizzazione di documenti semistrutturati24 Fabric Index: il database, un esempio
25
Indicizzazione di documenti semistrutturati25 Fabric Index: il database, un esempio
26
Indicizzazione di documenti semistrutturati26 Fabric Index: il database, un esempio
27
Indicizzazione di documenti semistrutturati27 Fabric Index: il database, un esempio
28
Indicizzazione di documenti semistrutturati28 Fabric Index: il database, un esempio
29
Indicizzazione di documenti semistrutturati29 Fabric Index: il database, un esempio DiscoMemoria Una sola operazione di I/O
30
Indicizzazione di documenti semistrutturati30 Dal documento XML alla stringa
31
Indicizzazione di documenti semistrutturati31 Row paths & Refined paths Oltre alla rappresentazione “grezza” dell’albero del documento, si possono inserire dei percorsi “raffinati” che aumentano la velocità di alcune ricerche che sono ritenute frequenti”. Es.”Trova le fatture in cui la compagnia X ha venduto alla compagnia y.” Assegnamo Z come designatore a questo path e troviamo le corrispondenze. Se Acme Inc ha venduto ad ABC Corp potremo scrivere “Z ABC Corp Acme Inc” ed inserire questa stringa nell’index.
32
Indicizzazione di documenti semistrutturati32 Risultati sperimentali
33
Indicizzazione di documenti semistrutturati33 Bibliografia Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2007 B. Cooper, N. Sample, M. J. Franklin, G. R. Hjaltason, and M. Shadmon. A fast index for semistructured data. In Proceedings of VLDB, 2001. http://citeseer.ist.psu.edu/cooper01fast.html http://citeseer.ist.psu.edu/cooper01fast.html B. Cooper, N. Sample, and M. Shadmon. A parallel index for semistructured data. ACM Symposium on Applied Computing 2002, to appear. http://citeseer.ist.psu.edu/cooper02parallel.html http://citeseer.ist.psu.edu/cooper02parallel.html
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.