Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoFulvia Cristina Modificato 9 anni fa
1
Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1
2
Obiettivo Indicizzare una base documentale di testi (newswire groups), già sulla pagina web del corso (tar.gz)
3
Esempio di documento
4
Processing con Lucene http://lucene.apache.org/ Rimuovere intestazione delle e-mail Con la classe Lucene Analyzer (nelle sue varie forme, vedi lucido successivo): –Tokenizzare i documenti e fate lo stemming e rimozione di stopwords –Filtrate segni di interpunzione ed altro rumore Con la classe IndexWriter create un indice: –In memoria –Su file Con la classe QueryParser verificate che il sistema funzioni correttamente (usate uno dei metodi disponibili, Boolean Query va bene)
5
Esempi di analisi Analzying ” XY&Z Corporation - xyz@example.com "xyz@example.com org.apache.lucene.analysis.WhitespaceAnalyzer: [XY&Z] [Corporation] [-] [xyz@example.com] org.apache.lucene.analysis.SimpleAnalyzer: [xy] [z] [corporation] [xyz] [example] [com] org.apache.lucene.analysis.StopAnalyzer: [xy] [z] [corporation] [xyz] [example] [com] org.apache.lucene.analysis.standard.StandardAnalyzer: [xy&z] [corporation] [xyz@example] [com] org.apache.lucene.analysis.snowball.SnowballAnalyzer: [xy&z] [corpor] [xyz@exampl] [com]
6
Dettagli su: http://www.lucenetutorial.com/ Mercoledì 21 ore 12-14 tutorial in aula alfa Meglio se avete già dato uno sguardo al tutorial sul sito Lucene (così potete risolvere dubbi)
7
Tempistica e modalità Quando avete finito e “testato” il sistema di IR, spedite una mail a me e a Fulvio D’Antonio –dantonio@di.uniroma1.itdantonio@di.uniroma1.it –fulvio.dantonio@gmail.comfulvio.dantonio@gmail.com Vi verranno inviate 3 query Dovete restituire le risposte (scoreDocs) e il codice Entro il 9 maggio Risultato binario: Y/N: –Esercitazione superata oppure NO
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.