Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1
Obiettivo Indicizzare una base documentale di testi (newswire groups), già sulla pagina web del corso (tar.gz)
Esempio di documento
Processing con Lucene Rimuovere intestazione delle Con la classe Lucene Analyzer (nelle sue varie forme, vedi lucido successivo): –Tokenizzare i documenti e fate lo stemming e rimozione di stopwords –Filtrate segni di interpunzione ed altro rumore Con la classe IndexWriter create un indice: –In memoria –Su file Con la classe QueryParser verificate che il sistema funzioni correttamente (usate uno dei metodi disponibili, Boolean Query va bene)
Esempi di analisi Analzying ” XY&Z Corporation - org.apache.lucene.analysis.WhitespaceAnalyzer: [XY&Z] [Corporation] [-] org.apache.lucene.analysis.SimpleAnalyzer: [xy] [z] [corporation] [xyz] [example] [com] org.apache.lucene.analysis.StopAnalyzer: [xy] [z] [corporation] [xyz] [example] [com] org.apache.lucene.analysis.standard.StandardAnalyzer: [xy&z] [corporation] [com] org.apache.lucene.analysis.snowball.SnowballAnalyzer: [xy&z] [corpor] [com]
Dettagli su: Mercoledì 21 ore tutorial in aula alfa Meglio se avete già dato uno sguardo al tutorial sul sito Lucene (così potete risolvere dubbi)
Tempistica e modalità Quando avete finito e “testato” il sistema di IR, spedite una mail a me e a Fulvio D’Antonio Vi verranno inviate 3 query Dovete restituire le risposte (scoreDocs) e il codice Entro il 9 maggio Risultato binario: Y/N: –Esercitazione superata oppure NO