La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1.

Presentazioni simili


Presentazione sul tema: "Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1."— Transcript della presentazione:

1 Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1

2 Obiettivo Indicizzare una base documentale di testi (newswire groups), già sulla pagina web del corso (tar.gz)

3 Esempio di documento

4 Processing con Lucene Rimuovere intestazione delle Con la classe Lucene Analyzer (nelle sue varie forme, vedi lucido successivo): –Tokenizzare i documenti e fate lo stemming e rimozione di stopwords –Filtrate segni di interpunzione ed altro rumore Con la classe IndexWriter create un indice: –In memoria –Su file Con la classe QueryParser verificate che il sistema funzioni correttamente (usate uno dei metodi disponibili, Boolean Query va bene)

5 Esempi di analisi Analzying ” XY&Z Corporation - org.apache.lucene.analysis.WhitespaceAnalyzer: [XY&Z] [Corporation] [-] org.apache.lucene.analysis.SimpleAnalyzer: [xy] [z] [corporation] [xyz] [example] [com] org.apache.lucene.analysis.StopAnalyzer: [xy] [z] [corporation] [xyz] [example] [com] org.apache.lucene.analysis.standard.StandardAnalyzer: [xy&z] [corporation] [com] org.apache.lucene.analysis.snowball.SnowballAnalyzer: [xy&z] [corpor] [com]

6 Dettagli su: Mercoledì 21 ore tutorial in aula alfa Meglio se avete già dato uno sguardo al tutorial sul sito Lucene (così potete risolvere dubbi)

7 Tempistica e modalità Quando avete finito e “testato” il sistema di IR, spedite una mail a me e a Fulvio D’Antonio Vi verranno inviate 3 query Dovete restituire le risposte (scoreDocs) e il codice Entro il 9 maggio Risultato binario: Y/N: –Esercitazione superata oppure NO


Scaricare ppt "Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1."

Presentazioni simili


Annunci Google