La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1.

Presentazioni simili


Presentazione sul tema: "Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1."— Transcript della presentazione:

1 Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1

2 Obiettivo Indicizzare una base documentale di testi (newswire groups), già sulla pagina web del corso (tar.gz)

3 Esempio di documento

4 Processing con Lucene http://lucene.apache.org/ Rimuovere intestazione delle e-mail Con la classe Lucene Analyzer (nelle sue varie forme, vedi lucido successivo): –Tokenizzare i documenti e fate lo stemming e rimozione di stopwords –Filtrate segni di interpunzione ed altro rumore Con la classe IndexWriter create un indice: –In memoria –Su file Con la classe QueryParser verificate che il sistema funzioni correttamente (usate uno dei metodi disponibili, Boolean Query va bene)

5 Esempi di analisi Analzying ” XY&Z Corporation - xyz@example.com "xyz@example.com org.apache.lucene.analysis.WhitespaceAnalyzer: [XY&Z] [Corporation] [-] [xyz@example.com] org.apache.lucene.analysis.SimpleAnalyzer: [xy] [z] [corporation] [xyz] [example] [com] org.apache.lucene.analysis.StopAnalyzer: [xy] [z] [corporation] [xyz] [example] [com] org.apache.lucene.analysis.standard.StandardAnalyzer: [xy&z] [corporation] [xyz@example] [com] org.apache.lucene.analysis.snowball.SnowballAnalyzer: [xy&z] [corpor] [xyz@exampl] [com]

6 Dettagli su: http://www.lucenetutorial.com/ Mercoledì 21 ore 12-14 tutorial in aula alfa Meglio se avete già dato uno sguardo al tutorial sul sito Lucene (così potete risolvere dubbi)

7 Tempistica e modalità Quando avete finito e “testato” il sistema di IR, spedite una mail a me e a Fulvio D’Antonio –dantonio@di.uniroma1.itdantonio@di.uniroma1.it –fulvio.dantonio@gmail.comfulvio.dantonio@gmail.com Vi verranno inviate 3 query Dovete restituire le risposte (scoreDocs) e il codice Entro il 9 maggio Risultato binario: Y/N: –Esercitazione superata oppure NO


Scaricare ppt "Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1."

Presentazioni simili


Annunci Google