Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1.

Slides:



Advertisements
Presentazioni simili
ARI sezione di Parma Sito ariparma ARI sezione di Parma.
Advertisements

Accessibilità, usabilità, credibilità
Seminario Swarm Seminario su Swarm Pietro Terna web.econ.unito.it/terna.
Suap on line Limpresa si fa in rete La piattaforma telematica Suap FE Martedì 10 maggio 2011.
DBMS (DataBase Management System)
(Appunti da Scott Mitchell, James Atkinsons - Active Server Pages 3.0 – ed. Apogeo) Le pagine ASP.
Programmazione MIDI Presentazione del corso
Moodle: corso base Terzo incontro
POLITICHE PUBBLICHE - CORSO
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
Versione 3 Nuove caratteristiche del software. * I mmagini in tonalità di grigio e a colori * Alta risoluzione: 600 dpi * Scansione e stampa in formato:
Corso di Economia Aziendale
24/01/051 XML e i programmi di impaginazione. 24/01/052 Introduzione Panoramica sui maggiori programmi di impaginazione. Come usano XML.
"In Internet non siamo in grado di selezionare, almeno a colpo docchio, fra una fonte credibile e una folle. Abbiamo bisogno di una.
1 Basi di dati e Web Prof. Stefano Paraboschi Prof. Barbara Pernici.
Lucene: Una libreria efficiente per ricerche di testo
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Prof. Pier Giorgio Ardeni
Economia Internazionale (secondo modulo)
Ottimizzazione Combinatoria
Seminario Swarm Seminario su Swarm Pietro Terna web.econ.unito.it/terna.
Seminario Swarm Seminario su Swarm Pietro Terna web.econ.unito.it/terna.
Seminario Swarm Seminario su Swarm Pietro Terna web.econ.unito.it/terna.
CORSO DI INFORMATICA LAUREA TRIENNALE-COMUNICAZIONE & DAMS
Tecniche Avanzate di Progettazione Software aa 2002/2003 Docente Maura Cerioli Studio 331 (terzo piano lato monte) Tel
Tipi di Contenuto e Ruoli
Corso di Laurea in Ingegneria Informatica Laboratorio di Sistemi Operativi II anno, III periodo 2 crediti 13 ore di lezione 16 ore di esercitazione.
Corso di Laurea in Ingegneria Gestionale
Corso di Laurea in Ingegneria Informatica
Seminario Swarm Seminario su Swarm Pietro Terna web.econ.unito.it/terna.
JOOMLA! Installazione dellambiente di prova Accedere al sito per ottenere uno spazio web dove pubblicare il proprio sitohttp://
VADEMECUM PER L’ATTIVAZIONE DI UNO STAGE CURRICULARE SU ST&P
Lavorare con consolle da casa 1 LA CONNESSIONE Al maggio 2012 consolle non tollera quelle connessioni che, quando di non si reperisce il sito voluto (errore.
Usare la posta elettronica con il browser web
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Federfarma Nuoro Istruzioni per la trasmissione dei file ricette dalla Farmacia alla struttura Federfarma Provinciale. Attraverso un browser Web , Internet.
BENVENUTI. Istruzioni per la compilazione dei moduli di domanda interattivi del Comune di Vignola Consigliamo di leggere attentamente queste istruzioni.
SISTEMA INOLTRO TELEMATICO ISTANZE DECRETO FLUSSI 2010
Creare pagine web Xhtlm. Struttura di una pagina.
BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze.
Corso JAVA – 2° Livello Presentazione
TEORIA DELLA COMUNICAZIONE E DEI MEDIA AA 2013/2014 L'informazione al tempo dei social network Esercitazione a cura del dott. Silvano Rubino.
Come conseguire la patente europea del computer Nuova ECDL
Costruiamo insieme la comunità professionale sull’armonizzazione Come l’informatica ci può aiutare ad ‘armonizzarci’
Argomenti del corso Parte 1: Introduzione/ usabilita/user centered design Il funzionamento del web, gli ipertesti ed linguaggio del web Cenni di usabilità.
POSTA ELETTRONICA La posta elettronica è un’innovazione utilissima offerta da Internet. E’ possibile infatti al costo di una telefonata urbana (cioè del.
Laboratorio 1: HTML e CSS
Laboratorio 4: PHP e MySQL
TEORIE E TECNICHE DEL RICONOSCIMENTO
Programmazione Web Presentazione del corso /2015.
Analisi Statistica dei dati nella Fisica Nucl. e Subnucl. [Laboratorio] 26/03/2015Analisi Statistica dei Dati in Fis. Nucl. e Subnucl. - G.Sirri1 Gabriele.
1 LABORATORIO DI INFORMATICA Ingegneria Informatica Dott. Giorgio Cicerchia a.a ° Ciclo.
1 Esercitazione finale per il corso di Sistemi Operativi (A.A. 2001/2002)
INTERNATIONAL INNER WHEEL DATABASE A livello di MEMBRO: Per tutte le Socie. Solo per la consultazione dell’intero Database. A livello di CLUB:
13 febbraio 2014 La classe virtuale di letteratura con MyLab Relatore: Francesca Rodella.
Da Oracle a MySQL Migrazione di database SQLWays – Software per migrazione Presentazione Copyright (c) Ispirer Systems Ltd. Tutti.
DATA MINING PER IL MARKETING
1 NERD? Non E’ Roba per Donne? Secondo lab - 10 Aprile.

Esercitazioni PLA/PAL
1 Laboratorio di Introduzione alla Programmazione §II MODULO §3 crediti §Esame e voto unico (su 6 crediti totali)
1 Laboratorio di Introduzione alla Programmazione §II MODULO §3 crediti §Esame e voto unico (su 6 crediti totali)
1 Metodologie di Programmazione §tecniche per la programmazione orientata ad oggetti §esemplificate utilizzando il linguaggio Java §testo di riferimento.
GUIDA ALL’UTILIZZO DEL
Notizie utili sul corso di Economia politica
Tutorial UNOsearch Discovery Service dell’Università degli studi di Napoli “L’Orientale” Link a UNOsearch.
LA STORIA DI. CHE COS'E' UN MOTORE DI RICERCA? Un motore di ricerca (in inglese search engine) è un sistema automatico che su richiesta analizza un insieme.
04/06/2016Francesco Serafini INDICO Corso Nazionale Novembre 2007.
Lucene: API efficienti per ricerche indicizzate
Transcript della presentazione:

Esercitazione Mid-term 2010 Uso di Lucene: text engine in Java Version: 3.0.1

Obiettivo Indicizzare una base documentale di testi (newswire groups), già sulla pagina web del corso (tar.gz)

Esempio di documento

Processing con Lucene Rimuovere intestazione delle Con la classe Lucene Analyzer (nelle sue varie forme, vedi lucido successivo): –Tokenizzare i documenti e fate lo stemming e rimozione di stopwords –Filtrate segni di interpunzione ed altro rumore Con la classe IndexWriter create un indice: –In memoria –Su file Con la classe QueryParser verificate che il sistema funzioni correttamente (usate uno dei metodi disponibili, Boolean Query va bene)

Esempi di analisi Analzying ” XY&Z Corporation - org.apache.lucene.analysis.WhitespaceAnalyzer: [XY&Z] [Corporation] [-] org.apache.lucene.analysis.SimpleAnalyzer: [xy] [z] [corporation] [xyz] [example] [com] org.apache.lucene.analysis.StopAnalyzer: [xy] [z] [corporation] [xyz] [example] [com] org.apache.lucene.analysis.standard.StandardAnalyzer: [xy&z] [corporation] [com] org.apache.lucene.analysis.snowball.SnowballAnalyzer: [xy&z] [corpor] [com]

Dettagli su: Mercoledì 21 ore tutorial in aula alfa Meglio se avete già dato uno sguardo al tutorial sul sito Lucene (così potete risolvere dubbi)

Tempistica e modalità Quando avete finito e “testato” il sistema di IR, spedite una mail a me e a Fulvio D’Antonio Vi verranno inviate 3 query Dovete restituire le risposte (scoreDocs) e il codice Entro il 9 maggio Risultato binario: Y/N: –Esercitazione superata oppure NO