Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoRosabella Pasquali Modificato 11 anni fa
1
Presentazione del progetto 2007-2008 Information Extraction with ELIE
2
PROGETTO 2008: IE con il sistema ELIE OBIETTIVO: identificare in articoli scientifici nomi di algoritmi, la classe (es greedy algorithms) e lobiettivo. Es: PageRank is a link analysis algorithm which assigns a numerical weighting to each element of a hyperlinked set of documents, such as the World Wide Web, with the purpose of "measuring" its relative importance within the set.
3
Come procedere Vi viene messo a disposizione un zipped archive di articoli che descrivono algoritmi Gli articoli vanno convertiti in txt (usate http://www.pdfbox.org/), ed in seguito elaborati utilizzando la toolbox di ELIE (tokenization, POS tagging, estrazione degli attributi) http://www.aidanf.net/software/elie-an-adaptive-information- extraction-system http://www.pdfbox.org/ Gli articoli vanno annotati con le tag:,, e Basta annotare abstract, a volte un segmento dellintroduzione e conclusioni. Potere distribuirvi il lavoro di annotazione, potete fare il progetto in coppie.
4
esempi + … Algorithms to determine the minimum zone straightness and flatness have been successfully established by a number of researchers. -…The algorithm insures that variables are always logically ordered from lowest indexed to highest (or left to right) as: inactive simple variables, active variables and active inequalities, factored equalities, equalities on bounds, and variables to be ignored +….We develop a dynamic programming algorithm for haplotype block partitioning to minimize the number of representative single nucleotide polymorphisms (SNPs) required to account for most of the common haplotypes in each block. +…In this paper we propose Give-to-Get, a P2P VoD algorithm which discourages free-riding by letting peers favour uploading to other peers who have proven to be good uploaders. +.. This paper presents Span, a power-saving technique for multi-hop ad hoc networks that..
5
Altri esempi LP 2 [3] learns symbolic rules for identifying start and end tags. Like BWI, it identifies the starts and ends of fields separately. In addition to token and orthographic features RAP I E R [2] uses inductive logic programming techniques to discover rules for ex- tracting fields from documents. It does not try to identify start and end tags separately, but learns to identify relevant strings in their entirety. RAP I E R performs specific-to- general bottom-up search by starting with the most specific rule for each positive training example and repeatedly trying to generalize these rules to cover more positive ex- amples. The EL I E algorithm has two distinct phases. Using SMO, a fast support vector machine implementation, our IE EL I E algorithm learns a set of classifiers for information extraction that are competitive with, and in many cases outperform, current IE algorithms based on specialized learning al- gorithms.
6
Utilizzate metà degli articoli annotati per lapprendimento, metà per il test Misurate precision, recall e f-measure Preparate un rapporto di 8-10 pagine con grafici ecc.
7
Suggerimenti (1) Per addestrare ELIE a riconoscere lo stile delle definizioni di algoritmi, potete usare ad esempio http://www.nist.gov/dads/, un glossario di algoritmi e strutture dati. Tuttavia la forma di un glossario non è proprio identica alla definizione in un testo, es:http://www.nist.gov/dads/ Dijkstra's algorithm Definition: An algorithm to find the shortest paths from a single source vertex to all other vertices in a weighted, directed graph Dovreste trasformarlo in Dijkstra's algorithmis an algorithm to…
8
Suggerimenti (2) Potete arricchire i gazzeteers di ELIE (i files.lst) con un elenco di nomi di linguaggi di programmazione (riconoscerli evita errori nelletichettatura del campo name) Ad es: http://cgibin.erols.com/ziring/cgi- bin/cep/cep.pl
9
Per riassumere Siete liberi di estendere e apportare modifiche o aggiungere euristiche per migliorare le prestazioni (ma dovete descrivere nella relazione lapproccio usato). Potete lavorare in due, e potete distribuirvi fra tutti il lavoro noioso (annotazione, creazione di risorse quali elenchi di linguaggi, definizioni da glossari..). Anche questo deve però essere dichiarato esplicitamente. Il progetto vale fino a gennaio, per quella data dovete registrare lesame.
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.