Presentazione del progetto 2007-2008 Information Extraction with ELIE.


Presentazione del progetto Information Extraction with ELIE

PROGETTO 2008: IE con il sistema ELIE OBIETTIVO: identificare in articoli scientifici nomi di algoritmi, la classe (es greedy algorithms) e lobiettivo. Es: PageRank is a link analysis algorithm which assigns a numerical weighting to each element of a hyperlinked set of documents, such as the World Wide Web, with the purpose of "measuring" its relative importance within the set.

Come procedere Vi viene messo a disposizione un zipped archive di articoli che descrivono algoritmi Gli articoli vanno convertiti in txt (usate ed in seguito elaborati utilizzando la toolbox di ELIE (tokenization, POS tagging, estrazione degli attributi) extraction-system Gli articoli vanno annotati con le tag:,, e Basta annotare abstract, a volte un segmento dellintroduzione e conclusioni. Potere distribuirvi il lavoro di annotazione, potete fare il progetto in coppie.

esempi + … Algorithms to determine the minimum zone straightness and flatness have been successfully established by a number of researchers. -…The algorithm insures that variables are always logically ordered from lowest indexed to highest (or left to right) as: inactive simple variables, active variables and active inequalities, factored equalities, equalities on bounds, and variables to be ignored +….We develop a dynamic programming algorithm for haplotype block partitioning to minimize the number of representative single nucleotide polymorphisms (SNPs) required to account for most of the common haplotypes in each block. +…In this paper we propose Give-to-Get, a P2P VoD algorithm which discourages free-riding by letting peers favour uploading to other peers who have proven to be good uploaders. +.. This paper presents Span, a power-saving technique for multi-hop ad hoc networks that..

Altri esempi LP 2 [3] learns symbolic rules for identifying start and end tags. Like BWI, it identifies the starts and ends of fields separately. In addition to token and orthographic features RAP I E R [2] uses inductive logic programming techniques to discover rules for ex- tracting fields from documents. It does not try to identify start and end tags separately, but learns to identify relevant strings in their entirety. RAP I E R performs specific-to- general bottom-up search by starting with the most specific rule for each positive training example and repeatedly trying to generalize these rules to cover more positive ex- amples. The EL I E algorithm has two distinct phases. Using SMO, a fast support vector machine implementation, our IE EL I E algorithm learns a set of classifiers for information extraction that are competitive with, and in many cases outperform, current IE algorithms based on specialized learning al- gorithms.

Utilizzate metà degli articoli annotati per lapprendimento, metà per il test Misurate precision, recall e f-measure Preparate un rapporto di 8-10 pagine con grafici ecc.

Suggerimenti (1) Per addestrare ELIE a riconoscere lo stile delle definizioni di algoritmi, potete usare ad esempio un glossario di algoritmi e strutture dati. Tuttavia la forma di un glossario non è proprio identica alla definizione in un testo, es: Dijkstra's algorithm Definition: An algorithm to find the shortest paths from a single source vertex to all other vertices in a weighted, directed graph Dovreste trasformarlo in Dijkstra's algorithmis an algorithm to…

Suggerimenti (2) Potete arricchire i gazzeteers di ELIE (i files.lst) con un elenco di nomi di linguaggi di programmazione (riconoscerli evita errori nelletichettatura del campo name) Ad es: bin/cep/

Per riassumere Siete liberi di estendere e apportare modifiche o aggiungere euristiche per migliorare le prestazioni (ma dovete descrivere nella relazione lapproccio usato). Potete lavorare in due, e potete distribuirvi fra tutti il lavoro noioso (annotazione, creazione di risorse quali elenchi di linguaggi, definizioni da glossari..). Anche questo deve però essere dichiarato esplicitamente. Il progetto vale fino a gennaio, per quella data dovete registrare lesame.