Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato: Prof. Sonia BergamaschiSimone Ferrari Anno Accademico 2005 – 2006 Information Extraction: il rapporto GATE – Named Entity Recognition
Iter seguito Differenziazione Information Retrievial – Information Extraction Discussione Information Extraction Named Entity Recognition Descrizione GATE ANNIE Applicazione a siti web di GATE per NER Valutazione prestazioni Conclusioni e sviluppi futuri
Information Retrievial vs Information Extraction Sistema IR Input: insieme di documenti (corpus) + query (key words) Output: documenti rilevanti + score Sistema IE Input: insieme di documenti (corpus) + query (key words) Output: frammenti dei documenti con informazioni poco ambigue in formato prestabilito Vantaggi IE: minor tempo danalisi formato delloutput Svantaggi IE: difficoltà dimplementazione in alcuni casi meno accurato rispetto alla lettura umana
Information Extraction Concetto nato allinterno delle MUCs In MUC (1998) - Named Entity recognition (NE) - Coreference resolution (CO) - Template Element construction (TE) - Template Relation construction (TR) - Scenario Template production (ST) Successore di MUC : ACE (1999) Jim bought 300 shares of Acme Corp. in 2006
GATE a General Architecture for Text Engineering Hamish Cunningham (University of Sheffield) versione 1 nel 1996; versione 3.1 su algoritmi + dati + GUI = applicazioni Language Resources (LRs) Processing Resources (PRs) Visual Resources (VRs) = CREOLE a Collection of REusable Objects for Language Engineering
ANNIE A Nearly New IE system contiene al suo interno le PRs Tokeniser Gazetteer Sentence Splitter POS Tagger Semantic Tagger OrthoMatcher (NameMatcher)
Attività sperimentale NER utilizzando GATE applicato a siti WISDOM ( output codice prestazioni modifiche e prestazioni2
Booking.com Input Output
XML Booking.com Attività preliminare del Tokeniser BOOKING. COM online hotel reservations (…) Serialized Nodes Creazione dellannotation set di default da parte del Tokeniser rule1 Location1 rule2 LocFinal locType city matches <Value className="java.util.ArrayList" itemClassName="java.lang.Integer">2567;2568;2686 Berlin majorType location minorType city Berlincity.lst:location:city
Valutazione delle prestazioni Tramite lAnnotationDiff Tool di GATE consente di confrontare due set di annotazioni Confronto prestazioni di GATE nellIE: inglese vs italiano inglese referenziato vs inglese italiano referenziato vs italiano
Inglese referenziato vs Inglese Default Modifiche: Norwalk, Loulècity.lst; Tuscanyregion.lst; PT country_cap.lst Dopo 48,84%58,14% Miss rimanenti: mancanza di regole adeguate
Conclusioni e sviluppi futuri Sistema GATE fornito in modalità primitiva: necessità di un raffinamento (Gazetteer, POS e Semantic Tagger) Training pesante (centinaia di testi, mesi) Sviluppo multilingua recente (molto da implementare) PRs sempre più intelligenti background working