Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoRaul Valli Modificato 11 anni fa
1
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato: Prof. Sonia BergamaschiSimone Ferrari Anno Accademico 2005 – 2006 Information Extraction: il rapporto GATE – Named Entity Recognition
2
Iter seguito Differenziazione Information Retrievial – Information Extraction Discussione Information Extraction Named Entity Recognition Descrizione GATE ANNIE Applicazione a siti web di GATE per NER Valutazione prestazioni Conclusioni e sviluppi futuri
3
Information Retrievial vs Information Extraction Sistema IR Input: insieme di documenti (corpus) + query (key words) Output: documenti rilevanti + score Sistema IE Input: insieme di documenti (corpus) + query (key words) Output: frammenti dei documenti con informazioni poco ambigue in formato prestabilito Vantaggi IE: minor tempo danalisi formato delloutput Svantaggi IE: difficoltà dimplementazione in alcuni casi meno accurato rispetto alla lettura umana
4
Information Extraction Concetto nato allinterno delle MUCs In MUC (1998) - Named Entity recognition (NE) - Coreference resolution (CO) - Template Element construction (TE) - Template Relation construction (TR) - Scenario Template production (ST) Successore di MUC : ACE (1999) Jim bought 300 shares of Acme Corp. in 2006
5
GATE a General Architecture for Text Engineering Hamish Cunningham (University of Sheffield) versione 1 nel 1996; versione 3.1 su http://gate.ac.uk/download/http://gate.ac.uk/download/ algoritmi + dati + GUI = applicazioni Language Resources (LRs) Processing Resources (PRs) Visual Resources (VRs) = CREOLE a Collection of REusable Objects for Language Engineering
6
ANNIE A Nearly New IE system contiene al suo interno le PRs Tokeniser Gazetteer Sentence Splitter POS Tagger Semantic Tagger OrthoMatcher (NameMatcher)
7
Attività sperimentale NER utilizzando GATE applicato a siti WISDOM ( http://dbgroup.unimo.it/wisdom/) output codice prestazioni modifiche e prestazioni2
8
Booking.com Input Output
9
XML Booking.com Attività preliminare del Tokeniser BOOKING. COM online hotel reservations (…) Serialized Nodes Creazione dellannotation set di default da parte del Tokeniser rule1 Location1 rule2 LocFinal locType city matches <Value className="java.util.ArrayList" itemClassName="java.lang.Integer">2567;2568;2686 Berlin majorType location minorType city Berlincity.lst:location:city
10
Valutazione delle prestazioni Tramite lAnnotationDiff Tool di GATE consente di confrontare due set di annotazioni Confronto prestazioni di GATE nellIE: inglese vs italiano inglese referenziato vs inglese italiano referenziato vs italiano
11
Inglese referenziato vs Inglese Default Modifiche: Norwalk, Loulècity.lst; Tuscanyregion.lst; PT country_cap.lst Dopo 48,84%58,14% Miss rimanenti: mancanza di regole adeguate
12
Conclusioni e sviluppi futuri Sistema GATE fornito in modalità primitiva: necessità di un raffinamento (Gazetteer, POS e Semantic Tagger) Training pesante (centinaia di testi, mesi) Sviluppo multilingua recente (molto da implementare) PRs sempre più intelligenti background working
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.