La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

Presentazioni simili


Presentazione sul tema: "Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:"— Transcript della presentazione:

1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato: Prof. Sonia BergamaschiSimone Ferrari Anno Accademico 2005 – 2006 Information Extraction: il rapporto GATE – Named Entity Recognition

2 Iter seguito Differenziazione Information Retrievial – Information Extraction Discussione Information Extraction Named Entity Recognition Descrizione GATE ANNIE Applicazione a siti web di GATE per NER Valutazione prestazioni Conclusioni e sviluppi futuri

3 Information Retrievial vs Information Extraction Sistema IR Input: insieme di documenti (corpus) + query (key words) Output: documenti rilevanti + score Sistema IE Input: insieme di documenti (corpus) + query (key words) Output: frammenti dei documenti con informazioni poco ambigue in formato prestabilito Vantaggi IE: minor tempo danalisi formato delloutput Svantaggi IE: difficoltà dimplementazione in alcuni casi meno accurato rispetto alla lettura umana

4 Information Extraction Concetto nato allinterno delle MUCs In MUC (1998) - Named Entity recognition (NE) - Coreference resolution (CO) - Template Element construction (TE) - Template Relation construction (TR) - Scenario Template production (ST) Successore di MUC : ACE (1999) Jim bought 300 shares of Acme Corp. in 2006

5 GATE a General Architecture for Text Engineering Hamish Cunningham (University of Sheffield) versione 1 nel 1996; versione 3.1 su http://gate.ac.uk/download/http://gate.ac.uk/download/ algoritmi + dati + GUI = applicazioni Language Resources (LRs) Processing Resources (PRs) Visual Resources (VRs) = CREOLE a Collection of REusable Objects for Language Engineering

6 ANNIE A Nearly New IE system contiene al suo interno le PRs Tokeniser Gazetteer Sentence Splitter POS Tagger Semantic Tagger OrthoMatcher (NameMatcher)

7 Attività sperimentale NER utilizzando GATE applicato a siti WISDOM ( http://dbgroup.unimo.it/wisdom/) output codice prestazioni modifiche e prestazioni2

8 Booking.com Input Output

9 XML Booking.com Attività preliminare del Tokeniser BOOKING. COM online hotel reservations (…) Serialized Nodes Creazione dellannotation set di default da parte del Tokeniser rule1 Location1 rule2 LocFinal locType city matches <Value className="java.util.ArrayList" itemClassName="java.lang.Integer">2567;2568;2686 Berlin majorType location minorType city Berlincity.lst:location:city

10 Valutazione delle prestazioni Tramite lAnnotationDiff Tool di GATE consente di confrontare due set di annotazioni Confronto prestazioni di GATE nellIE: inglese vs italiano inglese referenziato vs inglese italiano referenziato vs italiano

11 Inglese referenziato vs Inglese Default Modifiche: Norwalk, Loulècity.lst; Tuscanyregion.lst; PT country_cap.lst Dopo 48,84%58,14% Miss rimanenti: mancanza di regole adeguate

12 Conclusioni e sviluppi futuri Sistema GATE fornito in modalità primitiva: necessità di un raffinamento (Gazetteer, POS e Semantic Tagger) Training pesante (centinaia di testi, mesi) Sviluppo multilingua recente (molto da implementare) PRs sempre più intelligenti background working


Scaricare ppt "Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:"

Presentazioni simili


Annunci Google