La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:

Presentazioni simili


Presentazione sul tema: "Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:"— Transcript della presentazione:

1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato: Prof. Sonia BergamaschiSimone Ferrari Anno Accademico 2005 – 2006 Information Extraction: il rapporto GATE – Named Entity Recognition

2 Iter seguito Differenziazione Information Retrievial – Information Extraction Discussione Information Extraction Named Entity Recognition Descrizione GATE ANNIE Applicazione a siti web di GATE per NER Valutazione prestazioni Conclusioni e sviluppi futuri

3 Information Retrievial vs Information Extraction Sistema IR Input: insieme di documenti (corpus) + query (key words) Output: documenti rilevanti + score Sistema IE Input: insieme di documenti (corpus) + query (key words) Output: frammenti dei documenti con informazioni poco ambigue in formato prestabilito Vantaggi IE: minor tempo danalisi formato delloutput Svantaggi IE: difficoltà dimplementazione in alcuni casi meno accurato rispetto alla lettura umana

4 Information Extraction Concetto nato allinterno delle MUCs In MUC (1998) - Named Entity recognition (NE) - Coreference resolution (CO) - Template Element construction (TE) - Template Relation construction (TR) - Scenario Template production (ST) Successore di MUC : ACE (1999) Jim bought 300 shares of Acme Corp. in 2006

5 GATE a General Architecture for Text Engineering Hamish Cunningham (University of Sheffield) versione 1 nel 1996; versione 3.1 su algoritmi + dati + GUI = applicazioni Language Resources (LRs) Processing Resources (PRs) Visual Resources (VRs) = CREOLE a Collection of REusable Objects for Language Engineering

6 ANNIE A Nearly New IE system contiene al suo interno le PRs Tokeniser Gazetteer Sentence Splitter POS Tagger Semantic Tagger OrthoMatcher (NameMatcher)

7 Attività sperimentale NER utilizzando GATE applicato a siti WISDOM ( output codice prestazioni modifiche e prestazioni2

8 Booking.com Input Output

9 XML Booking.com Attività preliminare del Tokeniser BOOKING. COM online hotel reservations (…) Serialized Nodes Creazione dellannotation set di default da parte del Tokeniser rule1 Location1 rule2 LocFinal locType city matches 2567;2568;2686 Berlin majorType location minorType city Berlincity.lst:location:city

10 Valutazione delle prestazioni Tramite lAnnotationDiff Tool di GATE consente di confrontare due set di annotazioni Confronto prestazioni di GATE nellIE: inglese vs italiano inglese referenziato vs inglese italiano referenziato vs italiano

11 Inglese referenziato vs Inglese Default Modifiche: Norwalk, Loulècity.lst; Tuscanyregion.lst; PT country_cap.lst Dopo 48,84%58,14% Miss rimanenti: mancanza di regole adeguate

12 Conclusioni e sviluppi futuri Sistema GATE fornito in modalità primitiva: necessità di un raffinamento (Gazetteer, POS e Semantic Tagger) Training pesante (centinaia di testi, mesi) Sviluppo multilingua recente (molto da implementare) PRs sempre più intelligenti background working


Scaricare ppt "Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:Candidato:"

Presentazioni simili


Annunci Google