La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli.

Presentazioni simili


Presentazione sul tema: "Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli."— Transcript della presentazione:

1 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

2 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Outline - Presentazione (I-CAB & ONTOTEXT) - Dati sul corpus - Tool di annotazione e formati - Annotazione di espressioni temporali - Annotazione di entità - Inter-annotator Agreement - Applicazioni web: Citografo e MEANING Browser - Lavori futuri: annotazione di Relazioni ed Eventi

3 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB I-CAB: Italian Content Annotation Bank  Corpus di riferimento nel campo dell’Information Extraction  Riconoscimento e normalizzazione di:  espressioni temporali: assolute (15-5-06) e relative (tre giorni dopo)  entità: oggetti o insiemi di oggetti nel mondo  menzioni di entità: realizzazioni testuali delle entità  relazioni tra entità: es. la relazione “affiliazione” collega un’entità persona e un’entità organizzazione  eventi: un qualcosa che accade cambiando lo stato delle cose persone (Ciampi, il presidente,…) organizzazioni (Microsoft) entità geo-politiche (Italia, Pisa) luoghi (Largo Pontecorvo 3)

4 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il progetto ONTOTEXT http://tcc.itc.it/projects/ontotext/  Aggiornamento e arricchimento della base di conoscenza I-CAB 1. Knowledge markup  Sviluppo di sistemi per l’annotazione automatica di testi  Sviluppo di un corpus di riferimento 2. Knowledge Extraction 3. Ontology learning and population Obiettivi: Scenario applicativo: Acquisizione automatica di espressioni temporali, entità, relazioni ed eventi da articoli di giornale  Il portale web

5 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Formalismi adottati Linguaggi di annotazione adatti a descrivere l’informazione contenuta in un testo in modo flessibile e ricco dal punto di vista semantico: ACE (Automatic Content Extraction, http://www.nist.gov/speech/tests/ace)http://www.nist.gov/speech/tests/ace Time Expressions Recognition and Normalization Task Entity Detection and Recognition Task Relation Detection and Recognition Task Event Detection and Recognition Task Linee guida inglesi sviluppate da LDC, Linguistic Data Consortium: http://projects.ldc.upenn.edu/ace/annotation/2005Tasks.html

6 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Adattamenti ed estensioni delle linee guide inglesi 1) Adattamenti alle caratteristiche morfo-sintattiche dell’italiano: - Inclusione delle preposizioni articolate: Inglese: at Italiano: - Annotazione di enclitici e proclitici: parlagli / gliene parli per favore? 2) Estensione volta ad ampliare la tipologia di menzioni annotabili: - Annotazione di congiunzioni di entità:

7 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il Corpus Adige  525 articoli tratti da “L’Adige”, quotidiano locale  4 giornate  5 categorie  Un file (txt, UTF-8) per ogni articolo  Divisione in due sezioni: training (335 documenti) e test (190 documenti) 7-8 Settembre 2004 7-8 Ottobre 2004 Attualità Cultura Economia Sport Trento Numero di parole: 182.500 Numero medio di parole per file: 348

8 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Software di annotazione: Callisto CALLISTO: http://callisto.mitre.org/http://callisto.mitre.org/  testi scritti con caratteri codificati UTF-8 e US-ASCII  scritto in Java  annotazione stand-off  task diversi: es. TIMEX2 e ACE Event  file AIF (Atlas Interchange Format)  Il task TIMEX2 permette la trasformazione di AIF in SGML  Il task ACE event non permette questa trasformazione, quindi si è scelto di salvare i file in formato MAF (Meaning Annotation Format)

9 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il formato MEANING

10 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Annotazione delle Espressioni Temporali individuare le espressioni temporali presenti nel testo determinandone l’estensione … interpretare il significato delle espressioni temporali set predefinito di attributi (vd. o l tre)  Schema adottato: TIMEX2 (http://timex2.mitre.org/)http://timex2.mitre.org/  Task: riconoscimento (detection) e normalizzazione (normalization)  Esempi di espressioni temporali annotabili: - date di calendario (15 Marzo 2005) - ore del giorno (le ore 23:00) - periodi (3 mesi ) - “sets of time” (ogni giorno)

11 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Esempi attributi TIMEX2 per la normalizzazione  VAL: valore dell’espressione temporale secondo lo standard ISO-8601 15 maggio 2006 VAL=“2006-05-15” sei giorni VAL=“P6D”  MOD: modificatori temporali verso mezzanotte MOD=“APPROX” i primi anni ’70 MOD=“START”  SET: identifica espressioni definite come “sets of time” ogni anno SET=“YES” n.b. NESSUN ATTRIBUTO per festività e calendari alternativi a quello gregoriano: Andrò in vacanza a Natale L’anno scolastico sta per terminare

12 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Qualche numero sull’annotazione delle espressioni temporali…  Numero di espressioni temporali annotate: 4.553 2.901 nel Training – 1.652 nel Test  Numero di parole annotate: 8.872  Lunghezza media delle espressioni temporali: 2 parole  Numero medio di espressioni temporali per documento: 8,7 4,86 % del totale Occorrenze e percentuali di punti, periodi ed espressioni temporali senza VAL

13 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB CHRONOS Testo NON annotato PRE-PROCESSING RICONOSCIMENTO NORMALIZZAZIONE Tokenizzazione POS tagging Riconoscimento Multiword Testo annotato Circa 350 Regole [LEXICAL-TRIGGER] Circa 700 Regole  Sistema sviluppato con un approccio rule-based per il task di riconoscimento e normalizzazione delle espressioni temporali secondo lo standard TIMEX2

14 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB TAGRECALLPRECISIONF-MEASURE TIMEX20,9250,9080,917 VAL0,6360,6730,654 MOD0,928 SET0,6160,5000,552 Valutazione CHRONOS

15 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entity Detection 1/5 Entità : oggetto o gruppo di oggetti nel mondo Menzione : realizzazione testuale di un’entità In I-CAB annotiamo entità di tipo:  Persona es. “Carlo Azeglio Ciampi”  Organizzazione es. “Microsoft”  Geo Political Entity es. “Toscana”  Luogo es. “via Buonarroti ”

16 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entity Detection 2/5  Di ogni entità si individuano: - l’estensione, ovvero la frase nominale usata per riferire ad un’entità. L’estensione include:  modificatori, “Una grande famiglia”  sintagmi preposizionali, “Il Presidente della Repubblica”  proposizioni dipendenti, “La ragazza che lavora in giardino” - la testa sintattica, la parte più significativa dell’estensione - tutte le diverse menzioni all’interno dell’articolo, ognuna delle quali viene fatta coreferire alla rispettiva entità

17 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entity Detection 3/5 Le entitità si dividono nelle seguenti classi:  SPC (Specific referential), un’entità che si riferisce da un unico oggetto o un gruppo di oggetti nel mondo Es. “Ciampi ha concluso il mandato”  GEN (Generic referential) un’entità che si riferisce a una categoria e non ad un particolare oggetto nel mondo Es. “Il Presidente della Repubblica viene eletto ogni sette anni”  USP (Under specific referential), entità che includono quantità non definite Es. “Molte persone stimano Ciampi”  NEG (Negatively quantified) entità con cui ci si riferisce a quantità negative Es. “Nessuno odia Ciampi”

18 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entity Detection 4/5 Le menzioni si distinguono nei seguenti tipi:  NAM: nomi propri Es. “Totti”  NOM: costruzioni nominali Es.“la squadra di calcio”  BAR: costrutti nominali senza pre-modificatori (articoli e aggettivi) Es. “poliziotti in borghese”  PRO: pronomi Es. personali “tu”, “io”  WHQ: pronomi interrogativi e relativi Es. “chi è lì?”, “Totti che gioca nella Roma” continua 

19 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entity Detection 5/5  PTV: partitivi Es.“alcuni giocatori della Roma”  APP: apposizioni Es.“la Roma, squadra italiana”  PROCLIT e ENCLIT: per annotare i clitici, quando la loro estensione non può essere identificata a livello di parola Es. “glielo scrivi, per favore”, “vederlo”  CONJ: congiunzioni di entità Es. “Totti e la Roma”

20 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entità Persona 1/2  Le entità di tipo persona (PER) sono limitate agli esseri umani  Le entità PER vengono classificate secondo i seguenti sottotipi:  Individual, es. “Francesco Totti”  Group, es. “la famiglia”  Indefinite, es. “Non so chi arriverà”

21 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entità Persona 2/2 Qualche numero:  7087 entità di tipo PER  16059 menzioni di entità In media in un documento ci sono 13,5 entità di tipo PER In media una entità PER è mezionata 2,3 volte in un documento La distribuzione delle entità PER:  TRAINING  4459 entità, 9994 menzioni  TEST  2628 entità, 6065 menzioni

22 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Le entità di tipo Organizzazione (ORG) sono limitate a corporazioni, agenzie e gruppi organizzati sulla base di statuti riconosciuti a livello nazionale o internazionale. Le ORG sono distinte in 10 sottotipi:  Government, es. “i carabinieri”  Commercial, es. “la Microsoft”  Educational, es. “l’Università di Pisa”  Media, es. “National Geographic”  Religious, es. “la chiesa valdese”  Sports, es. “la Roma”  Medical-Science, es. “il laboratorio analisi”  Non-Governmental, es. “la Croce Rossa”  Entertainment, es. “la compagnia teatrale” Entità Organizzazioni 1/3

23 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Annotazione di menzioni di organizzazioni non italiane:  La menzione viene annotata come nome proprio (type=“NAM”), quando la traduzione è letterale. Es.“Dipartimento di Stato americano”  La menzione viene annotata come nome comune (type=“NOM”), quando la traduzione non è letterale. Es. “la polizia di stato francese” Entità Organizzazioni 2/3

24 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entità Organizzazioni 3/3 Qualche numero:  3242 entità di tipo ORG  6193 menzioni di entità In media in ogni documento ci sono 6,2 entità di tipo ORG In media una entità ORG è menzionata 1,9 volte in un documento. La distribuzione delle entità ORG:  TRAINING  2217 entità  TEST  1025 entità

25 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Annotazione di entità geo-politiche (GPE)  Regioni geografiche caratterizzate dalla presenza di certi gruppi sociali e/o politici RUOLO (“ROLE”) delle menzioni - GPE.ORG: La Francia ha firmato l’accordo con la Germania - GPE.PER: I francesi attendono con ansia le prossime elezioni - GPE.LOC: Il G8 si è riunito ieri in Francia - GPE.GPE: La Francia produce dell’ottimo vino SOTTOTIPI di entità: Continent: Asia, Oceania Nation: Italia, USA State-or-Province: Florida, Toscana, Trentino County-or-District: Canton Ticino, Comune di Pisa Population-Center: Pisa, New York GPE-Cluster: Unione Europea Special: Palestina

26 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Qualche numero sull’annotazione delle GPE… n.b. Dati parziali, calcolati su 250 file (circa il 50% del corpus) Numero di entità GPE = 904 1.876 menzioni Sottotipi: - Population-Center: 470 - Nation: 186 - State-or-Province: 179 - County-or-District: 44 - GPE-Cluster: 10 - Continent: 9 - Special: 6 Ruoli: - GPE.GPE = 980 - GPE.LOC = 573 - GPE.ORG = 281 - GPE.PER = 42

27 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Dati comparativi TrainingTestTOTAL TETag2.9011.6524.553 PEREntità4.4592.6287.087 Menzioni9.9946.06516.059 ORGEntità2.2171.0253.239 Menzioni4.2491.8896.138 GPEEntità904-- Menzioni1.876--

28 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Dati comparativi TrainingTestTOTAL TETag2.9011.6524.553 PEREntità4.4592.6287.087 Menzioni9.9946.06516.059 ORGEntità2.2171.0253.239 Menzioni4.2491.8896.138 GPEEntità904-- Menzioni1.876--

29 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Annotazione di luoghi (Location - LOC)  Luoghi definiti su basi geografiche o astronomiche e che non costituiscono un’entità politica SOTTOTIPI: - Address: Corso Italia, 22° W - Boundary: il confine tra l’India e il Pakistan - Celestial: Marte, il sole, il mondo - Water-Body: il Po, il Mediterraneo - Land-Region-natural: il Caucaso - Region-International: l’Africa meridionale - Region-General: l’Italia meridionale Porzioni di GPE e di LOC sono taggabili come LOC: il centro della città, sul fondo del Pacifico

30 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Inter-annotator Agreement  Test di accordo tra gli annotatori per verificare la non ambiguità del task e la coerenza delle annotazioni  Mini – corpus: 10 file per circa 5.000 parole  Kappa Statistic & Dice Coefficient detectionnormalization ESEMPIO Accordo sull’annotazione delle PER: - Dice Coefficient per person entity detection = 0,906 - Dice Coefficient per mention detection = 0,951 - Kappa Statistic per l’assegnazione dei sottotipi = 0,937 - Kappa Statistic per l’assegnazione delle classi = 0,734

31 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il MEANING browser 1/2  Il meaning browser può essere usato da qualsiasi utente per navigare un qualsiasi corpus codificato in MAF. News Manual AnnotationAutomatic Annotation Callisto TextPro AIF TextPro format MEANING format Database MEANING brower

32 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il MEANING browser 2/2 Il MEANING browser: http://tcc.itc.it/projects/ontotext/webicab/

33 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Ricerca per singolo token

34 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Ricerca per stringa

35 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Ricerca con carattere jolly

36 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Ricerca per lemma e Part of Speech

37 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Ricerca per lemma e Part of Speech

38 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Ricerca per entità

39 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il MEANING browser Visualizzazione del testo: evidenziazione di tutte le menzioni annotate

40 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Evidenziazione di tutte le menzioni annotate e delle espressioni temporali

41 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Evidenziazione delle ORG

42 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Possibilità di visualizzare il pdf originale dell’articolo

43 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il Citografo 1/3  Il Citografo consente di visualizzare in forma di grafico il numero di citazioni (leggi, menzioni) ricevute da specifiche entità (individui, organizzazioni, etc.) in un periodo di tempo scelto dall’utente Dati su cui lavora il citografo:  52000 documenti  10 mesi de L’Adige  10 milioni di tokens  1 milione di frasi I documenti sono stati annotati ortograficamente e morfosintatticamente in 8 ore usando un sistema automatico 5,3 GB di spazio su disco

44 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il Citografo 2/3 Il grafico:  Tempo di creazione: ~ 2 secondi  Possibilità di ZOOM in ogni punto del grafo  La ricerca è alla Google  si può richiedere che venga mostrato un grafico dell’andamento di singole parole o di più parole che occorrono insieme nello stesso documento  È possibile comparare sullo stesso grafo l’andamento delle occorrenze di più ricerche

45 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il Citografo 3/3 Il Citografo ontotext.itc.it/citografo

46 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il Citografo Andamento delle citazioni della parola “guerra” (non è ancora implementata la ricerca per entità)

47 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il Citografo Andamento comparato delle parole “guerra” e “pace”

48 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Annotazione di Relazioni  ACE Relation Detection and Recognition Task RELAZIONI: coppie ordinate di entità presenti all’interno di una frase 2 Arguments Type Subtype Syntactic Class Modality Tense Ciampi andò più volte in Francia Arg 1Arg 2TypeSubtypeClassModalityTense CiampiFranciaPhysicalLocatedVerbalAssertedPast

49 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Annotazione di Eventi  ACE Relation Detection and Recognition Task EVENTI: specifici avvenimenti che coinvolgono partecipanti, fatti che accadono nel mondo cambiando lo stato delle cose - LIFE -> Sottotipi: be-born, die, marry, divorce - MOVEMENT -> Sottotipi: transport - TRANSACTION -> Sottotipi: transfer-money - BUSINESS -> Sottotipi: start-org, declare-bankruptcy - CONFLICT -> Sottotipi: attack - CONTACT -> Sottotipi: meet, phone-write - PERSONNEL -> Sottotipi: start-position, elect - JUSTICE -> Sottotipi: arrest-jail, trial-hearing

50 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Siti web:  ACE: http://www.nist.gov/speech/tests/ace ehttp://www.nist.gov/speech/tests/ace  Callisto: http://callisto.mitre.org/http://callisto.mitre.org/  Citografo: http://ontotext.itc.it:8080/citografo/citografo.jsphttp://ontotext.itc.it:8080/citografo/citografo.jsp  LDC: http://www.ldc.upenn.edu/http://www.ldc.upenn.edu/  MEANING: http://www.lsi.upc.es/%7Erigau/meaning/meaning.htmlhttp://www.lsi.upc.es/%7Erigau/meaning/meaning.html  MEANING Browser: http://ontotext.itc.it/webicab/index.phphttp://ontotext.itc.it/webicab/index.php  ONTOTEXT Project: http://tcc.itc.it/projects/ontotext/http://tcc.itc.it/projects/ontotext/  TIMEX2: http://timex2.mitre.org/http://timex2.mitre.org/ http://projects.ldc.upenn.edu/ace/

51 Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB GRAZIE!


Scaricare ppt "Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli."

Presentazioni simili


Annunci Google