Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli.

Slides:



Advertisements
Presentazioni simili
Presentazione della tesi di laurea di Flavio Casadei Della Chiesa Newsletter: un framework per una redazione web.
Advertisements

Introduzione all’HTML
Introduzione ad XML Mario Arrigoni Neri.
DBMS (DataBase Management System)
A. FERRARI Alberto Ferrari. L'HyperText Markup Language (HTML) (traduzione letterale: linguaggio di marcatura per ipertesti) è un linguaggio usato per.
La SistanCommunity Presentazione Portale del Sistan - LA RETE E IL TERRITORIO Luciano Fanfoni | Istat.
Il mio nome è Alain Fergnani e nel corso della tesi mi sono occupato della dinamica delle ontologie per il Web Semantico, e in particolare dell’approccio.
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.
4 – Progettazione – Introduzione e Modello E-R
Unità 12 – LA FRASE E I SUOI ELEMENTI BASE
1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.
Interaction Models Group. Funzionalità Interaction Models Group Consente lestrazione della struttura grammaticale di una frase La struttura grammaticale.
BASI DI DATI BIOLOGICHE - 3
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di.
Maria Teresa PAZIENZA a.a
XML Prof. Barbara Pernici Politecnico di Milano. Introduzione a XML.
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Dott. Nicola Ciraulo CMS Dott. Nicola Ciraulo
Digressione: il linguaggio di query CQP
INTERNET 1. WWW WWW, World Wide Web è unenorme banca dati mondiale, distribuita su un grandissimo numero di locazioni (siti), collegati fra loro da reti.
Fogli elettronici - Spreadsheet
Laboratorio di Informatica
Un’introduzione a HTML (I)
Informatica Generale Susanna Pelagatti
2) Sistemi operativi Lab. Calc. AA2004/05 - cap.2.
Modello E-R Generalizzazioni
4 Cosa è una rete? ã Punto di vista logico: sistema di dati ed utenti distribuito ã Punto di vista fisico: insieme di hardware, collegamenti, e protocolli.
Modello E-R Generalizzazioni
Analisi dei forum Questa sezione del progetto si occupa di monitorare i processi di apprendimento/interazione dei soggetti partecipanti all'ambiente di.
Cos’è un CMS? Content Management System
A cura di Laura Prosdocimi Biblioteca del Dip.to di Filosofia La Biblioteca e le sue risorse - 27 novembre 2009 R EF W ORKS.
RefWorks A cura di Laura Prosdocimi, Mariagrazia Campello
Corso di PHP.
Importanza DTD La DTD (Document Type Definition) consente di dichiarare in maniera univoca la struttura di markup mediante la definizione dello schema.
1 Internet e nuove tecnologie Anno Accademico Prof. Flavio De Paoli Dott. Marco Loregian.
GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.
Che cos’è l’annotazione di un corpus?
HyperText Markup Language 17-23/6/08 Informatica applicata B Cristina Bosco.
Modulo 7 – reti informatiche u.d. 1 (syllabus – )
FantaGoal Quando il calcio è di rigore… Fantasia Nicola Corso di Laurea in Informatica Università La Sapienza Roma A.A. 2003/2004.
Programma Impostazione di un nuovo Progetto
Gianpaolo Cecere Introduzione
HTML Lezione 3 Stili.
Introduzione alla programmazione web
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
HTML HyperText Markup Language Linguaggio per marcare un’Ipertesto
Esercitazioni di Ingegneria del Software con UML
Interrogare il database
HTML I tag HTML (parte 1). I tag HTML  I comandi che il browser interpreta  Etichette per marcare l’inizio e la fine di un elemento HTML  Formato e.
Creato da Riccardo Nuzzone
CORSO Di WEB DESIGN prof. Leonardo Moriello
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
Internet e HTML Diffusione di informazioni mediante la rete Internet.
Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input.
HTML e CSS C. Gena, C. Picardi, J. Sproston HTML e CSS.
Cosa sono i Fogli Elettronici? Software applicativo nato dall’esigenza di –organizzare insiemi di dati tramite tabelle, schemi, grafici, ecc. –effettuare.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Strazzari STUDIARE IN L2.. Strazzari All’alunno straniero occorrono : 2 anni circa per acquisire la competenza comunicativa interpersonale 5 anni circa.
TW Asp - Active Server Pages Nicola Gessa. TW Nicola Gessa Introduzione n Con l’acronimo ASP (Active Server Pages) si identifica NON un linguaggio di.
Fondamenti di Markup Languages: Richiami di HTML © 2005 Stefano Clemente Stefano Clemente
Concetti Fondamentali sulla Programmazione
Master in Telemedicina HTML per iniziare Maria Simi, dicembre 2004 [da un tutorial di Rigget]
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
Eprogram SIA V anno.
2 Indice Un esempio Che cosa è A cosa serve Confronto con HTML Punti di forza La sua struttura.
LA FRASE SEMPLICE M. Dardano – P. Trifone, Grammatica italiana con nozioni di linguistica, Zanichelli, Bologna, III ed.
Linguaggio SQL. Linguaggi per database La diffusione del modello relazionale ha favorito l’uso prevalente di linguaggi non procedurali: in questo modo.
Transcript della presentazione:

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB The Italian Content Annotation Bank Valentina Bartalesi Lenzi – Rachele Sprugnoli

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Outline - Presentazione (I-CAB & ONTOTEXT) - Dati sul corpus - Tool di annotazione e formati - Annotazione di espressioni temporali - Annotazione di entità - Inter-annotator Agreement - Applicazioni web: Citografo e MEANING Browser - Lavori futuri: annotazione di Relazioni ed Eventi

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB I-CAB: Italian Content Annotation Bank  Corpus di riferimento nel campo dell’Information Extraction  Riconoscimento e normalizzazione di:  espressioni temporali: assolute ( ) e relative (tre giorni dopo)  entità: oggetti o insiemi di oggetti nel mondo  menzioni di entità: realizzazioni testuali delle entità  relazioni tra entità: es. la relazione “affiliazione” collega un’entità persona e un’entità organizzazione  eventi: un qualcosa che accade cambiando lo stato delle cose persone (Ciampi, il presidente,…) organizzazioni (Microsoft) entità geo-politiche (Italia, Pisa) luoghi (Largo Pontecorvo 3)

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il progetto ONTOTEXT  Aggiornamento e arricchimento della base di conoscenza I-CAB 1. Knowledge markup  Sviluppo di sistemi per l’annotazione automatica di testi  Sviluppo di un corpus di riferimento 2. Knowledge Extraction 3. Ontology learning and population Obiettivi: Scenario applicativo: Acquisizione automatica di espressioni temporali, entità, relazioni ed eventi da articoli di giornale  Il portale web

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Formalismi adottati Linguaggi di annotazione adatti a descrivere l’informazione contenuta in un testo in modo flessibile e ricco dal punto di vista semantico: ACE (Automatic Content Extraction, Time Expressions Recognition and Normalization Task Entity Detection and Recognition Task Relation Detection and Recognition Task Event Detection and Recognition Task Linee guida inglesi sviluppate da LDC, Linguistic Data Consortium:

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Adattamenti ed estensioni delle linee guide inglesi 1) Adattamenti alle caratteristiche morfo-sintattiche dell’italiano: - Inclusione delle preposizioni articolate: Inglese: at Italiano: - Annotazione di enclitici e proclitici: parlagli / gliene parli per favore? 2) Estensione volta ad ampliare la tipologia di menzioni annotabili: - Annotazione di congiunzioni di entità:

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il Corpus Adige  525 articoli tratti da “L’Adige”, quotidiano locale  4 giornate  5 categorie  Un file (txt, UTF-8) per ogni articolo  Divisione in due sezioni: training (335 documenti) e test (190 documenti) 7-8 Settembre Ottobre 2004 Attualità Cultura Economia Sport Trento Numero di parole: Numero medio di parole per file: 348

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Software di annotazione: Callisto CALLISTO:  testi scritti con caratteri codificati UTF-8 e US-ASCII  scritto in Java  annotazione stand-off  task diversi: es. TIMEX2 e ACE Event  file AIF (Atlas Interchange Format)  Il task TIMEX2 permette la trasformazione di AIF in SGML  Il task ACE event non permette questa trasformazione, quindi si è scelto di salvare i file in formato MAF (Meaning Annotation Format)

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il formato MEANING

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Annotazione delle Espressioni Temporali individuare le espressioni temporali presenti nel testo determinandone l’estensione … interpretare il significato delle espressioni temporali set predefinito di attributi (vd. o l tre)  Schema adottato: TIMEX2 (  Task: riconoscimento (detection) e normalizzazione (normalization)  Esempi di espressioni temporali annotabili: - date di calendario (15 Marzo 2005) - ore del giorno (le ore 23:00) - periodi (3 mesi ) - “sets of time” (ogni giorno)

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Esempi attributi TIMEX2 per la normalizzazione  VAL: valore dell’espressione temporale secondo lo standard ISO maggio 2006 VAL=“ ” sei giorni VAL=“P6D”  MOD: modificatori temporali verso mezzanotte MOD=“APPROX” i primi anni ’70 MOD=“START”  SET: identifica espressioni definite come “sets of time” ogni anno SET=“YES” n.b. NESSUN ATTRIBUTO per festività e calendari alternativi a quello gregoriano: Andrò in vacanza a Natale L’anno scolastico sta per terminare

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Qualche numero sull’annotazione delle espressioni temporali…  Numero di espressioni temporali annotate: nel Training – nel Test  Numero di parole annotate:  Lunghezza media delle espressioni temporali: 2 parole  Numero medio di espressioni temporali per documento: 8,7 4,86 % del totale Occorrenze e percentuali di punti, periodi ed espressioni temporali senza VAL

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB CHRONOS Testo NON annotato PRE-PROCESSING RICONOSCIMENTO NORMALIZZAZIONE Tokenizzazione POS tagging Riconoscimento Multiword Testo annotato Circa 350 Regole [LEXICAL-TRIGGER] Circa 700 Regole  Sistema sviluppato con un approccio rule-based per il task di riconoscimento e normalizzazione delle espressioni temporali secondo lo standard TIMEX2

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB TAGRECALLPRECISIONF-MEASURE TIMEX20,9250,9080,917 VAL0,6360,6730,654 MOD0,928 SET0,6160,5000,552 Valutazione CHRONOS

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entity Detection 1/5 Entità : oggetto o gruppo di oggetti nel mondo Menzione : realizzazione testuale di un’entità In I-CAB annotiamo entità di tipo:  Persona es. “Carlo Azeglio Ciampi”  Organizzazione es. “Microsoft”  Geo Political Entity es. “Toscana”  Luogo es. “via Buonarroti ”

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entity Detection 2/5  Di ogni entità si individuano: - l’estensione, ovvero la frase nominale usata per riferire ad un’entità. L’estensione include:  modificatori, “Una grande famiglia”  sintagmi preposizionali, “Il Presidente della Repubblica”  proposizioni dipendenti, “La ragazza che lavora in giardino” - la testa sintattica, la parte più significativa dell’estensione - tutte le diverse menzioni all’interno dell’articolo, ognuna delle quali viene fatta coreferire alla rispettiva entità

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entity Detection 3/5 Le entitità si dividono nelle seguenti classi:  SPC (Specific referential), un’entità che si riferisce da un unico oggetto o un gruppo di oggetti nel mondo Es. “Ciampi ha concluso il mandato”  GEN (Generic referential) un’entità che si riferisce a una categoria e non ad un particolare oggetto nel mondo Es. “Il Presidente della Repubblica viene eletto ogni sette anni”  USP (Under specific referential), entità che includono quantità non definite Es. “Molte persone stimano Ciampi”  NEG (Negatively quantified) entità con cui ci si riferisce a quantità negative Es. “Nessuno odia Ciampi”

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entity Detection 4/5 Le menzioni si distinguono nei seguenti tipi:  NAM: nomi propri Es. “Totti”  NOM: costruzioni nominali Es.“la squadra di calcio”  BAR: costrutti nominali senza pre-modificatori (articoli e aggettivi) Es. “poliziotti in borghese”  PRO: pronomi Es. personali “tu”, “io”  WHQ: pronomi interrogativi e relativi Es. “chi è lì?”, “Totti che gioca nella Roma” continua 

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entity Detection 5/5  PTV: partitivi Es.“alcuni giocatori della Roma”  APP: apposizioni Es.“la Roma, squadra italiana”  PROCLIT e ENCLIT: per annotare i clitici, quando la loro estensione non può essere identificata a livello di parola Es. “glielo scrivi, per favore”, “vederlo”  CONJ: congiunzioni di entità Es. “Totti e la Roma”

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entità Persona 1/2  Le entità di tipo persona (PER) sono limitate agli esseri umani  Le entità PER vengono classificate secondo i seguenti sottotipi:  Individual, es. “Francesco Totti”  Group, es. “la famiglia”  Indefinite, es. “Non so chi arriverà”

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entità Persona 2/2 Qualche numero:  7087 entità di tipo PER  menzioni di entità In media in un documento ci sono 13,5 entità di tipo PER In media una entità PER è mezionata 2,3 volte in un documento La distribuzione delle entità PER:  TRAINING  4459 entità, 9994 menzioni  TEST  2628 entità, 6065 menzioni

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Le entità di tipo Organizzazione (ORG) sono limitate a corporazioni, agenzie e gruppi organizzati sulla base di statuti riconosciuti a livello nazionale o internazionale. Le ORG sono distinte in 10 sottotipi:  Government, es. “i carabinieri”  Commercial, es. “la Microsoft”  Educational, es. “l’Università di Pisa”  Media, es. “National Geographic”  Religious, es. “la chiesa valdese”  Sports, es. “la Roma”  Medical-Science, es. “il laboratorio analisi”  Non-Governmental, es. “la Croce Rossa”  Entertainment, es. “la compagnia teatrale” Entità Organizzazioni 1/3

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Annotazione di menzioni di organizzazioni non italiane:  La menzione viene annotata come nome proprio (type=“NAM”), quando la traduzione è letterale. Es.“Dipartimento di Stato americano”  La menzione viene annotata come nome comune (type=“NOM”), quando la traduzione non è letterale. Es. “la polizia di stato francese” Entità Organizzazioni 2/3

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Entità Organizzazioni 3/3 Qualche numero:  3242 entità di tipo ORG  6193 menzioni di entità In media in ogni documento ci sono 6,2 entità di tipo ORG In media una entità ORG è menzionata 1,9 volte in un documento. La distribuzione delle entità ORG:  TRAINING  2217 entità  TEST  1025 entità

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Annotazione di entità geo-politiche (GPE)  Regioni geografiche caratterizzate dalla presenza di certi gruppi sociali e/o politici RUOLO (“ROLE”) delle menzioni - GPE.ORG: La Francia ha firmato l’accordo con la Germania - GPE.PER: I francesi attendono con ansia le prossime elezioni - GPE.LOC: Il G8 si è riunito ieri in Francia - GPE.GPE: La Francia produce dell’ottimo vino SOTTOTIPI di entità: Continent: Asia, Oceania Nation: Italia, USA State-or-Province: Florida, Toscana, Trentino County-or-District: Canton Ticino, Comune di Pisa Population-Center: Pisa, New York GPE-Cluster: Unione Europea Special: Palestina

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Qualche numero sull’annotazione delle GPE… n.b. Dati parziali, calcolati su 250 file (circa il 50% del corpus) Numero di entità GPE = menzioni Sottotipi: - Population-Center: Nation: State-or-Province: County-or-District: 44 - GPE-Cluster: 10 - Continent: 9 - Special: 6 Ruoli: - GPE.GPE = GPE.LOC = GPE.ORG = GPE.PER = 42

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Dati comparativi TrainingTestTOTAL TETag PEREntità Menzioni ORGEntità Menzioni GPEEntità904-- Menzioni

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Dati comparativi TrainingTestTOTAL TETag PEREntità Menzioni ORGEntità Menzioni GPEEntità904-- Menzioni

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Annotazione di luoghi (Location - LOC)  Luoghi definiti su basi geografiche o astronomiche e che non costituiscono un’entità politica SOTTOTIPI: - Address: Corso Italia, 22° W - Boundary: il confine tra l’India e il Pakistan - Celestial: Marte, il sole, il mondo - Water-Body: il Po, il Mediterraneo - Land-Region-natural: il Caucaso - Region-International: l’Africa meridionale - Region-General: l’Italia meridionale Porzioni di GPE e di LOC sono taggabili come LOC: il centro della città, sul fondo del Pacifico

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Inter-annotator Agreement  Test di accordo tra gli annotatori per verificare la non ambiguità del task e la coerenza delle annotazioni  Mini – corpus: 10 file per circa parole  Kappa Statistic & Dice Coefficient detectionnormalization ESEMPIO Accordo sull’annotazione delle PER: - Dice Coefficient per person entity detection = 0,906 - Dice Coefficient per mention detection = 0,951 - Kappa Statistic per l’assegnazione dei sottotipi = 0,937 - Kappa Statistic per l’assegnazione delle classi = 0,734

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il MEANING browser 1/2  Il meaning browser può essere usato da qualsiasi utente per navigare un qualsiasi corpus codificato in MAF. News Manual AnnotationAutomatic Annotation Callisto TextPro AIF TextPro format MEANING format Database MEANING brower

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il MEANING browser 2/2 Il MEANING browser:

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Ricerca per singolo token

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Ricerca per stringa

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Ricerca con carattere jolly

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Ricerca per lemma e Part of Speech

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Ricerca per lemma e Part of Speech

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Ricerca per entità

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il MEANING browser Visualizzazione del testo: evidenziazione di tutte le menzioni annotate

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Evidenziazione di tutte le menzioni annotate e delle espressioni temporali

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Evidenziazione delle ORG

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB MEANING browser Possibilità di visualizzare il pdf originale dell’articolo

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il Citografo 1/3  Il Citografo consente di visualizzare in forma di grafico il numero di citazioni (leggi, menzioni) ricevute da specifiche entità (individui, organizzazioni, etc.) in un periodo di tempo scelto dall’utente Dati su cui lavora il citografo:  documenti  10 mesi de L’Adige  10 milioni di tokens  1 milione di frasi I documenti sono stati annotati ortograficamente e morfosintatticamente in 8 ore usando un sistema automatico 5,3 GB di spazio su disco

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il Citografo 2/3 Il grafico:  Tempo di creazione: ~ 2 secondi  Possibilità di ZOOM in ogni punto del grafo  La ricerca è alla Google  si può richiedere che venga mostrato un grafico dell’andamento di singole parole o di più parole che occorrono insieme nello stesso documento  È possibile comparare sullo stesso grafo l’andamento delle occorrenze di più ricerche

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il Citografo 3/3 Il Citografo ontotext.itc.it/citografo

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il Citografo Andamento delle citazioni della parola “guerra” (non è ancora implementata la ricerca per entità)

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Il Citografo Andamento comparato delle parole “guerra” e “pace”

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Annotazione di Relazioni  ACE Relation Detection and Recognition Task RELAZIONI: coppie ordinate di entità presenti all’interno di una frase 2 Arguments Type Subtype Syntactic Class Modality Tense Ciampi andò più volte in Francia Arg 1Arg 2TypeSubtypeClassModalityTense CiampiFranciaPhysicalLocatedVerbalAssertedPast

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Annotazione di Eventi  ACE Relation Detection and Recognition Task EVENTI: specifici avvenimenti che coinvolgono partecipanti, fatti che accadono nel mondo cambiando lo stato delle cose - LIFE -> Sottotipi: be-born, die, marry, divorce - MOVEMENT -> Sottotipi: transport - TRANSACTION -> Sottotipi: transfer-money - BUSINESS -> Sottotipi: start-org, declare-bankruptcy - CONFLICT -> Sottotipi: attack - CONTACT -> Sottotipi: meet, phone-write - PERSONNEL -> Sottotipi: start-position, elect - JUSTICE -> Sottotipi: arrest-jail, trial-hearing

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB Pisa, 15/05/2006I-CAB Siti web:  ACE: ehttp://  Callisto:  Citografo:  LDC:  MEANING:  MEANING Browser:  ONTOTEXT Project:  TIMEX2:

Pisa, 15/05/2006I-CABPisa, 15/05/2006I-CAB GRAZIE!