Un Tool-box per Lessicografi

Un Tool-box per Lessicografi
Claudio Giuliano ITC-irst

Sommario Progetto TALES Lessicografia basata su corpora
Demo Tool-box per Lessicografi Un caso d’uso: Valutazione del Question Answering

Progetto TALES Trattamento Automatico delle lingue Ladina e Sarda
Progetto congiunto tra ITC-irst, Istituto Culturale Ladino e Papiros Editziones Finanziato dalla UE e da enti locali del Trentino Alto Adige Il progetto é nato da una collaborazione tra ICL e ITC-IRST e la casa editrice sarda Papiros Il progetto coinvolge esperti di programmazione, lessicografia e linguistica computazionale. I primi si occupano di progettare e sviluppare l’applicazione, mentre i secondi di collaudarla e convalidarla. Il progetto é finanziato dalla comunità … All’interno del progetto, iniziato nello 1999, è stato realizzato il dizionario elettronico DILF. In questi giorni é stato realizzato l’accesso al dizionario attraverso il web

Obiettivi del progetto
Dati Uniformare il formato dei dati lessicali disponibili Ricercare/utilizzare standard Codifica unica Strumenti Accesso a corpora Dizionari elettronici Analisi morfologica Correttori ortografici PoS tagger Il progetto ha due obiettivi principali: Il primo é uniformare il formato di rappresentazione dei dati Il secondo é realizzare un’applicazione web, tale che attraverso un’unica interfaccia si possano consultare banche dati lessicali e corpora.

Banche Dati/ Dizionari
Uniformare i Dati XML è usato come linguaggio di rappresentazione dei contenuti Banche Dati/ Dizionari File di Testo File MS Word Corpora HyperCard FileMaker File XML Questo meta linguaggio é stato scelto per vari motivi, tra i quali: Rende esplicito alla macchina quello che per l’uomo é implicito Le annotazioni aggiungo informazioni L’analisi linguistica richiede l’annotazione Si separa la forma dal contenuto XML é uno standard

Convertire i dizionari in XML
Sono state definite DTD specifiche per rappresentare le banche dati e i dizionari <voce> <lemma>briciola </lemma> <cat_lessicale> <gram>sf. </gram> <accezione> <trad>frégola, -es</trad> <trad>mizàcola, -es<trad> </accezione> </cat_lessicale> </voce> briciola sf. Frégola, -es; mizàcola, -es.  Una DTD descrive la struttura di un documento XML. In parole povere quello che può o non può essere la struttura di particolare un documento.

Convertire i corpora in XML
È stata adottata la DTD definita in CES REGULAMËNT DE POLIZAI DE CHEMUN Capitul 1 Normes genereles Art. 1 Cuntenut dl regulamënt 1. La desposizions de chësc regulamënt aldò dla L.P. 10 nuvëmber 1993, nr.21, assegurea n servisc de polizai locala bon y efiziënt, regulan l numer di posc’ tl plann dla stieres, l’echipamënt, la cualificazion funzionela, l prufil prufesciunel, l stat iuridich, la funzions y l’ativiteies dla polizai chemunela.  <cesDoc> <cesHeader> … </cesHeader> <text> <body> <div type='doc'> <head> REGULAMËNT DE POLIZAI DE CHEMUN </head> <div type='cap' id='1'> <head> Capitul 1 Normes genereles </head> <div type='div1' id=''> <head> Art. 1 Cuntenut dl regulamënt </head> <p id='1.1.1'> 1. La desposizions de chësc...</p> </div> </body> </text> </cesDoc> CES é un’applicazione del SGML conforme alle linee guida definite da TEI. CES é appropriato per la codifica di corpora.

Normalizzare la codifica
È stata adottata la codifica UNICODE <CARD n='60' name='card id '> <FIELD n='1' name='lemma'>acadèmich</FIELD> <FIELD n='4' name='voce'>acadęmich, -cs, -ca, -ches <agg. e smf.> ...</FIELD> <FIELD n='5' name='fonte'>● C97 acadęmich, -cs,...</FIELD> </CARD> acadęmich, -cs, -ca, -ches accademico; studente universitario. ● C97 acadęmich, -cs, -ca, -ches accademico; studente universitario. ● M69 academich (neol.) accademico; studente universitario. (cazét)  Unicode attribuisce un numero univoco a ogni carattere, indipendentemente dalla piattaforma, dall'applicativo, dalla lingua Unicode è supportato da molti sistemi operativi, da tutti i più moderni web browser e da molti altri prodotti

Tool-box Banche dati/Dizionari Corpora Ricerca
Inserimento/modifica (non realizzato) Corpora Ricerca di Concordanze Liste di Frequenze Ricerca di Collocazioni Allineamento di testi bi/trilingui

Tool-box (2) Linguaggi di sviluppo Rappresentazione dei dati
HTML, JavaScript (client) Java (server) Rappresentazione dei dati XML Database relazionale Per garantire la massima portabilità fra le piattaforme dal lato Client è stato utilizzato il linguaggio HTML, come formato di presentazione; mentre dal lato Server è stato utilizzato il linguaggio Java. I moduli sono organizzati su più livelli per mascherare all’utente finale i il modo in cui i dati sono immagazzinati. Il modello dei dati é basato su XML, il quale si adegua bene alla natura semi strutturata dei dizionari e testi. Per rendere efficiente la loro manipolazione è stato realizzato un sistema di convalidazione, di indicizzazione e di compressione.

Architettura del tool-box
Server Extension Dictionary Processor Corpora Data Access Data Management System Web Browser Query form Query Interpreter Method invocation XML HTML Binary Data XSLT Processor Database Index Corpora Il tool-box è stato realizzato con una architettura client/server composta da diversi moduli. Una interrogazione del client (The communication is driven by the client) viene interpretata e inviata ai moduli di gestione dei dati che attraverso un indice inverso trova i dati necessari per costruire il risultato che viene restituito al Web server in XML… L’architettura sviluppata é piuttosto flessibile, in quanto esiste una netta separazione tra la rappresentazione dei dati e la loro presentazione. In questo modo cambiamenti del client non implicano cambiamenti al server.

Indici Gli indici sono creati “off-line”
Ogni parola è indicizzata (con eventuali attributi) Ignora le maiuscole e accenti : a corrisponde a o A e corrisponde e, é, è, ë, ê Numeri e punteggiatura non sono indicizzati Poiché l’ortografia ladina non é ancora stabile, abbiamo a disposizione molti testi in cui la stessa parola può essere scritta in modi differenti, le parole da ricercare possono essere scritte ignorando le maiuscole e le lettere accentate. L’ordinamento dei risultati tiene conto delle lettere accentate e dei caratteri speciali

Presentazione dei dati
Un processore interpreta le regole di trasformazione da XML a HTML La formattazione può essere delegata al client Possono esistere più stili associati agli stessi dati I corpora e i dizionari sono immagazzinati in XML e sono rappresentati in HTML. La trasformazione avviene a tempo di esecuzione. Le regole di trasformazione sono definite in file di stile (XSL); le regole sono interpretata La formattazione può essere delegata al client, questo consente di scaricare il lato server da questa computazione. Al momento solo pochi browser consentono questo. Per questo motivo la formattazione é ancora compito del server Per gli stessi dati possono esistere più stili associati. Questo consente di presentare in modo differente la stessa informazione.

Presentazione dei dati (2)
<voce> <lemma>briciola </lemma> <cat_lessicale> <gram>sf. </gram> <accezione> <trad>frégola, -es</trad> <trad>mizàcola, -es<trad> </accezione> </cat_lessicale> </voce> <?xml version="1.0"?> <xsl:stylesheet version="1.0"> <xsl:template match="/"> <html> <head> <title>ID</title> </head> <body bgcolor="#ffffcc"> <xsl:apply-templates select="dizionario"/> </body> </html> </xsl:template> <xsl:template match="voce"> <h3> <xsl:apply-templates select="lemma_sec/lemma"/> </h3> <strike><xsl:apply-templates select="USO"/> <xsl:apply-templates select="GLOSSA"/></strike> <br/> <xsl:apply-templates select="LISTA_CAT_LEX"/> ...  XML  XSL Processore XSLT  HTML briciola sf. Frégola, -es; mizàcola, -es.

L’interfaccia utente WEB browser che supporti HTML dinamico Firefox
Safari Internet Explorer ... L’applicazione client può essere un qualsiasi browser che supporti l’HTML dinamico, poiché l’interfaccia del tool-box è realizzata in tale linguaggio. L’impiego dello HTML ci garantisce, portabilità e flessibilità dell’interfaccia WEB. L’interfaccia permette all’utente di accedere con le stesse modalità alle molteplici risorse lessicali, senza preoccuparsi della loro organizzazione e locazione fisica.

Accesso alle banche dati

Accesso ai dizionari Sui dizionari si possono effettuare interrogazioni in parallelo su differenti dizionari, in particolare si possono effettuare ricerche per parola, prefisso, suffisso o espressioni regolari. Inoltre, si possono specificare i tipi di dati ricercati, in funzione della struttura semantica dei dizionari.

Ricerca di concordanze
Sui corpora si possono effettuare la ricerca di concordanze, di collocazioni e il calcolo delle frequenze delle parole. Il risultato di una concordanza è presentato nel formato KWIC (Key Word in Context). Nell’interrogazione, oltre alla concordanza, possono essere specificati: il corpus in cui fare la ricerca; il numero di parole che costituiscono il contesto destro e sinistro; e la parola da usare come chiave per l’ordinamento alfabetico delle righe di testo trovate (come chiave può essere utilizzata una qualsiasi delle parole appartenenti al contesto, letta da sinistra a destra o viceversa).

Ricerca di concordanze (2)

Frequenze delle parole
Il risultato della ricerca delle collocazioni è mostrato in forma tabellare. Nella prima colonna sono mostrati i collocati, nella seconda la loro frequenza congiunta e nella terza la loro frequenza assoluta. Nell’interrogazione si possono specificare: il corpus in cui fare la ricerca; il numero di parole di contesto; e il tipo di ordinamento: alfabetico o per frequenza. Inoltre può essere specificato un valore della frequenza sotto il quale escludere i collocati dal risultato.

Token, types, frequenze Legge di Zipf Concordanze Ricerca di Collocazioni Demo Tool-box per Lessicografo Un caso d’uso: Valutazione del Question Answering

Tokens, types, frequenze
corpus LA Times 62,790,468 Type corpus LA Times 215,738 Frequenza numero assoluto di occorrenze frequenze relativa o normalizzata frequenza media (fm=token/type) corpus Repubblica fm=85 corpus LA Times fm=291 Frequenza di frequenze (spettro delle frequenze)

Tokens, types, frequenze (2)
circa il 50% dei token di un testo sono le parole piu’ comuni

circa il 50% delle parole sono hapax circa il 90% delle parole hanno frequenza ≤ 10

Legge di Zipf Distribuzione di frequenza delle parole nel linguaggio
f · r = k Esempio fatto da Zipf tratto dallo studio lessicale dell’Ulysses di Joyce: al rango 10 la frequenza e’ 2653 al rango 100 la frequenza e’ 265 al rango 1000 la frequenza e’ 26 al rango la frequenza e’ 26

Legge di Zipf (2) Corpus La Repubblica

Legge di Zipf (3) Corpus LA Times

KWIC = Keyword in context
Concordanze KWIC = Keyword in context

Espressioni regolari Utilizzate per effettuare ricerche complesse
Una RE descrive un insieme di stringhe caratteri speciali ^ $ + ? . * ( ) [ ] { } | \ Esempi ^hopef = {hopeful, hopefully, hopefulness, hopefuls} ing$ = {being, having, solving, …} hope(full|less) = {hopeful, hopeless} cars? = {car, cars} be(ing)? = {be, being} .* = tutto il vocabolario

Concordanze (2) query = ^comun[ei]$

Ricerca di Collocazioni
Metodi statistici frequenza Media e Varianza Test di ipotesi Corpus New York Times Agosto/Novembre 1990 115 MB 14·106 parole Capitolo 5, Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.

Frequenza sentece: a lecturer at the computer science faculty
bigrammi: a lecturer lecturer at at the the computer computer science science faculty

Frequenza (2)

Media e Varianza Frequenza + PoS funziona bene per frasi rigide
she knocked on his door they knocked at the door 100 women knocked on Donaldson’s door a man knocked on the metal front door

Media e Varianza (2) 4 tokens sentece: a lecturer at the computer science faculty bigrammi: a lecturer a at a the lecturer at lecturer the lecturer computer at the at computer at science at faculty the computer the science the faculty computer science computer faculty science faculty

Media e Varianza (3) she knocked on his door they knocked at the door
OFFSET=3 she knocked on his door they knocked at the door 100 women knocked on Donaldson’s door a man knocked on the metal front door

Media e Varianza (2)

Media e Varianza (3)

Test di ipotesi Alta frequenza e bassa  possono essere casuali
Quando due due parole occorrono insieme più spesso del caso? Test di ipotesi lpotesi nulla H0: non c’e’ associazione Calcoliamo la p che l’evento occorra se H0 fosse vera rifiutiamo H0 se p e’ troppo bassa livello di significatività (p<0.05, p<0.01, …)

Test di ipotesi (2) t-test Pearson’s chi-squared test Likelihood ratio

E’ possibile usare Google?
Il Tool-Box cerca al livello di parole Sono on-line i corpora che ci interessano? I copora possono essere bilanciati Le statistiche di google sono affidabili?

Demo Tool-box per Lessicografo Un caso d’uso: Valutazione del Question Answering

Demo http://localhost:8080/tb2/jsp/concordance.html

Demo Tool-box per Lessicografo Un caso d’uso: Valutazione del Question Answering

QA@CLEF Multilingual Question Answering (QA) QA combina IR e NLP
QA combina IR e NLP Domanda in linguaggio naturale Risposta precisa (non un documento) Nell’ambito di Cross Language Evaluation Forum (CLEF) NIST TREC QA ITC-irst & Celct

Tool-Box e CLEF Corpora in 8 lingue
Creare il set di domande per testare i sistemi di QA Valutare le risposte date dai sistemi Domande su 300 topics “Energia alternativa” “bancarotta Schneider” …

Tool-Box e CLEF (2) Si parte da un topic
Si cercano keywords o keyphrases associate Utilizzando le concordanze si cercano risposte a possibili domande In valutazione si usa il tool-box per verificare le risposte

Esempio: “bancarotta Schneider”

Esempio: “bancarotta Schneider” (2)

Esempio: “bancarotta Schneider” (3)

Un Tool-box per Lessicografi

Presentazioni simili

Presentazione sul tema: "Un Tool-box per Lessicografi"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Un Tool-box per Lessicografi

Presentazioni simili

Presentazione sul tema: "Un Tool-box per Lessicografi"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back