Un Tool-box per Lessicografi

Slides:



Advertisements
Presentazioni simili
Presentazione della tesi di laurea di Flavio Casadei Della Chiesa Newsletter: un framework per una redazione web.
Advertisements

(Connettori SDMX per Software Statistici)
INFORMATICA UMANISTICA MODULI B, C E D
Informatica umanistica moduli B, C e D dit. unitn
Gli ipertesti del World Wide Web Funzionamento e tecniche di realizzazione a cura di Loris Tissìno (
Informatica umanistica: Moduli B, C e D
INFORMATICA UMANISTICA MODULI B, C E D Massimo Poesio (B, D) Marco Baroni (Lab D) Roberto Zamparelli (C)
CORSO DI SICUREZZA SU RETI II PROF. A. DE SANTIS ANNO 2006/07 Informatica granata Gruppo 2 ISP Gruppo 3 ISP.
IlTrovatore S.p.a. IlTrovatore RemoteSearch IlTrovatore mette a disposizione di portali Internet, piccole e medie imprese, tutto il suo know-how nel settore.
Introduzione al DTD Mario Arrigoni Neri.
DBMS (DataBase Management System)
Metodologia di analisi di una prova desame di informatica 1Analisi di una prova di maturità
Unità D2 Database nel web. Obiettivi Comprendere il concetto di interfaccia utente Comprendere la struttura e i livelli che compongono unapplicazione.
Crea il tuo sito con Web Matrix e il Web Hosting su ASP.NET
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
XSLT UNIVERSITA DI CAMERINO Corso di laurea in Informatica Barbara Re Anno Accademico
Università degli Studi di Modena e Reggio Emilia
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA
OUTLINE Riprogettazione del database del portale Web della Facoltà di Ingegneria Sviluppo di una applicazione WEB DB : HOMEPAGE DOCENTI Architettura multilivello.
TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di.
Linguaggi per il Web Laboratorio di Applicazioni Informatiche II mod. A.
Rinasco Il recupero retrospettivo degli inventari degli archivi storici comunali nella Regione Lazio Arezzo, 7 settembre 2010
XML Prof. Barbara Pernici Politecnico di Milano. Introduzione a XML.
XML Prof. Barbara Pernici Politecnico di Milano aggiornato 10/12/2002.
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Informatica.science.unitn.it Un esempio di architettura basata sulluso di XML e XSL per la pubblicazione di un sito web.
Architettura del World Wide Web
Labbreviazione: WWW letteralmente: World = mondo Wide = esteso Web = rete Può essere tradotta come: Rete estesa in tutto il mondo.
Labbreviazione: WWW letteralmente: World = mondo Wide = esteso Web = rete Può essere tradotta come: Rete estesa in tutto il mondo.
Laboratorio di Informatica
Introduzione e nozioni fondamentali di sintassi
Linguaggi di markup1 LINGUAGGI DI MARKUP. Linguaggi di markup2 Documenti su Internet Internet permette (tra laltro) di accedere a documenti remoti In.
informatica di base per le discipline umanistiche
Informatica giuridica Informatica e lingua del diritto Nicola Palazzolo Anno Accademico 2006/2007.
Interrogazione Efficiente di Documenti XML Temporali e una sua Applicazione in Ambito Normativo Enrico Ronchetti Enrico Ronchetti Università degli Studi.
Realizzazione siti web Pagine web dinamiche - javascript.
XSLT Trasformazioni XSL Ing. Luca Sabatucci. XSLT Uno dei vantaggi principali nell'utilizzo dell'Extensible Markup Language è la facilità con cui si possono.
1 Internet e nuove tecnologie Anno Accademico Prof. Flavio De Paoli Dott. Marco Loregian.
GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.
Large linguistically-processed Web corpora for multiple languages Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese.
Motori di Ricerca presente e futuro prossimo
Il PHP e il vostro sito cos'è e come funziona. HTML... Linguaggio formattazione Non interattivo Non dinamico.
Il metalinguaggio XML: la nuova frontiera per la codifica dellinformazione Relatore: Ing. Marco Porta Tesi di Laurea di: Andrea Mocchi ANNO ACCADEMICO.
Gianpaolo Cecere Introduzione
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
Associazione per lo sviluppo delle tecnologie nella didattica
LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2
Il linguaggio HTML Antonella Schiavon – settembre 2008 rev. 1 – aprile 2011.
ASP – Active Server Pages Introduzione Pagine Web Statiche & Dinamiche(ASP)
Tecnologie di InternetFondamenti di Linguaggi di Markup Dott. Nicola Dragoni Introduzione a e ai (Fondamenti di Markup Languages)
PHP - PHP: Hypertext Preprocessor. Introduzione PHP (acronimo ricorsivo per "PHP: Hypertext Preprocessor") è un linguaggio di scripting general-purpose.
JavaScript Generalità Cos'è JavaScript?
Creato da Riccardo Nuzzone
TECNOLOGIE DELL’INFORMAZIONE E DELLA COMUNICAZIONE PER LE AZIENDE Materiale di supporto alla didattica.
The Information School of the University of Washington University of Washington1 Introduzione INFO/CSE 100, Spring 2005.
Impostare i caratteri. Le prime versioni del linguaggio HTML così come le prime versioni dei browser consentivano unicamente la scelta tra due tipi di.
Internet e HTML Diffusione di informazioni mediante la rete Internet.
Introduzione a Javascript
HTML 4.01 Apogeo. I tag di base Capitolo 1 I tag SintassiEsempi:
HTML HTML e il web.
PROGETTO… Internet Providers, registrazione del dominio Costruire una home page … e renderla visibile sul Web.
Servizi Internet Claudia Raibulet
Indicizzazione di documenti semistrutturati Sistemi informativi – AA D’Este Laura.
Documenti XML ben formati Altre componenti di un documento XML – Struttura dei documenti XML.
Eprogram informatica V anno.
PHP.  HTML (Hyper Text Markup Language)  CSS (Cascading Style Sheets)  Javascript (linguaggio di programmazione client)  PHP ( Hypertext Preprocessor.
LINGUAGGI DI PROGRAMMAZIONE E' un linguaggio formale dotato di una sintassi ben definita che viene utilizzato per scrivere programmi che realizzano algoritmi.
Il mondo del web Includere Digital-mente – Corso livello 4 docente: prof.ssa MANUELA MARSILI.
Elementi di statistica con R e i database LEZIONE 2 Rocco De Marco rocco.demarco(a)an.ismar.cnr.it Ancona, 12 Aprile 2012.
PHP HyperText Prepocessor.  Linguaggio di scripting lato server sviluppato per generare pagine web.  Permette ad un sito web di diventare dinamico 
Transcript della presentazione:

Un Tool-box per Lessicografi Claudio Giuliano ITC-irst giuliano@itc.it http://tcc.itc.it/people/giuliano/research.html

Sommario Progetto TALES Lessicografia basata su corpora Demo Tool-box per Lessicografi Un caso d’uso: Valutazione del Question Answering

Progetto TALES Trattamento Automatico delle lingue Ladina e Sarda 2000-2003 Progetto congiunto tra ITC-irst, Istituto Culturale Ladino e Papiros Editziones Finanziato dalla UE e da enti locali del Trentino Alto Adige Il progetto é nato da una collaborazione tra ICL e ITC-IRST e la casa editrice sarda Papiros Il progetto coinvolge esperti di programmazione, lessicografia e linguistica computazionale. I primi si occupano di progettare e sviluppare l’applicazione, mentre i secondi di collaudarla e convalidarla. Il progetto é finanziato dalla comunità … All’interno del progetto, iniziato nello 1999, è stato realizzato il dizionario elettronico DILF. In questi giorni é stato realizzato l’accesso al dizionario attraverso il web

Obiettivi del progetto Dati Uniformare il formato dei dati lessicali disponibili Ricercare/utilizzare standard Codifica unica Strumenti Accesso a corpora Dizionari elettronici Analisi morfologica Correttori ortografici PoS tagger Il progetto ha due obiettivi principali: Il primo é uniformare il formato di rappresentazione dei dati Il secondo é realizzare un’applicazione web, tale che attraverso un’unica interfaccia si possano consultare banche dati lessicali e corpora.

Banche Dati/ Dizionari Uniformare i Dati XML è usato come linguaggio di rappresentazione dei contenuti Banche Dati/ Dizionari File di Testo File MS Word Corpora HyperCard FileMaker File XML Questo meta linguaggio é stato scelto per vari motivi, tra i quali: Rende esplicito alla macchina quello che per l’uomo é implicito Le annotazioni aggiungo informazioni L’analisi linguistica richiede l’annotazione Si separa la forma dal contenuto XML é uno standard

Convertire i dizionari in XML Sono state definite DTD specifiche per rappresentare le banche dati e i dizionari <voce> <lemma>briciola </lemma> <cat_lessicale> <gram>sf. </gram> <accezione> <trad>frégola, -es</trad> <trad>mizàcola, -es<trad> </accezione> </cat_lessicale> </voce> briciola sf. Frégola, -es; mizàcola, -es.  Una DTD descrive la struttura di un documento XML. In parole povere quello che può o non può essere la struttura di particolare un documento.

Convertire i corpora in XML È stata adottata la DTD definita in CES REGULAMËNT DE POLIZAI DE CHEMUN Capitul 1 Normes genereles Art. 1 Cuntenut dl regulamënt 1. La desposizions de chësc regulamënt aldò dla L.P. 10 nuvëmber 1993, nr.21, assegurea n servisc de polizai locala bon y efiziënt, regulan l numer di posc’ tl plann dla stieres, l’echipamënt, la cualificazion funzionela, l prufil prufesciunel, l stat iuridich, la funzions y l’ativiteies dla polizai chemunela.  <cesDoc> <cesHeader> … </cesHeader> <text> <body> <div type='doc'> <head> REGULAMËNT DE POLIZAI DE CHEMUN </head> <div type='cap' id='1'> <head> Capitul 1 Normes genereles </head> <div type='div1' id=''> <head> Art. 1 Cuntenut dl regulamënt </head> <p id='1.1.1'> 1. La desposizions de chësc...</p> </div> </body> </text> </cesDoc> CES é un’applicazione del SGML conforme alle linee guida definite da TEI. CES é appropriato per la codifica di corpora.

Normalizzare la codifica È stata adottata la codifica UNICODE <CARD n='60' name='card id 718778'> <FIELD n='1' name='lemma'>acadèmich</FIELD> <FIELD n='4' name='voce'>acadęmich, -cs, -ca, -ches <agg. e smf.> ...</FIELD> <FIELD n='5' name='fonte'>● C97 acadęmich, -cs,...</FIELD> </CARD> acadęmich, -cs, -ca, -ches accademico; studente universitario. ● C97 acadęmich, -cs, -ca, -ches accademico; studente universitario. ● M69 academich (neol.) accademico; studente universitario. (cazét)  Unicode attribuisce un numero univoco a ogni carattere, indipendentemente dalla piattaforma, dall'applicativo, dalla lingua Unicode è supportato da molti sistemi operativi, da tutti i più moderni web browser e da molti altri prodotti

Tool-box Banche dati/Dizionari Corpora Ricerca Inserimento/modifica (non realizzato) Corpora Ricerca di Concordanze Liste di Frequenze Ricerca di Collocazioni Allineamento di testi bi/trilingui

Tool-box (2) Linguaggi di sviluppo Rappresentazione dei dati HTML, JavaScript (client) Java (server) Rappresentazione dei dati XML Database relazionale Per garantire la massima portabilità fra le piattaforme dal lato Client è stato utilizzato il linguaggio HTML, come formato di presentazione; mentre dal lato Server è stato utilizzato il linguaggio Java. I moduli sono organizzati su più livelli per mascherare all’utente finale i il modo in cui i dati sono immagazzinati. Il modello dei dati é basato su XML, il quale si adegua bene alla natura semi strutturata dei dizionari e testi. Per rendere efficiente la loro manipolazione è stato realizzato un sistema di convalidazione, di indicizzazione e di compressione.

Architettura del tool-box Server Extension Dictionary Processor Corpora Data Access Data Management System Web Browser Query form Query Interpreter Method invocation XML HTML Binary Data XSLT Processor Database Index Corpora Il tool-box è stato realizzato con una architettura client/server composta da diversi moduli. Una interrogazione del client (The communication is driven by the client) viene interpretata e inviata ai moduli di gestione dei dati che attraverso un indice inverso trova i dati necessari per costruire il risultato che viene restituito al Web server in XML… L’architettura sviluppata é piuttosto flessibile, in quanto esiste una netta separazione tra la rappresentazione dei dati e la loro presentazione. In questo modo cambiamenti del client non implicano cambiamenti al server.

Indici Gli indici sono creati “off-line” Ogni parola è indicizzata (con eventuali attributi) Ignora le maiuscole e accenti : a corrisponde a o A e corrisponde e, é, è, ë, ê Numeri e punteggiatura non sono indicizzati Poiché l’ortografia ladina non é ancora stabile, abbiamo a disposizione molti testi in cui la stessa parola può essere scritta in modi differenti, le parole da ricercare possono essere scritte ignorando le maiuscole e le lettere accentate. L’ordinamento dei risultati tiene conto delle lettere accentate e dei caratteri speciali

Presentazione dei dati Un processore interpreta le regole di trasformazione da XML a HTML La formattazione può essere delegata al client Possono esistere più stili associati agli stessi dati I corpora e i dizionari sono immagazzinati in XML e sono rappresentati in HTML. La trasformazione avviene a tempo di esecuzione. Le regole di trasformazione sono definite in file di stile (XSL); le regole sono interpretata La formattazione può essere delegata al client, questo consente di scaricare il lato server da questa computazione. Al momento solo pochi browser consentono questo. Per questo motivo la formattazione é ancora compito del server Per gli stessi dati possono esistere più stili associati. Questo consente di presentare in modo differente la stessa informazione.

Presentazione dei dati (2) <voce> <lemma>briciola </lemma> <cat_lessicale> <gram>sf. </gram> <accezione> <trad>frégola, -es</trad> <trad>mizàcola, -es<trad> </accezione> </cat_lessicale> </voce> <?xml version="1.0"?> <xsl:stylesheet version="1.0"> <xsl:template match="/"> <html> <head> <title>ID</title> </head> <body bgcolor="#ffffcc"> <xsl:apply-templates select="dizionario"/> </body> </html> </xsl:template> <xsl:template match="voce"> <h3> <xsl:apply-templates select="lemma_sec/lemma"/> </h3> <strike><xsl:apply-templates select="USO"/> <xsl:apply-templates select="GLOSSA"/></strike> <br/> <xsl:apply-templates select="LISTA_CAT_LEX"/> ...  XML  XSL Processore XSLT  HTML briciola sf. Frégola, -es; mizàcola, -es.

L’interfaccia utente WEB browser che supporti HTML dinamico Firefox Safari Internet Explorer ... L’applicazione client può essere un qualsiasi browser che supporti l’HTML dinamico, poiché l’interfaccia del tool-box è realizzata in tale linguaggio. L’impiego dello HTML ci garantisce, portabilità e flessibilità dell’interfaccia WEB. L’interfaccia permette all’utente di accedere con le stesse modalità alle molteplici risorse lessicali, senza preoccuparsi della loro organizzazione e locazione fisica.

Accesso alle banche dati

Accesso ai dizionari Sui dizionari si possono effettuare interrogazioni in parallelo su differenti dizionari, in particolare si possono effettuare ricerche per parola, prefisso, suffisso o espressioni regolari. Inoltre, si possono specificare i tipi di dati ricercati, in funzione della struttura semantica dei dizionari.

Ricerca di concordanze Sui corpora si possono effettuare la ricerca di concordanze, di collocazioni e il calcolo delle frequenze delle parole. Il risultato di una concordanza è presentato nel formato KWIC (Key Word in Context). Nell’interrogazione, oltre alla concordanza, possono essere specificati: il corpus in cui fare la ricerca; il numero di parole che costituiscono il contesto destro e sinistro; e la parola da usare come chiave per l’ordinamento alfabetico delle righe di testo trovate (come chiave può essere utilizzata una qualsiasi delle parole appartenenti al contesto, letta da sinistra a destra o viceversa).

Ricerca di concordanze (2)

Frequenze delle parole Il risultato della ricerca delle collocazioni è mostrato in forma tabellare. Nella prima colonna sono mostrati i collocati, nella seconda la loro frequenza congiunta e nella terza la loro frequenza assoluta. Nell’interrogazione si possono specificare: il corpus in cui fare la ricerca; il numero di parole di contesto; e il tipo di ordinamento: alfabetico o per frequenza. Inoltre può essere specificato un valore della frequenza sotto il quale escludere i collocati dal risultato.

Sommario Progetto TALES Lessicografia basata su corpora Token, types, frequenze Legge di Zipf Concordanze Ricerca di Collocazioni Demo Tool-box per Lessicografo Un caso d’uso: Valutazione del Question Answering

Tokens, types, frequenze corpus LA Times 62,790,468 Type corpus LA Times 215,738 Frequenza numero assoluto di occorrenze frequenze relativa o normalizzata frequenza media (fm=token/type) corpus Repubblica fm=85 corpus LA Times fm=291 Frequenza di frequenze (spettro delle frequenze)

Tokens, types, frequenze (2) circa il 50% dei token di un testo sono le parole piu’ comuni

Tokens, types, frequenze (2)

Tokens, types, frequenze (2) circa il 50% delle parole sono hapax circa il 90% delle parole hanno frequenza ≤ 10

Legge di Zipf Distribuzione di frequenza delle parole nel linguaggio f · r = k Esempio fatto da Zipf tratto dallo studio lessicale dell’Ulysses di Joyce: al rango 10 la frequenza e’ 2653 al rango 100 la frequenza e’ 265 al rango 1000 la frequenza e’ 26 al rango 10000 la frequenza e’ 26

Legge di Zipf (2) Corpus La Repubblica

Legge di Zipf (3) Corpus LA Times

KWIC = Keyword in context Concordanze KWIC = Keyword in context

Espressioni regolari Utilizzate per effettuare ricerche complesse Una RE descrive un insieme di stringhe caratteri speciali ^ $ + ? . * ( ) [ ] { } | \ Esempi ^hopef = {hopeful, hopefully, hopefulness, hopefuls} ing$ = {being, having, solving, …} hope(full|less) = {hopeful, hopeless} cars? = {car, cars} be(ing)? = {be, being} .* = tutto il vocabolario

Concordanze (2) query = ^comun[ei]$

Ricerca di Collocazioni Metodi statistici frequenza Media e Varianza Test di ipotesi Corpus New York Times Agosto/Novembre 1990 115 MB 14·106 parole Capitolo 5, Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.

Frequenza sentece: a lecturer at the computer science faculty bigrammi: a lecturer lecturer at at the the computer computer science science faculty

Frequenza (2)

Media e Varianza Frequenza + PoS funziona bene per frasi rigide she knocked on his door they knocked at the door 100 women knocked on Donaldson’s door a man knocked on the metal front door

Media e Varianza (2) 4 tokens sentece: a lecturer at the computer science faculty bigrammi: a lecturer a at a the lecturer at lecturer the lecturer computer at the at computer at science at faculty the computer the science the faculty computer science computer faculty science faculty

Media e Varianza (2) 4 tokens sentece: a lecturer at the computer science faculty bigrammi: a lecturer a at a the lecturer at lecturer the lecturer computer at the at computer at science at faculty the computer the science the faculty computer science computer faculty science faculty

Media e Varianza (3) she knocked on his door they knocked at the door OFFSET=3 she knocked on his door they knocked at the door 100 women knocked on Donaldson’s door a man knocked on the metal front door

Media e Varianza (2)

Media e Varianza (3)

Test di ipotesi Alta frequenza e bassa  possono essere casuali Quando due due parole occorrono insieme più spesso del caso? Test di ipotesi lpotesi nulla H0: non c’e’ associazione Calcoliamo la p che l’evento occorra se H0 fosse vera rifiutiamo H0 se p e’ troppo bassa livello di significatività (p<0.05, p<0.01, …)

Test di ipotesi (2) t-test Pearson’s chi-squared test Likelihood ratio

E’ possibile usare Google? Il Tool-Box cerca al livello di parole Sono on-line i corpora che ci interessano? I copora possono essere bilanciati Le statistiche di google sono affidabili?

Sommario Progetto TALES Lessicografia basata su corpora Demo Tool-box per Lessicografo Un caso d’uso: Valutazione del Question Answering

Demo http://localhost:8080/tb2/jsp/concordance.html http://localhost:8080/tb2/jsp/freq.html http://localhost:8080/tb2/jsp/collocation.html

Sommario Progetto TALES Lessicografia basata su corpora Demo Tool-box per Lessicografo Un caso d’uso: Valutazione del Question Answering

QA@CLEF Multilingual Question Answering (QA) QA combina IR e NLP http://clef-qa.itc.it/ QA combina IR e NLP Domanda in linguaggio naturale Risposta precisa (non un documento) Nell’ambito di Cross Language Evaluation Forum (CLEF) NIST TREC QA ITC-irst & Celct

Tool-Box e CLEF Corpora in 8 lingue Creare il set di domande per testare i sistemi di QA Valutare le risposte date dai sistemi Domande su 300 topics “Energia alternativa” “bancarotta Schneider” …

Tool-Box e CLEF (2) Si parte da un topic Si cercano keywords o keyphrases associate Utilizzando le concordanze si cercano risposte a possibili domande In valutazione si usa il tool-box per verificare le risposte

Esempio: “bancarotta Schneider”

Esempio: “bancarotta Schneider” (2)

Esempio: “bancarotta Schneider” (3)