La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Un Tool-box per Lessicografi Claudio Giuliano ITC-irst

Presentazioni simili


Presentazione sul tema: "Un Tool-box per Lessicografi Claudio Giuliano ITC-irst"— Transcript della presentazione:

1 Un Tool-box per Lessicografi Claudio Giuliano ITC-irst

2 Sommario n Progetto TALES n Lessicografia basata su corpora n Demo Tool-box per Lessicografi n Un caso duso: Valutazione del Question Answering

3 n Trattamento Automatico delle lingue Ladina e Sarda n n Progetto congiunto tra ITC-irst, Istituto Culturale Ladino e Papiros Editziones n Finanziato dalla UE e da enti locali del Trentino Alto Adige Progetto TALES

4 Obiettivi del progetto n Dati –Uniformare il formato dei dati lessicali disponibili –Ricercare/utilizzare standard –Codifica unica n Strumenti –Accesso a corpora –Dizionari elettronici –Analisi morfologica –Correttori ortografici –PoS tagger

5 Uniformare i Dati File di Testo File MS WordCorpora HyperCard Banche Dati/ Dizionari File XML n XML è usato come linguaggio di rappresentazione dei contenuti FileMaker

6 briciola sf. frégola, -es mizàcola, -es briciola sf. Frégola, -es; mizàcola, -es. Convertire i dizionari in XML n Sono state definite DTD specifiche per rappresentare le banche dati e i dizionari

7 REGULAMËNT DE POLIZAI DE CHEMUN Capitul 1 Normes genereles Art. 1 Cuntenut dl regulamënt 1. La desposizions de chësc regulamënt aldò dla L.P. 10 nuvëmber 1993, nr.21, assegurea n servisc de polizai locala bon y efiziënt, regulan l numer di posc tl plann dla stieres, lechipamënt, la cualificazion funzionela, l prufil prufesciunel, l stat iuridich, la funzions y lativiteies dla polizai chemunela. … REGULAMËNT DE POLIZAI DE CHEMUN Capitul 1 Normes genereles Art. 1 Cuntenut dl regulamënt 1. La desposizions de chësc... … Convertire i corpora in XML n È stata adottata la DTD definita in CES

8 acadèmich acadęmich, -cs, -ca, -ches <agg. e smf.>... ● C97 acadęmich, -cs,... acadęmich, -cs, -ca, -ches accademico; studente universitario. C97 acadęmich, -cs, -ca, -ches accademico; studente universitario. M69 academich (neol.) accademico; studente universitario. (cazét) Normalizzare la codifica n È stata adottata la codifica UNICODE

9 Tool-box n Banche dati/Dizionari –Ricerca –Inserimento/modifica (non realizzato) n Corpora –Ricerca di Concordanze –Liste di Frequenze –Ricerca di Collocazioni –Allineamento di testi bi/trilingui

10 Tool-box (2) n Linguaggi di sviluppo –HTML, JavaScript (client) –Java (server) n Rappresentazione dei dati –XML –Database relazionale

11 Architettura del tool-box WebBrowser Database IndexCorpora Method invocation HTML BinaryData DictionaryProcessorCorporaProcessor Data Access Data Management System XSLTProcessor QueryInterpreter Server Extension XML Query form

12 Indici n Gli indici sono creati off-line n Ogni parola è indicizzata (con eventuali attributi) n Ignora le maiuscole e accenti : –a corrisponde a o A –e corrisponde e, é, è, ë, ê n Numeri e punteggiatura non sono indicizzati

13 Presentazione dei dati n Un processore interpreta le regole di trasformazione da XML a HTML n La formattazione può essere delegata al client n Possono esistere più stili associati agli stessi dati

14 Presentazione dei dati (2) Processore XSLT XSL XML HTML ID... briciola sf. frégola, -es mizàcola, -es briciola sf. Frégola, -es; mizàcola, -es.

15 Linterfaccia utente n WEB browser che supporti HTML dinamico –Firefox –Safari –Internet Explorer –...

16 Accesso alle banche dati

17 Accesso ai dizionari

18 Ricerca di concordanze

19 Ricerca di concordanze (2)

20 Frequenze delle parole

21 Sommario n Progetto TALES n Lessicografia basata su corpora –Token, types, frequenze –Legge di Zipf –Concordanze –Ricerca di Collocazioni n Demo Tool-box per Lessicografo n Un caso duso: Valutazione del Question Answering

22 Tokens, types, frequenze n Token –corpus LA Times 62,790,468 n Type –corpus LA Times 215,738 n Frequenza –numero assoluto di occorrenze –frequenze relativa o normalizzata n frequenza media (f m =token/type) –corpus Repubblica f m =85 –corpus LA Times f m =291 n Frequenza di frequenze (spettro delle frequenze)

23 Tokens, types, frequenze (2) circa il 50% dei token di un testo sono le parole piu comuni

24 Tokens, types, frequenze (2)

25 circa il 50% delle parole sono hapax circa il 90% delle parole hanno frequenza 10

26 n Distribuzione di frequenza delle parole nel linguaggio n f · r = k al rango 10la frequenza e 2653 al rango 100la frequenza e 265 al rango 1000la frequenza e 26 al rango 10000la frequenza e 26 Esempio fatto da Zipf tratto dallo studio lessicale dellUlysses di Joyce: Legge di Zipf

27 Legge di Zipf (2) Corpus La Repubblica

28 Legge di Zipf (3) Corpus LA Times

29 Concordanze KWIC = Keyword in context

30 Espressioni regolari n Utilizzate per effettuare ricerche complesse n Una RE descrive un insieme di stringhe n caratteri speciali –^ $ + ?. * ( ) [ ] { } | \ n Esempi –^hopef = {hopeful, hopefully, hopefulness, hopefuls} –ing$ = {being, having, solving, …} –hope(full|less) = {hopeful, hopeless} –cars? = {car, cars} –be(ing)? = {be, being} –.* = tutto il vocabolario

31 Concordanze (2) query = ^comun[ei]$

32 Ricerca di Collocazioni n Metodi statistici –frequenza –Media e Varianza –Test di ipotesi n Corpus –New York Times –Agosto/Novembre 1990 –115 MB –14·10 6 parole n Capitolo 5, Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.

33 Frequenza a lecturer at the computer science faculty sentece: a lecturer at the computer science faculty bigrammi: a lecturer lecturer at at the the computer computer science science faculty

34 Frequenza (2)

35 Media e Varianza a. a. she knocked on his door b. b. they knocked at the door c. c. 100 women knocked on Donaldsons door d. d. a man knocked on the metal front door n Frequenza + PoS funziona bene per frasi rigide

36 Media e Varianza (2) 4 tokens a lecturer at the computer science faculty sentece: a lecturer at the computer science faculty bigrammi: a lecturera ata the lecturer at lecturer the lecturer computer at theat computerat scienceat faculty the computer the sciencethe faculty computer science computer faculty science faculty

37 Media e Varianza (2) 4 tokens a lecturer at the computer science faculty sentece: a lecturer at the computer science faculty bigrammi: a lecturera ata the lecturer at lecturer the lecturer computer at theat computerat scienceat faculty the computer the sciencethe faculty computer science computer faculty science faculty

38 Media e Varianza (3) a. a. she knocked on his door b. b. they knocked at the door c. c. 100 women knocked on Donaldsons door d. d. a man knocked on the metal front door OFFSET=3

39 Media e Varianza (2)

40 Media e Varianza (3)

41 Test di ipotesi n Alta frequenza e bassa possono essere casuali n Quando due due parole occorrono insieme più spesso del caso? n Test di ipotesi –lpotesi nulla H 0 : non ce associazione –Calcoliamo la p che levento occorra se H 0 fosse vera –rifiutiamo H 0 se p e troppo bassa –livello di significatività (p<0.05, p<0.01, …)

42 Test di ipotesi (2) n t-test n Pearsons chi-squared test n Likelihood ratio

43 E possibile usare Google? n Il Tool-Box cerca al livello di parole n Sono on-line i corpora che ci interessano? n I copora possono essere bilanciati n Le statistiche di google sono affidabili?

44 Sommario n n Progetto TALES n n Lessicografia basata su corpora n n Demo Tool-box per Lessicografo n n Un caso duso: Valutazione del Question Answering

45 Demo n n n

46 Sommario n n Progetto TALES n n Lessicografia basata su corpora n n Demo Tool-box per Lessicografo n n Un caso duso: Valutazione del Question Answering

47 n Multilingual Question Answering (QA) –http://clef-qa.itc.it/http://clef-qa.itc.it/ n QA combina IR e NLP –Domanda in linguaggio naturale –Risposta precisa (non un documento) n Nellambito di Cross Language Evaluation Forum (CLEF) n NIST TREC QA n ITC-irst & Celct

48 Tool-Box e CLEF n Corpora in 8 lingue n Creare il set di domande per testare i sistemi di QA n Valutare le risposte date dai sistemi n Domande su 300 topics –Energia alternativa –bancarotta Schneider –…–…

49 Tool-Box e CLEF (2) n Si parte da un topic n Si cercano keywords o keyphrases associate n Utilizzando le concordanze si cercano risposte a possibili domande n In valutazione si usa il tool-box per verificare le risposte

50 Esempio: bancarotta Schneider

51 Esempio: bancarotta Schneider (2)

52 Esempio: bancarotta Schneider (3)


Scaricare ppt "Un Tool-box per Lessicografi Claudio Giuliano ITC-irst"

Presentazioni simili


Annunci Google