La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2006-07.

Presentazioni simili


Presentazione sul tema: "Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2006-07."— Transcript della presentazione:

1 Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a

2 Termine Un termine (o unità terminologica) è: una parola (termine semplice), una espressione composta da più parole (termine composto), un simbolo una formula che indica un particolare concetto allinterno di un dato dominio cognitivo

3 Estrazione di terminologia Approccio classico Termine è una etichetta linguistica per un concetto; la conoscenza è organizzata in domini, laddove ciascun dominio è equivalente ad una rete di concetti Approccio computazionale Termine è loutput di una procedura di analisi terminologica (-> termini, concetti, ontologia)

4 Estrazione di terminologia Può essere realizzata: manualmente automaticamente Nel secondo caso un tool di estrazione identifica una lista di tutti i termini candidati in base ad unanalisi statistica, o mista (statistica e linguistica); un esperto terminologo e con competenze di dominio può eventualmente essere utilizzato per rivedere i risultati e scegliere i candidati che ritiene termini. In ogni caso necessaria ladozione di un corpus (collezione di testi scritti realizzata con lo scopo precipuo di supportare unanalisi terminologica).

5 Estrazione di terminologia Database terminologico Consiste di item lessicali stabili e dipendenti dal dominio Contiene unità che siano utili per la specifica applicazione Necessità di aggiornamenti continui

6 Estrazione di terminologia Compito non completamente definito termini possono essere solo parole note lidentificazione di un termine richiede una consapevolezza del compito da parte di chi lo esegue nessun criterio formale per distinguere i termini dai non termini la frequenza non è sempre un indicatore significativo

7 Estrazione di terminologia Ambiguità Esistono molti modi in cui un termine può risultare ambiguo Sintattica {noun/verb, adjective/noun} POS taggers sono ragionevolmente accurati (95%-99% ): lidentificazione sintattica può essere non problematica ove segua una fase opportuna di training

8 Estrazione di terminologia Ambiguità Semantica polisemia: la stessa forma terminologica si riferisce a molti concetti collegati nel significato omonimia: uguale forma linguistica superficiale con significati assolutamente non correlati

9 Estrazione di terminologia Problemi con i termini La maggioranza dei termini sono composti (multi-word unit): qual è lelemento trainante (come significato) nella composizione? Multidimensionalità di un termine: ereditarietà multipla allinterno di una gerarchia (es.: tubercolosi polmonare è sia una malattia respiratoria che una infezione)

10 Variabilità di un termine Un concetto può essere rappresentato da più di un termine (sinonimi o varianti del termine) La variabilità di un termine costituisce un serio problema per applicazioni di IR, IE, MT… limitandone le performance.

11 Variabilità di un termine Come variano i termini? Morfologicamente acqua stagnante / acque stagnanti Sintatticamente attività degli enzimi / attività enzimatica vaccino HIV / vaccino contro lHIV Semanticamente assicurazione medica Compressione o accorciamento di un termine, acronimi od altre abbreviazioni vagone letto / WL / VL

12 Metodi per lestrazione di terminologia 1.Tecniche di IR 2.Approcci linguistici 3.Approcci statistici 4.Metodi ibridi

13 Metodi per lestrazione di terminologia Tecniche di IR Una parola in un documento può essere un utile termine per indicizzare il documento stesso Una parola frequente in un documento può essere un utile termine per indicizzare il documento stesso Una parola che appare in un numero limitato di documenti è non in un documento può essere un utile termine per indicizzare quei documenti Una parola che appare frequentemente in un solo documento e non nel resto del corpus in un documento può essere un utile termine per indicizzare il documento stesso Misure di distribuzione delle parole in un corpus possono essere più utili della frequenza

14 Metodi per lestrazione di terminologia Tecniche di IR (termini indice / termini tecnici) Lobiettivo dellindicizzazione è quello di trovare termini utili alla indicizzazione, ovvero capaci di discriminare un documento da un altro Lobiettivo dellestrazione di terminologia è quello di trovare termini tecnici che indichino concetti di un dominio specifico Termini indice non sono necessariamente termini tecnici Termini tecnici non sono necessariamente termini indice per alcune collezioni di documenti

15 Metodi per lestrazione di terminologia Tecniche di IR (procedura classica) Elaborazione del testo alla ricerca di termini complessi Analisi morfologica Identificazione di NP Applicazione di euristiche (su basi statistiche) per la riduzione del numero dei termini composti Se esiste una relazione tra gli elementi di un termine composto e questi si comportano come una parola sola (lessicalizzazione) Non è possibile inserire parole tra gli elementi del composto senza alterarne il significato

16 Metodi per lestrazione di terminologia Approcci linguistici Basati su preprocessing linguistico ed annotazioni Si riconoscono pattern sintattici ricorrenti nella formazione di un termine (in genere frasi nominali) Problemi con punteggiatura (virgole, trattini, virgolette, spazi,…) Nomi composti scritti in modi diversi (database, data base, data-base)

17 Metodi per lestrazione di terminologia Approcci statistici Le misure usate più frequentemente sono: Frequenza delle occorrenze Mutua informazione

18 Metodi per lestrazione di terminologia Approcci statistici Frequenza delle occorrenze La più usata Indipendente dal dominio, non richiede alcuna competenza ulteriore ma Termini con bassa frequenza possono essere buoni termini La frequenza è una utile misura solo con frasi che si ripetono allo stesso modo

19 Metodi per lestrazione di terminologia Approcci statistici Mutua informazione Usata per lestrazione di collocation (espressioni consistenti di due o più parole corrispondenti ad un modo convenzionale di dire qualcosa word cooccurrences) Sovrapposizione tra collocation e termini tecnici

20 Metodi per lestrazione di terminologia Approcci statistici Mutua informazione (Fano,1961) Lammontare di informazione fornita dalloccorrenza di un evento y rispetto alloccorrenza di un evento x è definita come: I(x y)=log P(x y) / P(x) P(y) Ovvero fornisce linformazione di quanto una parola si relazioni con unaltra Problemi: data sparseness, bigrammi composti da parole a bassa frequenza vengono sovrastimati Va bene per estrarre termini candidati composti da due parole

21 Metodi per lestrazione di terminologia Metodi ibridi Combinazione di informazioni linguistiche, shallow parser e statistica Si aggiunge informazione di contesto (clustering contestuale, informazione su parole sconosciute, accesso ad ontologia, …) (es. dipartimento di, bibliografia su, studio di, informazioni su,..) Informazione intrinseca sui termini (pattern di formazione) più estrinseca (contesto)

22 Metodi per lestrazione di terminologia approccio di Tor Vergata First task: extract and validate Terms A Term is a surface representation of a key domain concept. launch vehicle Magnetic field Entity#ne# mission A term can be formed by one or more words and Named Entities (generalization of important entities of a specific domain) Ex: Spacecraft Design Domain ESA mission Voyager mission SOHO mission Ex: Entity#ne#_mission

23 Metodi per lestrazione di terminologia Second task: extract and validate Verb Relations A Verb Relation (or Surface Form) is a surface representation of a key domain relational concept Operatively: A relational concept can be intended as a semantic relation among domain concepts A verb relation is a semantically generalized lexical fragment of text governed by a verb satellite reaching celestial body Ex: Relational Concept Surface Form Text Fragments approach((SUBJ,satellite),(OBJ,celestial_body#ne#)) get_close((SUBJ,satellite),(OBJ,celestial_body#ne#)) the satellite approached the Moon in 1974.

24 Validazione: 7821/58267 (14%) retained terms 482/1814 (38%) retained terms with freq>5 Discarded terms as part, level, table, while expressing domain concepts are too generic to be accepted Metodi per lestrazione di terminologia 10 MOST RELEVANT TERMS

25 Compound terms have been devided into groups of same length Metodi per lestrazione di terminologia Most interesting terms usually are those of 2/3-words length: Launch_vehicle Magnetic_field Solar system Entity#ne#_mission Microwave Radio Frequency Trajectory correction manoueuvre 10 MOST RELEVANT 2-WORDS TERMS

26 Difficulties in validation: –Hardness in comprehension of semantic meaning of the forms, due to lack of information: Ex. approach((SUBJ,null),(OBJ,orbit)) leave((SUBJ,mission#ne#)) Metodi per lestrazione di terminologia Who is the subject?? What is the object of leave?? –Overgeneration: every sentence in corpus can create several surface forms leave((dirobj,'celestial_corp#ne#'),(subj,'mission#ne#')) leave((dirobj,'celestial_corp#ne#')) leave((dirobj,'celestial_corp#ne#'),(subj,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,'mission#ne#')) Voyager 2 leaves Earth at about 36 km/s relative to the sun

27 Metodi per lestrazione di terminologia It could be possible to create a domain syntactic- semantic subcategorization frame for each verb, using semantic resources, such as WordNet Ex. absorb,((subj,'x-rays')) absorb,((subj,dust)) absorb,((subj,gas)) absorb,((subj,radiation)) absorb,((subj,substrate)) absorb,((subj,atmosphere)) absorb,((subj,ENTITY)) absorb,((subj,PHYS_ELEMENT)) absorb,((subj,PHYS_ENTITY)) absorb,((subj,'x-rays')) absorb,((subj,dust)) absorb,((subj,gas)) absorb,((subj,radiation)) absorb,((subj,substrate)) absorb,((subj,atmosphere))

28 Uso della terminologia Text indexation Text summarization Information extraction Information retrieval Question answering Machine translation (text alignment) …

29 Text alignment Confronto di testi paralleli (in genere un testo legale e la sua traduzione) che vengono visualizzati in maniera corrispondente (es. per paragrafi, frasi, etc) Lallineamento facilita il riconoscimento di termini simili (parole con la stessa valenza di termine) nelle due lingue

30 Qualche conclusione Lestrazione della terminologia è un problema mal definito e complesso La struttura gerarchica del problema suggerisce uno sviluppo a passi Passi di base (text preparation, part-of-speech tagging, noun phrase parsing) Algoritmi ben definiti e pubblicamente accessibili Uso di filtri Named entities –Problema concettualmente semplice –Software maturo e di pubblico dominio Lexicalized noun phrases –Soluzioni non definitive ma con buoni suggerimenti –Focus su terminologie specifiche di dominio Informazioni di contesto nel documento –Metodologie ancora non definite completamente –Modelli che usano metriche di IR


Scaricare ppt "Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2006-07."

Presentazioni simili


Annunci Google