La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Estrazione di terminologia da corpora

Presentazioni simili


Presentazione sul tema: "Estrazione di terminologia da corpora"— Transcript della presentazione:

1 Estrazione di terminologia da corpora
Maria Teresa PAZIENZA a.a

2 Termine Un termine (o unità terminologica) è:
una parola (termine semplice), una espressione composta da più parole (termine composto), un simbolo una formula che indica un particolare concetto all’interno di un dato dominio cognitivo

3 Estrazione di terminologia
Approccio classico Termine è una etichetta linguistica per un concetto; la conoscenza è organizzata in domini, laddove ciascun dominio è equivalente ad una rete di concetti Approccio computazionale Termine è l’output di una procedura di analisi terminologica (-> termini, concetti, ontologia)

4 Estrazione di terminologia
Può essere realizzata: manualmente automaticamente Nel secondo caso un tool di estrazione identifica una lista di tutti i termini candidati in base ad un’analisi statistica, o mista (statistica e linguistica); un esperto terminologo e con competenze di dominio può eventualmente essere utilizzato per rivedere i risultati e scegliere i candidati che ritiene termini. In ogni caso necessaria l’adozione di un corpus (collezione di testi scritti realizzata con lo scopo precipuo di supportare un’analisi terminologica).

5 Estrazione di terminologia
Database terminologico Consiste di item lessicali stabili e dipendenti dal dominio Contiene unità che siano utili per la specifica applicazione Necessità di aggiornamenti continui

6 Estrazione di terminologia
Compito non completamente definito termini possono essere solo parole note l’identificazione di un termine richiede una consapevolezza del compito da parte di chi lo esegue nessun criterio formale per distinguere i termini dai non termini la frequenza non è sempre un indicatore significativo

7 Estrazione di terminologia
Ambiguità Esistono molti modi in cui un termine può risultare ambiguo Sintattica {noun/verb, adjective/noun} POS taggers sono ragionevolmente accurati (95%-99% ): l’identificazione sintattica può essere non problematica ove segua una fase opportuna di training

8 Estrazione di terminologia
Ambiguità Semantica polisemia: la stessa forma terminologica si riferisce a molti concetti collegati nel significato omonimia: uguale forma linguistica superficiale con significati assolutamente non correlati

9 Estrazione di terminologia
Problemi con i termini La maggioranza dei termini sono composti (multi-word unit): qual è l’elemento trainante (come significato) nella composizione? Multidimensionalità di un termine: ereditarietà multipla all’interno di una gerarchia (es.: tubercolosi polmonare è sia una malattia respiratoria che una infezione)

10 Variabilità di un termine
Un concetto può essere rappresentato da più di un termine (sinonimi o varianti del termine) La variabilità di un termine costituisce un serio problema per applicazioni di IR, IE, MT… limitandone le performance.

11 Variabilità di un termine
Come variano i termini? Morfologicamente acqua stagnante / acque stagnanti Sintatticamente attività degli enzimi / attività enzimatica vaccino HIV / vaccino contro l’HIV Semanticamente assicurazione medica Compressione o accorciamento di un termine, acronimi od altre abbreviazioni vagone letto / WL / VL

12 Metodi per l’estrazione di terminologia
Tecniche di IR Approcci linguistici Approcci statistici Metodi ibridi

13 Metodi per l’estrazione di terminologia
Tecniche di IR Una parola in un documento può essere un utile termine per indicizzare il documento stesso Una parola frequente in un documento può essere un utile termine per indicizzare il documento stesso Una parola che appare in un numero limitato di documenti è non in un documento può essere un utile termine per indicizzare quei documenti Una parola che appare frequentemente in un solo documento e non nel resto del corpus in un documento può essere un utile termine per indicizzare il documento stesso Misure di distribuzione delle parole in un corpus possono essere più utili della frequenza

14 Metodi per l’estrazione di terminologia
Tecniche di IR (termini indice / termini tecnici) L’obiettivo dell’indicizzazione è quello di trovare termini utili alla indicizzazione, ovvero capaci di discriminare un documento da un altro L’obiettivo dell’estrazione di terminologia è quello di trovare termini tecnici che indichino concetti di un dominio specifico Termini indice non sono necessariamente termini tecnici Termini tecnici non sono necessariamente termini indice per alcune collezioni di documenti 14

15 Metodi per l’estrazione di terminologia
Tecniche di IR (procedura classica) Elaborazione del testo alla ricerca di termini complessi Analisi morfologica Identificazione di NP Applicazione di euristiche (su basi statistiche) per la riduzione del numero dei termini composti Se esiste una relazione tra gli elementi di un termine composto e questi si comportano come una parola sola (lessicalizzazione) Non è possibile inserire parole tra gli elementi del composto senza alterarne il significato

16 Metodi per l’estrazione di terminologia
Approcci linguistici Basati su preprocessing linguistico ed annotazioni Si riconoscono pattern sintattici ricorrenti nella formazione di un termine (in genere frasi nominali) Problemi con punteggiatura (virgole, trattini, virgolette, spazi,…) Nomi composti scritti in modi diversi (database, data base, data-base)

17 Metodi per l’estrazione di terminologia
Approcci statistici Le misure usate più frequentemente sono: Frequenza delle occorrenze Mutua informazione

18 Metodi per l’estrazione di terminologia
Approcci statistici Frequenza delle occorrenze La più usata Indipendente dal dominio, non richiede alcuna competenza ulteriore ma Termini con bassa frequenza possono essere buoni termini La frequenza è una utile misura solo con frasi che si ripetono allo stesso modo

19 Metodi per l’estrazione di terminologia
Approcci statistici Mutua informazione Usata per l’estrazione di collocation (espressioni consistenti di due o più parole corrispondenti ad un modo convenzionale di dire qualcosa word cooccurrences) Sovrapposizione tra collocation e termini tecnici

20 Metodi per l’estrazione di terminologia
Approcci statistici Mutua informazione (Fano,1961) L’ammontare di informazione fornita dall’occorrenza di un evento y rispetto all’occorrenza di un evento x è definita come: I(x y)=log P(x y) / P(x) P(y) Ovvero fornisce l’informazione di quanto una parola si relazioni con un’altra Problemi: data sparseness, bigrammi composti da parole a bassa frequenza vengono sovrastimati Va bene per estrarre termini candidati composti da due parole

21 Metodi per l’estrazione di terminologia
Metodi ibridi Combinazione di informazioni linguistiche, shallow parser e statistica Si aggiunge informazione di contesto (clustering contestuale, informazione su parole sconosciute, accesso ad ontologia, …) (es. dipartimento di, bibliografia su, studio di, informazioni su, ..) Informazione intrinseca sui termini (pattern di formazione) più estrinseca (contesto)

22 Metodi per l’estrazione di terminologia approccio di Tor Vergata
First task: extract and validate Terms A Term is a surface representation of a key domain concept. “launch vehicle” “Magnetic field” “Entity#ne# mission” Ex: Spacecraft Design Domain A term can be formed by one or more words and Named Entities (generalization of important entities of a specific domain) “ESA mission” “Voyager mission” “SOHO mission” Ex: “Entity#ne#_mission”

23 Metodi per l’estrazione di terminologia
Second task: extract and validate Verb Relations A Verb Relation (or Surface Form) is a surface representation of a key domain “relational concept” Operatively: A relational concept can be intended as a semantic relation among domain concepts A verb relation is a semantically generalized lexical fragment of text governed by a verb satellite reaching celestial body Ex: Relational Concept Surface Form Text Fragments approach((SUBJ,satellite),(OBJ,celestial_body#ne#)) get_close((SUBJ,satellite),(OBJ,celestial_body#ne#)) “the satellite approached the Moon in 1974.”

24 Metodi per l’estrazione di terminologia
Validazione: 7821/58267 (14%) retained terms 482/1814 (38%) retained terms with freq>5 Discarded terms as “part”, “level”, “table”, while expressing domain concepts are too generic to be accepted 10 MOST RELEVANT TERMS

25 Metodi per l’estrazione di terminologia
Compound terms have been devided into groups of same length Most interesting terms usually are those of 2/3-words length: Launch_vehicle Magnetic_field Solar system Entity#ne#_mission Microwave Radio Frequency Trajectory correction manoueuvre 10 MOST RELEVANT 2-WORDS TERMS

26 Metodi per l’estrazione di terminologia
Difficulties in validation: Hardness in comprehension of semantic meaning of the forms, due to lack of information: Ex. approach((SUBJ,null),(OBJ,orbit)) leave((SUBJ,mission#ne#)) Who is the subject?? What is the object of “leave”?? Overgeneration: every sentence in corpus can create several surface forms “Voyager 2 leaves Earth at about 36 km/s relative to the sun” leave((dirobj,'celestial_corp#ne#'),(subj,'mission#ne#')) leave((dirobj,'celestial_corp#ne#')) leave((dirobj,'celestial_corp#ne#'),(subj,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,'mission#ne#'))

27 Metodi per l’estrazione di terminologia
It could be possible to create a domain syntactic-semantic subcategorization frame for each verb, using semantic resources, such as WordNet Ex. absorb,((subj,'x-rays')) absorb,((subj,dust)) absorb,((subj,gas)) absorb,((subj,radiation)) absorb,((subj,substrate)) absorb,((subj,atmosphere)) absorb,((subj,ENTITY)) absorb,((subj,PHYS_ELEMENT)) absorb,((subj,PHYS_ENTITY)) absorb,((subj,'x-rays')) absorb,((subj,dust)) absorb,((subj,gas)) absorb,((subj,radiation)) absorb,((subj,substrate)) absorb,((subj,atmosphere))

28 Uso della terminologia
Text indexation Text summarization Information extraction Information retrieval Question answering Machine translation (text alignment)

29 Text alignment Confronto di testi paralleli (in genere un testo legale e la sua traduzione) che vengono visualizzati in maniera corrispondente (es. per paragrafi, frasi, etc) L’allineamento facilita il riconoscimento di termini simili (parole con la stessa valenza di termine) nelle due lingue

30 Qualche conclusione L’estrazione della terminologia è un problema mal definito e complesso La struttura gerarchica del problema suggerisce uno sviluppo a passi Passi di base (text preparation, part-of-speech tagging, noun phrase parsing) Algoritmi ben definiti e pubblicamente accessibili Uso di filtri Named entities Problema concettualmente semplice Software maturo e di pubblico dominio Lexicalized noun phrases Soluzioni non definitive ma con buoni suggerimenti Focus su terminologie specifiche di dominio Informazioni di contesto nel documento Metodologie ancora non definite completamente Modelli che usano metriche di IR


Scaricare ppt "Estrazione di terminologia da corpora"

Presentazioni simili


Annunci Google