Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06.

Slides:



Advertisements
Presentazioni simili
Type Checking (1° parte)
Advertisements

Facoltà di Ingegneria di Modena ANALISI E SVILUPPO DI TECNICHE PER
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
Università degli studi di Modena e Reggio Emilia
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Istituzioni di linguistica
governare l’Information Overload
Sistemi di supporto alle decisioni 2. Features space
Sistemi computazionali per il linguaggio naturale
Interaction Models Group. Funzionalità Interaction Models Group Consente lestrazione della struttura grammaticale di una frase La struttura grammaticale.
Semantica approcci computazionali
Intelligenza Artificiale Linguaggio naturale
Metodologie per la gestione di conoscenza ontologica Prof. M.T. PAZIENZA a.a
Intelligenza Artificiale Strutture e strategie per risolvere problemi complessi Prof. M.T. PAZIENZA a.a
Estrazione di terminologia da corpora
Sistemi per lelaborazione dellinformazione Maria Teresa Pazienza DISP - Dipartimento di Informatica, Sistemi e Produzione aa
Sistemi basati su conoscenza Prof. M.T. PAZIENZA a.a
Maria Teresa PAZIENZA a.a
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Modeling, managing and accessing e-content Linguistic Computing Laboratory Prof. Paola Velardi.
Istituzioni di linguistica
C. GIBELLI (I.S.A. DON MILANI) SSIS – DDI 2008/09 Competenze di letto- scrittura 10/10/08 COMPRENSIONE DEL TESTO (ANALISI DEL PRODOTTO LINGUISTICO METODOLOGIE.
Digressione: il linguaggio di query CQP
Progettazione dei Sistemi Interattivi (a.a. 2004/05) - Lezione 91 Il modello OAI (Object-Action Interface) Sintassi e semantica: la sintassi specifica.
Mentre lerrore grammaticale è generalmente attribuito a ignoranza della lingua e facilmente scusato, lerrore pragmatico non viene percepito.
Psicologia della scrittura manuale ed elettronica.
Metodologie di Annotazione Semantica per la Rappresentazione della Conoscenza nellambito dei Beni Culturali Paola Velardi Dipartimento di Informatica Università
Che cos’è l’annotazione di un corpus?
Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.
Il Passato Prossimo The Past Perfect Tense.
UNIVERSITÀ DEGLI STUDI DI CATANIA FACOLTÀ DI INGEGNERIA   CORSO DI LAUREA IN INGEGNERIA ELETTRONICA Dipartimento di Ingegneria Elettrica Elettronica e.
Il Semantic Web applicato ai percorsi formativi nelle organizzazioni innovative By CSTAdvising CSTAdvising, professionisti della conoscenza,
READING COMPREHENSION
Fabio Massimo Zanzotto (slides di Andrea Turbati con aggiunte)
Usability Lab 2001 Corso Elementi di Progettazione di Basi di Dati Multimediali in Rete Metodologie di validazione e Usabilità Usability Lab 2001 Interfacce.
Usability Lab 2007 Corso Laboratorio di Basi Dati II Interfacce Visuali Avanzate (AVI) Linguaggio di interrogazione iconico Prof. Flavio Fontana Usability.
Fopndamenti di programmazione. 2 La classe String Una stringa è una sequenza di caratteri La classe String è utilizzata per memorizzare caratteri La classe.
Iniziamo a lavorare sui concetti Concetto Regolarità percepita in eventi o oggetti, o in testimonianze/simboli/rappresentazioni di eventi o di oggetti,
Computer Assisted Translation (CAT) Cristina Bosco Informatica applicata alla comunicazione multimediale
Come collaborare all'organizzazione di un corso in rete
G.ADORNI, M.COCCOLI, G.VERCELLI, G.VIVANET E-LEARNING & KNOWLEDGE MANAGEMENT LAB. UNIVERSITÀ DI GENOVA Il Semantic Web per l’e-learning e l’e-government:
Scenario e Prospettive della Planetologia Italiana
PSYCINFO.
Lezione 3 Struttura lessicale del linguaggio
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
Il Parallel Turin University Treebank Cristina Bosco – Manuela Informatica applicata alla comunicazione multimediale
Elaborazione del linguaggio naturale CFG: esercizi Maria Teresa PAZIENZA a.a
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
L’analisi del contenuto Doppia funzione dell’analisi del contenuto: -Può essere un tipo di ricerca specifico -Può essere una tecnica di ricerca Come TECNICA.
ASPETTI PRINCIPALI DELLA TRADUZIONE
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.
Giovanna Aracri Maria Teresa Guaglianone
L'analisi dei testi per la realizzazione del Web Semantico: quali gli strumenti e le applicazioni Paolo Poto Expert System Spa.
Intelligenza Artificiale 1 Gestione della conoscenza lezione 14 Prof. M.T. PAZIENZA a.a
Indicizzazione di documenti semistrutturati Sistemi informativi – AA D’Este Laura.
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Viruses.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
La Comprensione frasale
Per costruire una (buona) mappa concettuale
Corso di “Teorie e pratiche della traduzione” “La scrittura accademica attraverso le lingue e le culture: studio su corpus della voce autoriale” Dott.ssa.
Parsing ricorsivo discendente Il parsing ricorsivo discendente (recursive descent parsing) è un metodo di tipo top-down che può essere facilmente codificato.
Buon giorno, ragazzi oggi è il quattro aprile duemilasedici.
ITALIAN ITALIAN FOR POST GRADUATE STUDENTS 22 nd February 2016 WEEK 1 Aureliana Di Rollo.
ROMA 23 GIUGNO 2016 AREA TEMATICA 1. PROSPETTIVE DEI SISTEMI STATISTICI Validation: un approccio metodologico comune per la validazione dei dati e l’automazione.
Accesso al corpus it. / ing. parola cercata sintagmi preposizioni.
Transcript della presentazione:

Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a

Termine Un termine (o unità terminologica) è: una parola (termine semplice), una espressione composta da più parole (termine composto), un simbolo una formula che indica un particolare concetto all’interno di un dato dominio cognitivo

Estrazione di terminologia Approccio classico Termine è una etichetta linguistica per un concetto; la conoscenza è organizzata in domini, laddove ciascun dominio è equivalente ad una rete di concetti Approccio computazionale Termine è l’output di una procedura di analisi terminologica (-> termini, concetti, ontologia)

Estrazione di terminologia Può essere realizzata: manualmente automaticamente Nel secondo caso un tool di estrazione identifica una lista di tutti i termini candidati in base ad un’analisi statistica, o mista (statistica e linguistica); un esperto terminologo e con competenze di dominio può eventualmente essere utilizzato per rivedere i risultati e scegliere i candidati che ritiene termini. In ogni caso necessaria l’adozione di un corpus (collezione di testi scritti realizzata con lo scopo precipuo di supportare un’analisi terminologica).

Estrazione di terminologia Database terminologico Consiste di item lessicali stabili e dipendenti dal dominio Contiene unità che siano utili per la specifica applicazione Necessità di aggiornamenti continui

Estrazione di terminologia Compito non completamente definito termini possono essere solo parole note l’identificazione di un termine richiede una consapevolezza del compito da parte di chi lo esegue nessun criterio formale per distinguere i termini dai non termini la frequenza non è sempre un indicatore significativo

Estrazione di terminologia Ambiguità Esistono molti modi in cui un termine può risultare ambiguo Sintattica {noun/verb, adjective/noun} POS taggers sono ragionevolmente accurati (95%-99% ): l’identificazione sintattica può essere non problematica ove segua una fase opportuna di training

Estrazione di terminologia Ambiguità Semantica polisemia: la stessa forma terminologica si riferisce a molti concetti collegati nel significato omonimia: uguale forma linguistica superficiale con significati assolutamente non correlati

Estrazione di terminologia Problemi con i termini La maggioranza dei termini sono composti (multi- word unit): qual è l’elemento trainante (come significato) nella composizione? Multidimensionalità di un termine: ereditarietà multipla all’interno di una gerarchia (es.: tubercolosi polmonare è sia una malattia respiratoria che una infezione)

Variabilità di un termine Un concetto può essere rappresentato da più di un termine (sinonimi o varianti del termine) La variabilità di un termine costituisce un serio problema per applicazioni di IR, IE, MT… limitandone le performance.

Variabilità di un termine Come variano i termini? Morfologicamente acqua stagnante / acque stagnanti Sintatticamente attività degli enzimi / attività enzimatica vaccino HIV / vaccino contro l’HIV Semanticamente assicurazione medica Compressione o accorciamento di un termine, acronimi od altre abbreviazioni vagone letto / WL / VL

Metodi per l’estrazione di terminologia 1.Tecniche di IR 2.Approcci linguistici 3.Approcci statistici 4.Metodi ibridi

Metodi per l’estrazione di terminologia Tecniche di IR Una parola in un documento può essere un utile termine per indicizzare il documento stesso Una parola frequente in un documento può essere un utile termine per indicizzare il documento stesso Una parola che appare in un numero limitato di documenti è non in un documento può essere un utile termine per indicizzare quei documenti Una parola che appare frequentemente in un solo documento e non nel resto del corpus in un documento può essere un utile termine per indicizzare il documento stesso Misure di distribuzione delle parole in un corpus possono essere più utili della frequenza

Metodi per l’estrazione di terminologia Tecniche di IR (procedura classica) Elaborazione del testo alla ricerca di termini complessi Analisi morfologica Identificazione di NP Applicazione di euristiche (su basi statistiche) per la riduzione del numero dei termini composti Se esiste una relazione tra gli elementi di un termine composto e questi si comportano come una parola sola (lessicalizzazione) Non è possibile inserire parole tra gli elementi del composto senza alterarne il significato

Metodi per l’estrazione di terminologia Tecniche di IR (termini indice / termini tecnici) L’obiettivo dell’indicizzazione è quello di trovare termini utili alla indicizzazione, ovvero capaci di discriminare un documento da un altro L’obiettivo dell’estrazione di terminologia è quello di trovare termini tecnici che indichino concetti di un dominio specifico Termini indice non sono necessariamente termini tecnici Termini tecnici non sono necessariamente termini indice per alcune collezioni di documenti

Metodi per l’estrazione di terminologia Approcci linguistici Basati su preprocessing linguistico ed annotazioni Si riconoscono pattern sintattici ricorrenti nella formazione di un termine (in genere frasi nominali) Problemi con punteggiatura (virgole, trattini, virgolette, spazi,…) Nomi composti scritti in modi diversi (database, data base, data-base)

Metodi per l’estrazione di terminologia Approcci statistici Le misure usate più frequentemente sono: Frequenza delle occorrenze Mutua informazione

Metodi per l’estrazione di terminologia Approcci statistici Frequenza delle occorrenze La più usata Indipendente dal dominio, non richiede alcuna competenza ulteriore ma Termini con bassa frequenza possono essere buoni termini La frequenza è una utile misura solo con frasi che si ripetono allo stesso modo

Metodi per l’estrazione di terminologia Approcci statistici Mutua informazione Usata per l’estrazione di collocation (espressioni consistenti di due o più parole corrispondenti ad un modo convenzionale di dire qualcosa word cooccurrences) Sovrapposizione tra collocation e termini tecnici

Metodi per l’estrazione di terminologia Approcci statistici Mutua informazione (Fano,1961) L’ammontare di informazione fornita dall’occorrenza di un evento y rispetto all’occorrenza di un evento x è definita come: I(x y)=log P(x y) / P(x) P(y) Ovvero fornisce l’informazione di quanto una parola si relazioni con un’altra Problemi: data sparseness, bigrammi composti da parole a bassa frequenza vengono sovrastimati Va bene per estrarre termini candidati composti da due parole

Metodi per l’estrazione di terminologia Metodi ibridi Combinazione di informazioni linguistiche, shallow parser e statistica Si aggiunge informazione di contesto (clustering contestuale, informazione su parole sconosciute, accesso ad ontologia, …) (es. dipartimento di, bibliografia su, studio di, informazioni su,..) Informazione intrinseca sui termini (pattern di formazione) più estrinseca (contesto)

Metodi per l’estrazione di terminologia approccio di Tor Vergata First task: extract and validate Terms A Term is a surface representation of a key domain concept. “launch vehicle” “Magnetic field” “Entity#ne# mission” A term can be formed by one or more words and Named Entities (generalization of important entities of a specific domain) Ex: Spacecraft Design Domain “ESA mission” “Voyager mission” “SOHO mission” Ex: “ Entity#ne#_mission”

Metodi per l’estrazione di terminologia Second task: extract and validate Verb Relations A Verb Relation (or Surface Form) is a surface representation of a key domain “relational concept” Operatively: A relational concept can be intended as a semantic relation among domain concepts A verb relation is a semantically generalized lexical fragment of text governed by a verb satellite reaching celestial body Ex: Relational Concept Surface Form Text Fragments approach((SUBJ,satellite),(OBJ,celestial_body#ne#)) get_close((SUBJ,satellite),(OBJ,celestial_body#ne#)) “the satellite approached the Moon in 1974.”

Validazione: 7821/58267 (14%) retained terms 482/1814 (38%) retained terms with freq>5 Discarded terms as “part”, “level”, “table”, while expressing domain concepts are too generic to be accepted Metodi per l’estrazione di terminologia 10 MOST RELEVANT TERMS

Compound terms have been devided into groups of same length Metodi per l’estrazione di terminologia Most interesting terms usually are those of 2/3-words length: Launch_vehicle Magnetic_field Solar system Entity#ne#_mission Microwave Radio Frequency Trajectory correction manoueuvre 10 MOST RELEVANT 2-WORDS TERMS

Difficulties in validation: –Hardness in comprehension of semantic meaning of the forms, due to lack of information: Ex. approach((SUBJ,null),(OBJ,orbit)) leave((SUBJ,mission#ne#)) Metodi per l’estrazione di terminologia Who is the subject?? What is the object of “leave”?? –Overgeneration: every sentence in corpus can create many surface forms leave((dirobj,'celestial_corp#ne#'),(subj,'mission#ne#')) leave((dirobj,'celestial_corp#ne#')) leave((dirobj,'celestial_corp#ne#'),(subj,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,'mission#ne#')) “Voyager 2 leaves Earth at about 36 km/s relative to the sun”

Metodi per l’estrazione di terminologia It could be possible to create a domain syntactic- semantic subcategorization frame for each verb, using semantic resources, such as WordNet Ex. absorb,((subj,'x-rays')) absorb,((subj,dust)) absorb,((subj,gas)) absorb,((subj,radiation)) absorb,((subj,substrate)) absorb,((subj,atmosphere)) absorb,((subj,ENTITY)) absorb,((subj,PHYS_ELEMENT)) absorb,((subj,PHYS_ENTITY)) absorb,((subj,'x-rays')) absorb,((subj,dust)) absorb,((subj,gas)) absorb,((subj,radiation)) absorb,((subj,substrate)) absorb,((subj,atmosphere))

Uso della terminologia Text indexation Text summarization Information extraction Information retrieval Question answering Machine translation (text alignment) …

Text alignment Confronto di testi paralleli (in genere un testo legale e la sua traduzione) che vengono visualizzati in maniera corrispondente (es. per paragrafi, frasi, etc) L’allineamento facilita il riconoscimento di termini simili (parole con la stessa valenza di termine) nelle due lingue

Qualche conclusione L’estrazione della terminologia è un problema mal definito e complesso La struttura gerarchica del problema suggerisce uno sviluppo a passi Passi di base (text preparation, part-of-speech tagging, noun phrase parsing) Algoritmi ben definiti e pubblicamente accessibili Uso di filtri Named entities –Problema concettualmente semplice –Software maturo e di pubblico dominio Lexicalized noun phrases –Soluzioni non definitive ma con buoni suggerimenti –Focus su terminologie specifiche di dominio Informazioni di contesto nel documento –Metodologie ancora non definite completamente –Modelli che usano metriche di IR