La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea Specialistica in Ingegneria Informatica Relatore: Prof.ssa.

Presentazioni simili


Presentazione sul tema: "Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea Specialistica in Ingegneria Informatica Relatore: Prof.ssa."— Transcript della presentazione:

1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea Specialistica in Ingegneria Informatica Relatore: Prof.ssa Sonia Bergamaschi Correlatore: Ing. Laura Po Candidato: Serena Sorrentino Anno Accademico 2005/2006 METODI DI DISAMBIGUAZIONE DEL TESTO ED ESTENSIONI DI WORDNET NEL SISTEMA MOMIS

2 MOMIS (Mediator EnvirOment for Multiple Information Sources) possibilità che diverse persone forniscano descrizioni, anche molto diverse tra loro, della stessa porzione di mondo, anche se si possiede un insieme di conoscenze comuni Sistema per lintegrazione intelligente di sorgenti di dati eterogenee strutturate e semi-strutturate. Obbiettivo: Integrare le informazioni fornendo uno schema concettuale globale che consenta allutente di sottomettere una query e di ricevere una risposta unificata. Tra i problemi da affrontare Eterogeneità ontologica: differenze fra linsieme dei termini e delle relazioni, attraverso i quali è possibile denotare i concetti e gli oggetti appartenenti ad un particolare dominio di conoscenza Eterogeneità Semantica: WordNet Disambiguazione del testo

3 WordNet Relazione lessicale: relazione tra due lemmi appartenenti a synset distinti (ma sempre alla stessa categoria sintattica) (es.sinonimia) Database lessicale di riferimento che definisce i concetti della conoscenza e le relazioni che intercorrono fra di essi. Caratteristiche: Categoria sintattica: categorie in cui sono suddivisi i termini. Le categorie sintattiche trattate sono: nomi, verbi, avverbi ed aggettivi. Lemma: è la parola/termine a cui vengono associati uno o più significati Synset (set of synonym): insieme di termini associati al medesimo significato ed appartenenti alla stessa categoria sintattica Glossa: descrizione a parole di un significato specifico; ogni synset possiede anche una glossa. Relazione Semantica: relazione che lega due synset appartenenti alla stessa categoria sintattica (es. iponimia ipernimia)

4 Metodi e Algoritmi di Disambiguazione del Testo Il processo di disambiguazione del testo, consiste nellidentificazione dei concetti associati ai vari lemmi, ovvero nellassegnare, ad ogni parola, il senso più corretto in base al contesto nel quale è utilizzato. In MOMIS processo di disambiguazione consente di realizzare lannotazione dei nomi delle classi e degli attributi delle sorgenti di dati, sfruttando i synset e le relazioni fra questi, fornite da WordNet. Il processo di annotazione, essendo attualmente, realizzato in maniera completamente manuale, è altamente costoso. Delineare un meccanismo di disambiguazione del testo basato su WordNet e sulle sue estensioni, che consenta di disambiguare i termini in maniera automatica o semi-automatica al fine di poter realizzare lannotazione automatica dei termini Obiettivo della tesi: !Problema

5 Classificazione dei Metodi e Algoritmi di disambiguazione del testo Risorsa di conoscenza utilizzata. In letteratura è possibile incontrare diverse tecniche e metodologie di disambiguazione le quali sfruttano linformazione contenuta allinterno di una risorsa lessicale di conoscenza. Non esiste un criterio di classificazione univoco. Categorie sintattiche disambiguate. Struttura di memorizzazione delle informazioni. Due approcci possono differire tra loro per vari aspetti: Disambiguazione locale vs disambiguazione globale Tipologia e numero di relazioni tra i termini considerate Algoritmi Supervisionati vs Algoritmi non Supervisionati

6 Algoritmi Non Supervisionati Non richiedonom supervisione da parte dellutente. Si basano sullutilizzo di ontologie o dizionari come risorsa di conoscenza. Tra i principali citati in letteratura: Algoritmi basati sulle Catene lessicali Algoritmi di Gloss Overlap Algoritmi basati su misure di relazione semantica fra i termini Misure di similarità basate sul path tra i termini Misure basate sul contenuto informativo dei concetti Misure basate sul vettore di contesto Algoritmi basati sui grafi Rappresentanti i differenti processi di coesione del testo (es. Galley e McKeown …) Confrontano le parole contenute allinterno delle glosse dei termini appartenenti del contesto.(es. Lesk)

7 Algoritmi Supervisionati Richiedono la supervisione dellutente e utilizzano collezioni di testi di riferimento disambiguati manualmente. !Svantaggio Sforzo notevole per produrre manualmente le collezioni di testi di riferimento. Tentativo di realizzare algoritmi minimamente supervisionati. Algoritmi Completamente Supervisionati Algoritmi Minimamente Supervisionati Liste di Decisione Naive Bayes AdaBoost Funzioni di Kernel Sistema SenseLearn (Mihalcea) Algoritmo Structural Semantic Interconnection (Navigli)

8 Algoritmi Composti Combinano due o più approcci al problema della disambiguazione del testo. Ottengono prestazioni migliori, rispetto a quelle ottenibili dalluso dei singoli algoritmi. Rappresentano la via più promettente nellambito della disambiguazione. Novischi : Gloss Overlap Metodo del senso più frequente Parallelismo lessicale … Extended WordNet Brody, Navigli e Lapata: Catene Lessicali Gloss Overlap Structural Semantic Interconnection Misure di Similarità Mandreoli, Martoglia e Ronchetti: Misure di Similarità Gloss Overlap Metodo del Senso più frequente

9 Limitazioni di WordNet Nonostante WordNet abbia riscosso un ampio successo come risorsa di conoscenza nellambito della disambiguazione del testo, durante il suo utilizzo si sono evidenziate alcune lacune significative: Mancanza di un lessico specifico per determinati settori di applicazione. Assenza di relazioni esplicitamente rappresentate fra synset relativi allo stesso dominio ma appartenenti a categorie sintattiche differenti. Numero insufficiente di interconnessioni fra termini utilizzati nello stesso dominio. Insieme limitato di relazioni lessico-semantiche rappresentate. Livello di granularità dei synset,spesso eccessivo per le applicazioni comuni (es. alcuni verbi posseggono più di 40 sensi possibili). Mancanza di completezza per quanto riguarda i termini composti, i quali risultano difficili da annotare, con gli strumenti forniti da WordNet Estensioni di WordNet

10 Tentativo di colmare le lacune di WordNet, attraverso linserimento di nuove relazioni, nuovi synset, ecc… eXtended WordNet (XWN): WordNet Domains (WND): Introdotto nel 2002 da Magnini e Strapparava dellITC-irst di Trento. Associa, a ciascun synset di WordNet, uno o più domini di appartenenza. Si basa sulla considerazione che i domini costituiscono una fondamentale proprietà semantica sulla quale si basa la coerenza del testo. Utilizza letichetta factotum per indicare i synset generici. Introdotto nel 2001 da Modovan e Mihalcea dellUniversità di Dallas (USA). Disambigua i termini delle glosse in maniera semi-automatica. Realizza la trasformazione in forma logica delle glosse. Consente di inferire nuove relazioni tra i termini indipendentemente dalla categoria sintattica.

11 Integrazione di WordNet Domains in MOMIS-Motivazioni Allo scopo di realizzare un meccanismo automatico o semi-automatico di disambiguazione del testo, si è scelto di integrare allinterno del database lessicale di MOMIS, il sistema WordNet Domains. Le motivazioni si ritrovano nel fatto che questultimo rappresenta una potenziale soluzione a molte delle lacune di WordNet precedentemente delineate. In particolare: Mancanza di un lessico specifico per determinati settori di applicazione. Assenza di relazioni esplicitamente rappresentate fra synset relativi allo stesso dominio ma appartenenti a categorie sintattiche differenti. Numero insufficiente di interconnessioni fra termini utilizzati nello stesso dominio. Insieme limitato di relazioni lessico-semantiche rappresentate. Livello di granularità spesso eccessivo per le applicazioni comuni, di distinzione fra synset (es. alcuni verbi posseggono più di 40 sensi possibili). Mancanza di completezza per quanto riguarda i termini composti, i quali risultano difficili da annotare, con gli strumenti forniti da WordNet

12 Integrazione di WordNet Domains in MOMIS-Motivazioni Allo scopo di realizzare un meccanismo automatico o semi-automatico di disambiguazione del testo, si è scelto di integrare allinterno del database lessicale di MOMIS, il sistema WordNet Domains. Le motivazioni si ritrovano nel fatto che questultimo rappresenta una potenziale soluzione a molte delle lacune di WordNet precedentemente delineate. In particolare: Mancanza di un lessico specifico per determinati settori di applicazione. Assenza di relazioni esplicitamente rappresentate fra synset relativi allo stesso dominio ma appartenenti a categorie sintattiche differenti. Numero insufficiente di interconnessioni fra termini utilizzati nello stesso dominio. Insieme limitato di relazioni lessico-semantiche rappresentate. Livello di granularità spesso eccessivo per le applicazioni comuni, di distinzione fra synset (es. alcuni verbi posseggono più di 40 sensi possibili). Mancanza di completezza per quanto riguarda i termini composti, i quali risultano difficili da annotare, con gli strumenti forniti da WordNet

13 Integrazione di WordNet Domains in MOMIS-Modifiche al DataBase WordNet Domains, è stato intergrato in MOMIS senza compromettere lintegrità delle informazioni già contenute nel suo database lessicale. Il processo di integrazione può essere riassunto nelle seguenti fasi: Modifiche alle tabelle del database momiswn Creazione di nuove tabelle Inserimento dei dati Inserimento dei nomi di dominio non presenti in WordNet. Inserimento di due nuove relazioni:Member of this domain, Domain of synset (relazione inversa). Creazione della tabella wn_domain contenente tutti i lemmi dei domini ed i synset associati. Creazione della tabella wn_relationship_wnd, la quale conterrà le nuove relazioni introdotte. Inserimento delle relazioni semanticheDomain of synset e Member of this domains tra i synset allinterno della tabella wn_relationship_wnd.

14 Disambiguazione attraverso WordNet Domains Il processo di disambiguazione realizzato si basa sullesclusivo utilizzo della sorgente di dominio WordNet Domains. Consiste, nellindividuazione dei domini prevalenti allinterno della sorgente dati e nellassegnare ai vari termini il synset corrispondente ai domini prevalenti. Esempio: Match (Team_1, Team_2, Score, Stadio) Team (Name, Coach, Championship) Match: person, play, sport, factotum Team: biology, sport, animals Team_1: biology, sport, animals Nome: person, sociology, factotum… Team_2: biology, sport, animals Coach: military, sport, pedagogy… Score: sport, play, numeber, factotum… Championship: sport, politics Stadium: sport, town_planning, buildings

15 Test e Risultati Ottenuti Il precedente meccanismo di disambiguazione è stato testato su due tipologie di sorgenti di dati: 1.Dati provenienti dal progetto WISDOM: lemmi provenienti da pagine web di attività commerciali, come hotel, ristoranti, campeggi ecc… 2.Dati provenienti dalle directory dei motori di ricerca GOOGLE e YAHOO Risultati dati

16 Risultati dati di WISDOM

17 Risultati di YAHOO e GOOGLE

18 Conclusioni e sviluppi futuri Inoltre, si sono individuate alcune esigenze legate al problema della disambiguazione: Precision vs Recall: esigenza di definire uniniziale priorità fra correttezza e completezza dei risultati. Tipologia di sorgente: la metodologia da applicare è legata al tipo di sorgente (documento di testo, documento XML…) da disambiguare. In questa tesi è stato proposto un algoritmo di disambiguazione dei termini, automatico e non supervisionato, che consente di disambiguare circa il 30% dei termini con unaccuratezza media intorno al 85-90%. Il numero limitato di termini disambiguati è dovuto, in parte, allesigenza di ottenere risultati con unelevata accuratezza. Tale copertura potrebbe essere incrementata, estendendo ulteriormente il database lessicale di MOMIS, per esempio, attraverso eXtended WordNet.

19 Conclusioni e Sviluppi Futuri Il problema della disambiguazione del testo, deve, quindi, essere inteso come un processo incrementale e composto, allinterno del quale lestensione di WordNet con WordNet Domains, rappresenta solo un primo, ma significativo, passo. Inoltre, in futuro, si potrebbe considerare la realizzazione di un algoritmo parametrizzabile, che consenta, in base a determinate caratteristiche della sorgente di dati (es: tipologia di dati, dimensione ecc…), di selezionare il metodo di disambiguazione più opportuno. Metodi Composti: consentono di ottenere prestazioni migliori rispetto alluso dei singoli algoritmi. Estensioni di WordNet: esigenza di arricchire WordNet di nuovi termini, nuove relazioni e informazioni di dominio.


Scaricare ppt "Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea Specialistica in Ingegneria Informatica Relatore: Prof.ssa."

Presentazioni simili


Annunci Google