METODI DI DISAMBIGUAZIONE DEL TESTO ED ESTENSIONI DI WORDNET

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

una interfaccia internet per il sistema Momis
di Architetture Peer to Peer per la Gestione di Database Distribuiti
Nana Mbinkeu Rodrigue Carlos 1 DB unimo OTTIMIZZAZIONE DI QUERY IN MOMIS Università degli studi di Modena e Reggio Emilia Relatore: Prof. Sonia.
INTEGRAZIONE MULTILINGUA DI PUBBLICA AMMINISTRAZIONE: SIAM
Progetto e realizzazione di un wrapper XML Schema per il sistema MOMIS
Facoltà di Ingegneria di Modena ANALISI E SVILUPPO DI TECNICHE PER
Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico.
a mediatore MOMIS nell’integrazione di
Università degli studi di Modena e Reggio Emilia
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Il sistema MOMIS Il progetto MOMIS (Mediator EnvirOnment for Multiple Information Sources) consiste nella realizzazione di un sistema intelligente di.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Protocolli.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Analisi.
Integrazione di standard di classificazione per le-commerce: una nuova metodologia basata sul sistema MOMIS UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Re-engineering del wrapper XML Schema per il sistema MOMIS
Peer to Peer DBMS: il sistema FOAF Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Università degli.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – sede Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di un.
1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.
U NIVERISTÀ DEGLI S TUDI DI M ODENA E R EGGIO E MILIA Facoltà di Ingegneria - Sede di Modena Corso di Laurea in Ingegneria Informatica Dinamica delle Ontologie:
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
Serializzazione di oggetti in formato XML nellambito del sistema MOMIS Davide Lenzi Chiar.mo Prof. Sonia Bergamaschi Chiar.mo Prof. Michele.
Il mio nome è Alain Fergnani e nel corso della tesi mi sono occupato della dinamica delle ontologie per il Web Semantico, e in particolare dell’approccio.
Università degli Studi di Modena e Reggio Emilia
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e realizzazione.
Progetto e realizzazione del software "Solar Data Manager"
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Ontologie Lessicali Multilingua:
Analisi e Contromisure di tecniche di Sql Injection
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA
Università degli studi di Modena e Reggio Emilia Progetto e realizzazione di un tool di sincronizzazione database server – palmare per il controllo del.
COMPARAZIONE DI STRUMENTI SOFTWARE PER LA CREAZIONE, LA GESTIONE E LINTEGRAZIONE DI ONTOLOGIE Università degli Studi Modena e Reggio Emilia Facoltà di.
Tecniche di processamento testuale Come classificare testi per argomento.
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
Metodologie per la gestione di conoscenza ontologica Prof. M.T. PAZIENZA a.a
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Sistemi basati su conoscenza Conoscenza e ragionamento Prof. M.T. PAZIENZA a.a
IL PATRIMONIO DI DATI - LE BASI DI DATI. Il patrimonio dei dati Il valore del patrimonio di dati: –Capacità di rispondere alle esigenze informative di.
Tema 1: Integrazione di dati provenienti da sorgenti eterogenee
Il lessico Lessico: insieme delle parole di una lingua (astratto)
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA INFORMATICA Relatore: Chiar.mo Prof. Paolo Tiberio.
Daniel Stoilov Tesi di Laurea
Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria.
Approssimazione semantica per routing di interrogazioni in un PDMS Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA DI MODENA Corso di Laurea Specialistica in Ingegneria Informatica PROGETTO E REALIZZAZIONE.
Applicazioni di modelli matematici alla ricerca semantica
Descrizione Semantica ad Alto Livello di Ambienti Virtuali in X3D
UNIVERSITA’ POLITECNICA DELLE MARCHE
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria “Enzo Ferrari” – Sede di Modena Corso di Laurea Specialistica in Ingegneria Informatica.
1 PerfectFit06 Sistema di personalizzazione dei contenuti per gli scavi archeologici di Ercolano Candidato: Vincenzo Scognamiglio Relatore: Prof. Ernesto.
Realizzazione di un motore di ricerca semantico basato sul contesto
PROGETTO E REALIZZAZIONE DI UN COMPONENTE SOFTWARE PROGRAMMABILE PER LA PIANIFICAZIONE DI COMMISSIONI DI LAUREA FACOLTA’ DI INGEGNERIA Corso di Laurea.
Giovanna Aracri Maria Teresa Guaglianone
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTA’ DI INGEGNERIA – SEDE DI MODENA CORSO DI LAUREA IN INGEGNERIA INFORMATICA Anno Accademico 2002/2003.
LTW Annotazioni sul progetto Fabio Vitali. LTW Scopo del progetto Realizzare un sito Web per la lettura e la ricerca di testi e dati su un argomento specifico.
Riunione conclusiva della prima fase del progetto Dipartimento di Scienze dell’Ingegneria dell’Università di Modena e Reggio Emilia.
Università degli Studi di Firenze Facoltà di Ingegneria Dipartimento di Sistemi e Informatica Corso di Laurea in Ingegneria Informatica Modelli e strumenti.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Cloud informatica V anno.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
UNITÀ DIDATTICA Argomento: Acquisizione ed espansione del lessico ricettivo e produttivo: creazione di un cruciverba multidisciplinare Docente: Colantonio.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Software per la creazione di un file XML di test del sistema MOMIS 10 December 2002 Alain Fergnani.
1 Lixto tools evaluations for HTML data Integration in Momis Lixto tools evaluations for HTML data Integration in Momis Università degli Studi di Modena.
Normalizzazione. Introduzione Nell’organizzazione tradizionale degli archivi, si verificano alcuni problemi, quali: Ridondanza dei dati (gli stessi dati.
1 DB unimo CROSS LAB Integrazione framework MOMIS - BCI Parma, 18/09/2007 Sonia Bergamaschi, Maurizio Vincini, Mirko Orsini
I DONEITÀ DI C ONOSCENZE E C OMPETENZE I NFORMATICHE ( A – D ) Un database è un insieme di record (registrazioni) e di file (archivi) organizzati per uno.
Transcript della presentazione:

METODI DI DISAMBIGUAZIONE DEL TESTO ED ESTENSIONI DI WORDNET Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena  Corso di Laurea Specialistica in Ingegneria Informatica   METODI DI DISAMBIGUAZIONE DEL TESTO ED ESTENSIONI DI WORDNET NEL SISTEMA MOMIS Relatore: Prof.ssa Sonia Bergamaschi   Correlatore: Ing. Laura Po Candidato: Serena Sorrentino     Anno Accademico 2005/2006

MOMIS (Mediator EnvirOment for Multiple Information Sources) Sistema per l’integrazione intelligente di sorgenti di dati eterogenee strutturate e semi-strutturate. Obbiettivo: Integrare le informazioni fornendo uno schema concettuale globale che consenta all’utente di sottomettere una query e di ricevere una risposta unificata. Tra i problemi da affrontare Eterogeneità ontologica: Eterogeneità Semantica: differenze fra l’insieme dei termini e delle relazioni, attraverso i quali è possibile denotare i concetti e gli oggetti appartenenti ad un particolare dominio di conoscenza possibilità che diverse persone forniscano descrizioni, anche molto diverse tra loro, della stessa porzione di mondo, anche se si possiede un insieme di conoscenze comuni WordNet Disambiguazione del testo

WordNet Database lessicale di riferimento che definisce i concetti della conoscenza e le relazioni che intercorrono fra di essi. Caratteristiche:  Categoria sintattica: categorie in cui sono suddivisi i termini. Le categorie sintattiche trattate sono: nomi, verbi, avverbi ed aggettivi. Lemma: è la parola/termine a cui vengono associati uno o più significati Synset (set of synonym): insieme di termini associati al medesimo significato ed appartenenti alla stessa categoria sintattica Glossa: descrizione a parole di un significato specifico; ogni synset possiede anche una glossa. Relazione Semantica: relazione che lega due synset appartenenti alla stessa categoria sintattica (es. iponimia ipernimia) Relazione lessicale: relazione tra due lemmi appartenenti a synset distinti (ma sempre alla stessa categoria sintattica) (es.sinonimia)

Metodi e Algoritmi di Disambiguazione del Testo Il processo di disambiguazione del testo, consiste nell’identificazione dei concetti associati ai vari lemmi, ovvero nell’assegnare, ad ogni parola, il senso più corretto in base al contesto nel quale è utilizzato. In MOMIS processo di disambiguazione consente di realizzare l’annotazione dei nomi delle classi e degli attributi delle sorgenti di dati, sfruttando i synset e le relazioni fra questi, fornite da WordNet. !Problema Il processo di annotazione, essendo attualmente, realizzato in maniera completamente manuale, è altamente costoso. Obiettivo della tesi: Delineare un meccanismo di disambiguazione del testo basato su WordNet e sulle sue estensioni, che consenta di disambiguare i termini in maniera automatica o semi-automatica al fine di poter realizzare l’annotazione automatica dei termini

Classificazione dei Metodi e Algoritmi di disambiguazione del testo In letteratura è possibile incontrare diverse tecniche e metodologie di disambiguazione le quali sfruttano l’informazione contenuta all’interno di una risorsa lessicale di conoscenza. Non esiste un criterio di classificazione univoco. Due approcci possono differire tra loro per vari aspetti: Categorie sintattiche disambiguate. Struttura di memorizzazione delle informazioni. Disambiguazione locale vs disambiguazione globale Tipologia e numero di relazioni tra i termini considerate Risorsa di conoscenza utilizzata. Algoritmi Supervisionati vs Algoritmi non Supervisionati

Algoritmi Non Supervisionati Non richiedonom supervisione da parte dell’utente. Si basano sull’utilizzo di ontologie o dizionari come risorsa di conoscenza. Tra i principali citati in letteratura: Algoritmi basati sulle Catene lessicali Rappresentanti i differenti processi di coesione del testo (es. Galley e McKeown …) Confrontano le parole contenute all’interno delle glosse dei termini appartenenti del contesto.(es. Lesk) Algoritmi di Gloss Overlap Algoritmi basati su misure di relazione semantica fra i termini Misure di similarità basate sul path tra i termini Misure basate sul contenuto informativo dei concetti Misure basate sul vettore di contesto Algoritmi basati sui grafi

Algoritmi Supervisionati Richiedono la supervisione dell’utente e utilizzano collezioni di testi di riferimento disambiguati manualmente. Sforzo notevole per produrre manualmente le collezioni di testi di riferimento. Tentativo di realizzare algoritmi minimamente supervisionati. !Svantaggio Liste di Decisione Naive Bayes AdaBoost Funzioni di Kernel Algoritmi Completamente Supervisionati Algoritmi Minimamente Supervisionati Sistema SenseLearn (Mihalcea) Algoritmo Structural Semantic Interconnection (Navigli)

Mandreoli, Martoglia e Ronchetti: Algoritmi Composti Combinano due o più approcci al problema della disambiguazione del testo. Ottengono prestazioni migliori, rispetto a quelle ottenibili dall’uso dei singoli algoritmi. Rappresentano la via più promettente nell’ambito della disambiguazione. Gloss Overlap Metodo del senso più frequente Parallelismo lessicale … Extended WordNet Novischi: Catene Lessicali Gloss Overlap Structural Semantic Interconnection Misure di Similarità Brody, Navigli e Lapata: Misure di Similarità Gloss Overlap Metodo del Senso più frequente Mandreoli, Martoglia e Ronchetti:

Limitazioni di WordNet Nonostante WordNet abbia riscosso un ampio successo come risorsa di conoscenza nell’ambito della disambiguazione del testo, durante il suo utilizzo si sono evidenziate alcune lacune significative: Mancanza di un lessico specifico per determinati settori di applicazione. Assenza di relazioni esplicitamente rappresentate fra synset relativi allo stesso dominio ma appartenenti a categorie sintattiche differenti.   Numero insufficiente di interconnessioni fra termini utilizzati nello stesso dominio. Insieme limitato di relazioni lessico-semantiche rappresentate. Livello di granularità dei synset,spesso eccessivo per le applicazioni comuni (es. alcuni verbi posseggono più di 40 sensi possibili).   Mancanza di completezza per quanto riguarda i termini composti, i quali risultano difficili da annotare, con gli strumenti forniti da WordNet Estensioni di WordNet

Estensioni di WordNet eXtended WordNet (XWN): WordNet Domains (WND): Tentativo di colmare le lacune di WordNet, attraverso l’inserimento di nuove relazioni, nuovi synset, ecc… eXtended WordNet (XWN): Introdotto nel 2001 da Modovan e Mihalcea dell’Università di Dallas (USA). Disambigua i termini delle glosse in maniera semi-automatica. Realizza la trasformazione in forma logica delle glosse. Consente di inferire nuove relazioni tra i termini indipendentemente dalla categoria sintattica. WordNet Domains (WND): Introdotto nel 2002 da Magnini e Strapparava dell’ITC-irst di Trento. Associa, a ciascun synset di WordNet, uno o più domini di appartenenza. Si basa sulla considerazione che i domini costituiscono una fondamentale proprietà semantica sulla quale si basa la coerenza del testo. Utilizza l’etichetta “factotum” per indicare i synset generici.

Integrazione di WordNet Domains in MOMIS-Motivazioni Allo scopo di realizzare un meccanismo automatico o semi-automatico di disambiguazione del testo, si è scelto di integrare all’interno del database lessicale di MOMIS, il sistema WordNet Domains. Le motivazioni si ritrovano nel fatto che quest’ultimo rappresenta una potenziale soluzione a molte delle lacune di WordNet precedentemente delineate. In particolare: Mancanza di un lessico specifico per determinati settori di applicazione. Assenza di relazioni esplicitamente rappresentate fra synset relativi allo stesso dominio ma appartenenti a categorie sintattiche differenti.   Numero insufficiente di interconnessioni fra termini utilizzati nello stesso dominio. Insieme limitato di relazioni lessico-semantiche rappresentate. Livello di granularità spesso eccessivo per le applicazioni comuni, di distinzione fra synset (es. alcuni verbi posseggono più di 40 sensi possibili). Mancanza di completezza per quanto riguarda i termini composti, i quali risultano difficili da annotare, con gli strumenti forniti da WordNet

Integrazione di WordNet Domains in MOMIS-Motivazioni Allo scopo di realizzare un meccanismo automatico o semi-automatico di disambiguazione del testo, si è scelto di integrare all’interno del database lessicale di MOMIS, il sistema WordNet Domains. Le motivazioni si ritrovano nel fatto che quest’ultimo rappresenta una potenziale soluzione a molte delle lacune di WordNet precedentemente delineate. In particolare: Mancanza di un lessico specifico per determinati settori di applicazione. Assenza di relazioni esplicitamente rappresentate fra synset relativi allo stesso dominio ma appartenenti a categorie sintattiche differenti.   Numero insufficiente di interconnessioni fra termini utilizzati nello stesso dominio. Insieme limitato di relazioni lessico-semantiche rappresentate. Livello di granularità spesso eccessivo per le applicazioni comuni, di distinzione fra synset (es. alcuni verbi posseggono più di 40 sensi possibili). Mancanza di completezza per quanto riguarda i termini composti, i quali risultano difficili da annotare, con gli strumenti forniti da WordNet

Integrazione di WordNet Domains in MOMIS-Modifiche al DataBase WordNet Domains, è stato intergrato in MOMIS senza compromettere l’integrità delle informazioni già contenute nel suo database lessicale. Il processo di integrazione può essere riassunto nelle seguenti fasi: Inserimento dei nomi di dominio non presenti in WordNet. Inserimento di due nuove relazioni: “Member of this domain”, “Domain of synset” (relazione inversa). Modifiche alle tabelle del database “momiswn” Creazione della tabella wn_domain contenente tutti i lemmi dei domini ed i synset associati. Creazione della tabella wn_relationship_wnd, la quale conterrà le nuove relazioni introdotte. Creazione di nuove tabelle Inserimento delle relazioni semantiche “Domain of synset” e “Member of this domains” tra i synset all’interno della tabella wn_relationship_wnd. Inserimento dei dati

Disambiguazione attraverso WordNet Domains Il processo di disambiguazione realizzato si basa sull’esclusivo utilizzo della sorgente di dominio WordNet Domains. Consiste, nell’individuazione dei domini prevalenti all’interno della sorgente dati e nell’assegnare ai vari termini il synset corrispondente ai domini prevalenti. Esempio: Match (Team_1, Team_2, Score, Stadio) Team (Name, Coach, Championship) Match: person, play, sport, factotum Team: biology, sport, animals Team_1: biology, sport, animals Nome: person, sociology, factotum… Team_2: biology, sport, animals Coach: military, sport, pedagogy… Score: sport, play, numeber, factotum… Championship: sport, politics Stadium: sport, town_planning, buildings

Test e Risultati Ottenuti Il precedente meccanismo di disambiguazione è stato testato su due tipologie di sorgenti di dati: Dati provenienti dal progetto WISDOM: lemmi provenienti da pagine web di attività commerciali, come hotel, ristoranti, campeggi ecc… Dati provenienti dalle directory dei motori di ricerca GOOGLE e YAHOO Risultati dati Risultati dati

Risultati dati di WISDOM

Risultati di YAHOO e GOOGLE

Conclusioni e sviluppi futuri In questa tesi è stato proposto un algoritmo di disambiguazione dei termini, automatico e non supervisionato, che consente di disambiguare circa il 30% dei termini con un’accuratezza media intorno al 85-90%. Il numero limitato di termini disambiguati è dovuto, in parte, all’esigenza di ottenere risultati con un’elevata accuratezza. Tale copertura potrebbe essere incrementata, estendendo ulteriormente il database lessicale di MOMIS, per esempio, attraverso eXtended WordNet. Inoltre, si sono individuate alcune esigenze legate al problema della disambiguazione: Precision vs Recall: esigenza di definire un’iniziale priorità fra correttezza e completezza dei risultati. Tipologia di sorgente: la metodologia da applicare è legata al tipo di sorgente (documento di testo, documento XML…) da disambiguare.

Conclusioni e Sviluppi Futuri Metodi Composti: consentono di ottenere prestazioni migliori rispetto all’uso dei singoli algoritmi. Estensioni di WordNet: esigenza di arricchire WordNet di nuovi termini, nuove relazioni e informazioni di dominio. Il problema della disambiguazione del testo, deve, quindi, essere inteso come un processo incrementale e composto, all’interno del quale l’estensione di WordNet con WordNet Domains, rappresenta solo un primo, ma significativo, passo. Inoltre, in futuro, si potrebbe considerare la realizzazione di un algoritmo parametrizzabile, che consenta, in base a determinate caratteristiche della sorgente di dati (es: tipologia di dati, dimensione ecc…) , di selezionare il metodo di disambiguazione più opportuno.