Facoltà di Ingegneria di Modena ANALISI E SVILUPPO DI TECNICHE PER

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

una interfaccia internet per il sistema Momis
di Architetture Peer to Peer per la Gestione di Database Distribuiti
Nana Mbinkeu Rodrigue Carlos 1 DB unimo OTTIMIZZAZIONE DI QUERY IN MOMIS Università degli studi di Modena e Reggio Emilia Relatore: Prof. Sonia.
INTEGRAZIONE MULTILINGUA DI PUBBLICA AMMINISTRAZIONE: SIAM
Query OQL e XQUERY a confronto
Progetto e realizzazione di un wrapper XML Schema per il sistema MOMIS
Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico.
UNIVERSITA DI MODENA E REGGIO EMILIA Facolta di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Tesi di laurea di Relatore Correlatore.
WebProfessional Web Content Management System
a mediatore MOMIS nell’integrazione di
Università degli studi di Modena e Reggio Emilia
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Il sistema MOMIS Il progetto MOMIS (Mediator EnvirOnment for Multiple Information Sources) consiste nella realizzazione di un sistema intelligente di.
Relatore: Prof. Sonia Bergamaschi Correlatore: Alexandre Passant
Motore di news per portali Web: progetto ed implementazione Relatore: Chiar.mo Prof. Sonia Bergamaschi Tesi di Laurea di: Roberto Delfini Anno Accademico.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Analisi.
METODI DI DISAMBIGUAZIONE DEL TESTO ED ESTENSIONI DI WORDNET
Integrazione di standard di classificazione per le-commerce: una nuova metodologia basata sul sistema MOMIS UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Re-engineering del wrapper XML Schema per il sistema MOMIS
1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.
U NIVERISTÀ DEGLI S TUDI DI M ODENA E R EGGIO E MILIA Facoltà di Ingegneria - Sede di Modena Corso di Laurea in Ingegneria Informatica Dinamica delle Ontologie:
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
Serializzazione di oggetti in formato XML nellambito del sistema MOMIS Davide Lenzi Chiar.mo Prof. Sonia Bergamaschi Chiar.mo Prof. Michele.
Il mio nome è Alain Fergnani e nel corso della tesi mi sono occupato della dinamica delle ontologie per il Web Semantico, e in particolare dell’approccio.
Università degli Studi di Modena e Reggio Emilia
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
Università degli studi di Modena e Reggio Emilia
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e realizzazione.
Progetto e realizzazione del software "Solar Data Manager"
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Ontologie Lessicali Multilingua:
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA
Università degli studi di Modena e Reggio Emilia Progetto e realizzazione di un tool di sincronizzazione database server – palmare per il controllo del.
COMPARAZIONE DI STRUMENTI SOFTWARE PER LA CREAZIONE, LA GESTIONE E LINTEGRAZIONE DI ONTOLOGIE Università degli Studi Modena e Reggio Emilia Facoltà di.
Corso di Laurea in Biotecnologie Informatica (Programmazione)
Corso di Informatica (Programmazione)
Tema 1: Integrazione di dati provenienti da sorgenti eterogenee
SIMULAZIONE RETE INTERNET INTERNET SERVICE PROVIDER GRUPPO 2 COMMESSA – INFORMATICA GRANATA Corso Sicurezza su Reti II Prof. A. De Santis Anno Accademico.
Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA INFORMATICA Relatore: Chiar.mo Prof. Paolo Tiberio.
Daniel Stoilov Tesi di Laurea
Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Scienze dellInformazione Applicazione.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Progetto e sviluppo.
Università degli studi di Modena e Reggio Emilia Facoltà di Ingegneria Enzo Ferrari Modena Corso di Laurea in Ingegneria Informatica PROGETTO E SVILUPPO.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA DI MODENA Corso di Laurea Specialistica in Ingegneria Informatica PROGETTO E REALIZZAZIONE.
Università Politecnica delle Marche
Applicazioni di modelli matematici alla ricerca semantica
Descrizione Semantica ad Alto Livello di Ambienti Virtuali in X3D
Proposta di unImplementazione per i Servizi di Localizzazione e Traffic Monitoring nellIntelligent Trasportation System Pegasus UNIVERSITÀ DEGLI STUDI.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria “Enzo Ferrari” – Sede di Modena Corso di Laurea Specialistica in Ingegneria Informatica.
Un motion planner per guide multimediali interattive
Università degli Studi di Bologna Facoltà di Ingegneria Anno Accademico 2007/2008 Laurea Specialistica in Ingegneria Informatica Linguaggi e Modelli Computazionali.
Titolo della tesi Nome candidato Relatore: prof. Davide Pettenella
Università degli Studi di Cagliari
1 di 15 Università degli studi di Modena e Reggio Emilia Mail Configurator: un’applicazione ad agenti mobili basata su ruoli dinamici Correlatori: Ing.
PROGETTO E REALIZZAZIONE DI UN COMPONENTE SOFTWARE PROGRAMMABILE PER LA PIANIFICAZIONE DI COMMISSIONI DI LAUREA FACOLTA’ DI INGEGNERIA Corso di Laurea.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
D.I.Me.Ca. – D.I.Me.Ca. – Università degli Studi di Cagliari Facoltà di Ingegneria Dipartimento di Ingegneria.
Programmazione Attività di progettazione ed implementazione di programmi I programmi permettono di realizzare funzioni complesse su un hardware in grado.
Università degli Studi di Firenze Facoltà di Ingegneria Dipartimento di Sistemi e Informatica Corso di Laurea in Ingegneria Informatica Modelli e strumenti.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
Tecniche di ricerca semantica a supporto del recupero di link di tracciabilità tra artefatti software RelatoreCandidato Chiar.mo Prof. Rocco OlivetoStefano.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
1 Lixto tools evaluations for HTML data Integration in Momis Lixto tools evaluations for HTML data Integration in Momis Università degli Studi di Modena.
Informatica Problemi e algoritmi. una situazione che pone delle domande cui si devono dare risposte. Col termine problema o situazione problematica s’indica.
1 DB unimo CROSS LAB Integrazione framework MOMIS - BCI Parma, 18/09/2007 Sonia Bergamaschi, Maurizio Vincini, Mirko Orsini
Transcript della presentazione:

Facoltà di Ingegneria di Modena ANALISI E SVILUPPO DI TECNICHE PER Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena  Corso di Laurea in Ingegneria Informatica   ANNOTAZIONE LESSICALE AUTOMATICA DI SCHEMI IN SISTEMI DI INTEGRAZIONE DEI DATI: ANALISI E SVILUPPO DI TECNICHE PER NOMI COMPOSTI Relatore: Chiar.mo Prof. Sonia Bergamaschi   Correlatore: Dott. Ing. Serena Sorrentino Candidato: Elena Parmiggiani     Anno Accademico 2007/2008

Outline Introduzione I termini composti Stato dell’arte: metodi basati su corpora metodi basati sulla semantica L’algoritmo realizzato L’analisi dei risultati Conclusioni e sviluppi futuri

Introduzione (1/2) MOMIS (www.dbgroup.unimo.it) A causa del rapido sviluppo del web, si è via via reso sempre più necessario interrogare sorgenti dati estremamente eterogenee importanza di integrare tali risorse MOMIS (www.dbgroup.unimo.it) (Mediator EnvirOment for Multiple Information Sources) Sistema di Integrazione Intelligente delle Informazioni che estrae in modo semi-automatico i dati provenienti da documenti strutturati e semi-strutturati e ne realizza una fusione intelligente

SCOPO  RISOLUZIONE DEI TERMINI COMPOSTI Introduzione (2/2) All'interno di MOMIS, il meccanismo di annotazione semantica associa a ciascun termine della sorgente uno o più significati, rispetto all’ontologia lessicale WordNet PROBLEMA  Questo meccanismo non permette di annotare i TERMINI COMPOSTI eventualmente presenti nella sorgente, se non presenti all’interno del database lessicale SCOPO  RISOLUZIONE DEI TERMINI COMPOSTI

(termine modificante) I termini composti Termini composti = sequenze di due o più parole, separate da spazio bianco, che abbiano uno o più significati se considerate insieme Esempio: dato il termine composto UniversityMember: 1) Fase di RISOLUZIONE 2) Fase di RICERCA DELLE RELAZIONI University member IS A member (PART) OF university university member Modifier term (termine modificante) Head term (termine principale)

Stato dell’arte (1/2) Dagli anni ’70-’80 sono stati proposti numerosi algoritmi per risolvere e disambiguare termini composti  possono essere distinti in base al tipo di informazioni utilizzate 1) METODI STATISTICI BASATI SU GRANDI CORPORA (raccolte di documenti o articoli): Calcolano la probabilità di trovare un composto in un determinato corpus. Dipendono da: Contesto nel quale il composto si trova; Composti precedentemente analizzati e risolti PROBLEMI: dipendenza dal dominio di applicazione + necessità di raccogliere molte informazioni

Stato dell’arte (2/2) 2) METODI BASATI SULLA SEMANTICA: Utilizzano soltanto: Contenuto lessicale; Informazione semantica. Cercano la MUTUA POSIZIONE dei membri del composto all’interno di una ricca ONTOLOGIA LESSICALE come WordNet; Da questa deducono la relazione che intercorre tra i due membri; Li classificano al fine di poter interpretare rapidamente anche tutti i termini composti simili. Ad esempio: - l’algoritmo di Vanderwende - le 20 relazioni di Barker e Szpakowicz - l’utilizzo della gerarchia medica MeSH - l’algoritmo di Fan, Barker e Porter

L’algoritmo realizzato (1/2) Dalle ricerche passate è possibile elaborare un algoritmo in Java per la RISOLUZIONE dei termini composti che: richieda il minimo delle risorse possibili; sia il più possibile portabile; sia indipendente dal contesto di utilizzo. STRUMENTI UTILIZZATI: WordNet; librerie Java per interfacciarsi con WordNet  librerie Java per il parsing di sorgenti XML; DB MySQL per l’analisi dei risultati. JavaWordNetLibrary (JWNL) (sviluppata presso la Princeton University come WordNet)

L’algoritmo realizzato (2/2) STRUTTURA DELL’ALGORITMO: 1) ESTRAZIONE DEI PATTERN CHE POSSONO COSTITUIRE TERMINI COMPOSTI 2) FASE DI PULITURA DEL COMPOSTO:  rimozione di eventuali - trattini (university_member) - underscore (university_member) - camel case (UniversityMember) Termine composto da risolvere (university member) 3) DISTINZIONE DI TERMINE PRINCIPALE E TERMINE/I MODIFICANTE/I A) Se il valore di un termine composto contiene il nome della classe cui appartiene, allora quello è il termine modificante; B) Membri considerati 2 a 2  se NOME + AGGETTIVO  nome = termine principale, aggettivo = termine modificante; C) Se sono TUTTI NOMI  il termine principale è più a destra (valido solo per l’inglese); 4) ALBERO DI IPERNIMI  ricerca del MINIMO TERMINE GENITORE IN COMUNE ai due membri nella gerarchia di WordNet seguendo le sole relazioni di tipo IS A

I risultati (1/4) expiration date, family description  distinzione di termine principale e midificatore (soluzione di default) + albero di ipernimia; family name  distinzione di termine principale e modificatore da altre informazioni. Non necessita di albero di ipernimia; first name  già presente in WordNet, reperimento della glossa; is available  is non è né nome né aggettivo e il composto non può essere disambiguato (tutti i campi della tupla settati a NULL).

I risultati (2/4) Calcolo di precision e recall per ognuna delle 6 sorgenti XML analizzate:

I risultati (3/4) Analisi dettagliata delle risposte non date e delle risposte errate:

I risultati (4/4) I risultati ottenuti, per quanto richiesto dall’algoritmo, sono pienamente soddisfacenti. 77% in media di risposte date dal sistema, di cui il 93% circa corrette; del restante 23%: - il 59% conteneva almeno un membro non in WordNet, per esempio a causa di: abbreviazioni non riconosciute da WordNet (es: enum parameter); sigle come fk, pk (indicazione di foreign o primary key), xrd, etc…; articoli o altre funzioni grammaticali non contenute in WordNet. - il 41% dovuto ad errori casuali, per esempio a causa di: problemi di sincronizzazione con il DB MySQL; problemi imprevedibili in fase di parsing di sorgenti XML di grandi dimensioni.

Conclusioni e sviluppi futuri (1/2) Il lavoro svolto per questa tesi ha consentito di realizzare un programma Java per la risoluzione dei termini composti all'interno di documenti strutturati e semi-strutturati. Gli eventuali errori in fase di risoluzione o le mancate risposte da parte del sistema sono in larga parte dovute a mancanze di WordNet. Il database lessicale, purtroppo, presenta alcuni difetti, le cui conseguenze sono: valore della recall più basso rispetto alla precision; mancato reperimento del più grande termine figlio in comune ai due membri del composto all’interno della gerarchia di WordNet che ne contenga l’informazione.

Conclusioni e sviluppi futuri (2/2) I punti sui quali sarebbe interessante focalizzarsi al fine di realizzare un metodo sempre migliore per la risoluzione e la disambiguazione di termini composti: A) ricerca e utilizzo di RISORSE MIGLIORI E PIU’ APPROFONDITE del solo database lessicale WordNet, che NON fornisce relazioni altamente specifiche, ad esempio: tesauri, tassonomie di settore tecnico, etc…; B) possibilità di SINTETIZZARE IL SIGNIFICATO DEL COMPOSTO con un termine singolo, AD ESEMPIO  più grande termine figlio in comune ai due membri, in modo da realizzare appieno la fase di DISAMBIGUAZIONE (ovvero l'assegnazione di un significato univoco) dei termini composti; C) IDENTIFICAZIONE E SUDDIVISIONE DEI MODIFICATORI per composti di più di due termini e riconoscimento delle mutue relazioni.

Grazie per l’attenzione