Universita' degli Studi di Modena e Reggio Emilia

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

Presentazione della tesi di laurea di Flavio Casadei Della Chiesa Newsletter: un framework per una redazione web.
CONSIGLIO NAZIONALE DELLE RICERCHE Istituto di Teoria e Tecniche dellInformazione Giuridica Il progetto PACTO per la redazione di atti amministrativi.
Introduzione ad XML Mario Arrigoni Neri.
1 Ricerca & Sviluppo per lInnovazione Conferenza TALeP Relatore: Ing. Vincenzo Cartelli Pisa, 27-nov-06.
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità C1 Il linguaggio SQL.
1 Basi di Dati Semistrutturate e XML Carlo Sartiani Dipartimento di Informatica Università di Pisa Questo lavoro è stato in parte finanziato con i fondi.
di Architetture Peer to Peer per la Gestione di Database Distribuiti
Nana Mbinkeu Rodrigue Carlos 1 DB unimo OTTIMIZZAZIONE DI QUERY IN MOMIS Università degli studi di Modena e Reggio Emilia Relatore: Prof. Sonia.
Progetto e realizzazione di un wrapper XML Schema per il sistema MOMIS
Università degli studi di Modena e Reggio Emilia
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Il Sistema MOMIS Il progetto MOMIS (Mediator EnvirOnment for Multiple Information Sources) consiste nella realizzazione di un sistema intelligente d integrazione.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Analisi.
Re-engineering del wrapper XML Schema per il sistema MOMIS
Peer to Peer DBMS: il sistema FOAF Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Università degli.
1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
Il mio nome è Alain Fergnani e nel corso della tesi mi sono occupato della dinamica delle ontologie per il Web Semantico, e in particolare dell’approccio.
Università degli Studi di Modena e Reggio Emilia
Università degli Studi di Modena e Reggio Emilia
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
Università degli studi di Modena e Reggio Emilia
Progetto e realizzazione del software "Solar Data Manager"
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Analisi e Contromisure di tecniche di Sql Injection
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA
COMPARAZIONE DI STRUMENTI SOFTWARE PER LA CREAZIONE, LA GESTIONE E LINTEGRAZIONE DI ONTOLOGIE Università degli Studi Modena e Reggio Emilia Facoltà di.
Tecnologia dei Servizi Grid e cloud computing - Lezione Lezione ottobre 2009 Il materiale didattico usato in questo corso è stato mutuato.
Progetto e Sviluppo di un algoritmo per la gestione della Federazione Interdominio in unarchitettura di Service Discovery Candidato: XXX Roma, Febbraio.
Agent and Object Technology Lab Dipartimento di Ingegneria dellInformazione Università degli Studi di Parma AOT LAB LAB Anno accademico 2010 / 2011 Tesi.
Modello E-R Generalizzazioni
Modello E-R Generalizzazioni
Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002.
Daniel Stoilov Tesi di Laurea
Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Scienze dellInformazione Applicazione.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Progetto e sviluppo.
Università degli studi di Modena e Reggio Emilia Facoltà di Ingegneria Enzo Ferrari Modena Corso di Laurea in Ingegneria Informatica PROGETTO E SVILUPPO.
EVA S. MALINVERNI - Facoltà di Ingegneria
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
Chinosi Michele – matr.: La seconda release di Virtuose basata su database XML La seconda release di Virtuose basata su.
1 Riccardo Mazza Un sistema per la gestione di riferimenti bibliografici con schede di catalogazione in XML Riccardo Mazza SUPSI-Scuola universitaria professionale.
Database & Information Retrieval
Applicazioni di modelli matematici alla ricerca semantica
Descrizione Semantica ad Alto Livello di Ambienti Virtuali in X3D
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
UNIVERSITA FEDERICO II DI NAPOLI Dipartimento di Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Strumenti per la gestione di DataBase.
ACCESS Introduzione Una delle necessità più importanti in informatica è la gestione di grandi quantità di dati. I dati possono essere memorizzati.
Tesi di Laurea in Ingegneria Meccanica
Tesi di Laurea in Ingegneria Informatica
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
Web Communities and their identificaton
Progetto don’t you forget
UNIVERSITA' DEGLI STUDI DI MILANO Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Analisi, progettazione e realizzazione.
1 How to generate testing models into MDA approach to software development. A beginner’s point of view. Università degli Studi dell’Aquila Facoltà di Scienze.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA DIPARTIMENTO DI INGEGNERIA “Enzo Ferrari” Corso di Laurea in Ingegneria Informatica Anno Accademico 2013/2014.
Ontologie e World Wide Web: la diffusione della conoscenza.
Realizzazione di un motore di ricerca semantico basato sul contesto
Un Sistema per la Redazione Assistita di Testi Giuridici Tesi di Laurea Specialistica in Informatica di Emiliano Giovannetti Un Sistema per la Redazione.
Carluccio Antonio Carluccio Alessandra Caricola Giovanni Vizzino Anna Università degli Studi di Bari.
Sapienza Università di Roma Sapienza Università di Roma Laurea specialistica in Ingegneria Informatica Seminari di Ingegneria del Software Traduzione di.
Corso di Laurea in Informatica
Per un nuovo orientamento nella progettazione dei linguaggi di programmazione Tesi di Laurea di: RICCARDO SOLMI Università degli Studi di Bologna Facoltà.
Indicizzazione di documenti semistrutturati Sistemi informativi – AA D’Este Laura.
Università degli Studi di Firenze Facoltà di Ingegneria Dipartimento di Sistemi e Informatica Corso di Laurea in Ingegneria Informatica Modelli e strumenti.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Dispositivi Mobili per Sentiment Analysis
Transcript della presentazione:

Universita' degli Studi di Modena e Reggio Emilia Facolta' di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo Tesi di Laurea Triennale Relatore: Prof. Riccardo Martoglia Candidato: Alice Messori Anno Accademico 2009/2010

Introduzione al problema Contesto globale: Forte diffusione di collezioni di dati modellati tramite strutture a grafo, es. database biologici e chimici, dati sul Web Grande quantita' di utenti con diversi gradi di formazione scientifica- tecnica specifica si avvicina sempre piu' al mondo dell'informatica e delle sue applicazioni Problema: Difficolta' nell'interrogare grandi quantita' di dati a grafo: e' impensabile conoscere completamente il vocabolario e le strutture di grandi collezioni. Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Introduzione al problema Obiettivo perseguito: Mettere l'utente nella condizione di interrogare le collezioni di dati tramite il linguaggio naturale  la lingua che si parla ogni giorno. Ostacolo principale: Grande varieta' ed ambiguita' del linguaggio naturale (es. sottintendere termini, uso di sinonimi o strutture linguistiche particolari). Cranston, Pawtucket, Providence, Warwick "The cities in Alaska." ? Frase in Linguaggio naturale Risultati <dati modellati a grafo> Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Problematiche affrontate nella tesi Analisi delle tecnologie Studio e Ricerca dei pattern Analisi sperimentali Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Standard RDF (Resource Description Framework) XML (eXtendible Markup Language) Utilizzo: Definizione delle query usate per interrogare le collezioni di dati. Utilizzo: Modello su cui si basano le collezioni di dati da interrogare. Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Geobase: collezione dati geofisici degli USA [N: 2154; A: 3792] Dati Modellati a Grafo Collezione di dati Geobase: collezione dati geofisici degli USA [N: 2154; A: 3792] Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Interrogazioni Obiettivo: estrarre i dati che rispettano i vincoli imposti Query in linguaggi standard (SQL, SPARQL) hanno struttura rigida, ben formate e non ambigue Ma complesse da costruire Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Tecnologie Software GeX: software per l'interrogazione approssimata e flessibile di dati modellati a grafo Sviluppato dall'isgroup dell'Universita' di Modena e Reggio Non e' necessario conoscere il vocabolario o le strutture Gli utenti possono esprimere facilmente anche richieste vaghe ed imprecise e recuperare agevolmente i dati utili. La generazione delle query e' piu' intuitiva Fonte: F. Mandreoli, R. Martoglia, W. Penzo, "Approximating Expressive Queries on Graph-modeled Data: the GeX Approach", in pubblicazione, 2010. Boxer: Sviluppato dal prof. Johan Bos lavora insieme al parser C&C Effettuare l'analisi grammaticale di frasi in linguaggio naturale per restituirne una rappresentazione formale Fonte: Johan Bos, "Wide-Coverage Semantic Analysis with Boxer", 277 - 286, 2008. http://www.meaningfactory.com/bos/pubs/Bos2008STEP2.pdf Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Grafo query approssimata Procedimento "The cities in Alaska." Boxer Frase in linguaggio naturale Pattern Cranston, Pawtucket, Providence, Warwick Grafo linguistico GeX Grafo query approssimata Risultati Dati a grafo Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Grafi a Confronto Query: "The states related to an object named "Connecticut"." Grafo del parsing di Boxer della query Una delle possibili forme della query per GeX Differenze tra le porzioni di grafo della collezione e le query che supporta GeX Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Problematiche affrontate nella tesi Analisi delle tecnologie Studio e Ricerca dei pattern Analisi sperimentali Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Ricerca dei Pattern Problema: grafi linguistici di Boxer molto lontani dai grafi usati da GeX Obiettivo: trasformare i grafi derivanti dal parsing in grafi utilizzabili per interrogare i dati Ricerca pattern, percorsi e strutture frequenti nei grafi di Boxer Definizione dei metodi di semplificazione dei pattern Semplificazioni indipendenti dalla frase sottoposta al parser o dalle strutture dati  applicabili nel MAX numero possibile di contesti Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Dataset usato: Geobase Alcune Query Dataset usato: Geobase Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Grafo del parsing di Boxer Ricerca dei Pattern Query: "What are the states?" Grafo del parsing di Boxer Possibile query di GeX A sinistra grafo di boxer, a destra una delle possibili rappresentazioni di query di GeX Casistica: tutte le frasi in forma interrogativa Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Soluzione: eliminazione arco e nodo di destinazione Ricerca dei Pattern Pattern n. 1 Pattern n. 2 Soluzione: eliminazione arco e nodo di destinazione Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Grafo del parsing di Boxer Ricerca dei Pattern Query: "What are the high points of the states surrounding Alabama? " Grafo del parsing di Boxer Possibile query di GeX A sinistra grafo di boxer, a destra una delle possibili rappresentazioni di query di GeX Casistica: paradigma agent - patient Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Generalizzazione Pattern n. 10 Ricerca dei Pattern Pattern n. 10 Generalizzazione Pattern n. 10 Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Pattern rintracciati Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Pattern rintracciati Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Problematiche affrontate nella tesi Analisi delle tecnologie Studio e Ricerca dei pattern Analisi sperimentali Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Introduzione Obiettivi: Verificare la correttezza e la generalita' dei pattern rintracciati Individuare situazioni e motivazioni che possono portare al fallimenti nell'interrogazione dei dati Procedimento applicato: Passo 1: la query viene sottoposta a Boxer; Passo 2: semplificazione (se possibile) del grafo del parsing tramite i pattern conosciuti; Passo 3: il grafo ottenuto viene sottoposto a GeX e valutazione delle risposte; Passo 4: conclusioni tratte dallo studio della prova. Dataset usati: Geobase [N: 2154; A: 3792] DBLP [N: 2297; A: 3961] Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Esito prova: estrazione con successo Analisi Sperimentale Query: "What are the object connected to a person named "Subrata Dasgupta"?" Pattern 2 Pattern 11 Pattern 15 Pattern16 Esito prova: estrazione con successo Dati estratti: Creatore articolo "Computer Design and Description Languages." Creatore articolo "The Structure of Design Processes." Creatore articolo "Developments in Firmware Engineering." Pattern 1 Pattern 3 Pattern 4 Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Analisi Sperimentale Query: " The object published by Benjamin/Cummings." Esito prova: estrazione fallita, GeX non trova riscontri Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Analisi Sperimentale Query: "The books which was edited by Yasushi Kiyoki." Esito prova: estrazione con successo Dati estratti: Libro "Information Modelling and Knowledge Bases XV, 13th European- Japanese Conference on Information Modelling and Knowledge Bases EJC 2003, Kitakyushu, Japan, June 3-6, 2003" Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Analisi dei Risultati Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Analisi dei Risultati Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Conclusioni Siamo partiti dallo studio degli standard e delle tecnologie: XML, RDF, dati modellati a grafo, GeX e Boxer. Si sono rintracciati numerosi pattern, meccanismi fissi e ricorrenti, che consentono di trasformare grafi derivanti dal parsing di frasi in linguaggio naturale in grafi utilizzabili da un software per l'interrogazione approssimata e flessibile di collezioni di dati. Infine si sono effettuate prove sperimentali che hanno evidenziato la correttezza dei pattern e le motivazioni di fallimenti nell'interrogazione dei dati. E' stato quindi possibile interrogare in modo flessibile collezioni di dati modellate a grafo tramite il linguaggio naturale. Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Sviluppi futuri Implementazione di un meccanismo automatico per l'applicazione dei pattern e la semplificazione dei grafi (es XSLT o DOM) Proseguimento del lavoro di ricerca dei pattern per un costante aggiornamento della collezione. Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo

Tecniche per l'Interrogazione in Linguaggio naturale di Dati Modellati a Grafo Grazie a tutti per l'attenzione! Alice Messori Tecniche per l'Interrogazione in Linguaggio Naturale di Dati Modellati a Grafo