Approximate Sequence Matching: Implementazione e Analisi Prestazionale

Slides:



Advertisements
Presentazioni simili
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA
Advertisements

All-Against-All Sequence Matching Implementazione Mediante Suffix Array e Analisi Prestazionale Comparata Corelatori: Dott. Federica Mandreoli Ing. Riccardo.
DBMS (DataBase Management System)
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità B1 Introduzione alle basi di dati.
Database MySql.
Connessione con MySQL.
una interfaccia internet per il sistema Momis
INTEGRAZIONE MULTILINGUA DI PUBBLICA AMMINISTRAZIONE: SIAM
Query OQL e XQUERY a confronto
Confronto di sistemi per
Obiettivo della tesi Percorso
WebProfessional Web Content Management System
Università degli studi di Modena e Reggio Emilia
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:
Motore di news per portali Web: progetto ed implementazione Relatore: Chiar.mo Prof. Sonia Bergamaschi Tesi di Laurea di: Roberto Delfini Anno Accademico.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Re-engineering del wrapper XML Schema per il sistema MOMIS
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – sede Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di un.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
Serializzazione di oggetti in formato XML nellambito del sistema MOMIS Davide Lenzi Chiar.mo Prof. Sonia Bergamaschi Chiar.mo Prof. Michele.
Università degli Studi di Modena e Reggio Emilia
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
Università degli studi di Modena e Reggio Emilia
Progetto e realizzazione del software "Solar Data Manager"
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Analisi e Contromisure di tecniche di Sql Injection
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA
COMPARAZIONE DI STRUMENTI SOFTWARE PER LA CREAZIONE, LA GESTIONE E LINTEGRAZIONE DI ONTOLOGIE Università degli Studi Modena e Reggio Emilia Facoltà di.
L’uso dei database in azienda
Tipo Documento: unità didattica 1 Modulo 14 Compilatore: Antonella Bolzoni Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione.
Appunti informatica- prof. Orlando De Pietro
Sosteniamo e potenziamo lazione delle BCC. Progetto Finanza di Gruppo Cantiere PLANS GDL Infrastruttura IT Roma 28/09/
Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002.
Daniel Stoilov Tesi di Laurea
Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Scienze dellInformazione Applicazione.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Progetto e sviluppo.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Sandra Mantovani Relatore:
DBMS ( Database Management System)
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA DI MODENA Corso di Laurea Specialistica in Ingegneria Informatica PROGETTO E REALIZZAZIONE.
Proposta di unImplementazione per i Servizi di Localizzazione e Traffic Monitoring nellIntelligent Trasportation System Pegasus UNIVERSITÀ DEGLI STUDI.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria “Enzo Ferrari” – Sede di Modena Corso di Laurea Specialistica in Ingegneria Informatica.
Firenze – Festival della Creatività 2009 Comm.it s.r.l. – Ing. Davide Rogai, Ph.D. – Software >> fast on demand software.
Universita' degli Studi di Modena e Reggio Emilia
Un motion planner per guide multimediali interattive
ECDL per TUTTI con I Simpson Azzurra & Silvia.
Presentazione Data Base Ovvero: il paradigma LAPM (Linux - Apache - PHP - mySQL) come supporto Open Source ad un piccolo progetto di Data Base relazionale,
OBIETTIVI: Introduzione ai driver ODBC Creazione di alcune tabelle del database Creazione query Creazione report Lezione del 13/11/2009 Bray Francesco.
UNIVERSITA' DEGLI STUDI DI MILANO Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Analisi, progettazione e realizzazione.
Federico Vigna - 22/09/04 Framework didattico per lo sviluppo di applicazioni per basi di dati Università degli studi “Roma Tre” Dipartimento di informatica.
Corso di Informatica Corso di Laurea in Conservazione e Restauro dei Beni Culturali Gianluca Torta Dipartimento di Informatica Tel: Mail:
Università degli Studi di Modena e Reggio Emilia Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Scienze dell’Informazione Progetto.
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
Introduzione P. Gallo - rielaborazione del prof. Roberto SPEDICATO
Roma, 9 maggio 2005 Luca Nicoletti – Unità Disegno e progettazione Sistemi Access Management centralizzato per applicazioni WEB: l’esperienza del MEF.
Database Concetti di base
PROGETTO E REALIZZAZIONE DI UN COMPONENTE SOFTWARE PROGRAMMABILE PER LA PIANIFICAZIONE DI COMMISSIONI DI LAUREA FACOLTA’ DI INGEGNERIA Corso di Laurea.
IV D Mercurio DB Lezione 2
Esercizio ODBC. Configurare il driver ODBC Start  Control Panel  Administrative Tools Aprire: Data Source(ODBC) User DSN  Add…. Selezionare il driver.
Università degli studi di Bergamo
Database Elaborato da: Claudio Ciavarella & Marco Salvati.
Algoritmi euristici per l’ottimizzazione dell’offerta nella raccolta di rifiuti Tesi di laurea di Nicola Bindini Relatore: Chiar.mo Prof. Ing. DANIELE.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Le basi di dati.
INTRODUZIONE AL DATABASE CORSO BLOG & WEBSITE: COME CREARLI?
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA Dipartimento di Scienze Fisiche, Informatiche e Naturali Corso di Laurea in Informatica Progetto e Sviluppo.
Modulo 5 – Database ACCESS LICEO SCIENTIFICO “ B. RESCIGNO COMPUTER SCUOLA PIANO INTEGRATO 2008/09 ESPERTO prof.ssa Rita Montella.
Elementi di statistica con R e i database LEZIONE 2 Rocco De Marco rocco.demarco(a)an.ismar.cnr.it Ancona, 12 Aprile 2012.
Transcript della presentazione:

Approximate Sequence Matching: Implementazione e Analisi Prestazionale UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Approximate Sequence Matching: Implementazione e Analisi Prestazionale Comparata di Tecniche Portabili e Efficienti Tesi di Laurea di: Marcello Pietri Relatore: Prof. Riccardo Martoglia

Ambito di ricerca: Approximate Sequence Matching Esempio: Introduzione Ambito di ricerca: Approximate Sequence Matching (Ricerca di tutte le corrispondenze approssimate tra un pattern e un testo, intendendo come testo e pattern una sequenza di simboli quali lettere, parole, nucleotidi, basi azotate, amminoacidi, etc...) Esempio: Trovare due frasi (pattern) all'interno di un libro (testo) pattern 1: “randomly choose two” pattern 2: “the arithmetic from n”

Approximate Sequence Matching Introduzione Approximate Sequence Matching (Specifica applicazione) Example Based Machine Translation (Sistema che fornisce suggerimenti tradotti per analogia, utilizzando le traduzioni passate per tradurre altre frasi dalla lingua sorgente alla lingua destinazione) Esigenza di immagazzinare ed interrogare grandi quantità di dati in modo efficiente DataBase Management System (Sistema per la gestione di una base di dati)

Obiettivi della tesi: Analisi del software Obiettivo della tesi Obiettivi della tesi: Analisi del software La progettazione del software Implementazione di tecniche portabili Estensione del sistema per il supporto a diversi DBMS (Oracle 9.2, MySQL 4,5, 5.1 e 6 , FireBird 2.1, MonetDB 5, PostgreSQL 8.2 e 8.3) Ricerca di similarità Tecniche di stemming Installazione e interfaccia utente Analisi prestazionale comparata Efficienza di inserimento dei dati Efficienza di copertura della Translation Memory Efficienza di ricerca utilizzando vari DBMS Confronto con altre tecniche di Approximate Sequence Matching Suffix tree e Suffix array

Problematiche affrontate nella tesi Analisi del software Il progetto con Unified Modelling Language Implementazione di tecniche portabili Installazione e interfaccia grafica Analisi prestazionale comparata

EXample-based TRanslation Assistant Analisi del software EXample-based TRanslation Assistant È un software EBMT sviluppato da ISGroup presso l'Università di Modena, che implementa tecniche di Approximate Sequence Matching basate su metriche di Edit Distance e algoritmi di ricerca basati su query SQL Funzionamento del sistema:

Analisi del software Il processo di stemming, ovvero l'eliminazione di parole insignificanti al fine semantico e la trasformazione delle altre in un formato standard, richiede l'accesso a grandi quantità di dati memorizzate sotto forma di tabelle nel DBMS Esempio:

La struttura del software Analisi del software La struttura del software Metrica di similarità tra frasi Flessibile (stemming) Similarità sintattica (edit distance) Similarità semantica (word sense disambiguation) Algoritmi di ricerca di similarità tra frasi Completi (whole-match e sub2-match) Efficienti (filtri ed indici ad hoc) Basati su query SQL (Java, DBMS) Algoritmi di allineamento Allineamento frasi e parole Automatici Ambiente integrato Strumenti per gestione ed analisi Translation Memory Interfaccia utente grafica

Problematiche affrontate nella tesi Analisi del software Il progetto con Unified Modelling Language Implementazione di tecniche portabili Installazione e interfaccia grafica Analisi prestazionale comparata

La struttura del software Il progetto con UML La struttura del software LE MODIFICHE Metrica di similarità tra frasi Flessibile (stemming) Similarità sintattica (edit distance) Similarità semantica (word sense disambiguation) Algoritmi di ricerca di similarità tra frasi Completi (whole-match e sub2-match) Efficienti (filtri ed indici ad hoc) Basati su query SQL (Java, DBMS) Algoritmi di allineamento Allineamento frasi e parole Automatici Ambiente integrato Strumenti per gestione ed analisi Translation Memory Interfaccia utente grafica

La raccolta dei Requisiti Funzionali Il progetto con UML La raccolta dei Requisiti Funzionali RF01– Portabilità sui vari DBMS RF02– Selezione delle impostazioni RF03– Importazione dei dati Stemmer RF04– Verifica dei dati Stemmer RF05– Creazione dell'interfaccia grafica RF06– Settaggio di User e Password RF07– Salvataggio dei parametri nel file di configurazione RF08– Caricamento del file di configurazione RF09– Informazioni sui vari DBMS Scenario d'uso Activity Diagram

Problematiche affrontate nella tesi Analisi del software Il progetto con Unified Modelling Language Implementazione di tecniche portabili Installazione e interfaccia grafica Analisi prestazionale comparata

Implementazione di tecniche portabili La portabilità Il problema della portabilità è stato analizzato in vari punti e suddiviso in due grandi classi: Portabilità per la fase di ricerca: 1. Java Inside e Java Outside (Inclusione di codice Java in Oracle JI) 2. Le connessioni (Il driver per la connessione non può essere statico) 3. L'SQL (Il codice SQL differisce tra un DBMS e l'altro) 4. Altri casi particolari (MonetDB e FireBird) Portabilità per la fase di stemming: 1. Da SQLJ a JDBC (Il codice SQLJ non è portabile su tutti i DBMS) 2. Importazione dei dati (I dati da inserire devono essere uniformi)

Implementazione di tecniche portabili Prima - dopo

Problematiche affrontate nella tesi Analisi del software Il progetto con Unified Modelling Language Implementazione di tecniche portabili Installazione e interfaccia grafica Analisi prestazionale comparata

Installazione e interfaccia utente La necessità di importare dati all'interno del DBMS utilizzato, per consentire il funzionamento del processo di Stemming, ha portato alla stesura di una nuova interfaccia grafica, così da renderlo possibile in modo veloce e trasparente.

Installazione e interfaccia utente L'introduzione di nuove caratteristiche, quali la selezione di user e password, la possibilità di salvare i dati su file di configurazione e la visione di informazioni sui vari DBMS, ha portato infine alla completa configurabilità del programma.

Problematiche affrontate nella tesi Analisi del software Il progetto con Unified Modelling Language Implementazione di tecniche portabili Installazione e interfaccia grafica Analisi prestazionale comparata

Analisi prestazionale comparata Efficienza nell'inserimento dei dataset con diversi DBMS Efficienza nell'interrogazione sui dataset con diversi DBMS Efficienza di copertura della Translation Memory Confronto con altre tecniche implementative Scelta dei dataset: “NVIDIA” (da 610 a 890 frasi per file; circa 14.000 parole). “Deluxe Paint” (da 107 a 400 frasi per file; circa 55.000 parole). “DNA” (dataset genetico; 3190, 3190, 357 e 3296 simboli per file). “WhirlPool” (650.000 parole; il libro “Moby Dick” ne contiene 218.551 ).

Efficienza nell'inserimento dei dati Analisi prestazionale comparata Efficienza nell'inserimento dei dati

Efficienza di copertura della Translation Memory Analisi prestazionale comparata Efficienza di copertura della Translation Memory

Efficienza di interrogazione - DP Analisi prestazionale comparata Efficienza di interrogazione - DP

Efficienza di interrogazione - DP Analisi prestazionale comparata Efficienza di interrogazione - DP

Efficienza di interrogazione - DP Analisi prestazionale comparata Efficienza di interrogazione - DP

Efficienza di interrogazione - WHIRL Analisi prestazionale comparata Efficienza di interrogazione - WHIRL

Efficienza di interrogazione - NV Analisi sperimentale Efficienza di interrogazione - NV

Efficienza di interrogazione - NV Analisi prestazionale comparata Efficienza di interrogazione - NV

Efficienza di interrogazione - NV Analisi prestazionale comparata Efficienza di interrogazione - NV

Analisi prestazionale comparata Confronto con altre tecniche di Approximate Sequence Matching - DNA e DP - Extra vs ACGT

Conclusioni: Sviluppi futuri: Conclusioni e sviluppi futuri Studio e analisi di algoritmi innovativi per la ricerca di similarità tra frasi; Studio e analisi di algoritmi di Stemming; Studio, implementazione e analisi di tecniche per la connessione a DBMS; Studio, installazione e analisi di numerosi DBMS; Sviluppo ed implementazione della portabilità su tutti i DBMS installati; Sviluppo ed implementazione dell'interfaccia grafica; Effettuazione e commento di numerose analisi prestazionali; Studio e analisi di nuovo software per la comparazione in analisi. Sviluppi futuri: Sviluppare il software per l'utilizzo con altre lingue; Ottimizzare ulteriormente le prestazioni inserendo procedure Pg/SQL; Implementare un metodo basato sulle tecniche sviluppate in Extra, specifico per l'ambito di ricerca genetica.

GRAZIE A TUTTI DELL'ATTENZIONE