La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Università degli studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Tesi di Laurea di Francesco.

Presentazioni simili


Presentazione sul tema: "Università degli studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Tesi di Laurea di Francesco."— Transcript della presentazione:

1 Università degli studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Tesi di Laurea di Francesco Gavioli Progettazione ed implementazione di un algoritmo per ricerca di similarità tra frasi Relatore: Chiar.mo Prof. Sonia Bergamaschi Correlatore: Dott.ssa Federica Mandreoli Controrelatore: Chiar.mo Prof. Paolo Tiberio Relatore: Chiar.mo Prof. Sonia Bergamaschi Correlatore: Dott.ssa Federica Mandreoli Controrelatore: Chiar.mo Prof. Paolo Tiberio

2 Breve introduzione al lavoro svolto Il lavoro per elaborare la presente tesi è stato svolto nellambito di una collaborazione tra lUniversità di Modena e la Logos S.p.A. Temi trattati: Aspetti della traduzione multilingua di testi Aspetti della traduzione multilingua di testi Analisi delle problematiche sul reperimento di informazioni testuali e stato dellarte Analisi delle problematiche sul reperimento di informazioni testuali e stato dellarte Implementazione di un procedimento efficace di ricerca di similarità tra frasi allinterno di basi di dati testuali in lingua inglese Implementazione di un procedimento efficace di ricerca di similarità tra frasi allinterno di basi di dati testuali in lingua inglese

3 Memoria di traduzione Aiuto per la traduzione Pre-traduzione Corrispondenza esatta Corrispondenza esatta Ricerca di similarità Ricerca di similarità...term_itterm_encod_settorecod_clientecodice Tabella TERMS

4 Reperimento di frasi veramente simili Reperimento di frasi veramente simili Massima velocità di esecuzione Massima velocità di esecuzione Facilità di integrazione con il sistema di pre-traduzione già esistente Facilità di integrazione con il sistema di pre-traduzione già esistente Specifiche per la progettazione del nuovo sistema di ricerca

5 Ricerca attraverso la primitiva contains Ricerca attraverso la primitiva contains Istruzioni per la costruzione di inverted index Istruzioni per la costruzione di inverted index Information Retrieval Information Retrieval Oracle 8i interMedia Text Oracle 8i interMedia Text Ricerca in basi di dati non strutturate Ricerca in basi di dati non strutturate Inverted Index Inverted Index SELECT codice FROM mia_tabella WHERE contains(text,basi di dati) > 0; SELECT codice FROM mia_tabella WHERE contains(text,basi di dati) > 0; Analisi di strumenti utili allimplementazione del progetto

6 Scomposizione in trigrammi Scomposizione in trigrammi Normalizzazione di una frase Normalizzazione di una frase Come valutare la similarità red ball be high table Eliminazione di noise words Eliminazione di noise words Stemming Stemming the red balls are on the higher table red ball be high table the red balls are on the higher table red ball be high table

7 Implementazione del nuovo procedimento di ricerca Preparazione della tabella contenente i dati testuali Preparazione della tabella contenente i dati testuali Operazioni di ricerca Operazioni di ricerca FRASI NORMALIZZATE Frase 1 normalizzata Frase 2 normalizzata... Frase n normalizzata NORMALIZZATORE Tabella TERMS Inverted Index term_en Frase 1 Frase 2... Frase n codice n Indicizzazione con Oracle 8i interMedia NORMALIZZATORE frase da tradurre versione normalizzata INTERROGAZIONE FUNZIONE DI MEMBERSHIP SELECT codice, count(*) FROM terms WHERE contains(norm_term,red ball be)>0 OR contains(norm_term,ball be high)>0 OR contains(norm_term,be high table)>0) GROUP BY codice ORDER BY 2 DESC; SELECT codice, count(*) FROM terms WHERE contains(norm_term,red ball be)>0 OR contains(norm_term,ball be high)>0 OR contains(norm_term,be high table)>0) GROUP BY codice ORDER BY 2 DESC; count(codice) = numero di trigrammi in comune N = numero di trigrammi della versione normalizzata della frase da tradurre NORMALIZZATORE frase da tradurre versione normalizzata INTERROGAZIONE FUNZIONE DI MEMBERSHIP

8 Frase da tradurre: Frase da tradurre: You can also find updates and technical information, which was not available at press time, in the Release Notes. You can also find updates and technical information, which was not available at press time, in the Release Notes. Frase reperita: Frase reperita: You can also find updates and technical information in the Release Notes that were not available at press time You can also find updates and technical information in the Release Notes that were not available at press time Valore della funzione di membership: Valore della funzione di membership: 0.67 Esempio di applicazione

9 Comparazione di efficacia tra il nuovo ed il vecchio procedimento Valutazione di efficienza del nuovo procedimento di ricerca Analisi statistiche

10 Sviluppi futuri Utilizzo del multithreading Java Utilizzo del multithreading Java Ampiezza dellN-gramma legata al numero di parole che compongono la versione normalizzata della frase da tradurre Ampiezza dellN-gramma legata al numero di parole che compongono la versione normalizzata della frase da tradurre


Scaricare ppt "Università degli studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Tesi di Laurea di Francesco."

Presentazioni simili


Annunci Google