Sistema di interrogazione intelligente di UNIVERSITÀ DEGLI STUDI DI PALERMO FACOLTÀ DI INGEGNERIA DIPARTIMENTO DI INGEGNERIA INFORMATICA CORSO DI LAUREA IN INGEGNERIA INFORMATICA Sistema di interrogazione intelligente di Documenti ufficiali del Parlamento Europeo TESI DI LAUREA DI: Salvatore La Bua RELATORE: Ch.mo Prof. Ing. Salvatore Gaglio CORRELATORI: Ing. Giovanni Pilato Dott. Giorgio Vassallo ANNO ACCADEMICO 2003 - 2004
Introduzione L’obiettivo del lavoro svolto e´ la realizzazione di un sistema di recupero automatico di informazioni capace di restituire all’utente documenti del Parlamento Europeo a seguito di interrogazioni in linguaggio naturale. Sfruttare tecniche di Analisi della Semantica Latente per rappresentare le parole in uno spazio semantico. L’Analisi della Semantica Latente (LSA – Latent Semantic Analysis) permette di estrarre e rappresentare il significato delle parole tramite calcoli statistici applicati ad un vasto insieme di documenti.
Fasi principali Raccolta dei documenti. Conversione dei documenti in puro testo. Elaborazione dei documenti. Realizzazione della matrice delle occorrenze. Decomposizione ai valori singolari della matrice. Codifica vettoriale. Misura della distanza. Scelta della risposta del sistema.
Elaborazione dei documenti Per poter utilizzare i documenti disponibili nel sito del Parlamento Europeo, e´ necessario: Convertirli in puro testo. Eliminare segni di punteggiatura, caratteri numerici e di formattazione del testo, lasciando soltanto quelli alfabetici. Eliminare parole che non apportano significato aggiuntivo ai documenti (stop-words). Realizzare l’elenco dei termini presenti dei documenti.
Realizzazione della matrice La matrice delle occorrenze mette in relazione i tutti i termini presenti nell’insieme dei documenti con ciascun documento. Le righe della matrice identificano i termini. Le colonne identificano invece i documenti. Documenti Termini
Realizzazione della matrice Il valore dell’elemento aij della matrice e´ caratterizzato dal numero di occorrenza del termine i nel documento j. Documenti Termini
Decomposizione ai valori singolari La matrice di partenza puo´ essere scomposta in tre matrici, secondo la relazione seguente: A U S V’ La matrice U conterra´ le codifiche vettoriali dei termini. La matrice V conterra´ invece quelle dei documenti.
Decomposizione ai valori singolari E´ possibile scegliere la dimensione del troncamento in funzione dei valori singolari contenuti nella matrice diagonale S: Troncamento effettuato a dimensione k = 100 In questo caso e´ stato effettuato un troncamento a dimensione k pari a 100.
Decomposizione ai valori singolari Il troncamento a dimensione k permette di ottenere vettori a k componenti per rappresentare sia i termini che i documenti. Ak Uk Sk Vk’ = ·
Codifica vettoriale Un risultato immediato della scomposizione e´ la disponibilita´ delle codifiche vettoriali dei documenti, contenute nelle righe della matrice Vk. Altre codifiche possono essere ottenute come somma dei vettori dei singoli termini componenti il documento. Per la codifica della richiesta dell’utente e´ possibile procedere come segue:
Misura della distanza Ottenute le codifiche vettoriali della richiesta dell’utente e dei documenti e´ possibile effettuare una misura di distanza tra il vettore della domanda e quelli delle possibili risposte per poter individuare quella piu´ attinente alla domanda stessa. Misura di distanza adoperata: coseno parte parallela seno parte ortogonale q d
Interfaccia del sistema LSA-Bot Il sistema prevede tre modalita´ di funzionamento: Interazione semplice con l’utente. Incremento della base di conoscenza. Recupero di documenti.
Funzionalita´ principali di LSA-Bot Interazione semplice con l’utente: Simulazione del dialogo naturale uomo-macchina. Incremento della base di conoscenza: Permette al sistema di aggiungere nuovi concetti con i quali puo´ successivamente interagire con l’utente. Recupero di documenti: Effettua ricerche all’interno di una collezione di documenti da mostrare all’utente.
Sviluppi futuri E´ possibile migliorare il funzionamento del sistema tramite: Tecniche di stemming (recupero della radice dei termini). Introduzione di nuove misure di similarita´. Analisi di un piu´ elevato numero di documenti per la realizzazione dello spazio semantico.
FINE