La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Salvatore La Bua - U NIVERSITÀ DEGLI S TUDI DI P ALERMO C ORSO DI L AUREA IN I NGEGNERIA I NFORMATICA Sistema di interrogazione intelligente.

Presentazioni simili


Presentazione sul tema: "Salvatore La Bua - U NIVERSITÀ DEGLI S TUDI DI P ALERMO C ORSO DI L AUREA IN I NGEGNERIA I NFORMATICA Sistema di interrogazione intelligente."— Transcript della presentazione:

1 Salvatore La Bua - U NIVERSITÀ DEGLI S TUDI DI P ALERMO C ORSO DI L AUREA IN I NGEGNERIA I NFORMATICA Sistema di interrogazione intelligente di Documenti ufficiali del Parlamento Europeo T ESI DI L AUREA DI: Salvatore La Bua F ACOLTÀ DI I NGEGNERIA D IPARTIMENTO DI I NGEGNERIA I NFORMATICA R ELATORE: Ch.mo Prof. Ing. Salvatore Gaglio C ORRELATORI: Ing. Giovanni Pilato Dott. Giorgio Vassallo A NNO A CCADEMICO

2 Salvatore La Bua - Introduzione Lobiettivo del lavoro svolto e´ la realizzazione di un sistema di recupero automatico di informazioni capace di restituire allutente documenti del Parlamento Europeo a seguito di interrogazioni in linguaggio naturale. Sfruttare tecniche di Analisi della Semantica Latente per rappresentare le parole in uno spazio semantico. LAnalisi della Semantica Latente (LSA – Latent Semantic Analysis) permette di estrarre e rappresentare il significato delle parole tramite calcoli statistici applicati ad un vasto insieme di documenti.

3 Salvatore La Bua - Fasi principali Raccolta dei documenti. Conversione dei documenti in puro testo. Elaborazione dei documenti. Realizzazione della matrice delle occorrenze. Decomposizione ai valori singolari della matrice. Codifica vettoriale. Misura della distanza. Scelta della risposta del sistema.

4 Salvatore La Bua - Elaborazione dei documenti Per poter utilizzare i documenti disponibili nel sito del Parlamento Europeo, e´ necessario: Convertirli in puro testo. Eliminare segni di punteggiatura, caratteri numerici e di formattazione del testo, lasciando soltanto quelli alfabetici. Eliminare parole che non apportano significato aggiuntivo ai documenti (stop-words). Realizzare lelenco dei termini presenti dei documenti.

5 Salvatore La Bua - Realizzazione della matrice La matrice delle occorrenze mette in relazione i tutti i termini presenti nellinsieme dei documenti con ciascun documento. Le righe della matrice identificano i termini. Le colonne identificano invece i documenti. Documenti Termini

6 Salvatore La Bua - Realizzazione della matrice Il valore dellelemento a ij della matrice e´ caratterizzato dal numero di occorrenza del termine i nel documento j. Documenti Termini

7 Salvatore La Bua - Decomposizione ai valori singolari La matrice di partenza puo´ essere scomposta in tre matrici, secondo la relazione seguente: AU V La matrice U conterra´ le codifiche vettoriali dei termini. La matrice V conterra´ invece quelle dei documenti.

8 Salvatore La Bua - Decomposizione ai valori singolari E´ possibile scegliere la dimensione del troncamento in funzione dei valori singolari contenuti nella matrice diagonale : In questo caso e´ stato effettuato un troncamento a dimensione k pari a 100. Troncamento effettuato a dimensione k = 100

9 Salvatore La Bua - Decomposizione ai valori singolari Il troncamento a dimensione k permette di ottenere vettori a k componenti per rappresentare sia i termini che i documenti. AkAk UkUk k V k = ··

10 Salvatore La Bua - Codifica vettoriale Un risultato immediato della scomposizione e´ la disponibilita´ delle codifiche vettoriali dei documenti, contenute nelle righe della matrice V k. Altre codifiche possono essere ottenute come somma dei vettori dei singoli termini componenti il documento. Per la codifica della richiesta dellutente e´ possibile procedere come segue:

11 Salvatore La Bua - Misura della distanza Ottenute le codifiche vettoriali della richiesta dellutente e dei documenti e´ possibile effettuare una misura di distanza tra il vettore della domanda e quelli delle possibili risposte per poter individuare quella piu´ attinente alla domanda stessa. Misura di distanza adoperata: coseno parte parallela seno parte ortogonale q d

12 Salvatore La Bua - Interfaccia del sistema LSA-Bot Il sistema prevede tre modalita´ di funzionamento: Interazione semplice con lutente. Incremento della base di conoscenza. Recupero di documenti.

13 Salvatore La Bua - Funzionalita´ principali di LSA-Bot Interazione semplice con lutente: Simulazione del dialogo naturale uomo-macchina. Incremento della base di conoscenza: Permette al sistema di aggiungere nuovi concetti con i quali puo´ successivamente interagire con lutente. Recupero di documenti: Effettua ricerche allinterno di una collezione di documenti da mostrare allutente.

14 Salvatore La Bua - Sviluppi futuri E´ possibile migliorare il funzionamento del sistema tramite: Tecniche di stemming (recupero della radice dei termini). Introduzione di nuove misure di similarita´. Analisi di un piu´ elevato numero di documenti per la realizzazione dello spazio semantico.

15 Salvatore La Bua - FINE


Scaricare ppt "Salvatore La Bua - U NIVERSITÀ DEGLI S TUDI DI P ALERMO C ORSO DI L AUREA IN I NGEGNERIA I NFORMATICA Sistema di interrogazione intelligente."

Presentazioni simili


Annunci Google