Sistema di interrogazione intelligente di

Slides:



Advertisements
Presentazioni simili
USABILITÁ Sembra banale, ma….
Advertisements

Intelligenza Artificiale 1
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità E1 Dallanalisi del problema alla definizione dellalgoritmo.
DBMS (DataBase Management System)
PHP.
Mobile.istat.it Dietro le quinte Paolo Di Domenico
Capitolo 8 Sistemi lineari.
Vettori e matrici algebrici
Autovalori e autovettori
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Re-engineering del wrapper XML Schema per il sistema MOMIS
LE MATRICI.
Sistemi di supporto alle decisioni 2. Features space
Algebra delle Matrici.
BASI DI DATI BIOLOGICHE - 1. Sommario Introduzione. La analisi biologiche e i dati che producono. Organizzazione dei dati. Esempi.
Teoria e Tecniche del Riconoscimento
RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE
Statistica per le decisioni aziendali ed analisi dei costi Modulo II - Statistica per le decisioni Aziendali Richiami di Algebra Matriciale.
Analisi, rappresentazione e progettazione delle procedure
PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI
Costruzione di Interfacce Lezione 4 Nozioni di geometria per la grafica
Costruzione di Interfacce Lezione 4 Geometria per la grafica
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
Sistemi di equazioni lineari
Access: Query semplici
Introduzione all’algebra lineare
Ulteriori Abilità Informatiche
ANALISI DEI CIRCUITI IN REGIME SINUSOIDALE CON PSPICE
Fogli elettronici - Spreadsheet
Fogli di Calcolo Elettronici Corso di Informatica Generale per SMID a.a. 2002/03 docente: Giorgio Delzanno (DISI)
Concetti di base IR spiegati con l'esempio di Google.
Corso di Laurea in Ingegneria per lAmbiente e il Territorio Informatica per lAmbiente e il Territorio Docente: Giandomenico Spezzano Tutor: Alfredo Cuzzocrea.
“Ricordare” da un punto di vista psicologico
Introduzione ai fogli elettronici: EXCEL
Labortaorio informatica 2003 Prof. Giovanni Raho 1 INFORMATICA Termini e concetti principali.
INTRODUZIONE A MATLAB.
Manipolazione dei dati
SCOMPOSIZIONE DI UN VETTORE
MATRICI classe 3 A inf (a.s ).
CONVERSIONE NUMERI INTERI CON COMPLEMENTO A DUE. I computer di oggi effettuano ogni tipo di operazione numerica, ma le prime ALU degli anni 50 erano in.
Definizione di determinante
Database & Information Retrieval
Applicazioni di modelli matematici alla ricerca semantica
Algoritmi e Programmazione strutturata
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
IPOTESI DI LAVORO GRUPPO n° 3: LEO, RIBATTEZZATO, ROSSI, SCIANGUETTA
Scalari e Vettori.
Docente: Prof. Lorenzo Mezzalira Esercitatore: Ing. Stefano Giavardi
Interrogare il database
PART 3: DATA ANALYSIS THROUGH OMNIFIND. Il cliente: una sorgente importante di informazioni Mercato iper-competitivo, altamente caotico. Cliente al centro.
Rappresentazione dell’informazione nel calcolatore.
Università degli Studi di Pavia
Cosa sono i Fogli Elettronici? Software applicativo nato dall’esigenza di –organizzare insiemi di dati tramite tabelle, schemi, grafici, ecc. –effettuare.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
L'analisi dei testi per la realizzazione del Web Semantico: quali gli strumenti e le applicazioni Paolo Poto Expert System Spa.
Algoritmi euristici per l’ottimizzazione dell’offerta nella raccolta di rifiuti Tesi di laurea di Nicola Bindini Relatore: Chiar.mo Prof. Ing. DANIELE.
Informatica 6 Tipi di dato. Nelle celle di memoria di un calcolatore ci sono solo “0” e “1”, fisicamente realizzati tramite due diversi livelli di tensione.
Di Pietro Demurtas. È il nome di un pacchetto statistico implementato a partire dai primi anni ‘90 da Ihaka e Gentleman. È un linguaggio di programmazione.
S U NIVERSITÀ DEGLI S TUDI DI C ATANIA Emerilli Enza Interlicchia Giada a.a. 2014/2015 C ORSO DI L AUREA M AGISTRALE IN I NGEGNERIA I NFORMATICA.
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
DIPARTIMENTO DI ELETTRONICA, INFORMAZIONE E BIOINGEGNERIA Lab 3: 27 Aprile 2015 Marco D. Santambrogio – Gianluca Durelli –
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
Tecniche di ricerca semantica a supporto del recupero di link di tracciabilità tra artefatti software RelatoreCandidato Chiar.mo Prof. Rocco OlivetoStefano.
Prof. Giovanni Ianne I vettori.
0 Laboratorio Informatica - SAS – Anno Accademico LIUC Alcune indicazioni Dettaglio lezioni: Prima : Michele Gnecchi – Introduzione a SAS Guide.
“ Pseudocodice ” Un programma per computer lavorerà su in insieme di “ variabili ” contenenti i dati del problema, soluzioni intermedie, soluzioni finali.
Le basi di dati.
CALCOLO DEL DETERMINANTE DELLA MATRICE TRE PER TRE
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
L’Analisi delle Corrispondenze. Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o.
Transcript della presentazione:

Sistema di interrogazione intelligente di UNIVERSITÀ DEGLI STUDI DI PALERMO FACOLTÀ DI INGEGNERIA DIPARTIMENTO DI INGEGNERIA INFORMATICA CORSO DI LAUREA IN INGEGNERIA INFORMATICA Sistema di interrogazione intelligente di Documenti ufficiali del Parlamento Europeo TESI DI LAUREA DI: Salvatore La Bua RELATORE: Ch.mo Prof. Ing. Salvatore Gaglio CORRELATORI: Ing. Giovanni Pilato Dott. Giorgio Vassallo ANNO ACCADEMICO 2003 - 2004

Introduzione L’obiettivo del lavoro svolto e´ la realizzazione di un sistema di recupero automatico di informazioni capace di restituire all’utente documenti del Parlamento Europeo a seguito di interrogazioni in linguaggio naturale. Sfruttare tecniche di Analisi della Semantica Latente per rappresentare le parole in uno spazio semantico. L’Analisi della Semantica Latente (LSA – Latent Semantic Analysis) permette di estrarre e rappresentare il significato delle parole tramite calcoli statistici applicati ad un vasto insieme di documenti.

Fasi principali Raccolta dei documenti. Conversione dei documenti in puro testo. Elaborazione dei documenti. Realizzazione della matrice delle occorrenze. Decomposizione ai valori singolari della matrice. Codifica vettoriale. Misura della distanza. Scelta della risposta del sistema.

Elaborazione dei documenti Per poter utilizzare i documenti disponibili nel sito del Parlamento Europeo, e´ necessario: Convertirli in puro testo. Eliminare segni di punteggiatura, caratteri numerici e di formattazione del testo, lasciando soltanto quelli alfabetici. Eliminare parole che non apportano significato aggiuntivo ai documenti (stop-words). Realizzare l’elenco dei termini presenti dei documenti.

Realizzazione della matrice La matrice delle occorrenze mette in relazione i tutti i termini presenti nell’insieme dei documenti con ciascun documento. Le righe della matrice identificano i termini. Le colonne identificano invece i documenti. Documenti Termini

Realizzazione della matrice Il valore dell’elemento aij della matrice e´ caratterizzato dal numero di occorrenza del termine i nel documento j. Documenti Termini

Decomposizione ai valori singolari La matrice di partenza puo´ essere scomposta in tre matrici, secondo la relazione seguente: A U S V’ La matrice U conterra´ le codifiche vettoriali dei termini. La matrice V conterra´ invece quelle dei documenti.

Decomposizione ai valori singolari E´ possibile scegliere la dimensione del troncamento in funzione dei valori singolari contenuti nella matrice diagonale S: Troncamento effettuato a dimensione k = 100 In questo caso e´ stato effettuato un troncamento a dimensione k pari a 100.

Decomposizione ai valori singolari Il troncamento a dimensione k permette di ottenere vettori a k componenti per rappresentare sia i termini che i documenti. Ak Uk Sk Vk’ = ·

Codifica vettoriale Un risultato immediato della scomposizione e´ la disponibilita´ delle codifiche vettoriali dei documenti, contenute nelle righe della matrice Vk. Altre codifiche possono essere ottenute come somma dei vettori dei singoli termini componenti il documento. Per la codifica della richiesta dell’utente e´ possibile procedere come segue:

Misura della distanza Ottenute le codifiche vettoriali della richiesta dell’utente e dei documenti e´ possibile effettuare una misura di distanza tra il vettore della domanda e quelli delle possibili risposte per poter individuare quella piu´ attinente alla domanda stessa. Misura di distanza adoperata: coseno parte parallela seno parte ortogonale q d

Interfaccia del sistema LSA-Bot Il sistema prevede tre modalita´ di funzionamento: Interazione semplice con l’utente. Incremento della base di conoscenza. Recupero di documenti.

Funzionalita´ principali di LSA-Bot Interazione semplice con l’utente: Simulazione del dialogo naturale uomo-macchina. Incremento della base di conoscenza: Permette al sistema di aggiungere nuovi concetti con i quali puo´ successivamente interagire con l’utente. Recupero di documenti: Effettua ricerche all’interno di una collezione di documenti da mostrare all’utente.

Sviluppi futuri E´ possibile migliorare il funzionamento del sistema tramite: Tecniche di stemming (recupero della radice dei termini). Introduzione di nuove misure di similarita´. Analisi di un piu´ elevato numero di documenti per la realizzazione dello spazio semantico.

FINE