Applicazioni di modelli matematici alla ricerca semantica

Slides:



Advertisements
Presentazioni simili
Presentazione della tesi di laurea di Flavio Casadei Della Chiesa Newsletter: un framework per una redazione web.
Advertisements

TIC per ricerca e condivisione dell'informazione
L’algoritmo PageRank.
Profilazione d’utente nei sistemi di e-commerce
Laurea Magistrale in Informatica Percorso: Metodi e Modelli (M & M) a.a. 2007/2008.
Percorsi didattici Informatica e Telecomunicazioni.
Unità D2 Database nel web. Obiettivi Comprendere il concetto di interfaccia utente Comprendere la struttura e i livelli che compongono unapplicazione.
di Architetture Peer to Peer per la Gestione di Database Distribuiti
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Analisi e Contromisure di tecniche di Sql Injection
COMPARAZIONE DI STRUMENTI SOFTWARE PER LA CREAZIONE, LA GESTIONE E LINTEGRAZIONE DI ONTOLOGIE Università degli Studi Modena e Reggio Emilia Facoltà di.
Informatica (conoscenza) - Introduzione al corso (I. Zangara)
Sistemi di supporto alle decisioni 2. Features space
Una bussola per le scuole
Ontologie per la costruzione di un portale sull'Adobe.
Studiare INFORMATICA all’Università Ca’ Foscari
Chiara Francalanci Politecnico di Milano SMAU 22 Ottobre 2004.
1 Università della Tuscia - Facoltà di Scienze Politiche.Informatica 2 - a.a Prof. Francesco Donini Active Server Pages.
Metodologie per la gestione di conoscenza ontologica Prof. M.T. PAZIENZA a.a
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: i motori di ricerca e la gestione dellinformazione biomedica CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE.
Approcci avanzati alla ricerca in rete. La capacità dellutente Information literacy: imparare a cercare su Internet La situazione: –problemi di Internet.
La Ricerca in Rete Danco Singer novembre 2002 novembre 2002 Master in Editoria Multimediale La Ricerca in Rete: strategie di navigazione.
Metodi e tecniche per lE-Tutor nella scuola Modulo 1 – Tecnologie didattiche e comunicazione multimediale APG Attività pratica guidata 16/2/2008.
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
UNIVERSITA DEGLI STUDI DI MILANO Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea Trienmale in Informatica Relatore:Prof.ssa FIORELLA.
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Concetti di base IR spiegati con l'esempio di Google.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Agent and Object Technology Lab Dipartimento di Ingegneria dellInformazione Università degli Studi di Parma AOT LAB LAB Anno accademico 2010 / 2011 Tesi.
Motori di ricerca: Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da lui stesso raccolti e restituisce un indice dei.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Progetto e sviluppo.
Labortaorio informatica 2003 Prof. Giovanni Raho 1 INFORMATICA Termini e concetti principali.
MIEL UN PERCORSO PER LE COMPETENZE ICT NELLA FORMAZIONE INIZIALE DEI FUTURI INSEGNANTI Maurizio Berni, SSIS Toscana - sede di Pisa Alessandro Bonsignori,
Elementi di Informatica Simone Scalabrin a.a. 2008/2009.
Antonello DAguanno Music Information Retrieval - AUDIO.
Supervisione della potenza elettrica in una smart grid tramite arduino
Studio di euristiche per il miglioramento di algoritmi di ranking per il World-Wide Web Università degli Studi di Milano Corso di Laurea in Informatica.
Modulo 1 - Hardware u.d. 3 (syllabus – 1.3.5)
Centro di Assistenza Multicanale (C.A.M.) di Cagliari
Corso di Laurea in Ingegneria Meccanica
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
STRUTTURA GENERALE DI UN ELABORATORE
Sistema di interrogazione intelligente di
I SOCIAL NETWORK: DUE PUNTI DI VISTA, BAUMAN E HAMEL
1 Lutente nellO.P.A.C.: My homepage ed altre strategie di interazione nel Portale del Sistema bibliotecario della Provincia di Verona Convegno La biblioteca.
Motori di Ricerca presente e futuro prossimo
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
1 Roma. 14 ottobre 2010 II FASE PROGETTO GLI ULTIMI PER PRIMI PROF. SSA L ILIANA C ANTATORE.
Alla fine degli anni quaranta nasceva il mito del cervello elettronico, e tutte le attività connesse allutilizzo del computer venivano indicate tramite.
Il Web è un mezzo a ricezione variabile Variabilità hardware (computer, monitor) Variabilità connessione (più o meno veloce) Variabilità delle preferenze.
Realizzazione di un motore di ricerca semantico basato sul contesto
PART 3: DATA ANALYSIS THROUGH OMNIFIND. Il cliente: una sorgente importante di informazioni Mercato iper-competitivo, altamente caotico. Cliente al centro.
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
Relatore: Prof. Marco Porta Correlatore: Prof. Lidia Falomo
Università degli Studi di Pavia Facoltà di Lettere e Filosofia, Giurisprudenza,Scienze Politiche, Ingegneria, Economia Corso Interfacoltà in Comunicazione.
Informazione e Informatica - presentazione dei concetti di base -
L’ACCESSIBILITA’ DEL WEB NEI NEGOZI DI VENDITA ONLINE: TRE SITI A CONFRONTO Relatore: Prof. Marco Porta Correlatore: Prof. Lidia Falomo Tesi di: Laura.
Indice CORSO INTERNET PRATICO A CURA DI LEONARDO CERRI MAGALI’ BONGIOVANNI.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
Tecniche di ricerca semantica a supporto del recupero di link di tracciabilità tra artefatti software RelatoreCandidato Chiar.mo Prof. Rocco OlivetoStefano.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Prof. Paolo Antonucci.  Cookie: piccolo file di testo che restituisce al web server informazioni sulla macchina alla quale inviare la pagina web  Web.
Cercare In Internet. Cercare in Rete La scuola ha un ruolo preciso in relazione a quella che nei paesi anglosassoni viene denominata: Information Literacy.
Andrea Santo Sabato Seo Senior MediaSoft s.r.l. E Tourism: SEO/SEM e Web Strategy.
Interazione Persona Computer prova di progetto Gruppo: IO Componenti: Carlo Solimando Sito analizzato:
Transcript della presentazione:

Applicazioni di modelli matematici alla ricerca semantica Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804 Relatore Prof. Giovanni Capobianco

Contesto applicativo EVOLUZIONE DI INTERNET Internet è una rete di computer mondiale ad accesso pubblico che attualmente rappresenta il principale mezzo di comunicazione di massa. I suoi utenti nel 2010 hanno raggiunto quota 1,97 miliardi in crescita del 14% rispetto all’anno precedente. Il numero dei siti web nel 2010 ha raggiunto quota 255 milioni, di cui 21,4 aperti nell’ultimo anno.

Contesto applicativo INFORMATION RETRIEVAL Cosa è? Insieme delle tecniche atte al recupero mirato dell’informazione in formato elettronico. Cosa fa? Le tecniche di IR basate su modelli vettoriali, applicano il concetto di somiglianza testuale tra una base di dati e una query, restituendo una serie di documenti pertinenti. Modelli matematici più importanti? Vector Space Model Latent Semantic Indexing … Applicazioni più note? Motori di ricerca.

Contesto applicativo VECTOR SPACE MODEL Dati due vettori: 𝑄, rappresentante una query 𝐷, rappresentante un documento la loro similarità può essere calcolata attraverso il coseno dell’angolo 𝜃, compreso tra essi. 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 (𝐷, 𝑄)∈[−1,1].

Contesto applicativo LATENT SEMANTIC INDEXING Problema: l’utente va alla ricerca delle informazioni basandosi su concetti e non su singole parole. Il cuore del LSI è rappresentato dalla decomposizione ai valori singolari (SVD). 𝑿 𝜮 𝟎 𝑽 𝟎 𝑼 𝟎 La matrice Σ 0 rappresenta i concetti ordinati in ordine di importanza.

Motivazioni PROBLEMATICHE COMUNI Nella fruizione dei documenti presenti sul web è fondamentale per l’utente un motore di ricerca che restituisca risultati corretti. Nella sua realizzazione tre problemi che sicuramente incidono negativamente sulla bontà dei risultati sono: polisemia sinonimia query malformate

Motivazioni POLISEMIA Molte parole hanno più di un significato, quindi una query potrebbe condividere dei termini con un documento, sebbene quest’ultimo non sia rilevante. Conte

Motivazioni SINONIMIA Esistono diversi modi per esprimere uno stesso concetto; ciò implica che una query potrebbe non condividere termini con un documento, sebbene quest’ultimo sia rilevante per la query stessa. Automobile Macchina Auto

Motivazioni QUERY MALFORMATE Spesso l’utente inserisce, per errore, query non valide o che non rappresentano bene l’informazione ricercata. Conta

Obiettivi PROFILING Migliorare l’accuratezza dei risultati forniti da un motore di ricerca, attraverso il profiling degli utenti. Profiling?! Attraverso le query fornite dall’utente e i risultati da questi selezionati, il sistema acquisisce esperienza. In questo modo restituisce risultati con un grado di correttezza crescente.

docs Hound INTRODUZIONE E’ stato realizzato un motore di ricerca basato su una nota libreria di Information Retrieval, Lucene. Lucene è un progetto open source promosso dalla Apache Software Foundation.

docs Hound INDEXER Si occupa di analizzare le pagine web. Per ogni documento: estrapola informazioni testuali individua le categorie inerenti aggiorna le definizioni delle categorie Ogni categoria è identificata da un vocabolario, costituito da un insieme di termini.

docs Hound PROFILING UTENTE Ad ogni utente è associato un profilo di ricerca, sotto forma di distribuzione di probabilità. Il valore della preferenza di una categoria aumenta seguendo l'andamento di una funzione logistica. I valori delle categorie non scelte sono decrementati in modo proporzionale.

docs Hound FUNZIONE LOGISTICA Scelte occasionali per una categoria modificano soltanto lievemente il profilo, mentre scelte consecutive hanno effetto via via maggiore. Quando la preferenza per una categoria raggiunge un valore sufficientemente più elevato rispetto alle altre, si stabilizza su tale posizione.

docs Hound SEARCHER Restituisce le pagine web ordinandole per punteggio. Il punteggio è calcolato in funzione dell'attinenza della pagina web con la query e il profilo dell'utente. In particolare: punteggio = punteggio query * (1 + punteggio profilo) Per ridurre i problemi causati da query malformate, il parser delle query applica a queste un grado di casualità utilizzando tecniche fuzzy.

docs Hound TESTING Query 1 Query 2 Query 3 Query 4 Query 5 Tot diff   Query 1 Query 2 Query 3 Query 4 Query 5 Tot diff Utente 1 1 3 2 -1 Utente 2 -2 Utente 3 Utente 4 -3 Utente 5

CONCLUSIONI Al termine della sperimentazione si può affermare che le tecniche di profiling sono una buona soluzione per il problema della polisemia. Il problema delle query malformate è stato mitigato applicando un grado di casualità ad esse.

SVILUPPI FUTURI Integrazione di un crawler nel sistema al fine di renderlo operativo. Miglioramento della categorizzazione di utenti e pagine attraverso una crescente accuratezza dei vocabolari che ne costituiscono le definizioni. Gestione automatica della funzione logistica in base al numero di categorie. Testing approfondito con un maggior numero di utenti.

Grazie per l’attenzione