Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

USABILITÁ Sembra banale, ma….
Prime sperimentazioni d'indicizzazione [semi]automatica alla BNCF Maria Grazia Pepe - Elisabetta Viti (Biblioteca nazionale centrale di Firenze) 6. Incontro.
una interfaccia internet per il sistema Momis
Facoltà di Ingegneria di Modena ANALISI E SVILUPPO DI TECNICHE PER
Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico.
Università degli studi di Modena e Reggio Emilia
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Analisi.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Re-engineering del wrapper XML Schema per il sistema MOMIS
1 Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli Strumenti Esistenti Integrazione di Sorgenti HTML in MOMIS: Analisi Comparativa degli.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
Il mio nome è Alain Fergnani e nel corso della tesi mi sono occupato della dinamica delle ontologie per il Web Semantico, e in particolare dell’approccio.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA
Università degli studi di Modena e Reggio Emilia
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e realizzazione.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Ontologie Lessicali Multilingua:
Analisi e Contromisure di tecniche di Sql Injection
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA
Università degli studi di Modena e Reggio Emilia Progetto e realizzazione di un tool di sincronizzazione database server – palmare per il controllo del.
COMPARAZIONE DI STRUMENTI SOFTWARE PER LA CREAZIONE, LA GESTIONE E LINTEGRAZIONE DI ONTOLOGIE Università degli Studi Modena e Reggio Emilia Facoltà di.
ANALISI COMPARATIVA DEGLI ERP: SAP E MICROSOFT DYNAMICS
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
tre approcci a confronto
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
UNIVERSITA DEGLI STUDI DI MILANO Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea Trienmale in Informatica Relatore:Prof.ssa FIORELLA.
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Relevance Feedback. Query Expansion. Argomenti 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion - Usando un thesaurus.
Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria.
Approssimazione semantica per routing di interrogazioni in un PDMS Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Scienze dellInformazione Applicazione.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Progetto e sviluppo.
KAPPAELLE 2008 Roberto Pirrone Università degli Studi Palermo
UNIVERSITA’ DEGLI STUDI DI MILANO Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Scienze dell’Informazione La formazione informatica.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA DI MODENA Corso di Laurea Specialistica in Ingegneria Informatica PROGETTO E REALIZZAZIONE.
Applicazioni di modelli matematici alla ricerca semantica
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Proposta di unImplementazione per i Servizi di Localizzazione e Traffic Monitoring nellIntelligent Trasportation System Pegasus UNIVERSITÀ DEGLI STUDI.
Tesi di laurea specialistica in ingegneria meccanica
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria “Enzo Ferrari” – Sede di Modena Corso di Laurea Specialistica in Ingegneria Informatica.
BROKER SERVER Progetto di Ingegneria del Web 2008 Alessio Bianchi Andrea Gambitta Giuseppe Siracusano.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Matematiche Fisiche e Naturali Progetto e Sviluppo di unApplicazione Mobile per il.
Tesi di Laurea in Ingegneria Meccanica
Social network per l’arte: il progetto Post-Art
Un motion planner per guide multimediali interattive
Relevance Feedback & Query Expansion. Tema: come migliorare la recall di una query? 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion.
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.
Titolo della tesi Nome candidato Relatore: prof. Davide Pettenella
UNIVERSITA' DEGLI STUDI DI MILANO Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Analisi, progettazione e realizzazione.
Università degli Studi di Cagliari
Università degli Studi di Modena e Reggio Emilia
SImPlIFy: UN SISTEMA DISTRIBUITO DI PRESCRIZIONE E SOMMINISTRAZIONE
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA DIPARTIMENTO DI INGEGNERIA “Enzo Ferrari” Corso di Laurea in Ingegneria Informatica Anno Accademico 2013/2014.
POLITECNICO DI MILANO Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica STUDIO E REALIZZAZIONE DI UN BRACCIO ROBOTICO ANTROPOMORFO E SOLUZIONE.
Realizzazione di un motore di ricerca semantico basato sul contesto
UNIVERSITA’ DEGLI STUDI DI PAVIA Dipartimenti di Giurisprudenza, Ingegneria Industriale e dell’Informazione, Scienze Economiche e Aziendali, Scienza Politiche.
Relatore: Prof. Marco Porta Correlatore: Prof. Lidia Falomo
Algoritmi euristici per l’ottimizzazione dell’offerta nella raccolta di rifiuti Tesi di laurea di Nicola Bindini Relatore: Chiar.mo Prof. Ing. DANIELE.
D.I.Me.Ca. – D.I.Me.Ca. – Università degli Studi di Cagliari Facoltà di Ingegneria Dipartimento di Ingegneria.
UNIVERSITÀ DEGLI STUDI DI PAVIA
Indicizzazione di documenti semistrutturati Sistemi informativi – AA D’Este Laura.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
Tecniche di ricerca semantica a supporto del recupero di link di tracciabilità tra artefatti software RelatoreCandidato Chiar.mo Prof. Rocco OlivetoStefano.
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA Dipartimento di Scienze Fisiche, Informatiche e Naturali Corso di Laurea in Informatica Progetto e Sviluppo.
Obiettivo  Analisi  Progettazione  Sviluppo 2 App context-aware per la fruizione di servizi.
Transcript della presentazione:

Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio Emilia Dipartimento di Scienze Fisiche, Matematiche e Informatiche Corso di Laurea in Informatica Martina Pucella Tesi di Laurea Relatore: Ing. Riccardo Martoglia Anno Accademico 2013/2014

Scenario del motore di ricerca Help-Desk Profilo Utente Sistema di Help-Desk Documentazione Cronologia Richiesta DOCUMENTI CONSIGLIATI RICERCA AMBIT : Algorithms and Models for Building context-dependent Information delivery Tools

Obiettivi della Tesi Ottimizzazione di alcune funzionalità software del progetto AMBIT, per aumentarne l'efficacia nel recupero dei dati. ◦ Ottenere un ranking ottimale Valutazione Sperimentale delle singole funzionalità del software e verifica dei risultati ottenuti.

Stato dell’arte Ottimizzazione Valutazioni Sperimentali Conclusioni e Sviluppi Futuri

Ranking dei Documenti Termini Rilevanti Classi IPTC* *International Press Telecommunications Council Profilo Documentazione Help-Desk Utilizzo del modello vettoriale esteso con informazioni su sinonimi e termini correlati Utilizzo di pesi per i termini rilevanti Utilizzo della classificazione basata sulle classi IPTC e sui relativi punteggi

Similarità - Modello Vettoriale Profili Utente Documenti PTERMINITFIDF 1 Guarantee Term Camera Reset101.4 DTERMINITFIDF 1 Warranty Term Camcorder Reset SYN REL EQ SCORE 1 = [1 * (12.5 * 3.1) * (0.02 * 1.6)] + [1 * (12.5 * 2.7) * (0.01 * 2.7)] EQ SCORE 2 = [0.7 * (10.2 * 1.4) * (0.06 * 2.7)] + [1 * (10 * 1.4) * (0.01 * 1.4)] Guarantee Term Camera Reset SCORE = ∑ SYN/REL/EQ * (TF * IDF) P * (TF * IDF) D S. Bergamaschi, R. Martoglia, and S. Sorrentino. A Semantic Method for Searching Knowledge in a Software Development Context. In Proceedings of the 20th Italian Symposium on Advanced Database System (SEBD 2012), pp , 2012.

Progetto AMBIT Ottimizzazione Valutazioni Sperimentali Conclusioni e Sviluppi Futuri

Ranking con termini rilevanti PESI DEI TERMINI Viene incrementato il peso dei termini estratti dalla richiesta dell'utente ◦ Si vuole dare più risalto alla domanda posta dall'utente al sistema di help-desk ◦ I pesi dei termini riguardanti il contesto dell'utente non vengono aumentati

Ranking con classi IPTC PROBLEMA In un sistema di help-desk molte delle classi sono correlate ◦ Classi molto frequenti potrebbero perdere di importanza ◦ Classi poco frequenti potrebbero essere più specifiche SOLUZIONE Utilizzo di ICF (Inverse Class Frequency) nel calcolo della similarità Classi MOLTO frequenti Classi POCO frequenti PClassi IPTCPunt.ICF 1 IPTC/Hardware IPTC/Software IPTC/Software IPTC/Radio IPTC/Mass Media871065

Valori di importanza per i Ranking PROBLEMA Capire quando: ◦ Un ranking è più significativo rispetto all’altro ◦ I due ranking sono entrambi informativi SOLUZIONE Attribuire un valore di importanza ai ranking, sommando gli score dei primi N documenti recuperati e normalizzandoli ◦ Il ranking con lo score totale maggiore è più informativo ed importante PR1R2W1W FUSION NO FUSION R1 / (R1+R2)R2 / (R1+R2)

Ranking Fusion Ranking con termini rilevanti Ranking con classi IPTC RANKING FUSION Rank FusionScore Fusion DOC A1 DOC B2 DOC C3 DOC B1 DOC D2 DOC A3 DOC B1.66 DOC A1.34 DOC D0.67 DOC C0.34 # = 3 DOC B0.13 DOC A0.10 DOC D0.06 DOC C0.04 DOC A0.10 DOC B0.09 DOC C0.08 DOC B0.17 DOC D0.12 DOC A0.10 w = 0.5 DOC A = ( 0.5 * 0.10 ) + ( 0.5 * 0.12 ) # = 3 DOC A = 1 – [( 1 – 1 ) / 3 ] + 1 – [( 3 – 1 ) / 3 ] M. E. Renda and U. Straccia. Web metasearch: rank vs. score based rank aggregation methods. In SAC '03 Proceedings of the 2003 ACM symposium on Applied computing, 2003.

Progetto AMBIT Ottimizzazione Valutazioni Sperimentali Conclusioni e Sviluppi Futuri

Test Set 260 documenti provenienti da sistemi di help-desk di aziende operanti nei settori dell’elettronica e della comunicazione ◦ Manuali Utente ◦ Guide per la risoluzione di problemi ◦ Documenti per l’installazione ◦ Ecc… 14 profili utente creati sulla base della collezione di documenti ◦ Richiesta per il sistema di help-desk ◦ Cronologia di navigazione passata ◦ Documenti rilevanti

Utilizzo di pesi maggiorati per i termini importanti Ranking - Pesi StandardRanking - Pesi Maggiorati ResetTelevision.txtTVSignalReception.txt WarrantyInformation.txtNoSoundHeadphonesTV.txt userguideBRAVIATelevision.txtTVNtReceiveSignal.txt NoSoundHeadphonesTV.txtTVNoSignal.txt TVSignalReception.txtuserguideMonoBluetoothHeadset3.txt userguideBRAVIATelevision2.txtBoostWiFiSignal.txt TVNtReceiveSignal.txtCheckWirelessConnectionSpeed.txt RemoteControlTroubleshoot.txtuserguideHomeTheatre5.txt TVNoSignal.txtTVDigitalReception.txt

Utilizzo di ICF nel calcolo della similarità per le classi IPTC Ranking - NO ICFRanking - ICF WiFiSignalDropsOut.txtWarrantyInformationVideodisk.txt BoostWiFiSignal.txtWarrantyInformationPhone.txt userguideHomeTheatre4.txtWarrantyInformationPC.txt ConnectionProblems.txtLimitedWarranty.txt TabletTroubleshooting.txtLegalInformation.txt WirelessIssue.txtuserguideSmartWatch.txt MouseNotWorking.txtWarrantyInformation.txt

Utilizzo dei valori di importanza dei ranking P1 P2 P3 P4

Confronto degli algoritmi di Ranking Fusion RANK FUSIONSCORE FUSION PaymentMethods.txt BillingInformation.txt ConnectionAutomatedTroubleshooter.txtCreateAccount.txt

Progetto AMBIT Ottimizzazione Valutazioni Sperimentali Conclusioni e Sviluppi Futuri

OTTIMIZZAZIONEVALUTAZIONE Utilizzo di pesi maggiorati per i termini importantiPOSITIVA Utilizzo del valore di ICF nel calcolo della similarità per le classi IPTC POSITIVA Utilizzo dei valori di importanza dei rankingPOSITIVA Confronto dei due algoritmi di ranking fusionEQUIVALENTI Conclusioni: Sviluppi Futuri: Utilizzo di altre forme di contesto Introduzione di tecniche di Word Sense Disambiguation (WSD) Sperimentazione di altri scenari previsti dal progetto AMBIT Ulteriore studio e ottimizzazione delle tecniche descritte precedentemente

GRAZIE PER L'ATTENZIONE