La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.

Presentazioni simili


Presentazione sul tema: "Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio."— Transcript della presentazione:

1 Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio Emilia Dipartimento di Scienze Fisiche, Matematiche e Informatiche Corso di Laurea in Informatica Martina Pucella Tesi di Laurea Relatore: Ing. Riccardo Martoglia Anno Accademico 2013/2014

2 Scenario del motore di ricerca Help-Desk Profilo Utente Sistema di Help-Desk Documentazione Cronologia Richiesta DOCUMENTI CONSIGLIATI RICERCA AMBIT : Algorithms and Models for Building context-dependent Information delivery Tools

3 Obiettivi della Tesi Ottimizzazione di alcune funzionalità software del progetto AMBIT, per aumentarne l'efficacia nel recupero dei dati. ◦ Ottenere un ranking ottimale Valutazione Sperimentale delle singole funzionalità del software e verifica dei risultati ottenuti.

4 Stato dell’arte Ottimizzazione Valutazioni Sperimentali Conclusioni e Sviluppi Futuri

5 Ranking dei Documenti Termini Rilevanti Classi IPTC* *International Press Telecommunications Council http://cv.iptc.org/newscodes/mediatopic Profilo Documentazione Help-Desk Utilizzo del modello vettoriale esteso con informazioni su sinonimi e termini correlati Utilizzo di pesi per i termini rilevanti Utilizzo della classificazione basata sulle classi IPTC e sui relativi punteggi

6 Similarità - Modello Vettoriale Profili Utente Documenti PTERMINITFIDF 1 Guarantee12.53.1 Term12.52.7 2 Camera10.21.4 Reset101.4 DTERMINITFIDF 1 Warranty0.021.6 Term0.012.7 2 Camcorder0.062.7 Reset0.011.4 SYN REL EQ SCORE 1 = [1 * (12.5 * 3.1) * (0.02 * 1.6)] + [1 * (12.5 * 2.7) * (0.01 * 2.7)] EQ SCORE 2 = [0.7 * (10.2 * 1.4) * (0.06 * 2.7)] + [1 * (10 * 1.4) * (0.01 * 1.4)] Guarantee Term Camera Reset SCORE = ∑ SYN/REL/EQ * (TF * IDF) P * (TF * IDF) D S. Bergamaschi, R. Martoglia, and S. Sorrentino. A Semantic Method for Searching Knowledge in a Software Development Context. In Proceedings of the 20th Italian Symposium on Advanced Database System (SEBD 2012), pp. 115-122, 2012.

7 Progetto AMBIT Ottimizzazione Valutazioni Sperimentali Conclusioni e Sviluppi Futuri

8 Ranking con termini rilevanti PESI DEI TERMINI Viene incrementato il peso dei termini estratti dalla richiesta dell'utente ◦ Si vuole dare più risalto alla domanda posta dall'utente al sistema di help-desk ◦ I pesi dei termini riguardanti il contesto dell'utente non vengono aumentati

9 Ranking con classi IPTC PROBLEMA In un sistema di help-desk molte delle classi sono correlate ◦ Classi molto frequenti potrebbero perdere di importanza ◦ Classi poco frequenti potrebbero essere più specifiche SOLUZIONE Utilizzo di ICF (Inverse Class Frequency) nel calcolo della similarità Classi MOLTO frequenti Classi POCO frequenti PClassi IPTCPunt.ICF 1 IPTC/Hardware745203 IPTC/Software119402 2 IPTC/Software206402 IPTC/Radio1816537 IPTC/Mass Media871065

10 Valori di importanza per i Ranking PROBLEMA Capire quando: ◦ Un ranking è più significativo rispetto all’altro ◦ I due ranking sono entrambi informativi SOLUZIONE Attribuire un valore di importanza ai ranking, sommando gli score dei primi N documenti recuperati e normalizzandoli ◦ Il ranking con lo score totale maggiore è più informativo ed importante PR1R2W1W2 10.820.300.70.3 20.660.420.60.4 30.790.800.5 40.350.720.30.7 FUSION NO FUSION R1 / (R1+R2)R2 / (R1+R2)

11 Ranking Fusion Ranking con termini rilevanti Ranking con classi IPTC RANKING FUSION Rank FusionScore Fusion DOC A1 DOC B2 DOC C3 DOC B1 DOC D2 DOC A3 DOC B1.66 DOC A1.34 DOC D0.67 DOC C0.34 # = 3 DOC B0.13 DOC A0.10 DOC D0.06 DOC C0.04 DOC A0.10 DOC B0.09 DOC C0.08 DOC B0.17 DOC D0.12 DOC A0.10 w = 0.5 DOC A = ( 0.5 * 0.10 ) + ( 0.5 * 0.12 ) # = 3 DOC A = 1 – [( 1 – 1 ) / 3 ] + 1 – [( 3 – 1 ) / 3 ] M. E. Renda and U. Straccia. Web metasearch: rank vs. score based rank aggregation methods. In SAC '03 Proceedings of the 2003 ACM symposium on Applied computing, 2003.

12 Progetto AMBIT Ottimizzazione Valutazioni Sperimentali Conclusioni e Sviluppi Futuri

13 Test Set 260 documenti provenienti da sistemi di help-desk di aziende operanti nei settori dell’elettronica e della comunicazione ◦ Manuali Utente ◦ Guide per la risoluzione di problemi ◦ Documenti per l’installazione ◦ Ecc… 14 profili utente creati sulla base della collezione di documenti ◦ Richiesta per il sistema di help-desk ◦ Cronologia di navigazione passata ◦ Documenti rilevanti

14 Utilizzo di pesi maggiorati per i termini importanti Ranking - Pesi StandardRanking - Pesi Maggiorati ResetTelevision.txtTVSignalReception.txt WarrantyInformation.txtNoSoundHeadphonesTV.txt userguideBRAVIATelevision.txtTVNtReceiveSignal.txt NoSoundHeadphonesTV.txtTVNoSignal.txt TVSignalReception.txtuserguideMonoBluetoothHeadset3.txt userguideBRAVIATelevision2.txtBoostWiFiSignal.txt TVNtReceiveSignal.txtCheckWirelessConnectionSpeed.txt RemoteControlTroubleshoot.txtuserguideHomeTheatre5.txt TVNoSignal.txtTVDigitalReception.txt

15 Utilizzo di ICF nel calcolo della similarità per le classi IPTC Ranking - NO ICFRanking - ICF WiFiSignalDropsOut.txtWarrantyInformationVideodisk.txt BoostWiFiSignal.txtWarrantyInformationPhone.txt userguideHomeTheatre4.txtWarrantyInformationPC.txt ConnectionProblems.txtLimitedWarranty.txt TabletTroubleshooting.txtLegalInformation.txt WirelessIssue.txtuserguideSmartWatch.txt MouseNotWorking.txtWarrantyInformation.txt

16 Utilizzo dei valori di importanza dei ranking P1 P2 P3 P4

17 Confronto degli algoritmi di Ranking Fusion RANK FUSIONSCORE FUSION PaymentMethods.txt BillingInformation.txt ConnectionAutomatedTroubleshooter.txtCreateAccount.txt

18 Progetto AMBIT Ottimizzazione Valutazioni Sperimentali Conclusioni e Sviluppi Futuri

19 OTTIMIZZAZIONEVALUTAZIONE Utilizzo di pesi maggiorati per i termini importantiPOSITIVA Utilizzo del valore di ICF nel calcolo della similarità per le classi IPTC POSITIVA Utilizzo dei valori di importanza dei rankingPOSITIVA Confronto dei due algoritmi di ranking fusionEQUIVALENTI Conclusioni: Sviluppi Futuri: Utilizzo di altre forme di contesto Introduzione di tecniche di Word Sense Disambiguation (WSD) Sperimentazione di altri scenari previsti dal progetto AMBIT Ulteriore studio e ottimizzazione delle tecniche descritte precedentemente

20 GRAZIE PER L'ATTENZIONE


Scaricare ppt "Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio."

Presentazioni simili


Annunci Google