Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoEdmondo Gianni Modificato 9 anni fa
1
Tecniche di ricerca semantica a supporto del recupero di link di tracciabilità tra artefatti software RelatoreCandidato Chiar.mo Prof. Rocco OlivetoStefano Ricchiuti 130771 U NIVERSITÀ DEGLI S TUDI DEL M OLISE Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica T ESI DI L AUREA IN L ABORATORIO DI I NGEGNERIA DEL S OFTWARE A NNO A CCADEMICO 2009/2010
2
Contesto Applicativo percorso evolutivo di un software percorso complesso non si limita alla sola progettazione produce un insieme di documenti (repository) ciclico, possibilità di evoluzioni future
3
Contesto Applicativo introduzione di modifiche Il repository degli artefatti, risultante dal processo di sviluppo, è un insieme di documenti, diagrammi ed elaborati dipendenti tra loro. repository Introdurre una modifica o una nuova funzionalità, potrebbe coinvolgere uno o più artefatti già integrati nel sistema
4
Contesto Applicativo recupero della tracciabilità Per introdurre modifiche, è necessario individuare i collegamenti che intercorrono tra tutti i documenti dell’insieme. login.java Funzionalità: Login Test case : Login * I collegamenti tra i documenti sono dipendenze di varia natura che prendono il nome di link di tracciabilità. Il processo di individuazione di tutti il link è detto recupero della tracciabilità.
5
Motivazioni gestione della tracciabilità AMBITI DI APPLICAZIONE Program Comprehension Manutenzione Requirements tracing Impact analysis Riuso del codice CRITICITÀ Elevato numero di link Costante aggiornamento I link vanno riconsiderati dopo ogni modifica NECESSITÀ DI AUTOMAZIONE
6
Motivazioni Information Retrieval e tracciabilità La maggior parte dei documenti relativi ad un software sono costituiti da testo. È possibile applicare tecniche di Information Retrieval. parole chiave Documenti rilevanti Information Retrieval Gestione tracciabilità Artefatto source Artefatti target INPUT OUTPUT
7
Motivazioni metodi IR vettoriali I metodi con modello vettoriale sono tra i più utilizzati ed efficaci documenti rappresentati come vettori angolo tra i vettori come misura della somiglianza il significato e numero delle dimensioni dipendono dal metodo
8
Motivazioni il metodo Latent Semantic Indexing (LSI) LSI è un metodo di IR vettoriale che considera legami semantici tra termini e documenti, e a differenza dei tradizionali metodi: risolve i problemi di polisemia e sinonimia spazio di indicizzazione semantico (struttura semantica latente) le dimensioni dello spazio corrispondono a dei «concetti» estratti dall’insieme dei documenti INCOGNITA = NUMERO DI CONCETTI DA ESTRARRE
9
Obiettivi obiettivi della tesi Il numero di dimensioni dello spazio di indicizzazione (indicato con k) influenza le prestazioni del metodo LSI e non è noto a priori Obiettivo DUPLICE: 1)Osservare in che modo il valore di k influenza le prestazioni nel recupero della tracciabilità del metodo LSI 2)Stabilire un’euristica per individuare un corretto valore di k
10
Obiettivi test effettuati EASY CLINIC: 30 casi d’uso 20 interaction diagrams 63 casi di test 37 artefatti codice sorgente 93 link di tracciabilità eTOUR: 58 casi d’uso 116 artefatti codice sorgente 364 link di tracciabilità Applicazione del metodo LSI per il recupero della tracciabilità con tutti i possibili valori di k e calcolo delle prestazioni.
11
Obiettivi risultati della sperimentazione Generalmente, le prestazioni del metodo migliorano all’aumentare di k, fino a stabilizzarsi sul valore corrispondente alle prestazioni migliori Osservando l’importanza dei concetti che il metodo LSI estrae dai documenti, è possibile individuare il valore di k che corrisponde al punto di stabilizzazione
12
Conclusioni risultati ed obiettivi raggiunti È sempre possibile individuare il punto di stabilizzazione delle prestazioni del metodo LSI applicato al recupero della tracciabilità tra artefatti software. Il corrispondente valore di k è anche nella maggior parte dei casi, il valore che fornisce le prestazioni migliori, mentre nei casi in cui ciò non si verifica, indica il limite superiore del numero concetti da estrarre, oltre il quale le prestazioni non cambiano.
13
Sviluppi futuri possibili estensioni del lavoro svolto eseguire la stessa sperimentazione su basi di dati più ampie e con caratteristiche diverse, verificando che i risultati siano confrontabili con quelli precedenti Applicare le stesse considerazioni nell’ambito dell’Information Retrieval Analizzare i casi in cui le prestazioni hanno una variazione anomala con un massimo non determinabile con l’osservazione dell’importanza dei concetti indicizzati
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.