Verso un approccio model driven alla simulazione e analisi di scenari di crisi ed emergenza Seminario UTMEA 13 Settembre, 2012 Antonio De Nicola UTMEA-CAL, ENEA Metodi e modelli per il calcolo del ranking nella ricerca documentale 1
Agenda 1.Obiettivo 2.Rappresentazione della conoscenza 3.Architettura software 4.Indicizzazione di documenti 5.Algoritmo di ranking 2
Introduzione Problema Proliferare di documenti digitali Ricerca terminologica – Eccessive dimensioni dello spazio delle soluzioni Eccessiva informazione = nessuna informazione Obiettivo Metodo per ordinare i risultati della ricerca effettuata 3
Concettualizzatione Istanziazione La rappresentazione concettuale istanza concetto simboli Rappresentazione Ziqqurat sumero Ziqqurat 4
Concettualizzatione Istanziazione Concettualizzazione & Istanziazione individuo concetto Livello concettuale Livello reale Torre templare mesopotamica Ziqqurat di Choga Zanbil Instance Description Concept Description Symbolic world Real world 5
Rappresentazione della conoscenza Livelli di formalità incrementale – Lexicon Termini – Glossario Termini + definizioni – Tassonomia Gerarchia di specializzazione – Ontologia Specifica formale ed esplicita di una concettualizzazione condivisa Concetti + Relazioni + Assiomi 6 Es., argilla, mattone, torre Es., Il mattone crudo è un mattone realizzato con argilla prima lavorata, mescolata a paglia, poi sagomata e compattata con i piedi e infine essicato al sole.
Architettura 7
Indicizzazione documenti Acquisizione documenti Indicizzazione automatica – Ad es., cercando occorrenze dei termini dell’ontologia nel titolo n title, nell’abstract n abst e nel testo n txt – Se il termine dell’ontologia viene trovato indicizzo il doc Ranking semantico documenti – Ogni documento ha un valore numerico (V) associato per ogni termine t i dell’ontologia V ti = αn title + βn abst + γn txt dove {α,β,γ} sono pesi predefiniti – V ti misura la vicinanza semantica del documento con quel termine 8
Calcolo del Ranking: frequenza dei termini Titolo Abstract Testo Query term: crisis n title = 1 n abst = 3 n txt = 17
Calcolo del Ranking: assegnazione dei pesi Titolo Abstract Testo Query term: crisis α= 1/N title *w title =(1/11)*4 0 β= 1/N abstract *w abstract =(1/119)*30 γ= 1/N testo *w testo =(1/3964)*20
Calcolo del Ranking: Keywords & Tags Keyword : parola chiave inserita dall’autore (o dal fornitore) del documento Tag: parola chiave inserita dall’amministratore del repository documentale n title = 1, α= 1/N title *w title =(1/11)*40 n abst = 3, β= 1/N abstract *w abstract =(1/119)*30 n txt = 17, γ= 1/N testo *w testo =(1/3964)*20 n key =1, ε key =1/N key *w key =(1/6)*5 n tag =1, ζ tag =1/N tag *w tag =(1/4)*5 V ti=crisis = 5.52
Conclusioni Metodi di calcolo del ranking per migliorare la ricerca terminologica Sviluppi futuri Ricerca per termini dell’ontologia – Sono considerati anche i sinonimi e le relazioni ontologiche tra concetti (es., similarità) – I risultati vengono visualizzati in base al ranking semantico – Valore di soglia minimo per la visualizzazione 12