Ontologie UNIVERSITA’ DI CAMERINO Corso di laurea in Informatica Barbara Re barbara.re@unicam.it Anno Accademico 2006-07
Agenda Gestione della conoscenza Metadati Ontologie Barbara Re
Dati Informazione Conoscenza Il DATO è un rozzo numero o fatto es: la matricola è un dato di tipo integer L’INFORMAZIONE è il dato contestualizzato es: dimensione storico-geografica e curriculum dello studente La CONOSCENZA è l’informazione che è stata autenticata e assunta essere vera es: percezione soggettiva delle qualità della persona Barbara Re
Dati – informazione - Conoscenza - Saggezza «L’informazione diventa conoscenza solo dopo essere stata processata dalla mente di un individuo» CONOSCENZA ESPLICITA Può essere catturata e codificata nei manuali, nelle procedure e nelle regole e quindi è facile da diffondere CONOSCENZA TACITA Non può essere facilmente articolata e quindi esiste solo nelle mani e nella mente degli individui Barbara Re
Conoscenza Tacita ed Esplicita Barbara Re
Processi coinvolti Barbara Re
Modello di Nonaka Barbara Re
La gestione della conoscenza CONDIVISIONE Il macro processo che consente il mantenimento dei fluissi informativi su cui si basa la gestione della conoscenza, attraverso il supporto strutturato ai processi di comunicazione ed all’agire del sistema sociale ACQUISIZIONE Il macro processo che consente l’esplicitazione della conoscenza tacita ed implicita (come le razionalità soggiacenti ai comportamenti degli attori), a partire da dati, informazioni e rappresentazioni ORGANIZZAZIONE Il macro processo che consente la gestione della memoria della conoscenza, sotto forma di rappresentazioni trattabili attraverso strumenti informatici. ACCESSO Il macro processo che consente il recupero della conoscenza attraverso modalità di ricerca svolte o assistite da elaboratore SUPPORTO Il macro processo che migliora le condizioni di esercizio dei processi cognitivi in situazione attraverso un uso mirato delle tecnologie digitali Barbara Re
KMS: cos’è? Cos’è un KMS? “Un KMS è un ambiente integrato che utilizza le tecnologie di supporto ai processi di gestione della conoscenza per permettere alle organizzazioni di sfruttarne i vantaggi” KMS o portale? Un portale è un’applicazione web- based che offre un singolo punto d’accesso a informazioni distribuite Un portale è solo il livello più esterno di una struttura che prevede quattro strati funzionali Barbara Re
KMS: funzionalità Barbara Re
Cosa sono i metadati e le ontologie!! “Data about data” ? Descrizioni Descrizioni di una risorsa ? Relazioni tra risorse ? Catturano informazione presente nella risorsa ma non elaborabile in automatico ? presente nel contesto in cui la risorsa è inserita ? Cosa sono le ontologie ontologie? Specifica di un vocabolario condiviso dei termini utilizzati in un dominio applicativo ? Collezioni di definizioni di termini e relazioni fra questi ? Schema che cattura il significato dell’informazione contenuta in un sottostante archivio ? Barbara Re
METADATI: Alcune semplici definizioni … Machine-understandable information about Web resources or other things. Tim Berners-Lee, W3C, 1997 Data associated with objects which relieves their potential users of having to have full advance knowledge of their existence or characteristics. A user might be a program or a person. Lorcan Dempsey & Rachel Heery, 1998 Structured data about resources that can be used to help support a wide range of operations Michael Day, 2001 Structured data about data. Dublin Core Metadata Initiative FAQ, 2003 Barbara Re
Che informazioni contengono i metadati I record di metadati possono includere Descrizione del materiale archiviato Record bibliografici appartenenti a cataloghi o ottenuti da servizi di indicizzazione e creazione di abstract Record relativi ad oggetti contenuti nella documentazione del museo Descrizione di oggetti digitali (documenti, immagini, video software, …) Descrizione di collezioni di oggetti digitali Descrizione di servizi in rete Descrizioni di record di metadati Barbara Re
Modelli di metadati I precursori metadati di applicazione generale MARC – MAchine Readable Cataloguing record metadati di applicazione generale Dublin Core (DC) Government Information Locator Service [now Global Information Locator Service] (GILS) Digital Object Identifier (DOI) metadati per specifici domini disciplinari MPEG7 Text Encoding Initiative (TEI) Encoded Archival Description (EAD) Consortium for the Interchange of Museum Information (CIMI) Visual Resources Association (VRA) Core Categories Content Standard for Digital Geospatial Metadata (CSDGM) Online Information Exchange (ONIX) Friend Of a Friend: metadati per descrivere reti sociali Barbara Re
Modelli di metadati: MARC Sviluppato alla fine degli anni 60 alla Library of Congress (USA) per promuovere la condivisione di cataloghi tra biblioteche. È diventato un formato quasi standard. Utilizza un sistema di numeri, lettere e simboli all’interno del record per individuare i diversi tipi di informazione http://www.loc.gov/marc/umb/ Barbara Re
Modelli di Modelli di metadati: Dublin core Un insieme di elementi descrittivi capaci di rappresentare qualsiasi risorsa di informazione accessibile in rete http://www.dublincore.org Format Identifier Source Language Relation Coverage Rights Title Creator Subject Description Publisher Contributor Date Type Barbara Re
FOAF "Friend Of A Friend" The Friend of a Friend (FOAF) project is about creating a Web of machinereadable homepages describing people, the links between them and the things they create and do http://www.foaf-project.org/ FOAF Basics Agent Person Name Nick Title Homepage Mbox mbox_sha1sum Img depiction (depicts) Surname family_name Givenname firstName Per provare a scrivere il vostro FOAF [http://www.ldodds.com/foaf/foaf-a-matic.html] Personal Info weblog knows interest currentProject pastProject plan based_near workplaceHomepage workInfoHomepage schoolHomepage topic_interest publications geekcode myersBriggs dnaChecksum Barbara Re
Modelli di metadati: MPEG7 Standard sviluppato dall’MPEG (Moving Picture Expert Group) http://www.chiariglione.org/mpeg/ Viene denominato “Multimedia content description interface” Fornisce una descrizione del contenuto di dati multimediali, estraibile attraverso la sua analisi ed elaborazione Strumento generico non finalizzato ad una applicazione specifica, ma adatto a supportare un ampio numero di applicazioni Digital libraries Description generation Description consumption Description based training Image understanding Intelligent vision Smart cameras/VCRs Information retrieval Information filtering Barbara Re
Caratteristiche dei metadati Descrittivi per l'identificazione e il recupero degli oggetti digitali; sono costituiti da descrizioni normalizzate dei documenti digitali nativi, risiedono generalmente nelle basi dati dei sistemi di Information Retrieval all'esterno degli archivi degli oggetti digitali e sono collegati a questi ultimi tramite appositi link. Amministrativi e gestionali forniscono dati utili per la gestione della risorsa descritta, per le operazioni di gestione degli oggetti digitali all'interno dell'archivio. Strutturali descrivono la struttura interna fisica o logica dei documenti (es. introduzione, capitoli, sezioni, indice di un libro) e le loro relazioni fra le varie parti degli oggetti digitali. Barbara Re
Metadati: embedded o esterni sono inclusi nell’oggetto, Esterni sono esterni all’oggetto ed archiviati a parte come link all’oggetto descritto. Barbara Re
Funzioni Gestire le risorse fornendo la loro l’identificazione a favore della loro presentazione e recupero Consentire l’organizzazione, la localizzazione, la gestione e le statistiche Favorire l’interoperabilità e l’integrazione di risorse simili Facilitare l’archiviazione e la conservazione delle risorse Barbara Re
Tool per la gestione dei metadati (1) DC/DOT Questo servizio recupera pagine Web ed automaticamente genera metadati Dublin Core o come tag HTML o RDF/XML adatti per esser inseriti nella sezione head delle pagine. I metadati generati possono essere editati usando delle form specifiche che possono convertire i metadati in altri formati (USMARC, SOIF, IAFA/ROADS, TEI headers, GILS, IMS or RDF). Nordic project Questo servizio è fornito dal “Nordic Metadata Project” al fine di fornire un buon supporto per la creazione di metadati Dublin Core per la comunità “Nordic Net-publisher”. Reggie L’editor di metadati Reggie fornisce un facile modo di creare metadati da un programma web configurabile. I metadati creati da Reggie possono essere mostrati e in alcuni casi esportati nei seguenti formati HTML 3.2, HTML 4.0 e RDF. MKDoc MKDoc è un sistema per la gestione dei contenuti nei siti Web che può produrre metadati Dublin Core in formato HTML e RDF per ogni documento. Editor-Converter Dublin Core metadata Si tratta di un programma on-line che può essere utilizzato per due scopi: come editor di metadati Dublin Core e come convertitore ad UNIMARC. Barbara Re
Tool per la gestione dei metadati (2) Photo RDF-Gen Questo tool genera RDF per descrivere immagini ed in particolar modo fotografie DescribeThis Si tratta di un parser automatico ed al tempo stesso di generatore di metadati Dublin Core per le risorse on-line Scorpion Il progetto “Scorpion Open Source” offre un software in grado di implementare un sistema per la classificazione automatica di documenti di testo accessibili dal Web. Esso viene usato per investigare sulla presenza di uno schema di classificazione o un thesaurus leggibile dalla macchina da incorporare nel sistema di classificazione automatica Viewer-Generator Dublin Core metadata Rappresenta un form on-line per effetture un test su di un URL e valutare quindi la presenza di metadati Dublin Core. Al tempo stesso esso genera automaticamente metadati Dublin Core da una pagina che contiene tradizionali metadati HTML Barbara Re
Cosa sono i metadati e le ontologie!! “Data about data” ? Descrizioni Descrizioni di una risorsa ? Relazioni tra risorse ? Catturano informazione presente nella risorsa ma non elaborabile in automatico ? presente nel contesto in cui la risorsa è inserita ? Cosa sono le ontologie? Specifica di un vocabolario condiviso dei termini utilizzati in un dominio applicativo ? Collezioni di definizioni di termini e relazioni fra questi ? Schema che cattura il significato dell’informazione contenuta in un sottostante archivio ? Barbara Re
Cos’è un’ontologia In termini astratti In termini pratici Sul piano filosofico: area della metafisica che studia come è realmente fatto l’universo che ci circonda Sul piano informatico: area dell’intelligenza artificiale che studia i metodi per rappresentare correttamente l’universo che ci circonda In termini pratici Specifica un vocabolario comune tra sistemi differenti … … basandosi su una descrizione semantica del dominio dei dati … …che agevoli la comunicazione sia tra agenti software sia tra agenti software e esseri umani Barbara Re
Definizioni Philosophy (400BC) Neches (91) Gruber (93) Borst (97) Systematic explanation of Existence Neches (91) Ontology defines basic terms and relations comprising the vocabulary of a topic area as well as the rules for ombining terms and relations to define extensions to the vocabulary Gruber (93) Explicit specification of a conceptualization Borst (97) Formal specification of a shared conceptualization Studer(98) Formal, explicit specification of a shared conceptualization Una specifica esplicita e formale di una concettualizzazione condivisa Barbara Re
Cos’è un’ontologia In termini formali… “Un’ontologia è una specificazione esplicita e formale di una concettualizzazione condivisa” in cui si usa… CONCETTUALIZZAZIONE perché ci si riferisce a modello astratto di fenomeno CONDIVISA perché cattura conoscenza riconosciuta da un gruppo FORMALE perché automaticamente decodificabile ESPLICITA perché basata su strutture di immediata applicazione Barbara Re
Formalmente (1) Un insieme di concetti (detti anche classi) Le interconnessioni semantiche tra essi (dette relazioni concettuali, o attributi semantici) Un eventuale livello logico che permetta di inferire nuovi fatti a partire da quelli codificati all’interno della risorsa (ad esempio, un insieme di assiomi o micro-teorie) Barbara Re
Formalmente (2) Un’ontologia O può dunque essere definita come una tripla (C, R, A) dove C è un insieme di concetti R è un insieme di relazioni concettuali tali che ogni relazione in R è definita su CC A è un insieme di assiomi (se A = l’ontologia non è assiomatizzata) Barbara Re
Definizione formale di ontologia (3) Si osservi che gli insiemi C ed R individuano un grafo G = (V, E) tale che V C E = { (c1, c2) CC : S R : (c1, c2) S } e una funzione di etichettatura : CC 2R tale che (c1, c2) = { S R : (c1, c2) S } Barbara Re
Esempio Un semplice esempio di ontologia è il seguente O’ = (C’, R’, A’) dove: C’ = {Entità, Oggetto, Persona, Meccanico, Automobile, Motore} R’ = {è-un, ha-un, ripara} A’ = { “a Automobile m Meccanico : ripara(m, a)” }) è-un = { (Oggetto, Entità), (Persona, Entità), (Meccanico, Persona), (Automobile, Oggetto), (Motore, Oggetto) } ha-un = { (Automobile, Motore) } ripara = { (Meccanico, Automobile) } Barbara Re
I componenti di un’ontologia Barbara Re
I componenti di un’ontologia Un concetto… …anche noto come classe, può rappresentare un oggetto, una nozione o un’idea …può essere astratto o concreto, elementare o composto, reale o fittizio… …è caratterizzato da un termino o un simbolo, da una “estensione” e da una “intensione” Barbara Re
I componenti di un’ontologia Un assioma …è un affermazione sempre vera sul modello …serve per specificare la semantica dei concetti …può essere usato per descrivere una relazione: il tipo, la cardinalità, le proprietà algebriche (simmetria, transitività), le proprietà concettuali (esclusività, genericità, identità) Barbara Re
I componenti di un’ontologia Una relazione… …è una forma di interazione tra concetti del dominio del tipo R: C1xC2x…xCn …è caratterizzata da un termine, da una intenzione e da una estensione… …può essere, ad esempio, “genitore” che lega due concetti o due istanze Barbara Re
I componenti di un’ontologia Una funzione… …è un tipo speciale di relazione in cui l’n-esimo argomento dipende dagli altri, nella forma F: C1xC2x…xCn-1àCn …può essere, ad esempio, “madre di”, calcolata a partire da un concetto “genitore” e dall’attributo “sesso” Barbara Re
I componenti di un’ontologia Un elemento aggiuntivo può essere… …un’istanza rappresenta i singoli elementi del dominio …un fatto rappresenta una relazione tra due istanze …un individuo rappresenta qualsiasi elemento del dominio che non sia un concetto …una claim rappresenta l’asserzione di un fatto tramite un’istanza Barbara Re
I criteri della progettazione… Chiarezza: il significato intenzionale deve essere oggettivo Coerenza: si può inferire solo ciò che è consistente con le definizioni Estendibilità: successive estensioni o specializzazioni devono essere monotone, senza richiedere revisione Minima dipendenza dalla codifica: la concettualizzazione non deve dipendere da vincoli del linguaggio di rappresentazione Minimo commitment ontologico: la conoscenza deve essere rappresentata col minor numero possibile di dichiarazioni Barbara Re
Il ciclo di vita della progettazione Barbara Re
Processo di sviluppo di un’ontologia Studio di Fattibilità Identificazione dominio e campo di applicazione Catturare l’ontologia Codificare l’ontologia Integrare con ontologie esistenti Costruzione Valutazione Documentazione Mantenimento chiarezza coerenza estensibilità min impegno ontologico min dipendenza codice Ontologia Utenti, Esperti di dominio e Sviluppatori Barbara Re
Ontologie: Problemi di ricerca E’ un’area di ricerca che si è molto espansa nell’ultima decade Ontologie Costruzione Traduzione Aggiornamento Riuso Valutazione Apprendimento Mapping Fusione Gestione Strumenti Metodologie Linguaggi Barbara Re
I linguaggi per la rappresentazione della conoscenza Si utilizzano logiche descrittive intese come una famiglia di formalismi utilizzati per rappresentare la conoscenza in un dominio di applicazione detto mondo Più recentemente le logice descrittive sono state utilizzate come formalismo di base per lo sviluppo degli standard promossi dalla "Semantic Web initiative" del W3C RDF che però non può essere considerato una logica descrittiva OWL (nato dalle ceneri dei progetti DAML e OIL) Barbara Re
Linguaggi di rappresentazione Barbara Re
RDF: come possibile approccio all’interoperabilità strutturale RDF si propone come un’hub da usare per gestire i costrutti strutturali al posto di numerose integrazioni ad hoc Source: Tim Berners Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/Overview.html Barbara Re
RDF mette a disposizione un modello di dati semplice … e molto flessibile si possono codificare Barbara Re
Che cos’è RDF RDF Come HTML, permette di creare dei link tra risorse pubblicati sul Web Al contrario dei comuni ipertesti i link di RDF Possono essere etichettati, al fine di indicare esplicitamente la relazione che intercorre tra gli oggetti Si riferiscono a oggetti tipizzati, nel senso che RDF standardizza la modalità con cui si assegna un significato alla risorsa Barbara Re
Confronto HTML e RDF Barbara Re
RDF: un esempio guida Il modello RDF rende disponibile un meccanismo per descrivere in modo machine- processable risorse Web risorse Web, ad esempio, pagine Web Esempio Immaginiamo di voler tener traccia del fatto che qualcuno di nome Mario Rossi ha creato una certa pagina Web (http://www.example.org/index.html) Se dovessimo descrivere questo fatto in linguaggio naturale potremmo utilizzare una semplice frase: Barbara Re
RDF: un esempio guida Alcune parti della frase sono sottolineate per identificare ciò che si vuole descrivere (in questo caso la pagina) la specifica proprietà (autore) di ciò che si vuole descrivere ciò che vogliamo utilizzare per assegnare un valore alla proprietà (chi è l’autore) di ciò che si vuole descrivere Barbara Re
La terminologia In RDF per identificare La frase si usa il termine stantment La parte che identifica ciò di cui la frase parla si usa soggetto La parte che identifica la proprietà del soggetto che la frase specifica si usa predicato La parte che identifica il valore assegnato dalla frase alla proprietà si usa oggetto Barbara Re
Machine processability (1) Delle frasi in linguaggio naturale possono servire uomini per comunicare, ma lo scopo di RDF è rendere queste frasi “machine-processable” Per rendere frasi simili a quelle precedenti machine processable occorre degli identificativi “machine-processable” che permettano di identificare il soggetto, l’oggetto e il predicato in una frase senza nessuna possibilità di confusione con un altro identificativo simile usato da qualcun altro sul Web un formato “machine-processable” per rappresentare e scambiare le frasi tra macchine Barbara Re
Machine processability (2) Il web di oggi dispone di entrambi i meccanismi gli Uniform Resource Identifier (URI) rendono disponibile un modo per identificare qualunque cosa di cui si voglia parlare in uno statement RDF Extensible Markup Language (XML) è il formato ideale per rappresentare e scambiare degli statement RDF Barbara Re
Machine processability Il web di oggi dispone di entrambi i meccanismi gli Uniform Resource Identifier (URI) rendono disponibile un modo per identificare qualunque cosa di cui si voglia parlare in uno statement RDF Extensible Markup Language (XML) è il formato ideale per rappresentare e scambiare degli statement RDF Barbara Re
Tutto deve avere un URI Per scrivere Occorre assegnare un URI a tutte (o quasi) le parti sottolineate della frase Nello stantment RDF di esempio: Il soggetto è già un URI Il valore (l’oggetto) “Mario Rossi” potrebbe essere identificato dall’URI URN:org:example:staffid:85740 Per il predicato “autore” si può utilizzre l’URI http://purl.org/dc/element/1.1/creator Barbara Re
Tutto deve avere un URI Risultato Barbara Re
Predicati come URI http://purl.org/dc/elements/1.1/Creator Etichetta Creatore Definizione Un'entità che ha la responsabilità principale della produzione del contenuto della risorsa Descrizione Esempi di Creator includono una persona, un'organizzazione o un servizio. In particolare, il nome di un Creator dovrebbe essere usato per indicare l'entità Barbara Re
Uso dei nemespace E’ possibile abbreviare le URI facendo uso dei prefissi dei namespace di XML Esempio Lo stantment Introducendo i seguenti prefissi per i tre namespace diventa Barbara Re
Oggetti come URI (1) Ci sono molti vantaggi nell’utilizzare gli URI come semplice modalità di identificazione Invece di Identificare l’autore come la stringa “Mario Rossi” Si può usare l’URI sid:85740 In questo caso Possiamo essere più precisi nella nostra idenficazione dell’autore della pagina Non è una stringa “Mario Rossi” o qualcuna delle migliaia di persone che si chiamano “Mario Rossi” Ma in particolare “Mario Rossi” è associato all’URI Barbara Re
Oggetti come URI (2) Dal momento che l’autore della pagina ha un URI, è a tutti gli effetti una risorsa, e possiamo descriverla ulteriormente assegnandogli, ad esempio, il nome, l’eta, … Barbara Re
Quasi tutto deve avere un URI Il soggetto e il predicato di ogni stantment devono essere delle risorse, quindi devono avere un URI L’oggetto può anche essere un valore La terminologia di RDF utilizza il termine Letterale (litteral) Barbara Re
Tipizzare le risorse Per tipizzare una risorsa si usa la proprietà rdf:type Barbara Re
Machine processability Il web di oggi dispone di entrambi i meccanismi gli Uniform Resource Identifier (URI) rendono disponibile un modo per identificare qualunque cosa di cui si voglia parlare in uno statement RDF Extensible Markup Language (XML) è il formato ideale per rappresentare e scambiare degli statement RDF Barbara Re
Sintassi XML di RDF L’idea di base prevede un elemento XML per ogni nodo (soggetto e oggetto) e arco (predicato) Barbara Re
Sintassi XML di RDF Una possibile abbreviazione prevede l’uso dell’attributo rdf:resource nei poperty element Barbara Re
Sintassi XML di RDF Altri stantment Si possono serializzare Sempre di seguito Nel caso in cui si descriva l’oggetto del primo anche innestandoli Barbara Re
Sintassi XML di RDF Possibile abbreviazione per risorse tipizzate Barbara Re
Sintassi XML di RDF Barbara Re
Sintassi N-Triple di RDF La sintassi XML di RDF È utile per far leva sui numerosi tool già sviluppati per XML Ma non è semplice distinguere i vari stantment e in particolare isolare soggetto, predicato e oggetto Per scopi didattici, o in generale quando occorre leggere RDF, si può utilizzare la sintassi N-Triple Ogni statment si scrive come una tripla Barbara Re
Sintassi N-Triple di RDF: esempio Es. l’esempio guida in N-triple Fissando i prefissi La tripla diventa Barbara Re
Alcuni vocabolari Barbara Re
RDF come Hub RDF può essere utilizzato come “Hub” Abilita un buon grado di interoperabilità strutturale Ovvero i vari sistemi informativi, che condividono lo stesso modello RDF, possono scegliere indipendentemente il formato più adatto all’informazione che intendono scambiare È molto semplice fondere (merge) modelli RDF Ovvero non ci sono ostacoli nel combinare informazione preveniente da sistemi differenti (quindi anche in formati diversi), purchè questi condividano lo stesso modello RDF Barbara Re
Esempio di interoperabilità strutturale otttenuta via RDF Barbara Re
Esempio di interoperabilità strutturale otttenuta via RDF Barbara Re
Esempio di interoperabilità strutturale otttenuta via RDF Barbara Re
Esempio di fusione (merge) Barbara Re
Esempio di fusione (merge) Barbara Re
Esempio di fusione (merge) Barbara Re
Protegè http://protege.stanford.edu/ Barbara Re
Ci sono domande? Barbara Re