Le nuove frontiere nella gestione della conoscenza sul Web Fabio Ciotti.

Le nuove frontiere nella gestione della conoscenza sul Web Fabio Ciotti

La gestione della conoscenza sul Web Una delle conseguenze più rilevanti della diffusione del Web è il problema dell'information overload I motori di ricerca full-text generalisti hanno successo perchè Richiedono un minimo sforzo dellutente (inserire keyword in una semplice form ed eventualmente raffinare la richiesta aggiungendo/cambiando parole) Forniscono risultati rilevanti, numerosi e pronti per luso Ma la ricerca è unattività costosa e inefficiente linformation overload costringe lutente ad una cernita manuale durante la quale possono sfuggire le informazioni maggiormente rilevanti i risultati non garantiscono di essere esaustivi non sono gestite le problematiche del pluringuismo le omonimie e le sinonimie In generale possiamo dire che la ricerca di informazioni sul attualmente non è in grado di eseguire alcun filtraggio basato sui concetti

La gestione della conoscenza sul Web Un'altra conseguenze della diffusione del Web è il passaggio dai sistemi informativi monade ai sistemi aperti e interoperabili Nei primordi del Web la semplicità dellarchitettura (basata su HTTP/URL/HTML in modalità client side) forniva sufficienti garanzie per far interagire senza limiti gli agenti presenti nel sistema Lintroduzione dellelaborazione server side… …laumento della complessità dei servizi erogati … la necessità di interazione tra sistemi informativi diversi ha richiesto soluzioni tecniche sempre più avanzate Linteroperabilità è divenuta uno dei requirement principali di un sistema informativo Web

La gestione della conoscenza sul Web Al fine di garantire linteroperabilità possono adottare due strategie: standardizzazione a priori di architetture e linguaggi (omogeneità dei sistemi) definizione di protocolli di interoperabilità tra sistemi eterogenei

La gestione della conoscenza sul Web Un ruolo centrale in entrambi i casi è svolto dallintroduzione di XML XML è un formalismo per la modellizzazione di documenti digitali da pubblicare sul Web sottoforma di alberi etichettati In virtù della sua flessibilità sintattica XML è stato ampiamente adottato come formato di serializzazione (cioè rappresentazione in forma di stringa lineare di caratteri codificati) per modelli di dati non intrinsecamente gerarchici (reti, grafi, tabelle, strutture relazionali)

La gestione della conoscenza sul Web I vantaggi di XML in questo campo sono numerosi standard aperto specifiche chiare, complete e abbastanza semplici da implementare alto livello di portabilità possibilità di definire il proprio linguaggio di rappresentazione formale dei dati possibilità controllo sintattico/strutturale rigoroso dei dati codificati

La gestione della conoscenza sul Web XML infatti si basa sulla associazione di etichette descrittive ai dati Etichette e dati sono memorizzati in formato testuale (stringhe di caratteri codificati in Unicode) Sia il vocabolario delle etichette utilizzabili sia la struttura sintattica che ne regola luso possono essere stabilite a priori mediante la definizione di uno schema I dati possono essere validati automaticamente rispetto allo schema mediante un processo di parsing

La gestione della conoscenza sul Web Queste caratteristiche hanno fatto si che XML assumesse un ruolo centrale nella costruzione di linguaggi standard per la rappresentazione di dati e metadati, divenendo una sorta di esperanto sintattico Il problema è che XML di per sé non può giocare nessun ruolo nel garantire il trattamento semantico (automatica) dei dati, sebbene spesso si senta affermare il contrario

La gestione della conoscenza sul Web XML is a poor language for data modelling if the goal is to represent information objects in the problem domain such that they correspond transparently ("one-to-one") to the user's conceptual model of objects in this domain. Robin Cover, XML and Semantic Transparency XML permette esclusivamente di esprimere semplici relazioni strutturali: gerarchia (A contiene B) adiacenza (A seguito da B) co-occorrenza (se A allora [anche/non] B) Con lintroduzione degli schema language si è aggiunta la possibilità di tipazione dei valori di elementi e attributi eguagliando la espressività semantica dei DBMS

La gestione della conoscenza sul Web XML non aggiunge senso ai dati, almeno non lo aggiunge in modo computazionalmente accessibile/trattabile Lerrore deriva da una sorta di fallacia interpretazionale dovuta al fatto che le etichette XML sono leggibili e comprensibili da un utente umano, di norma il vocabolario utilizzato nei linguaggi XML usa termini sensati tratti da una lingua naturale Ma la semantica del vocabolario XML è del tutto inaccessibile a un elaboratore XML

La gestione della conoscenza sul Web Per un parser Il fu Mattia Pascal sono entrambi frammenti perfettamente accettabili È la mente dellagente umano che legge il documento XML a fornire una semantica al markup… … eventualmente associandovi una apposita documentazione in lingua naturale (come il manuale EAD, TEI, METS, MODS etc…)

La gestione della conoscenza sul Web Si noti che anche i successivi livelli di elaborazione di un sistema basato su XML non risolvono il problema Ad esempio una trasformazione XSLT è in grado di prendere in input un albero XML A e trasformarlo nellalbero B, ma di nuovo tutto avviene sulla base esclusiva di vincoli sintattici e strutturali Nessuna trasformazione XSLT può introdurre complessità semantica ad esempio prendere i nomi unitari in un set di metadati DC e dividerli in componenti come previsto da MODS… …a meno di complessi insiemi di regole ad hoc o delluso di vocabolari controllati preesistenti

La gestione della conoscenza sul Web Perché questo è un problema? Torniamo a considerare il discorso iniziale sulla centralità dellinteroperabilità e sulle strategie per conseguirla Se si sceglie di percorrere la strada della standardizzazione a priori lindifferenza semantica di XML (e di qualsiasi altro metalinguaggio di modellizzazione dati) non sarebbe un problema rilevante In questo caso infatti una comunità di utenti decide di adottare un vocabolario condiviso definito a priori con una semantica chiara e prefissata Chiunque può sviluppare delle applicazione di elaborazione e scambio dei dati consistenti a tale standard Si tratta di una pratica ben nota nel mondo delle biblioteche e degli archivi che sin dai primordi dellautomazione hanno avvertito lesigenza di definire modelli di descrizione (oggi le chiameremmo ontologie), formati, vocabolari controllati per la descrizione semantica tendenzialmente condivisi: da MARC a Dublin Core, da ISBD a ISAD a FRBR, dal soggettario LC ai vari thesaura settoriali…..

La gestione della conoscenza sul Web Tuttavia questa strategia è adottabile solo in ambienti chiusi e omogenei o in domini ristretti Non appena il dominio applicativo si estende o lambiente si estende e diviene eterogeneo (come nel Web) luniformità a priori dei linguaggi descrittivi non è praticabile sia perché esistono numerosi standard diversi che insistono sul medesimo dominio sia perché ci sono profili di adozione e applicazione diversi del medesimo standard

La gestione della conoscenza sul Web Si pone dunque lesigenza di individuare dei sistemi di interoperabilità semantica che consentano lintegrazione di sistemi eterogenei lerogazione servizi avanzati di descrizione ed elaborazione semantica. In questa direzione si muovono le sperimentazioni che complessivamente ricadono nellarea del Semantic Web

La gestione della conoscenza sul Web Il termine Semantic Web è stato coniato nel 2001 da Tim Berners Lee Obiettivo: aumentare lefficacia del World Wide Web come luogo di elaborazione e scambio di conoscenza attribuendo ad agenti software la capacità di analizzare il significato dei documenti in esso presenti, di selezionarli o confrontarli in modo semanticamente rilevante di inferirne conseguenze non esplicitate. Questo obiettivo visto nella sua generalità richiede numerose e rilevanti innovazioni sia dal punto di vista tecnico, con la convergenza tra alcune tecnologie sviluppate nellambito della rappresentazione e gestione della conoscenza in Intelligenza Artificiale e quelle create per implementare larchitettura del Web sia da quello dei comportamenti sociali degli utenti, poiché il progetto richiederà il contributo diffuso dellintera comunità della rete.

La gestione della conoscenza sul Web Lidea alla base del Web Semantico consiste nellassociare alle risorse informative disponibili in varie forme sul Web una descrizione formale del loro significato Tale descrizione può essere elaborata autonomamente da un agente software in modo significativo (cioè tenendo conto di che cosa essa significhi), così da dedurne conseguenze implicite e generare automaticamente nuova informazione Le ricadute applicative di questo progetto sono numerose: creazione di sistemi di ricerca dellinformazione guidati dalla semantica interazione multilinguistica uomo-macchina e macchina-macchina creazione di applicazioni di e-commerce intelligenti sviluppo di agenti software autonomi …

La gestione della conoscenza sul Web Nellarchitettura disegnata da Berners-Lee e dai suoi collaboratori presso il W3C Consortium, le componenti tecnologiche che dovranno contribuire alla costruzione del Web Semantico sono le seguenti URI RDF ontologie formali (e relativi linguaggi) motori inferenziali

La gestione della conoscenza sul Web Le URI, sono i formalismi che consentono di identificare le risorse sulla rete. Ogni risorsa – dal singolo documento, a sue parti, a oggetti ed entità in essi menzionate, a collezioni di documenti – deve avere un suo identificativo URI, affinché possa essere univocamente individuata nello spazio informativo costituito dal Web. Una volta che una risorsa sia identificata in modo univoco è possibile esprimere su di essa asserzioni che ne descrivono il contenuto o esprimono ciò che un utente pensa su tale contenuto in generale ne specificano proprietà da vari punti di vista Queste asserzioni sono informazioni che si riferiscono ad altre informazioni, ovvero metadati semantici

La gestione della conoscenza sul Web Naturalmente, affinché i metadati semantici siano utilizzabili non solo dagli esseri umani ma anche dai computer, è necessario che vengano espressi in un linguaggio che sia computazionalmente trattabile sia dal punto di vista sintattico sia da quello semantico È questo il fine del Resource Description Framework (RDF) Si tratta di un metalinguaggio dichiarativo per la formalizzare di asserti (predicati) che esprimono proprietà di e relazioni tra risorse

La gestione della conoscenza sul Web Larchitettura di RDF è basata su tre concetti: Risorse: tutto ciò che viene descritto. Ogni risorsa è identificata da un URI (può essere anche un oggetto non accessibile dal Web) Proprietà: una coppia attributo-valore associata alla risorsa. Ogni proprietà ha un significato specifico una serie di valori leciti è associabile ad uno o più tipi di risorsa Proprietà e i valori possono essere espresse da URI ma anche da valori letterali Asserzioni (statement): lassociazione di una proprietà a una risorsa Ogni asserzione ha una struttura soggetto - predicato - oggetto In RDF sono consentite solo relazioni binarie

http://www.laterza.it/internet/leggi/internet2004/index.htm Fabio Ciotti Autore RisorsaProprietàLetterale La gestione della conoscenza sul Web Fabio Ciotti è lautore di http://www.laterza.it/internet/leggi/internet2004/index.htm: «La proprietà Autore della risorsahttp://www.laterza.it/internet/leggi/internet2004/index.htm vale Fabio Ciotti»

La gestione della conoscenza sul Web Larchitettura prevista da RDF si divide in due parti: Resource Description Framework (RDF) Model and Syntax Specification – le cui specifiche sono state rilasciate come raccomandazioni definitive nel febbraio 1999 – definisce il modello dei dati la sintassi di RDF, basato su XML (ma è stata sviluppata una notazione più compatte per esprimere asserzioni RDF, Notation 3) RDF di per sé non fa alcuna assunzione circa il vocabolario specifico o la tipologia delle proprietà che si possono attribuire e delle relazioni tra tali proprietà A tale fine occorre definire un RDF Schema, la seconda parte dellarchitettura RDF (RDF Vocabulary Description Language 1.0: RDF Schema) Una volta che uno schema è stato definito formalmente e pubblicato, chiunque può adottarlo e utilizzarlo per costruire descrizioni RDF dei propri documenti

La gestione della conoscenza sul Web Potranno esistere numerosi schemi, basati su diverse concettualizzazioni di particolari domini, su diverse nomenclature e su diverse lingue Occorre un sistema per specificare le relazioni logico-semantiche (equivalenza, specificazione, generalizzazione, istanziazione, cardinalità etc.) tra oggetti e proprietà di un medesimo schema e di schemi diversi Ad esempio, in un schema la relazione di autorialità potrà essere indicata con il termine author – che fa parte della classe creator – in funzione di soggetto, il cui oggetto è una certa risorsa In un altro potremmo avere che il soggetto è il documento di cui si predica la proprietà essere scritto da un esponente della classe responsabili intellettuali caratterizzato dalla proprietà primario Evidentemente si sta parlando dello stesso insieme di individui e relazioni (un dominio), ma in modo diverso

La gestione della conoscenza sul Web Le ontologie formali sono un sistema ideato per definire formalmente domini concettuali e indicare in che modo essi sono espressi da schemi logici e nomenclature differenti Esistono numerosi linguaggi formali per specificare ontologie. In particolare nel contesto del progetto Web Semantico è stato sviluppato il Web Ontology Language (OWL), derivato dal DARPA Agent Markup Language (DAML+OIL)

La gestione della conoscenza sul Web OWL si divide in tre livelli a seconda della capacità espressiva OWL Lite principalmente rivolto alla formalizzazione di tassonomie gerarchiche e thesaura permette di esprimere solo cardinalità zero o uno esclude alcuni costrutti che esprimono relazioni tra classi (disgiunzione, unione, istanziazione…) facilmente implementabile in sistemi inferenziali OWL Description Logic basato sul modello delle description logic (una formalizzazione logica decidibile e computabile del concetto informale di rete semantica e frame dotata di una semantica formale completa) include tutti i costrutti di OWL, ma fornisce alcuni vincoli sul loro uso. una classe può essere sottoclasse di una classe, ma non istanza di una classe; non si possono esprimere restrizioni di cardinalità per proprietà transitive notevole espressività mantenendo la completezza computazionale e la trattabilità OWL Full OWL Full serve per quegli usi in cui è necessaria la massima espressività e la libertà sintattica di RDF senza nessuna garanzia computazionale. in OWL Full i livelli si mescolano, ed è lecito trattare una classe simultaneamente come una collezione di individui e come un individuo a sé stante. attraverso OWL Full unontologia può arricchire il modello semantico predefinito dai vocabolari di RDF e OWL. non è decidibile (equivalente a logica dei predicati) e dunque difficilmente implementabile

La gestione della conoscenza sul Web Una architettura alternativa a RDF/S- OWL, ma dotata di funzioni e scopi simili, è quella delle Topic Map Topic Map è uno standard definito dalla ISO (ISO 13250) Nasce come meccanismo per la rappresentazione di tassonomie e reti concettuali cui associare come istanze risorse informative sia off-line sia on-line

La gestione della conoscenza sul Web Una topic map è costituita da un insieme di soggetti (i concetti astratti) che vengono rappresentati sottoforma di topic (i concetti oggettivati o reificati) Ogni topic ha uno o più nomi ma esprime uno e un solo soggetto (cui può essere formalmente collegato) Ogni topic può essere istanziato da una o più risorse informative (occorrenze) Ogni topic può essere inserito in diverse relazioni (associazioni) con altri topic

La gestione della conoscenza sul Web A differenza di RDF in TM le associazioni (relazioni) possono essere n-arie ci sono delle relazioni predefinite in TM che consentono di esprimere rapporti classe/sottoclasse rapporti tipo/istanza ci sono costrutti per esprimere direttamente il tipo di una topic o il ruolo che svolge in una associazione

La gestione della conoscenza sul Web Una TM costituisce dunque la formalizzazione di una rete concettuale collegata allinsieme delle risorse informative che veicolano tali concetti. Anche le TM hanno una sintassi di serializzazione XML (XTM) e una non XML (Linear Topic Map) È in corso di sviluppo un linguaggio per le espressione di restrizioni ontologiche su topic e associazioni (TMCL) e uno per linterrogazioni di Topic Map (TMQL)

La gestione della conoscenza sul Web Molti esperti nutrono non pochi dubbi sul fatto che larchitettura del Web Semantico, almeno nella sua versione più ambiziosa e universale, potrà mai trasformarsi da sogno a realtà Diverso il discorso relativo allapplicazione di tecnologie di Semantic Web a domini circoscritti e limitati, che già iniziano a essere sperimentate e implementate Tra queste applicazioni locali di particolare interesse possono essere quelle nel dominio della biblioteche e degli archivi digitali

La gestione della conoscenza sul Web sistemi di organizzazione e reperimento su collezioni locali o distribuite basati sulla semantica si veda AustLit http://www.austlit.edu.au/http://www.austlit.edu.au/ il progetto di una ontologia della letteratura Italiana di Bibit per generi, temi, cronologia integrazione di metadati da fonti informative distribuite che adottano schemi descrittivi o semantici diversi (OAI + semantic web) estensione della funzione dellauthority control authority file come rete semantica

La gestione della conoscenza sul Web Problemi aperti 1) esistono possibilità di interoperabilità tra i due paradigmi RDF/OWL e TM? 2) come popolare una rete concettuale/ontologia di vaste dimensioni?

La gestione della conoscenza sul Web Linteroperabilità tra TM e RDF è oggetto di numerose proposte teoriche e tecniche La risposta in generale è…. Si anche se la cosa non è così semplice!!! Si veda il rapporto A Survey of RDF/Topic Maps Interoperability Proposals, http://www.w3.org/TR/rdftm-survey/http://www.w3.org/TR/rdftm-survey/

La gestione della conoscenza sul Web Sviluppare e popolare ontologie è faticoso e costoso, ma…. …se lo sviluppo del livello ontologico vero e proprio richiede necessariamente un intervento umano di concettualizzazione e formalizzazione…..la costituzione di relazioni di istanziazione tra risorse e concetti può essere parzialmente automatizzata 1) adozione di tecnologie di data mining, clustering e knowledge discovery su vaste masse documentali (si veda il progetto NORA Web- based Text-Mining and Visualization for Humanities Digital Libraries della University of Illinois diretta da John Unsworth - http://www.noraproject.org/) http://www.noraproject.org/ 2) definizione di un vocabolario controllato di parole chiavi da adottare come descrittori semantici tradizionali che poi vengono collegati a una rete concettuale o a una ontologia formale in grado di fungere da base per processi inferenziali 3) integrazione di sistemi basati su schemi formali con Folksonomies... una strada la cui fattibilità tecnica resta da esplorare che presenta in particolare la criticità della gestione di inconsistenze su vasta scala

Le nuove frontiere nella gestione della conoscenza sul Web Fabio Ciotti.

Presentazioni simili

Presentazione sul tema: "Le nuove frontiere nella gestione della conoscenza sul Web Fabio Ciotti."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Le nuove frontiere nella gestione della conoscenza sul Web Fabio Ciotti.

Presentazioni simili

Presentazione sul tema: "Le nuove frontiere nella gestione della conoscenza sul Web Fabio Ciotti."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back