La genesi del Web Semantico Prof. Angelo Chianese Ingg. Antonio Penta, Vincenzo Moscato
I limiti dell’attuale World Wide Web L’affermazione di Internet come rete globale di comunicazione ha fatto emergere la necessità di modalità di interazione superiori a quelle offerte dalle pagine del World Wide Web i limiti esistenti nella ricerca di informazioni in rete es., chi si cimenta per lavoro o per studio nella ricerca di informazioni in rete si scontra con i seguenti limiti: Tipologia delle ricerca di documenti Difficoltà della ricerca di informazioni Carenza di integrazione delle informazioni Bassa cooperazione tra le applicazioni
Tipologia della ricerca di documenti nel Web attuale Oggi il Web è in gran parte un grande sistema di interconnessione di documenti nei quali cercare le informazioni desiderate, per trovare un documento in rete due sono le strade percorribili: seguire i collegamenti da una pagina all’altra fino a trovare quello che serve servirci di un motore di ricerca per ottenere una lista di collegamenti tra i quali scegliere quelli di interesse Mentre l’efficacia della ricerca nel primo caso, dipende da chi ha organizzato e programmato i contenuti del sito, nel secondo dipende dagli algoritmi usati dai motori di ricerca per classificare le informazioni Il primo approccio è tuttavia stimolante da un punto di vista cognitivo in quanto richiede uno sforzo di comprensione del contenuto del documento dalla sua descrizione e da altre informazioni di contesto …ma è dispendioso in termini di tempo e spesso può essere dispersivo
Caratteristiche dei motori di ricerca per l’accesso ai documenti Il motore di ricerca ha il grande vantaggio di richiedere pochissime informazioni per dare avvio alle ricerche …ma circa l’80% dei contenuti del Web non sono classificati perché non ancora analizzati o non analizzabili per motivi di tipo tecnico la ricerca può essere scoraggiante sia per i falsi positivi che per i falsi negativi nel primo caso i documenti restituiti dal motore di ricerca contengono la parola chiave inserita all’atto della ricerca, ma poco hanno a che fare con ciò che interessa nel caso dei falsi negativi rientrano invece quei documenti con contenuti di interesse che non vengono individuati perché, ad esempio, contengono non esattamente la parola chiave immessa
Difficoltà della ricerca di informazioni nel Web attuale Un altro limite del Web attuale è che: i risultati delle ricerche, comunque siano state condotte, riguardano interi documenti e non la specifica informazione cercata …al lavoro di ricerca dei documenti dovrà far seguito quello di estrazione delle informazioni desiderate da uno di essi o da più di essi se, ad esempio, siamo interessati alle opere del Leonardo realizzate in uno specifico anno, dovremo sicuramente cercarle ed estrarle dalla moltitudine di documenti che sul grande artista sono presenti in rete…
Carenza di integrazione delle informazioni nel Web attuale Ancora più complesso è il caso in cui serve combinare informazioni diverse che sono tra loro in relazione solitamente ogni informazione si trova in documenti diversi e una volta estratta va integrata con tutte le altre …non è possibile ancora sapere dal Web con una sola interrogazione quando ha inizio un film e a che ora parte il treno della metropolitana per raggiungere il cinema per ottenere l’informazione desiderata si deve prima scegliere il film nel Web del cinema, e successivamente combinarla con quella che si estrae dal Web degli orari della metropolitana Non esistono ancora applicazioni per il web in grado di combinare informazioni provenienti da fonti diverse in modo da risolvere uno specifico problema
Bassa cooperazione tra le applicazioni nel Web attuale La maggior parte dei siti web non sono progettati per interagire tra loro o con altre applicazioni la quasi totalità dei siti è da considerare come dei contenitori di informazioni che vengono erogate a fronte di una richiesta di un utente se il Web venisse progettato per fornire servizi ad altri servizi, consentendo la cooperazione sia tra programmi che tra programmi ed utenti, allora si assisterebbe ad una più pervasiva diffusione di Internet …quando il Web sarà dotato di tali potenzialità sarà possibile, ad esempio, prendere appuntamento con il chirurgo per un intervento, prenotare il posto letto in ospedale, fissare il volo aereo per raggiungere l’ospedale, ottenere un prestito dalla banca a copertura delle spese, con una sola operazione saranno le applicazioni di gestione dell’ospedale, della compagnia aerea, della banca a parlarsi tra loro per fornire la soluzione al problema indicato
Il Web Semantico In un articolo pubblicato nel maggio del 2001 sulla prestigiosa rivista Scientific American, Tim Berners-Lee (uno degli “inventori” dell’attuale World Wide Web), James Hendler e Ora Lassila scrivono: “Il SemanticWeb è un’estensione dell’attuale Web, nella quale all’informazione viene dato un significato ben definito, permettendo così ai computer e alle persone di lavorare meglio in cooperazione” Il Web Semantico non è la proposta di un Web diverso o alternativo all’attuale, ma vuole essere la risposta ai limiti riscontrati proponendosi come sua estensione in grado di aumentarne enormemente le potenzialità ciò che differenzia il Web Semantico dal semplice Web è la possibilità di associare una semantica ai dati che sono contenuti nella rete, rendendone espliciti i relativi significati. Il Web Semantico è un’architettura in cui non solo sono presenti testi ma meta informazioni e affermazioni che esprimono relazioni tra oggetti, risorse, fatti, e che possono essere utilizzate anche da applicazioni automatiche
Gli obiettivi del Web Semantico (1) Il Web Semantico è un ambizioso progetto teso a definire una piattaforma concettuale e tecnologica per supportare su scala globale processi comunicativi significativi uomo-uomo uomo-macchina macchina-macchina Gli obiettivi del Web Semantico possono riassumersi in: definizione di meta informazioni per rendere il Web processabile dalle applicazioni interoperabilità sintattica per garantire ad applicazioni diverse di leggere gli stessi dati interoperabilità semantica per garantire ad applicazioni diverse di comprendere gli stessi dati potere espressivo universale per la rappresentazione univoca delle meta informazioni ricerca dei documenti basata sul significato di un concetto o di più concetti legati tra loro
Gli obiettivi del Web Semantico (2) Le applicazioni future del Web Semantico potranno riguardare diversi campi esso sarà utile nel commercio elettronico in quanto faciliterà la comunicazione fra cliente e venditore, garantendo l’uniformità del mercato potrà potenziare gli attuali motori di ricerca aggiungendo tutti i vantaggi derivanti dall’introduzione della semantica migliorerà il reperimento dei servizi presenti su Internet
L’architettura del Web-Semantico (1) Il Web semantico è costruito attraverso strati sovrapposti che permettono di raggiungere i vari obiettivi che si prefigge, ogni strato usa o estende gli strati precedenti Al primo livello si trovano i dati al secondo le informazioni sui dati e le relazioni che intercorrono tra essi, ossia i meta dati al terzo i vocabolari (ontologie) che definiscono il ruolo semantico dei meta dati all’ultimo le regole per ragionare sui dati disponibili
L’architettura del Web-Semantico (2) L'idea del web semantico si basa sull’utilizzo di schemi per descrivere domini di informazione dei meta dati devono mappare i dati rispetto a classi, o concetti, di questo schema di dominio Gli aspetti innovativi del Web Semantico sono rappresentati dall’introduzione di due elementi fondamentali: le ontologie i meta dati e le annotazioni semantiche
Le ontologie nel Web Semantico Un’ontologia è la concettualizzazione di un determinato campo di interesse, ovvero un modello astratto e semplificato del dominio che si vuole rappresentare può essere considerata una gerarchia tassonomica di classi, ognuna delle quali descrive un concetto sulla base delle sue proprietà, caratteristiche e attributi …inoltre viene aggiunta la possibilità di formulare assiomi tra le varie classi che possono contenere un insieme di istanze, che possono essere considerate come elementi che soddisfano le caratteristiche di quel concetto. L’insieme di ontologia e delle istanze costituisce la conoscenza di base (knowledge base) ogni classe può essere formata da più sottoclassi che individuano concetti più specifici La definizione di ontologia va oltre la semplice classificazione, permettendo di stabilire anche relazioni incrociate fra i concetti che la compongono o con quelli relativi ad altre ontologie. lo scopo primario di un’ontologia è quello di permettere la condivisione e il riutilizzo della conoscenza
Esempio di Ontologia Viene rappresentata graficamente con un albero nei cui nodi si collocano le classi La classificazione delle automobili può essere un primo esempio di ontologia in cui i nodi rappresentano una classe indicativa di un differente tipo di automobile con attributi tipo il colore, le prestazioni, il numero di posti, etc.. un esempio di istanza della classe Multipla potrebbe essere l’automobile acquistata dal professore Chianese
I metadati e le annotazioni per il Web Semantico Il web è strutturato in componenti che vengono detti risorse e identificati univocamente da un indirizzo detto URI (Uniform Resource Identifier) Solitamente una risorsa viene detta “documento” se si vuole sottolineare il fatto che è leggibile da un essere umano, o “oggetto” quando a leggerla è una macchina, qualunque sia il termine utilizzato, la risorsa non è una entità a sé, ma è accompagnata da informazioni che la descrivono le informazioni sulla risorsa vengono generalmente dette Meta dati i meta dati sono quindi informazioni, comprensibili dalla macchina, relativi a una risorsa web Le annotazioni rappresentano un metodo per inserire o associare meta dati ad una risorsa Esse costituiscono lo strumento principale del Web Semantico in quanto permettono di introdurre la semantica per descrivere il contenuto dei documenti web, con il supporto delle ontologie Va tenuto presente che i meta dati sono dati, e pertanto possono essere: memorizzati come dati, in una risorsa che può contenere sia informazioni relative a se stessa o ad un’altra risorsa descritti da altri meta dati
Un esempio… (1) Se consideriamo come risorsa l’URL http://www.dol.unina.it … e selezionamo come meta dati: Autore Titolo Descrizione Keywords si intuisce la loro importanza nel processo di annotazione dei documenti web
Un esempio… (2) Se poi specifichiamo le seguenti asserzioni: Autore = “Angelo Chianese” Keywords = “Teledidattica” e, dall’ontologia di dominio, ci accorgiamo che teledidattica è una forma di e-elarning e che Angelo Chianese è un docente della Federico II, si va ad esplodere ancora di più il contenuto informativo della risorsa e si possono investigare le possibili relazioni sematiche con altre risorse presenti nel web
La promozione del Web Semantico Il termine Web Semantico è stato proposto per la prima volta nel 2001 e da allora è stato associato all'idea di un Web nel quale agiscano agenti intelligenti: applicazioni in grado di comprendere il significato dei testi presenti sulla rete e perciò in grado di guidare l'utente direttamente verso l'informazione ricercata, oppure di sostituirsi a lui nello svolgimento di alcune operazioni Il Web Semantico è oggi un grande progetto di ricerca promosso dal consorzio W3C con l’intento di ridefinire e ristrutturare i dati sul Web in modo che il loro significato sia accessibile non solo a utenti umani ma anche, e forse soprattutto, a programmi capaci non solo di visualizzarli ma di manipolarli, integrarli, renderli disponibili per altri programmi
Il World Wide Web Consortium o W3C Il World Wide Web Consortium, o W3C è un consorzio che sviluppa tecnologie per portare il Web al massimo del suo potenziale, definendo protocolli comuni che ne favoriscano l’evoluzione e assicurino l’interoperabilità Il consorzio è impegnato per rendere il Web accessibile a tutti …promuovendo lo sviluppo di un ambiente software che consenta ad ogni utente di fare il miglior uso possibile delle risorse disponibili sul Web e tenendo in attenta considerazione gli aspetti innovativi che questa tecnologia solleva in campo legale, commerciale e sociale. Il W3C considera il Web Semantico come la naturale evoluzione del Web dal machine representable (rappresentabile dalle macchine) al machine-understandable (compreso dalle macchine)
L’azione del W3C I principi e gli obiettivi dell’azione del W3C sono riassumibili in sette punti: Accesso Universale per rendere disponibili i benefici del Web a chiunque, qualsiasi sia il loro hardware, software, infrastruttura di rete, linguaggio nativo, cultura, localizzazione geografica o abilità fisica/mentale Web Semantico per esprimere le conoscenze del Web con terminologie e modalità che i computer possono interpretare e interscambiare Fiducia per accrescere la confidenza con il web e rendere possibile responsabilizzare le persone che pubblicano contenuti nel web Interoperabilità per creare e promuovere linguaggi e protocolli aperti (non proprietari) che consentano di diminuire la frammentazione del mercato riscontrata negli anni precedenti Evolvibilità per consentire evoluzioni in modo semplice in un web migliore, senza interrunzione con quanto già prodotto Decentralizzazione per limitare l'accentramento delle informazioni evitando problemi di congestione del traffico dati e riducendo la vulnerabilità della struttura di Internet Multimedialità più eccitante
Le Raccomandazioni del W3C (1) Le Raccomandazioni del W3C sono il risultato di un processo lungo e cooperativo, regolato dal Process Document, che prevede una serie di passi e di documenti prodotti Anche se Network Computing cita il W3C nella sua lista dei "Ten Most Significant Standards Groups", dal punto di vista formale il W3C non è un organo di standardizzazione …tuttavia, va riconosciuto che il W3C è una comunità di membri che cooperano spontaneamente per definire le linee guida e le specifiche, verificando che esse siano realmente implementabili, e mantiene stretti contatti con gli organi di standardizzazione e con gli User Forum.
Le Raccomandazioni del W3C (2) Il W3C ha individuato alcuni domini di attività, che hanno comunque una significativa interazione tra di loro Architecture. Sviluppa le tecnologie di base del Web, potenziandone l’ infrastruttura e migliorandone l’ automazione Document Formats. Opera sui formati e i linguaggi utilizzati per presentare le informazioni agli utenti in modo accurato, piacevole e con un adeguato livello di controllo Interaction. Mira a migliorare l’interazione degli utenti con il Web. Questo comporta sviluppi sui formati e i linguaggi per presentare l’ informazione con maggiore accuratezza e più elevato livello di controllo Technology and Society. Cerca di sviluppare l’ infrastruttura del Web per affrontare i problemi di tipo sociale e politico. La crescita esponenziale del Web ha costretto la comunità del Web a considerare gli aspetti etici e legali in una prospettiva internazionale. Il Technology and Society Domain cerca di comprendere questi problemi alla luce della nuova tecnologia, sia modificandola, sia formando gli utenti su benefici, costi e limiti della tecnologia Web Accessibility. L’ impegno del W3C per portare il Web al massimo del suo potenziale prevede la promozione di un elevato grado di usabilità per le persone portatrici di handicap. La Web Accessibility Initiative (WAI) persegue l’ obiettivo di una maggiore accessibilità operando in cinque settori: tecnologia, linee guida, strumenti, formazione e promozione, ricerca e sviluppo
Il Web semantico nella visione del W3C Il Semantic Web è un ambiente dichiarativo, in cui si specifica il significato dei dati e non il modo in cui si intende utilizzarli la filosofia di base è quella di uno spazio informativo universale in cui ogni risorsa è identificata da un URI (Uniform Resource Identifier) nella struttura appare evidente il ruolo giocato da XML (con Name Space e xmlschema) e la centralità di RDF e RDF Schema, che costituiscono il linguaggio per descrivere le risorse e i loro tipi al di sopra di questo strato si pone il livello ontologico nel quale vengono descritte le relazioni tra i tipi di elementi senza però fornire informazioni su come utilizzare queste relazioni dal punto di vista computazionale la firma digitale (digital signature) è di significativa importanza nei diversi strati del modello per stabilire la provenienza delle ontologie e delle deduzioni, oltre che dei dati permettendone il riconoscimento e l’accettazione come credibili fissando il livello di fiducia nei risultati forniti dal Web al livello superiore si trova il livello logico nel quale si collocano le asserzioni che possono essere utilizzate per derivare nuova conoscenza.
XML Il linguaggio XML (Extensible Markup Language) si sta dimostrando il mezzo espandibile e flessibile per modellare il Web e per tali motivi è stato individuato dal W3C come la tecnologia chiave nello sviluppo del Web Semantico La centralità di XML nell' architettura del Web è provata anche dal fatto che ogni nuovo linguaggio utilizzato per definire un nuovo standard deve essere descritto in XML XML è una sintassi a basso livello per rappresentare dati strutturati, e può essere utilizzato per una larga varietà di applicazioni. XML è nato per superare le limitazioni di HTML e realizzare le nuove applicazioni Web, in cui i dati costituiscono un elemento essenziale XML è stato quindi il primo passo per inserire una semantica nella struttura delle pagine e supportare le transazioni sul Web, permettendo lo scambio di informazioni tra database diversi l' adozione di XML costituisce un supporto fondamentale per la pubblicazione di informazioni a livello internazionale, con il grande vantaggio di essere indipendente dalla piattaforma e dal linguaggio