Web Semantico: dal Bit ai Big Data Dott. Michele Stingo
Argomenti della lezione Il Bit ed il Byte Il Pixel ed il Carattere Internet e Web 1.0 Da statico a dinamico: il Web 2.0 Il Web Semantico Il Web Semantico
L’unità minima dell’informazione digitale Bit & Byte 1 L’unità minima dell’informazione digitale Studiando la struttura di un device può sorprendere che i componenti elementari siano costituiti da semplicissimi circuiti composti da interruttori e pochi fili di collegamento. Poiché le caratteristiche fisiche dei circuiti digitali rendono particolarmente conveniente la gestione di due soli valori, rappresentati fisicamente da due diversi livelli di tensione elettrica, in informatica il sistema binario è utilizzato per la rappresentazione interna dell'informazione dalla quasi totalità degli elaboratori elettronici. Il sistema numerico binario è un sistema numerico posizionale in base 2. Esso per l’appunto utilizza solo due simboli che assumono convenzionalmente il significato numerico di 0 e 1 o quelli di vero e falso della logica booleana. Il segreto dell'enorme potenza di calcolo delle moderne tecnologie è affidato a due fattori: l'altissimo numero di circuiti elementari e la straordinaria velocità con cui vengono «aperti e chiusi» gli interruttori di tali circuiti. Il Web Semantico
Bit & Byte Il Web Semantico Il bit è la minima unità di informazione rappresentabile. Con un singolo bit si rappresentano solamente due distinti stati: 0 e 1. L'elaborazione (e dunque le architetture hardware dei dispositivi tecnologici) fa però comunemente uso di raggruppamenti di bit. Il byte è una sequenza di bit, il cui numero dipende dall'implementazione fisica della macchina sottostante. Il Web Semantico
Bit & Byte Il Web Semantico Dopo abbiamo: Terabyte(circa 250.000 mp3) Petabyte(intorno ai 500 bilioni di pagine di testo scritto) Exabyte(ipoteticamente potrebbe contenere tutte le parole mai dette dall’umanità) Zettabyte(teoricamente potrebbe contenere tutti i contenuti digitali del pianeta) Yottabyte(ci vorrebbero almeno 11 trilioni di anni per scaricare uno YB da Internet usando una connessione a banda larga) Brontobyte Il Web Semantico
Just a little bit...... and a little bit more 2 Pixel e Caratteri Just a little bit...... and a little bit more Il Web Semantico
I pixel… Il Web Semantico Su un qualsiasi computer, un’immagine digitale viene generalmente rappresentata attraverso l’utilizzo di una griglia dotata di milioni di piccoli quadratini ognuno dei quali porta una parte delle informazioni visive relative all’immagine acquisita. Ogni quadratino corrisponde ad un pixel. La profondità di colore di un’immagine corrisponde al numero di bit usati per rappresentare il colore di un singolo pixel. E.g. per le immagini in bianco e nero può bastare una profondità di colore pari ad 1 bit, dovendo descrivere soltanto due colori(bianco e nero)/stati(0, 1). Il Web Semantico
I pixel… Peso Dimensione 38,2 Kilobyte 480(h)x360(l) pixels Su un qualsiasi computer, un’immagine digitale viene generalmente rappresentata attraverso l’utilizzo di una griglia dotata di milioni di piccoli quadratini ognuno dei quali porta una parte delle informazioni visive relative all’immagine acquisita. Ogni quadratino corrisponde ad un pixel. La profondità di colore di un’immagine corrisponde al numero di bit usati per rappresentare il colore di un singolo pixel. E.g. per le immagini in bianco e nero può bastare una profondità di colore pari ad 1 bit, dovendo descrivere soltanto due colori(bianco e nero)/stati(0, 1). Il Web Semantico
…ed i caratteri 1 Byte = 1 carattere 26 lettere maiuscole - (A - Z) 26 lettere minuscole - (a - z) 10 cifre - (0 - 9) Simboli - {( ) ! ? \ & * % # $ } Lettere e simboli speciali - (â ã ä ø æ ë é) 1 Byte = 1 carattere 2^8 = 256 valori che vanno da 0 a 255 Poiché i calcolatori non comprendono null’altro che non sia descritto con un sistema numerico binario, così come per le immagini abbiamo bisogno di informazioni puntiformi codificate in base al numero di bit per pixel, anche per i caratteri è necessario utilizzare i bit per rappresentare lettere, simboli, gli stessi numeri (su base decimale). Con 1 byte è possibile rappresentare 256 valori (dal valore binario 0 al valore binario 11111111). Il Web Semantico
…ed i caratteri La codifica corrispondente ad 1 carattere = 1 byte è conosciuta anche come ASCII (American Standard Code for Information Interchange) E’ il sistema più usato finora ma in futuro la codifica standard sarà l’UTF8(Unicode Transformation Format, 8 bit), che si avvale da 1 a 4 Byte per descrivere i diversi caratteri. Unicode è un sistema di codifica che assegna un numero univoco ad ogni carattere usato per la scrittura di testi, in maniera indipendente dalla lingua, dalla piattaforma informatica e dal programma utilizzato. Viene utilizzato per la codifica dei caratteri usati in quasi tutte le lingue vive e in alcune lingue morte, nonché simboli matematici e chimici, cartografici, l'alfabeto Braille, ideogrammi ecc. Maggiori informazioni su: ASCII: http://www.dacrema.com/Informatica/Codice_ASCII.htm/ UNICODE: http://www.unicode.org/standard/WhatIsUnicode.html Il Web Semantico
In queste creazioni l’immagine non è formata da pixels ma da sequenze di stringhe con caratteri ASCII. Il Web Semantico
I computer sono incredibilmente veloci, accurati e stupidi I computer sono incredibilmente veloci, accurati e stupidi. Gli uomini sono incredibilmente lenti, inaccurati e intelligenti. L’insieme dei due costituisce una forza incalcolabile. Albert Einstein Il Web Semantico
Il computer non è una macchina intelligente che aiuta le persone stupide, anzi è una macchina stupida che funziona solo nelle mani delle persone intelligenti. Umberto Eco Il Web Semantico
Esempi di persone estremamente intelligenti Steve Jobs Tim Berners-Lee Bill Gates Steve Jobs, Tim Berners Lee, Bill Gates Il Web Semantico
Internet e la nascita del Web 3 Ovvero l’insostenibile leggerezza dell’essere (offline) Il Web Semantico
Internet Web Così uguali ma diversi E’ un’infrastruttura fisica (più propriamente una “rete”) composta dall’insieme di diversi dispositivi collegati fra loro e configurati per lo scambio di dati secondo particolari protocolli. (TCP/IP, HTTP, SMTP, etc). Web E’ un servizio all’interno di Internet destinato alla pubblicazione di contenuti multimediali, nonché uno strumento per implementare particolari servizi come ad esempio il download di software, Il protocollo IP provvede a fornire, a ciascun nodo della rete un nome univoco(altresì detto indirizzo IP), formato da quattro gruppi di cifre. Al livello immediatamente superiore, il protocollo TCP provvede a gestire il flusso dell'informazione tra i nodi scomponendo i dati in pacchetti(https://it.wikipedia.org/wiki/Pacchetto_(reti) Hypertext Transfer Protocol (HTTP) - per la trasmissione di informazioni attraverso il WEB Simple Mail Transfer Protocol (SMTP) - per la gestione dei messaggi di posta elettronica Il Web Semantico
Internet Web Così uguali ma diversi Nasce nel 1969 (ARPANET) Nel 1974 il progetto della prese ad essere denominato Internet Nel 1980 la rete viene resa di fatto pubblica, potendovi accedere anche membri della comunità scientifica Web Nasce nel 1991 con la pubblicazione del primo sito web: http://info.cern.ch/hypertext/WWW/TheProject.html I contenuti immessi in rete sono collegati tra loro tramite link creando così degli Ipertesti INTERNET: Alle origini ARPAnet era una rete militare finalizzata allo scambio di informazioni, un sistema che doveva essere veloce e sicuro. Per tutti gli anni Settanta ARPAnet continuò a svilupparsi in ambito universitario(Stanford University) e governativo(ARPA), ma dal 1974, con l'avvento dello standard di trasmissione TCP/IP (Transmission Control Protocol/Internet Protocol), il progetto della rete prese ad essere denominato Internet. Contemporaneamente all’avvento dei primi PC, gli "utenti" istituzionali e militari cominciarono a rendere partecipi alla rete i membri della comunità scientifica che iniziarono così a scambiarsi informazioni e dati, ma anche messaggi estemporanei ed a coinvolgere, a loro volta, altri "utenti" comuni. Nacquero in questo modo, spontaneamente, l'e-mail o posta elettronica, i primi newsgroup e di fatto una rete: Internet. WEB: La data di nascita del World Wide Web viene comunemente indicata nel 6 agosto 1991, giorno in cui l'informatico inglese Tim Berners-Lee pubblicò il primo sito web. Non è un’idea totalmente nuova poiché Lee venne ispirato da alcuni metodi messi a punto da ricercatori all’interno del CERN, dove per l’appunto lavoro per definire il protocollo di scambio dati HTTP(HyperText Transfer Protocol). Il Web Semantico
Come funziona? Ci si connette con un dispositivo(client) ad Internet tramite TCP/IC Via HTTP, il browser richiede ad un computer(server) i dati di una pagina web(url) Il server invia al client le informazioni. TCP/IP: Transmission Control Protocol/Internet Protocol HTTP: HyperText Transfer Protocol URL: Uniform Resource Locator. Ogni informazione sul web ha un suo url. Il Web Semantico
Già nelle prime fasi di concepimento del web, Lee lo immaginava più come un’innovazione sociale che tecnologica. Secondo le sue parole «Il Web è progettato per essere universale: per includere tutto e tutti.» Il Web Semantico
Da statico a dinamico: il Web 2.0 4 “Eppur si muove” Il termine Web 2.0 viene introdotto nel 2004 da O’Reilly Media (uno dei maggiori editori american) come titolo per una serie di conferenze aventi per oggetto una nuova generazione di siti se servizi web caratterizzati da un forte incremento dell’interazione fra gli autori/aziende e i consumatori/utenti. Con 2.0 si indica dunque genericamente la seconda fase di sviluppo e diffusione di Internet in cui vi è maggiore partecipazione da parte dei fruitori, che spesso diventano anche autori (blog, chat, forum, wiki). Anche la condivisione delle informazioni diventa più efficiente , poiché possono essere più facilmente recuperate (tramite i motori di ricerca) e scambiate con strumenti peer to peer(Emule, Torrent) o con sistemi di diffusione di contenuti multimediali (Youtube/Itunes). Last but not least, in questa fase abbiamo l’affermazione del social networking. Il Web Semantico
Web 1.0 Lettura Individuale Ottenere Client server Tassonomie Web 2.0 Web 2.0: cosa cambia Web 1.0 Lettura Individuale Ottenere Client server Tassonomie Web 2.0 Scrittura Comunitario Condividere Peer-to-peer Folksonomie Web 1.0 è basato principalmente sulla consultazione delle informazioni. Nel 2.0 invece la scrittura rappresenta un elemento cardine. Dai blog(topic e commenti) ai feedback di prodotti e servizi su piattaforme e-commerce, dalle chat ai forum, questi sono tutti esempi di attività di scrittura online che nella prima fase del web erano poco sviluppate. Questa maggiore possibilità di interazione offre agli utenti l’opportunità di incontrarsi virtualmente e cooperare su progetti tramite piattaforme collaborative (denominante «wiki» e di cui Wikipedia è l’esempio più importante) Mentre nella fase primigenia gli utenti, in quanto individui con necessità di reperire informazioni e dati, erano il fulcro della rete, con il web 2.0 e la creazione di comunità nasce una cultura dello scambio libero dei dati, in cui è la condivisione il concetto chiave. Nascono i primi software con cui è possibile scambiare dati (spesso illegalmente) fra computer collegati ad internet secondo un architettura peer-to-peer, che permette ad ogni dispositivo connesso alla rete di fungere sia da client che da server per gli altri utenti. Esempi di sistemi del genere sono Emule, Utorrent. Da un Web in cui i contenuti sono organizzati tassonomicamente e dunque presentati gerarchicamente si passa a delle categorizzazioni più «democratiche» definite folksonomie, operate dagli utenti tramite parole chiave (i famosi tag). Esempi di organizzazioni di contenuti tramite folksonomie sono gli hashtag di Twitter/Facebook/Instagram etc. Il Web Semantico
Web 1.0 è basato principalmente sulla consultazione delle informazioni. Nel 2.0 invece la scrittura rappresenta un elemento cardine. Dai blog(topic e commenti) ai feedback di prodotti e servizi su piattaforme e-commerce, dalle chat ai forum, questi sono tutti esempi di attività di scrittura online che nella prima fase del web erano poco sviluppate. Questa maggiore possibilità di interazione offre agli utenti l’opportunità di incontrarsi virtualmente e cooperare su progetti tramite piattaforme collaborative (denominante «wiki» e di cui Wikipedia è l’esempio più importante) Il Web Semantico
Architettura di rete Peer-to-peer Mentre nella fase primigenia gli utenti, in quanto individui con necessità di reperire informazioni e dati, erano il fulcro della rete, con il web 2.0 e la creazione di comunità online nasce una cultura dello scambio libero dei dati, in cui è la condivisione il concetto chiave. Nascono i primi software con cui è possibile scambiare dati (spesso illegalmente) fra computer collegati ad internet secondo un architettura peer-to-peer, che permette ad ogni dispositivo connesso alla rete di fungere sia da client che da server per gli altri utenti. Esempi di sistemi del genere sono Emule, Utorrent. Il Web Semantico
FOLKSONOMIA TASSONOMIA Il Web Semantico Da un Web in cui i contenuti sono organizzati tassonomicamente e dunque presentati gerarchicamente si passa a delle categorizzazioni più «democratiche» definite folksonomie, operate dagli utenti tramite parole chiave (i famosi tag), in base a criteri del tutto individuali. Esempi di organizzazioni di contenuti tramite folksonomie sono gli hashtag di Twitter/Facebook/Instagram etc. Un tag è a tutti gli effetti un metadato, cioè un’informazione che viene utilizzata per descrivere un dato. Torneremo su questo concetto in futuro. Volendo riassumere (e arricchire) i concetti finora esposti, si può fare riferimento a questa mappa concettuale al’seguente url: https://b002e765-a-62cb3a1a-s-sites.googlegroups.com/site/kuiotntbdi98/home/mappa-concettuale/cmapssssssssss.jpg?attachauth=ANoY7crq5BVU9z20tLvc7yoVUAddoSSKDo6qZZnu-rY9uquQ7YyysHGj3jqZCqfmcpxWq1iaTlmC5I5QjsunAe0fmLXf8ErXSydJrlOlugYPNc6l48Xu4NvwUQD8YPtrMzJpNFhJ-sVbvXVesZbKw0cqfWbt4E_UojkIoWAYUUAajEiKoc33L22eI1lUrqstNb_u9DG-8ZCNJ3EU5YGFwCBPhUwy8yck6HnNAncaZgagVQ8OXMRdap8C9G-HIvUC8AdESSE58KQE&attredirects=0 Il Web Semantico
Un po’ di numeri per capire cosa accade, in termini di scambio dati, in 60 su alcuni dei maggiori provider di servizi sul web Il Web Semantico
di ricerche quotidianamente effettuate su Google ogni giorno 3,424 miliardi e + di utenti presenti oggi su Internet, pari al 46% della popolazione mondiale 3,5 miliardi di ricerche quotidianamente effettuate su Google ogni giorno Nel 2000 la rete contava soltanto quasi 415 millioni di utenti. Fra il 2004/2005 si è arrivati al primo miliardo. Oggi siamo a intorno ai 3 miliardi e mezzo.
Rari nantes in gurgite vasto http://www.internetlivestats.com/watch/websites Rari nantes in gurgite vasto Virgilio «Rari nuotatori (sparsi) nel vasto gorgo» Cliccate sul link per rendervi conto di quante pagine web sono presenti adesso in rete e quante ne vengono create ogni secondo.
Quello che Siri e Cortana non dicono 5 Il web semantico Quello che Siri e Cortana non dicono Il Web Semantico
E’ uno degli obiettivi del Web 3.0 Semantizzare la rete E’ uno degli obiettivi del Web 3.0 Organizzazione e descrizione della conoscenza presente in rete Maggiore potere di ricerca e creazione di nuovi web services Il Web 3,0 consiste in un approccio a Internet di ulteriore integrazione rispetto al Web 2.0 ed è caratterizzato da una maggiore consapevolezza dei fruitori riguardo i contenuti sul web, i quali cominciare a presentare un’evoluzione grafica dal 2D al 3D. L’obiettivo del web semantico è la trasformazione del World Wide Web in un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) sono associati ad informazioni e dati (metadati) che ne specificano il contesto semantico in un formato adatto all'interrogazione e l'interpretazione (es. tramite motori di ricerca) e, più in generale, all'elaborazione automatica. Il Web Semantico
Semantizzare la rete I contenuti sul web vengono rappresentati tramite linguaggi di marcatura. Lo standard oggi è l’HTML5 ed il CSS3. La marcatura avviene tramite assegnamento di specifici tag. Vediamone alcuni… HTML è un linguaggio a marcatura per gli pertesti(Hypertext markup language), utilizzato assieme ai documenti Cascading Styles Sheets (CSS) per l’inserimento e descrizione gerarchica dei contenuti e la loro impaginazione grafica. Le buone pratiche di scrittura di pagine web vengono emanate dal consorzio W3C (WolrdWideWeb Consortium) e ad oggi siamo giunti alla quinta versione del linguaggio HTML, e alla terza per il CSS. Marcare significa assegnare un tag(etichetta) ad un contenuto così da permetterne una particolare descrizione. I tag sono a tutti gli effetti dei metadati. Volendo definire in parole povere la marcatura HTML diremo che consiste nella creazione di una struttura gerarchica formata da tag(etichette) predefiniti, ognuno dei quali va a rappresentare parte delle informazioni da comunicare, così da costituire un documento(pagina web) completo e consultabile sul web. Il Web Semantico
<a>Questo è un link che…</a> Alcuni tag in HTML <a>Questo è un link che…</a> <h1>Questo è un titolo</h1> <h2>Come h1 ma più piccolo</h2> <p>Questo è un paragrafo</p> Negli esempi esposti: «a» sta per anchor, «h» per header (la numerazione crescente indica la decrescente importanza della titolazione), «p» per paragrafo. Il Web Semantico
Href sta per “Hypertext reference” Alcuni tag in HTML <a>Questo è un link..che non reindirizza da nessuna parte</a> <a href=“pagina_web”>Questo è un link che reindirizza alla pagina selezionata</a> Href sta per “Hypertext reference” Gli elementi descritti vanno SEMPRE racchiusi da tag di apertura e tag di chiusura, tranne gli elementi <img> che servono per inserire le immagini. I tag possono avere degli attributi i quali vanno a descrivere informazioni aggiuntive rispetto agli elementi taggati. Gli attributi, che appaiono sempre all’interno dei tag di apertura, a cui fanno riferimento possono assumere diversi valori e quest’ultimi vanno SEMPRE inseriti fra virgolette. Nonostante gli attributi siano opzionali, per alcuni tag (come <img> o <a>) le attribuzioni con la rispettiva specifica dei valori servono come completamento dell’informazione. Nel caso di <a> l’attributo serve per indicare dove reindirizza il link, nel caso di <a> l’attributo (che è <src>, cioè source) serve per indicare dove prendere l’immagine da visualizzare. Proviamo un semplice tutorial della W3School a quest’indirizzo url: https://www.w3schools.com/tags/tryit.asp?filename=tryhtml_link_image Il Web Semantico
<p>amor ch'a nullo amato amar perdona</p> Il limite dell’ HTML L’Html è fondamentale per la creazione e gestione dei contenuti sul Web ma ha un grande limite: è un linguaggio rigido. <p>amor ch'a nullo amato amar perdona</p> Arrivati a questo punto avremo compreso come non è possibile pensare il web e tutti i fenomeni che avvengono in rete, senza l’ausilio del linguaggio HTML che fin dagli esordi rappresenta lo strumento attraverso il quale è possibile strutturare la presentazione delle informazioni, collegandole fra loro creando così le ipertestualità. L’HTML però ha un evidente limite rappresentato dalla sua rigidità. Volendo fare un esempio, inserendo in una pagina web un verso della Divina Commedia, a parte aggiungere informazioni sulla formattazione o particolari funzionalità relative alla navigazione della pagina, non potremmo inserire nessun tipo di informazione legata al testo. Il Web Semantico
<p>amor ch'a nullo amato amar perdona</p> Notazione XML Per raggiungere un livello di descrizione maggiore possiamo utilizzare linguaggi marcatori con una semantica meno rigida, come l’eXstensible Markup Language. <p>amor ch'a nullo amato amar perdona</p> Per ovviare a questa perdita di informazioni è possibile usare altri linguaggi di marcatura che però hanno una semantica più flessibile di quella dell’HTML. Nella fattispecie vediamo L’eXstensible Markup Language. Il vantaggio di utilizzare l’XML è quello di poter scegliere il set di tag+attributo da utilizzare all’interno della struttura del documento, rendendo così possibili descrizioni più dettagliate delle informazioni digitalizzate. Riprendendo l’esempio del verso dantesco, con l’XML siamo in grado di aggiungere le informazioni del verso relative alla posizione nel testo. Volendo potremmo aggiungere le informazioni relative alla metrica, alla morfosintassi, etc. Il Web Semantico
<cantica name=“Inferno”> <canto num=“5”> Notazione XML <cantica name=“Inferno”> <canto num=“5”> <vv num=“106”>amor ch'a nullo amato amar perdona</vv> </canto> </cantica Per ovviare a questa perdita di informazioni è possibile usare altri linguaggi di marcatura che però hanno una semantica più flessibile di quella dell’HTML. Nella fattispecie vediamo L’eXstensible Markup Language. Il vantaggio di utilizzare l’XML è quello di poter scegliere il set di tag+attributo da utilizzare all’interno della struttura del documento, rendendo così possibili descrizioni più dettagliate delle informazioni digitalizzate. Riprendendo l’esempio del verso dantesco, con l’XML siamo in grado di aggiungere le informazioni del verso relative alla posizione nel testo. Volendo potremmo aggiungere le informazioni relative alla metrica, alla morfosintassi, etc. Ovviamente l’xml può essere utilizzato per molti scopi, come la catalogazione di documenti (al seguente indirizzo trovate del codice xml utilizzato per descrivere un esempio di catalogo bibliografico: https://msdn.microsoft.com/en-us/library/ms762271(v=vs.85).aspx ) Il Web Semantico
HTML, XML e oltre… Per raggiungere il web semantico abbiamo bisogno di organizzare la conoscenza in ontologie. Un’ontologia web è una rappresentazione formale, condivisa ed esplicita di una concettualizzazione di un dominio di interesse. Formale perché l’ontologia deve essere realizzata tramite un linguaggio di marcatura con una precisa semantica (il set di tag utilizzati) e sintassi (le regole di buona scrittura e di annidamento dei tag). Condivisa perché tramite i linguaggi di marcatura utilizzati deve essere possibile lo scambio della conoscenza formalizzata. Esplicita perché i concetti e le relazioni fra concetti devono essere quanto più «self-explicative» Semplificando la definizione diremo che le ontologie web sono vocabolari di termini organizzati in relazioni di tipo logico fra loro per la descrizione astratta di un dominio di conoscenza. Il Web Semantico
Ontologie: un esempio Il Web Semantico Questo è un esempio di ontologia per il dominio della pizza. Il dominio è organizzato in un insieme di termini organizzati in concetti e relazioni. Come è possibile notare, alcuni termini pur non essendo dominati da una stessa categoria superiore (Margherita,Mozzarella) possono essere collegati fra loro tramite relazioni che descrivano proprietà particolari(has_topping) relative ai termini da collegare. Il Web Semantico
Ontologie: come si creano Partendo dall’XML, il consorzio W3C ha creato un linguaggio di markup apposito per la creazione di risorse ontologiche: l’OWL (Web Ontology Language). Da machine-readable cerchiamo di passare così al machine-understandable. Al seguente link trovate un TED talk tenuto da T.B. Lee sui linked data, cioè della necessità di creare un web semantico tramite relazioni fra dati condivise grazie ad uno standard comune di descrizione e rappresentazione: https://www.youtube.com/watch?v=OM6XIICm_qo Il Web Semantico