World Wide Web Il World Wide Web è un ipertesto multimediale distribuito. ipertesto è un testo la cui struttura è reticolare, invece che semplicemente lineare o gerarchica. multimedialità quando un “testo” è formato di parti che si valgono di diversi media, ossia diversi codici o forme di informazione (scritto, sonoro, visivo). La sua visualizzazione richiede l’uso di un browser: un programma client per la visualizzazione dei documenti e per la navigazione in rete.
Ipertesto: struttura Un ipertesto si compone di nodi (“pagine”) e collegamenti (link).
Terminologia per gli ipertesti sul web browser: programma applicativo per navigare in rete page (pagina): singolo “foglio” di un ipertesto home-page: “punto di ingresso” di un sito web hotspot, hotword: porzione di una pagina che, se selezionata, permette di raggiungere un altro punto dell’ipertesto o una nuova risorsa FAQ: domande ricorrenti su un certo argomento motore di ricerca: sito che permette di cercare documenti e siti, di solito mediante inserimento di parole chiave portale: sito Web che offre risorse e servizi; è il punto di ingresso verso altri siti
Il protocollo HTTP Il World Wide Web, si basa sul protocollo Hyper Text Transfer Protocol (HTTP). Come tutti i servizi di rete utilizza l’architettura client/server. il client (browser), programma applicativo che viene eseguito sul computer dell’utente il server, programma applicativo che viene eseguito sul computer del fornitore di informazioni
L’utente richiede informazioni attraverso il suo programma client La richiesta “viaggia” attraverso la rete fino a raggiungere l’elaboratore server (connessione TCP) Il server intrepreta la richiesta e inoltra al client un file contenente le informazioni desiderate (oppure restituisce un messaggio di errore se il file richiesto non esiste sul server) La comunicazione tra client e server avviene secondo il protocollo TCP/IP usando gli indirizzi IP di dei computer che ospitano client e server
Transazione Web
Navigazione: il browser Pulsanti di navigazione URL Pagina con relativi links Segnalibro
Operazioni comuni ai browser Indicare direttamente il server a cui collegarsi, inserendo la URL tornare indietro ripercorrendo la catena dei links seguiti vedere la storia (history) della navigazione tornare alla home-page: pagina adottata come punto di partenza della navigazione dal browser costruire una lista di segnalibri (bookmarks, preferiti)
Lo stato della connessione TCP si legge nella barra di stato in basso Lo stato della connessione TCP si legge nella barra di stato in basso. Vengono visualizzati messaggi come: Looking up host Contacting host Host contacted waiting for reply Opening page …
Usando i pulsanti della barra degli strumenti si possono eseguire delle azioni in modo veloce Quando si usa il pulsante Back (indietro), il browser visualizza la pagina prendendola dalla sua memoria cache (anzichè contattare nuovamente il server)
Indirizzamento URL Gli indirizzi per trovare i documenti nel Web sono detti Uniform Resource Locator (URL) e li identificano in modo univoco Di solito sono formati dall’indicazione del protocollo (http) dal nome simbolico del server, e dal pathname del file sul server, esempio: http://www.di.unito.it/~olivetti/BCTU/index.html Vengono scritti nella barra degli indirizzi
Cosa succede quando si clicca su un link Il browser determina l’URL il browser chiede al DNS di www.di.unito.it il DNS risponde con l’indirizzo IP il browser fa una connessione TCP all’indirizzo IP invia quindi un comando (definito dal protocolo HTTP) get//~olivetti/BCTU/index.html il server invia il file richiesto viene rilasciata la connessione TCP il browser visualizza il contenuto del file
Pagine e siti Un singolo documento Web è una pagina; una pagina non è tuttavia un singolo file, ma può comporsi di più file di tipo diverso: testuale, immagini, simboli, animazioni, ecc. Una collezione di pagine riconducibili ad un autore e ad una unita tematica formano un sito. Spesso i siti risiedono su di uno stesso host, sebbene non sia necessario. Un sito possiede una pagina di ingresso, o pagina principale, detta home page, la quale consente l’accesso alle altre pagine del sito (ma anche a pagine di siti diversi).
<marcatore> … </marcatore> I linguaggi del Web Il Web utilizza vari linguaggi per costruire pagine web con funzioni differenti: linguaggi di “marcatori”: descrivono caratteristiche del testo del del suo layout <marcatore> … </marcatore> linguaggi di “script” permettono di inserire effetti dinamici: sono rudimentali linguaggi di programmazione interpretati linguaggi di programmazione: sono in grado di sfruttare tutte le risorse di calcolo sia del server che del client:
HTML: (Hyper Text Markup Language) linguaggio per costruire pagine sia riguardo al testo che riguardo ai link alle altre componenti o ad altre pagine. XML: è una versione piu sofisticata di HTML, soprattutto per quanto riguarda la possibilità di strutturare le pagine ed i dati contenuti nelle pagine mediante informazioni semantiche Script languages: linguaggi interpretati per combinare funzionalità dei server e dei client (es. Javascript, Perl) permettono di definire effetti dinamici (animazioni, azioni) Java: un vero linguaggio di programmazione, sia lato client che server.
Pagine statiche e dinamiche Un pagina si dice statica quando è costituita da un insieme di oggetti il cui contenuto, struttura ed apparenza sono fissati, almeno fin quando il gestore del sito non intervenga a modificarne i file. Una pagina è invece dinamica quando la composizione del documento avviene al momento della sua richiesta, ad esempio per fornire il risultato di un’ interrogazione a un database.
Pagine statiche: HTML <html> <head> <title>Pagina di prova</title> </head> <body> <h1 align=“center”>Titolone della pagina</h1> Prima riga.<p> Ecco il link al <a href=“http://www.di.unito.it/”> Dipartimento di Informatica </a>. </body> </html>
Visualizzazzione dell’esempio
Ricerche su Internet Motori di ricerca Indici sistematici Database e cataloghi on line (OPAC) Ricerca libera: seguire i links presenti nei vari siti
Motori di ricerca Motori di ricerca: ricercano documenti su web mediante parole o combinazioni di parole La ricerca è indiscriminata (nel senso che tutti i documenti indicizzati che menzionano le parole chiave vengono elencati). Usano dei programmi chiamati sofbot (o spider) per esplorare il web alla ricerca dei documenti
Uso dei motori di ricerca La ricerca dei documenti avviene quasi sempre mediante parole chiave l’utente deve specificare in pochi termini le proprie esigenze informative Problema: molto spesso si ottengono troppe risposte (sovraccarico informativo) Per diminuire il numero di risposte si deve specializzare ulteriormente la domanda
Specializzare la ricerca Si possono usare operatori booleani AND, OR, NOT Espressioni esatte “ espressione ” NB: ogni motore di ricerca adotta una sua sintassi convenzionale. Si deve selezionare la voce Advanced Research per vedere le opzioni messe a disposizione
Motori di ricerca per termini www.altavista.com www.lycos.com www.google.com www.excite.com www.virgilio.it
Un motore di ricerca: AltaVista
Altavista Indicizza 150 milioni di pagine Modalità ricerca: semplice avanzata: uso di operatori booleani restrizione del campo temporale della ricerca
Un motore molto semplice ma molto potente
Indici sistematici Sono cataloghi ragionati di risorse, suddivisi per settori e organizzati gerarchicamente secondo categorie e sottocategorie. In genere un indice ha una base dati piu’ ristretta rispetto ai motori di ricerca, ma le informazioni sono organizzate meglio. In genere gli indici e motori di ricerca sono associati in uno stesso sito, ma la ricerca è diversa Yahoo! Looksmart Virgilio Arianna
Un indice sistematico: YAHOO!
Cataloghi e database on line non sono in genere indicizzati dai motori di ricerca perchè le loro informazioni sono generate dinamicamente Occorre conoscere la struttura del database per fare ricerche (formulazione di query) OPAC (On-line Public Access Catalog) per ricerche bibliografiche indirizzi di OPAC italiani: http://www.aib.it Servizio Bibliotecario Nazionale: http://www.sbn.it biblioteche del Piemonte: http://sbnweb.csi.it:8092/CIC/BASIS/opacx/udmopac/esimplex/sf
Indici di abstract Gli indici di abstract contengono riassunti o descrizioni di testi di articoli (abstract) Uncover http://uncweb.carl.org
OPAC Ricerca in un DB di una biblioteca (catalogo), la catalogazione utilizza il formato UNIMARC, ogni record ha i campi: titolo indicazione di responsabilità (autori, curatori) edizione luogo di edizione data di edizione descrizione fisica numero ISBD/ISSN collocazione
I repertori di siti museali Virtual Library museum pages (http://www.icom.org/vlmp) World Wide Art Resources (http://wwar.com) Musée on line (http://www.musee-online.org) Museionline (http://www.museionline.it)