La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Internet ed il World Wide Web Monica Bianchini Dipartimento di Ingegneria dellInformazione Monica Bianchini Dipartimento di.

Presentazioni simili


Presentazione sul tema: "Internet ed il World Wide Web Monica Bianchini Dipartimento di Ingegneria dellInformazione Monica Bianchini Dipartimento di."— Transcript della presentazione:

1

2 Internet ed il World Wide Web Monica Bianchini Dipartimento di Ingegneria dellInformazione Monica Bianchini Dipartimento di Ingegneria dellInformazione

3 Sommario zIntroduzione: le reti di calcolatori zInternet: indirizzamento e protocolli di comunicazione zIl World Wide Web: come funziona e a cosa serve zRicerca di informazione sul Web

4 Parte 1 Introduzione

5 Introduzione 1 rete zUna rete è costituita da due o più computer collegati tra loro in modo tale da permettere flusso di informazione Internet La più grande rete esistente al mondo è Internet: ogni computer connesso ad Internet è in grado di comunicare con tutti i computer collegati

6 Introduzione 2 Internet ha rivoluzionato il mondo dei calcolatori e della comunicazione come nulla aveva fatto prima. È allo stesso tempo capacità di diffusione a livello mondiale, un meccanismo per disseminare informazioni ed un mezzo per collaborazione ed interazione fra individui ed i loro calcolatori, senza riguardo alla collocazione geografica. zInternet ha rivoluzionato il mondo dei calcolatori e della comunicazione come nulla aveva fatto prima. È allo stesso tempo capacità di diffusione a livello mondiale, un meccanismo per disseminare informazioni ed un mezzo per collaborazione ed interazione fra individui ed i loro calcolatori, senza riguardo alla collocazione geografica. (Leiner et al.,A brief history of the Internet, Feb. `97, WWW zInternet offre una notevole varietà di servizi informativi: posta elettronica, ftp, login remoto, accesso a newsgroup, etc.; il WWW è di gran lunga il più conosciuto

7 Reti locali rete localeLAN Local Area Network zUna rete locale LAN (Local Area Network) connette dispositivi hardware che si trovano fisicamente vicini, nello stesso edificio o nella stessa università zPer le LAN, il proprietario delle macchine è anche il proprietario dei mezzi di comunicazione: non occorre acquistare servizi forniti da terzi, come la compagnia telefonica Ethernet zIl modello più diffuso di LAN è chiamato Ethernet Sono oltre 60 milioni nel mondo gli utenti stimati delle LAN basate su Ethernet

8 Reti geografiche punto–a– punto zLe WAN sono connesse tramite linee di comunicazione punto–a– punto che collegano direttamente due calcolatori, anziché per mezzo di canali condivisi, normalmente utilizzati per le LAN rete geograficaWANWide Area Network MAN Metropolitan Area Network zUna rete geografica WAN (Wide Area Network ) connette dispositivi che possono essere ai poli opposti della stessa città o in città vicine (in questo caso si parla più propriamente di MAN Metropolitan Area Network) o dallaltra parte delloceano zPoiché le WAN attraversano proprietà pubbliche, gli utenti di una WAN devono acquistare servizi di telecomunicazione

9 Servizi di rete zCondivisione delle risorsefisiche logiche zCondivisione delle risorse sia fisiche (memorie di massa, periferiche) che logiche (dati, software) zCondivisione delle informazioni zCondivisione delle informazioni accesso ad informazioni remote, di carattere scientifico, medico, legale, commerciale zPosta elettronicaconveniente veloce economica zPosta elettronica conveniente (può essere scritta/letta a qualsiasi ora del giorno e della notte), veloce (un messaggio dagli USA arriva in meno di un minuto), economica (i costi di trasmissione non dipendono dalla distanza); documenti di qualsiasi tipo (file, archivi, foto, musica) possono essere acclusi in allegato

10 Parte 2 Internet

11 La storia diInternet 1 La storia di Internet 1 zInternet è la rete telematica più grande del mondo, per estensione geografica e per numero di utenti DARPADefense Advanced Research Project Agency zNel periodo della guerra fredda, il governo USA sollecitò la creazione di DARPA, Defense Advanced Research Project Agency, una struttura del Dipartimento della Difesa con il compito di mantenere le comunicazioni in caso di attacco nucleare On Distributed Communication Networks zFu Paul Baran a ipotizzare, in un documento dal titolo On Distributed Communication Networks, la creazione di una rete priva di autorità centrale, in cui tutti i nodi fossero indipendenti, di pari gerarchia ed in grado di originare, passare e ricevere messaggi (indipendentemente dalla tipologia dei computer collegati)

12 La storia diInternet 2 La storia di Internet 2 zI messaggi dovevano essere scomposti in pacchetti, ognuno dei quali in grado di raggiungere la propria destinazione seguendo un percorso qualsiasi, qualora quello stabilito fosse interrotto zNel 1965, il DARPA finanziò uno studio sulle reti cooperative di computer ARPANET Stanford Research Institute zNel 1969, il Dipartimento della Difesa commissionò ARPANET, con lo scopo di promuovere la ricerca per un piano di rete nazionale militare; il primo collegamento fu stabilito tra due computer dellUniversità della California (UCLA) e dello Stanford Research Institute

13 La storia diInternet 3 La storia di Internet 3 ISOC Internet Society zInternet non è gestita da alcuna istituzione politica, culturale o economica, ma da un gruppo di volontari, conosciuto come ISOC (Internet Society ) zFornire le dimensioni di Internet è impossibile: si calcola vi siano centinaia di milioni di utenti, localizzati in ogni paese del mondo; la crescita esponenziale di Internet continua

14 Le tappe fondamentali The 1984 nasce la prima comunità virtuale, The Well Well (Whole Earth Electronic Link) NSFnet host; nasce NSFnet (58 kbps) host Internet 1990 ARPANET diviene Internet, Tim Berners-Lee del CERN di Ginevra WWWHTML progetta il WWW; nasce lHTML Gopher 1991 primi software di navigazione (Gopher) HTTP 1992 nasce il protocollo HTTP Mosaic 1993 prima versione (gratuita) di Mosaic, il primo browser grafico Netscape 1994 Netscape distribuisce gratuitamente via Internet, la versione beta del Navigator Explorer 1995 Microsoft realizza Explorer, sulla base di Mosaic ARPANET 1969 primo nodo di ARPANET 1971 ARPANET conta 15 nodi 1972 ARPANET congiunge 37 nodi 1973 prima connessione internazionale fra Inghilterra e Norvegia 1976 la regina Elisabetta è il primo capo di stato a spedire ; Jimmy Carter e Walter Mondale coordinano la campagna elettorale via (4$ a messaggio) Usenet 1979 fu inaugurata Usenet TCP/IP 1982 nasce il protocollo TCP/IP 1983 la rete conta più di mille nodi; MILNET MILNET (rete militare) si scinde da ARPANET (rete di ricerca del mondo universitario)

15 Internet: la rete delle reti zConseguentemente ad ARPANET, nacquero HEPNet (High Energy Physics Network), CSNET (Computer Science Network), SPAN (Space Physics Access Network), etc., per supportare lo scambio di informazione scientifica nelle specifiche aree di ricerca zLa proliferazione rapida e non pianificata di reti indipendenti causa incompatibilità e ostacola la comunicazione fra utenti di reti distinte zInternetworking zInternetworking ogni WAN è libera di gestire autonomamente la comunicazione al suo interno, ma deve utilizzare uno schema comune di indirizzamento e protocolli identici per interfacciarsi alle altre reti rete delle reti gateway routing zInternet diviene la rete delle reti reti distinte si interconnettono attraverso gateway, che realizzano la connessione effettiva e forniscono i servizi di routing fra le diverse WAN

16 Indirizzamento zUno schema globale e gerarchico di indirizzamento identifica univocamente ogni utente ovunque localizzato nel at identifica lutente Monica (Bianchini), con un account su un calcolatore il cui indirizzo di rete è rappresentato da ciò che sta a destra di il calcolatore è situato nel Dipartimento di Ingegneria dellInformazione (dii) dellUniversità di Siena (unisi), in Italia (it) Domain Name SystemDNS zLo schema gerarchico di indirizzamento, che procede dallo specifico al generale, è chiamato Domain Name System (DNS) zNella realtà, gli indirizzi di Internet sono numeri binari a 32 bit: gli indirizzi simbolici più facili da memorizzare sono convertiti automaticamente negli indirizzi numerici prima della trasmissione di dati sulla rete

17 Protocolli di comunicazione protocolli zIn informatica, le regole comuni per lo scambio di informazioni vengono definite protocolli usi e norme che regolano le formalità, il diritto di precedenza e di cerimoniale diplomatico : definizione che si adatta perfettamente al contesto della trasmissione dellinformazione zTCP/IPTransmission Control Protocol/Internet Protocol linguaggio comune zTCP/IP Transmission Control Protocol/Internet Protocol, descrive le regole e le procedure cui le diverse WAN devono attenersi per indirizzamento, formato dei messaggi, routing e controllo degli errori: è il linguaggio comune parlato dalle reti di tutto il mondo

18 Internet: la diffusione 1 zDalle origini al gennaio 2000, Internet è cresciuto fino a più di 72.4 milioni di calcolatori localizzati in ogni parte del mondo, ed il DNS include estensioni per 239 paesi, territori e possedimenti, compresi il continente antartico (.aq), Guinea Bissau (.gw), le isole Cocos (.cc), Pitcairn (.pn), etc. Telcordia Technologies zSecondo uno studio dellamericana Telcordia Technologies, il numero degli Internet host presenti nel mondo avrebbe superato i 100 milioni nel % yQuesto dato rappresenta un incremento del 45% rispetto al 1999 zNel 2000, gli utenti di Internet sono circa 3.4 per host, con un totale mondiale vicino ai 350 milioni yNegli USA il rapporto utenti/host è 2.4, nei paesi meno industrializzati (come la Cina) arriva anche a 100

19 Internet: la diffusione 2 zNegli USA, lultima parte del DNS non identifica lo stato, ma il tipo di sito: commerciale (.biz,.com), universitario (.edu), governativo (.gov), militare (.mil), organizzazioni no profit (.org) telnet FTP File Transfer Protocol SMTP Simple Mail Transfer ProtocolWorld Wide Web HTTPHyperText Transfer Protocol zI principali servizi offerti (tramite TCP/IP) sono il telnet, per realizzare il login remoto, lFTP (File Transfer Protocol ) per il trasferimento di file da macchine remote, lSMTP (Simple Mail Transfer Protocol ) per la posta, ed il World Wide Web per la condivisione di informazione ipertestuale, che si avvale del protocollo HTTP (HyperText Transfer Protocol ) z : In italia si passa da 650 a host zLuglio 2000: host in Italia e–mailWWW zAttualmente: Internet sta crescendo vertiginosamente (e sta cambiando) ad opera della più importante applicazione sviluppata dopo le–mail, il WWW

20 Parte 3 Il World Wide Web

21 Internet, ovvero… il World Wide Web 1 zWWW: Whatever, Wherever, Whenever zWWW: World Wide Wait (lattesa planetaria) zInformation Nirvana zInternet è la più grande anarchia operante nel mondo. (Kevin Kelly) zInternet è la passeggiata curiosa in un grande mercato delle pulci, dove ci si può divertire a cercare notizie sugli extraterrestri, conoscere il canto degli uccelli australiani o scambiarsi opinioni sul gioco delle bocce zInternet è lequivalente dellinvenzione di una città. (William Gibson) zOgnuno proietta su Internet quello che fa (o avrebbe voluto fare) nella vita reale: un ospedale virtuale, un supermercato elettronico, una galleria con le emozioni vissute… zIl desiderio di Internet è così intenso che può essere compreso solo come un fatto spirituale. Quel desiderio indica che cè qualcosa che manca nella nostra vita. E quello che manca è la voce umana. Il Web promette il ritorno della voce umana. (David Weinberger)

22 Internet, ovvero… il World Wide Web 2 zOgni sito è un punto di vista su Internet zInternet non è né buono né cattivo, ma un semplice mezzo per luso e labuso; siamo noi che gli diamo lanima, la nostra, buona o cattiva; inutile lodare, inutile maledire zSembra che il nuovo medium assomigli ad un test di Rorscahch, un blob elettronico allinterno del quale ognuno proietta fantasie, desideri e timori per la società. I tradizionalisti trovano le forze oscure della degenerazione. I libertari trovano la mano pesante del governo. La sinistra trova una nuova comunità, priva della materiale avarizia del busisness privato. (Eli Noam, direttore del Columbia Institute for TeleInformation) zCercare informazioni su Internet equivale a versare un aperitivo con la pompa della benzina zInternet è la Mecca dei grafomani zInternet è quel posto dove tutti navigano per trovare un motivo per navigare

23 Internet, ovvero… il World Wide Web 3 zIl motore a vapore allinizio non ha cambiato la vita che di poche persone; ma quando è stato montato su una locomotiva e messo sulle rotaie, la società intera è stata trasformata. Il computer è il motore a vapore, Internet le rotaie. Saranno le rotaie di Internet a diffondere la rivoluzione digitale e a cambiare il mondo. zLa nuova Internet sarà questa: non più utenti che comunicano fra di loro via computer, bensì computer in rete 24 ore su 24 che comunicano tra loro per conto degli utenti. (Philip Greenspun, MIT, Boston) zInternet è quella realtà nella quale gli investitori pagano prezzi assurdi per azioni di aziende di cui non sanno spiegare il business zLa parola più ricercata su Internet: SEX (Deb Levine, autrice di The Joy of Cybersex) zInternet è un vero e proprio > per migliorare le proprie capacità di > o fare errori relazionali senza rischiare (si può rimanere anonimi), trovare supporto e costruire la propria >. (Deb Levine)

24 Il World Wide Web zGrazie al Web stiamo assistendo ad una rivoluzione nellaccesso alle fonti di informazione zCercare nel Web è come accedere ad unenciclopedia di miliardi di pagine senza un indice né un ordine apparente e–revolution zLa e–revolution avrà un enorme impatto in tutti i campi del sapere e nella nostra vita quotidiana zIl Web ha cambiato completamente le nostre aspettative da una fonte di informazione: il Web si modifica ed evolve costantemente zCome rappresentiamo e misuriamo il Web ha un severo impatto nei metodi di ricerca che riusciamo a modellare query GoogleAltavista z3 utenti su 5 cercano nel Web sottoponendo query (interrogazioni) a motori di ricerca come Google o Altavista

25 Il Web italiano 1 Il Trovatore zIl motore di ricerca italiano Il Trovatore ha raccolto i dati 2002 sulle dimensioni del Web italiano: yDallanalisi di circa 260mila siti italiani è emerso che il Web Italiano (it, sm, va) era costituito da circa 48 milioni di pagine File not Found yAumentano considerevolmente i link che portano a pagine non più esistenti (rispetto al 2001 viene registrato un incremento del 110%: dai File not Found del 2001, ai del 2002)

26 Il Web italiano 2 redirect provider zAl 2002, sono circa 45.7 milioni le pagine Web raggiungibili nella rete italiana: tra queste pagine presentano un redirect verso un altro sito contro le del 2001, con un aumento del 10.6% tendenza allacquisto di domini o cambi di provider z pagine Web richiedono la password per laccesso, con un incremento del 73% circa rispetto al 2001, quando le pagine erano aumento di siti con accesso ristretto, procedura prevista per i servizi a pagamento o per intranet aziendali

27 Linformazione ipertestuale 1 zIpertesto hyperlink pagina zIpertesto raccolta di documenti connessi da puntatori, gli hyperlink; un documento contenente informazione ipertestuale è una pagina, nel linguaggio del Web HTML Hypertext Markup Language zLo standard linguistico per la scrittura di pagine è HTML Hypertext Markup Language zNavigare zNavigare sul Web significa accedere a pagine successive, utilizzando i link per spostarsi da pagina a pagina zI documenti ipertestuali possono essere memorizzati ovunque nei miliardi di computer collegati ad Internet e un link è il nome di una pagina e lindirizzo Internet della macchina su cui è memorizzata

28 Linformazione ipertestuale 2 Uniform Resource Locator zUn link di un ipertesto fa riferimento ad un URL (Uniform Resource Locator ),protocollo://indirizzo_Internet/risorsa protocolloprotocollo indica la natura dellinformazione contenuta httpftpnews nella pagina (http(s) : ipertesto; ftp: file download; news : mailto per informazioni da bollettini e newsgroup; mailto: web– mail) ndirizzo_Internet indirizzo_Internet è lindirizzo DNS della macchina su cui la pagina è locata risorsa risorsa è lidentificativo della risorsa, un file memorizzato sulla macchina specificatahttp://www–dii.ing.unisi.it/people.html

29 Linformazione ipertestuale 3 zQuando si clicca su un link, la rete utilizza i protocolli TCP/IP– HTTP per stabilire una connessione tra la macchina dellutente e la macchina remota il cui indirizzo Internet è puntato dallURL fetch browserNetscapeMS Explorer zQuando la connessione è stabilita, la pagina richiesta viene trasferita alla macchina dellutente e visualizzata sullo schermo: il fetch (reperimento) delle pagine e la loro visualizzazione è gestita da un browser (Netscape, MS Explorer) killer app zIl WWW è la killer app, lapplicazione dalla crescita più rapida e la più importante di Internet

30 Internet 38 years 4 years 13 years 16 years Radio Televisione PC Numero di anni per raggiungere di utenti

31 Il commercio elettronico zTermine applicato allutilizzo del Web per lo scambio di merci, informazioni e servizi nel settore commerciale e–commerce e–business zI primi servizi offerti dalle–commerce riguardavano soprattutto aspetti di e–business, con lemissione di bonifici, lattivazione di sportelli automatici per la gestione di transazioni finanziarie da siti remoti, lutilizzo di dispositivi di lettura alle casse per la raccolta automatica di informazioni di vendita POSPoint of Sale zI POS (Point of Sale) per la lettura di carte di credito e Bancomat sono esempi di servizi di e–business zPiù recentemente, con il WWW, si è assistito alla diffusione del servizio in maniera capillare; i siti commerciali offrono tour interattivi nei loro negozi virtuali zIn rete possono essere acquistati con transazioni sicure libri, cd musicali, dvd, magliette, generi alimentari, che vengono rapidamente recapitati a domicilio

32 Commercio elettronico in Italia zNella sua accezione più sommaria, il commercio elettronico è il risultato di un insieme di transazioni commerciali svolte attraverso un processo telematico zTuttavia, il Ministero dell'Industria, del Commercio e dell'Artigianato lo definisce come… y«L'E-Commerce […] consiste nello svolgimento di attività commerciali e di transazioni per via elettronica e comprende attività diverse quali: la commercializzazione di beni e servizi per via elettronica, la distribuzione on-line di contenuti digitali, l'effettuazione per via elettronica di operazioni finanziarie e di borsa, gli appalti pubblici per via elettronica ed altre procedure di tipo transattivo della pubblica Amministrazione » zLe società multizionali per tecnologiche avanzate (come Cisco e Oracle) sono state tra le prime che hanno trasferito i loro acquisti e gran parte delle loro vendite sul Web

33 Sicurezza in rete sicurezza ;hacker on–line zDalla rapida crescita delle transazioni economiche sulla rete proviene la necessità di incrementare la sicurezza ; se un hacker rubasse i numeri delle carte di credito usate per acquisti on–line o ottenesse laccesso agli archivi di una banca, potrebbero verificarsi perdite economiche catastrofiche zLa sicurezza in rete coinvolge: autenticazione il problema dellautenticazione (verifica dellidentità di chi effettua la transazione) crittazione/decrittazione il problema della crittazione/decrittazione (per la sicurezza dellinformazione durante la trasmissione) tolleranza ai guasti la tolleranza ai guasti (per la sicurezza delle transazioni in presenza di guasti software/hardware)

34 Parte 4 Ricerca di informazione sul Web

35 Perché non è facile trovare informazione sul Web? zEnorme massa di informazione 20 miliardi di pagine (stimate), 3 milioni di pagine aggiunte ogni giorno; il Web raddoppia ogni 2 anni zLinformazione è spesso accessibile solo attraverso maschere di ricerca zI motori di ricerca indicizzano le pagine con circa 15 giorni di ritardo tool zPoca o nessuna possibilità di personalizzare i tool (strumenti) di ricerca

36 Attualità e previsioni 1 zAsilomar Report su ricerca su Database: The majority of human information will be on the Web in ten years. It will be an exabyte ( ) spread across the planet in many formats. Absent new tools, finding and understanding answers to our questions will be even harder than it is today. zNuove prospettive di calcolo: Internet è il computer, il browser, il sistema operativo, etc. Universal & pervasive computation. zE-commerce: yBy 2003, the Internet will become the predominant mechanism for conducting business either to consumers or between businesses. Gartner Group y5% of the world's commerce, $3.2 trillion, will be Internet–based by Forrester Research zPopular Press: The Internet is the Gutenberg press on steroids. Gutenberg wasn't about how many Bibles were printed, but the fact that you no longer had to listen to the clerics. You could read it yourself and make your own interpretations. W. Wacker

37 Attualità e previsioni 2 CIA zCi saranno più di 765 milioni di utenti nel mondo 118 ogni 1000 persone alla fine del 2005, in base a quanto stimato dal CIA (Computer Industry Almanac) yLa quota di utenti Internet statunitensi è destinata a calare dal 43% del totale di utenti nel mondo alla fine del 1999 al 27% per la fine del 2005 yLEuropa dellovest sta crescendo più velocemente del nord America ed è destinata a diventare la seconda area nel 2005 con più di 213 milioni di utenti yLa regione Asia Pacifico sta crescendo ancora più velocemente ed avrà approssimativamente 190 milioni di utenti nel 2005 yLa quota di utilizzatori in centro e sud America, e Africa, sta crescendo più lentamente, in particolare in Africa (studi hanno dimostrato che esiste una connessione diretta tra livello culturale, occupazione ed utilizzo di Internet)

38 Internet interplanetario

39 Misurare il Web zStatistiche utili: numero di pagine, di server, di domain name, durata e dimensione delle pagine, duplicati, lingue zAnalisi della connettività: numero di link, raggiungibilità delle pagine, diametro e struttura del Web zModelli matematici: grafi, sistemi evolutivi zDinamiche: numero di accessi, velocità di crescita, proprietà emergenti

40 Il modello a papillon Modello generato dalla dalla raccolta di 200 milioni di pagine Il raggio del core è stimato pari a 19 clic

41 Stima delle dimensioni del Web (Febbraio `99) zCampionamento casuale dello spazio degli indirizzi: 256 4, cioè 4.3 miliardi; testati 3.6 milioni di indirizzi IP mirror zMolti siti riproducono la stessa informazione con indirizzi IP distinti (mirror ) per ottenere ridondanza nellinformazione ed un minor carico di accessi per sito Publicly Indexable Web (PIW)16 milioni di Web server2.8 milioni appartengono al PIW zMolti server non appartengono al Publicly Indexable Web (PIW) 16 milioni di Web server di cui solo 2.8 milioni appartengono al PIW zMarzo 2003: Web server

42 Quante pagine Web? ( ) z miliardi di pagine effettive zNorthern Light zNorthern Light: 650 milioni di pagine nel Giugno 99 zInktomi zInktomi: oltre 800 milioni di pagine nel Giugno 99; almeno 1 miliardo di pagine nel Gennaio 00 zInternet Archive zInternet Archive: 1.2 miliardi di URL nel Giugno 99 zGoogle zGoogle: 1 miliardo di pagine raccolte nel Giugno 00

43 Deep Web 1 deep Web zIl deep Web è rappresentato da tutti i siti inaccessibili ai motori di ricerca tradizionali: 500 miliardi di documenti racchiusi in oltre siti che permettono di accedere dinamicamente ad informazioni strutturate nei propri archivi surface Web zI motori di ricerca censiscono solo le singole pagine statiche dei siti, e cioè il surface Web

44 Deep Web 2 zIl 95% del deep Web è accessibile liberamente ai navigatori della rete zPrincipali categorie di siti del deep Web: database medici, finanziari, brevetti, etc. (54%); siti aziendali consultabili mediante interrogazioni; libri, giornali, annunci; portali; biblioteche, librerie; Yellow/White page e cataloghi zSiti pubblici che compongono il deep Web:

45 Che tipo di informazione si trova sul Web? zLe homepage di 2500 server Web sono state classificate manualmente 83% siti commerciali zIl numero di siti su argomenti specifici è abbastanza piccolo; è perciò possibile creare motori di ricerca verticali relativi ad un singolo argomento zIl 65% dei siti è in inglese zCirca il 7% degli utenti Internet sono di lingua tedesca, il 51% parlano inglese, e poco più del 7% sono giapponesi

46 Motori di ricerca 20 più usati coprono il 98% di tutte le ricerche zVe ne sono probabilmente + di 3000, ma i 20 più usati coprono il 98% di tutte le ricerche zAltaVista zAltaVista (estate, 1998): yIndicizza 0.8 Tb (il 30% dei dati raccolti) y37 milioni di interrogazioni al giorno yTempo medio di risposta 0.6 secondi y20 computer a 64 bit, ciascuno dotato di 10 CPU, clock a 625 MHz, 12Gb RAM, 300 Gb RAID zGoogle zGoogle (primavera, 2000): y2500 PC, 30 nuovi acquisti al giorno, ogni PC dismesso definitivamente dopo il primo guasto

47 Larchitettura dei motori di ricerca zWeb crawler zWeb crawler colleziona documenti di testo, html, etc. zIndexer ordine di importanza zIndexer indicizza alcune delle pagine raccolte e, a fronte di ogni interrogazione, fornisce una serie di documenti in ordine di importanza zQuery engine zQuery engine effettua le query sul database locale zQuery interface zQuery interface realizza linterfaccia per la formula- zione delle interrogazioni

48 zCriteri di valutazione zIndicizzazione delle pagine zCopertura zFreschezza dellinformazione zVelocità zAffidabilità zFacilità di utilizzo Confrontare i motori di ricerca

49 Come i Web navigator usano i motori di ricerca zLe interrogazioni fatte in base ad ununica chiave di ricerca sono il 50%, mentre l1% dei termini più usati è presente nel 10% delle interrogazioni zLa categoria sesso è nettamente la più richiesta zPer una data ricerca, ciascun utente effettua, in media, 4.87 query zIn media, vengono utilizzati 2.11 termini per ricerca; nei normali database, le interrogazioni sono tra 3 e 7 volte più articolate and or zGli operatori booleani (and e or ) sono usati 1 volta ogni 15 query, ma il 33% delle volte non sono immessi in modo corretto zI modificatori (+,, ) sono usati 1 volta ogni 9 query, ma il 75% delle volte lutilizzo è scorretto

50 Informazione non reperibile dai motori di ricerca hidden zLhidden Web, è il Web nascosto dietro maschere di ricerca o firewall zPorzioni di Web non raggiungibili dalle altre pagine (pagine mai puntate dallesterno) Robots exclusion standards zPagine a cui i robot dei motori di ricerca non possono accedere a causa dei Robots exclusion standards dinamico zIl Web dinamico (deep Web), che varia più velocemente della frequenza di aggiornamento dei database dei motori di ricerca

51 Copertura del Web per vari motori di ricerca (2000)

52 Copertura rispetto alla dimensione stimata del Web (2000)

53 Copertura dei motori di ricerca 16% zCopertura del miglior motore di ricerca (nel 2000): 16% 42% zCopertura combinata degli 11 motori di ricerca più famosi (nel 2000): 42% del PIW Science zStesso esperimento pubblicato su Science nellAprile 98 34% yMiglior motore di ricerca: 34% 60% yCopertura di 6 motori di ricerca combinati: 60%

54 Freschezza: link non validi (2000) yNorthern Light: 9.8% ySnap: 2.8% yAltaVista:6.7% yHotBot: 2.2% yMicrosoft:2.6% yInfoseek:5.5% yGoogle: 7.0% yYahoo: 2.9% yExcite: 2.7% yLycos: 14.0% yEuroSeek:2.6% Media: 5.3%

55 Freschezza dellinformazione dei motori di ricerca zUna nuova pagina viene indicizzata in media dopo 57 giorni… y L indicizzazione di pagine nuove o modificate può avvenire dopo settimane o mesi !

56 Bias nellindicizzazione (2000) Siti con più link entranti authority hanno maggiore probabilità di essere indicizzati

57 Indicizzazione in base al dominio (2000)

58 Perché i motori non indicizzano tutto il Web? zLimiti tecnologici ya) Banda/tempo per effettuare il download yb) Spazio su disco per memorizzare linformazione Vi è un limite oltre il quale non è economicamente conveniente indicizzare di più… Motori di ricerca specializzati, portali verticali Soluzione: Motori di ricerca specializzati, portali verticali

59 Una generazione avanti: Google zGoogle zGoogle tiene in considerazione linformazione topologica inclusa nellipergrafo del Web zPageRank zPageRank, il metodo di indicizzazione utilizzato da Google, usa concetti simili a quelli classici delleditoria cartacea per valutare limportanza di una pagina; tiene conto di… y… quanti link puntano ad una pagina per deciderne limportanza yinoltre, link da pagine popolari sono più importanti zEsamina il testo dei link della pagina per valutare la necessità di sondarli in relazione alla stessa interrogazione zGoogle raccoglie 6 miliardi di pagine (comunicato del ) e ne indicizza 2: raggiunge così un numero di elementi web indicizzati e ricercabili che supera quello di qualsiasi altro concorrente

60 Le metaricerche zUn solo motore di ricerca copre una piccola porzione di Web richiesta di informazione a più sorgenti (motori di ricerca) in parallelo zSi aggregano i risultati tramite lutilizzo di una opportuna funzione di fusione Information Need Query Fusion Policy Result Set Search Engine #1 Search Engine #2 Search Engine #3 etc.

61 Suggerimenti per rendere popolare un sito Web domain name Registrare un proprio domain name e non far ospitare le proprie provider pagine presso siti di provider z Registrarsi a molti motori di ricerca keywords heading z Usare keywords (parole chiave) appropriate in titoli, heading metatag (intestazioni) e metatag (parole chiave dellHTML) z Utilizzare HTML in maniera semplice e appropriata linkare z Farsi linkare da tutti gli amici e/o i partner commerciali z Contattare (eventualmente) compagnie che vendono servizi per migliorare lindicizzazione del proprio sito

62 Guida pratica allutilizzo di Altavista

63 Introduzione 1 zÈ stato forse il più noto ed utilizzato fra i motori di ricercahttp://www.altavista.com zAltavista zAltavista, nato nel 1995, offre la possibilità di effettuare ricerche avanzate (link Ricerca avanzata ), di formulare preferenze su dove le informazioni debbano essere ricercate, sulla loro freschezza, sulla lingua e le modalità di presentazione Altavista Strumenti zNella pagina iniziale di Altavista è presente un link alla pagina Strumenti (link Altro>> ), nella quale sono elencati vari percorsi di ricerca per acquisire conoscenza e poter effettuare un uso appropriato del motore StrumentiAltavista La seguente presentazione descrive brevemente quanto riportato nella pagina Strumenti di Altavista

64 Introduzione 2 Strumenti Altavista zDalla pagina Strumenti di Altavista: Altavista yRicerca avanzata : Crea richieste specifiche che comunichino ad Altavista di cercare risultati più precisi Altavista yRicerca Webmaster : Trova le pagine del proprio sito nellindice di Altavista o trova le pagine collegate al proprio sito Altavista yRicerca con opzione Solo Testo : Effettua le ricerche nel Web con la versione più veloce e senza immagini del motore di ricerca Altavista yTraduci: Traduce testi o interi siti Web QuickSearch yRicerca rapida : Inserisce la funzione di QuickSearch in qualsiasi sito per cercare, con un solo clic, pagine Web, immagini, video o notizie Impostazioni : Fornisce la possibilità di impostare la ricerca in modo personalizzato

65 Introduzione 3 Inoltre… zFunzione Filtro aiuta a filtrare materiale non desiderato dai risultati della ricerca su Internet Altavista zQuando il filtro è Attivato, Altavista esclude i risultati della ricerca giudicati discutibili a causa di contenuto a sfondo sessuale, violento e/o sgradevole zNota: con il filtro impostato su Tutti (i tipi di informazione: pagine Web, immagini, audio e video) è possibile effettuare ricerche sul Web solo in inglese, francese, tedesco e spagnolo; il filtro funziona solo in lingua inglese; per eseguire la ricerca in altre lingue, è preferibile lasciare il filtro disattivato

66 Introduzione 4 zPer ulteriori informazioni su ricerca, traduzione, aggiunta o rimozione di URL ed impostazione di paese/lingua è di utile consultazione la pagina Aiuto (linkata alla pagina iniziale ed a tutte le pagine principali del motore di ricerca) zInfine, a partire dalla pagina di Aiuto alla Ricerca, seguendo il link Termini di ricerca speciali, si possono ottenere spiegazioni su come utilizzare gli operatori booleani (ed altri) per effettuare ricerche mirate sia semplici che avanzate zAltavista zAltavista permette quattro opzioni di ricerca specifica (oltre al Web): Immagini, MP3/Audio, Video, Directory

67 Ricerche di base in Altavista 1 zSUGGERIMENTI: AltaVista yQuando si inseriscono parole multiple nella casella di ricerca, AltaVista cerca pagine Web che contengono tutte le parole Baltimore RavensRavens yPiù parole chiave garantiscono maggior precisione (Esempio: Baltimore Ravens invece di Ravens ) AltaVista yUtilizzo di parole che si pensa possano apparire nella pagina Web oggetto della ricerca; AltaVista inserisce nei suoi indici tutte le parole di ogni pagina Web essere o non essere yPer cercare una frase esatta, racchiuderla tra virgolette (Esempio: essere o non essere) yLe lettere maiuscole e minuscole sono trattate allo stesso modo; per osservare la differenza, racchiudere il termine di ricerca tra virgolette

68 Ricerche di base in Altavista 2 zSUGGERIMENTI (continua…): Ford.mustang/convertibleford mustang convertible yLe parole con punteggiatura vengono trattate come se fossero racchiuse tra virgolette; tutti i segni di interpunzione sono trattati allo stesso modo (Esempio: Ford.mustang/convertible fornisce gli stessi risultati di ford mustang convertible) yPer ottenere risultati in altre lingue, si può sia effettuare la Traduzione della pagina Web, che selezionare la propria lingua preferita nella casella di ricerca AltaVista AltaVista ySe si include un accento nella ricerca di una parola, AltaVista cercherà solo parole che contengono quellaccento; se laccento viene omesso, AltaVista cercherà la parola sia con che senza accento; ciò permette di effettuare ricerche di parole francesi, tedesche o spagnole, attraverso tastiera italiana (o inglese)

69 Ricerche avanzate in Altavista zMaschera per la ricerca avanzata; vengono specificati... Arachidi AND burro y…i termini della ricerca, eventualmente sotto forma di frase (racchiusi fra virgolette) o connessi tramite operatori logici (esempio: Arachidi AND burro, trova documenti con entrambi i termini arachidi e burro) y…un intervallo temporale dei documenti di interesse y…il tipo di file Altavista yInoltre: possono essere specificati termini da evitare; in questo caso Altavista seleziona tutte le pagine che contengono i termini oggetto della ricerca, ma non contengono il set di parole contenuto in nessuna di queste parole

70 Guida pratica allutilizzo di Google

71 Introduzione 1 zLe ricerche più frequenti effettuate attraverso il motore di ricercahttp://www.google.com vengono realizzate utilizzando ununica parola chiave per la formulazione della query zGoogle zGoogle offre tuttavia la possibilità di effettuare ricerche avanzate, di formulare preferenze su dove le informazioni debbano essere ricercate, sulla lingua e le modalità di presentazione zNella pagina iniziale del motore di ricerca sono presenti link alle pagine relative a Ricerca avanzata, Preferenze, Strumenti per le lingue, Tutto su Google

72 Introduzione 2 In particolare… zRicerca avanzata Visualizza la pagina che permette di impostare parametri che limitano lambito della ricerca zPreferenze Visualizza la pagina che permette di impostare le preferenze per le ricerche, quali il numero predefinito di risultati da visualizzare su ciascuna pagina, la lingua dellinterfaccia e della ricerca, lapertura o meno di una nuova finestra del browser per produrre i risultati Google zStrumenti per le lingue Visualizza la pagina che permette di limitare la ricerca a pagine scritte in particolari lingue, di tradurre le pagine nella propria lingua e di accedere allinterfaccia Google nella propria lingua Google zTutto su Google La pagina contiene link significativi, in particolare verso pagine che evidenziano le caratteristiche che differenziano Google dagli altri motori di ricerca, e ne descrivono le modalità di utilizzo, ma anche i particolari architetturali

73 Introduzione 3 zIl pulsante Mi sento fortunato apre, a fronte di una particolare query, la pagina ritenuta più significativa (segnalando sulla barra di fondo il numero totale di pagine che rispondono allinterrogazione) zGoogle zGoogle permette quattro opzioni di ricerca specifica (oltre al Web): Immagini, Gruppi, Directory, News

74 Ricerche di base in Google Google Invio Per effettuare una ricerca con Google, occorre immettere alcune parole descrittive, quindi premere il tasto Invio (oppure fare clic sul pulsante Cerca con Google ) per elencare i risultati più rilevanti zGoogle zGoogle utilizza tecniche di corrispondenza molto sofisticate per trovare parole che siano importanti e rilevanti ai fini della ricerca Google linkate zQuando Google analizza una pagina, esamina anche il contenuto delle pagine associate linkate, dando la precedenza a quelle in cui i termini ricercati sono presenti in sequenza

75 Ricerche con and automatico e visualizzazione del contesto di ricerca zGoogle zGoogle visualizza solo le pagine che contengono tutti i termini ricercati, aggiungendo automaticamente loperatore booleano and zPer limitare ulteriormente la ricerca, è sufficiente aggiungere altri termini Google zTutti i risultati trovati da Google contengono una o più sintesi della pagina Web, che mostrano il contesto in cui vengono utilizzati i termini ricercati

76 Parole comuni zGoogle stop words http.com zGoogle ignora le parole ed i caratteri di uso comune (ad esempio le congiunzioni, gli articoli, etc.), denominati anche stop words, scartando automaticamente termini come http e.com, nonché alcune singole cifre e lettere, poiché tale informazione non aiuta a restringere il campo di ricerca, ma anzi contribuisce a rallentare i tempi di risposta zUtilizzare il segno + per includere parole comuni nella ricerca; ricordarsi di lasciare uno spazio prima del segno + ; il segno + può essere utilizzato anche per la ricerca di frasi zLe frasi su cui effettuare la ricerca possono altrimenti essere racchiuse fra doppi apici (virgolette)

77 Ricerca di radici di parole (Stemming) Google zPer garantire la massima precisione nei risultati, Google non supporta la ricerca di radici di parole (stemming ), né le ricerche con caratteri jolly (*, ?, etc.) zGoogle zGoogle cerca solo le parole esatte digitate nel campo di ricerca; se si inserisce googl o googl*, il risultato non sarà googler o googlin zNei casi dubbi, provare ad usare sia il singolare che il plurale per la ricerca; ad esempio linea aerea e linee aeree

78 Lettere maiuscole/minuscole o accenti zGoogle zGoogle non fa distinzione tra lettere minuscole e maiuscole, poiché considera tutte le lettere come minuscole; ad esempio, digitando google, GOOGLE" e GoOgLE" si ottengono sempre gli stessi risultati Google zPer impostazione predefinita, Google non riconosce accenti o altri segni diacritici; in altre parole, se si digita [Muenchen] e [München] si ottengono sempre gli stessi risultati zPer fare una distinzione tra le parole, anteporre il segno +; ad esempio [+Muenchen] rispetto a [+München]

79 Ricerche avanzate in Google zMaschera per la ricerca avanzata; vengono specificati... y…i termini della ricerca, eventualmente sotto forma di frase, o connessi attraverso loperatore OR y…lintervallo temporale dei documenti di interesse, il formato dei file, la lingua ed il dominio di ricerca, la collocazione dellinformazione allinterno della pagina yInoltre: possono essere effettuate ricerche per similitudine o relative a pagine che puntano ad una data pagina di riferimento


Scaricare ppt "Internet ed il World Wide Web Monica Bianchini Dipartimento di Ingegneria dellInformazione Monica Bianchini Dipartimento di."

Presentazioni simili


Annunci Google