Crawling Saverio Caminiti.

Slides:



Advertisements
Presentazioni simili
Tecnologie Internet di comunicazione
Advertisements

Gli ipertesti del World Wide Web Funzionamento e tecniche di realizzazione a cura di Loris Tissìno (
IlTrovatore S.p.a. IlTrovatore RemoteSearch IlTrovatore mette a disposizione di portali Internet, piccole e medie imprese, tutto il suo know-how nel settore.
Corso di Fondamenti di Informatica
Gestione della memoria centrale
Internet: la rete delle reti
RETI INFORMATICHE Una panoramica su Internet WS_FTP
Internet Concetti e termini (7.1.1).
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
La Navigazione in Internet
Introduzione alla rete Internet
IL NOSTRO LABORATORIO. Di INFORMATICA.. Presentazione: Nel nostro laboratorio abbiamo 24 postazioni con dei computer di tipo Desktop con queste caratteristiche:
Di INFORMATICA IL NOSTRO LABORATORIO. Presentazione Nel nostro laboratorio abbiamo 24 postazioni con dei computer di tipo Desktop con queste caratteristiche:
IL NOSTRO LABORATORIO. Di INFORMATICA..
ING. CARLO MANFUCCI COMUNE DI GROSSETO
La rete in dettaglio: rete esterna (edge): applicazioni e host
Esercizi sulle architetture
1 Basi di dati e Web Prof. Stefano Paraboschi Prof. Barbara Pernici.
Dott. Nicola Ciraulo CMS Dott. Nicola Ciraulo
Architettura del World Wide Web
Internet Explorer Il browser.
Test del Monitoraggio del Tracker usando un Tier2 M.S. Mennea, G. Zito, N. De Filippis Università & INFN di Bari Riunione Consorzio – Torino 18 Novembre.
INTERNET 1. WWW WWW, World Wide Web è unenorme banca dati mondiale, distribuita su un grandissimo numero di locazioni (siti), collegati fra loro da reti.
RISORSE WEB Internet Per un uso consapevole delle risorse della Rete
4 Cosa è una rete? ã Punto di vista logico: sistema di dati ed utenti distribuito ã Punto di vista fisico: insieme di hardware, collegamenti, e protocolli.
Corso di Informatica per Giurisprudenza Lezione 7
Social network Internet. Eun sito web di reti sociali, ad accesso gratuito. È il secondo sito più visitato al mondo, preceduto solo da Google. Il.
Obiettivi dellinterfaccia Web Una buona interfaccia web deve assolvere a diverse funzioni: far percepire i contenuti permettere di individuare.
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
Modulo 7 – reti informatiche u.d. 1 (syllabus – )
La biblioteca organizza il Web parte II: OpenCMS per gestire siti Nuove tecnologie per le biblioteche digitali.
Usare la posta elettronica con il browser web
Guida IIS 6 A cura di Nicola Del Re.
Cos’è Internet Una rete globale di reti basata sul protocollo TCP/IP.
Internet L’essenziale.
ECDL Patente europea del computer
"Le parole della Rete Pisa, 5 Ottobre 2012 Daniele Vannozzi.
L’applicazione integrata per la gestione proattiva delle reti IT
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria “Enzo Ferrari” – Sede di Modena Corso di Laurea Specialistica in Ingegneria Informatica.
HTML Lezione 5 Immagini. URL Un Uniform Resource Locator o URL (Localizzatore di risorsa uniforme) è una sequenza di caratteri che identifica univocamente.
VIRTUALIZZAZIONE Docente: Marco Sechi Modulo 1.
Server Web in una rete Windows Sommario Meccanismi di accesso remoto Meccanismi di accesso remoto Introduzione ai Server Web Introduzione ai Server.
Motori di Ricerca presente e futuro prossimo
1 Ripassino Reti di Computer Carasco 19/02/ Che cosa è una rete informatica? Una rete informatica è un insieme di computer connessi tra di loro.
Web Spider Antonio Gullì
Il Server web Laboratorio di Progettazione Web AA 2007/2008
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
SIBA Days 2009 – III Edizione Il Servizio di accesso remoto alle risorse informative elettroniche Domenico Lucarella Coordinamento SIBA Università del.
Internet Explorer I preferiti Stampa di pagine web Salvataggio di pagine web Copia di elementi di pagine web in altri applicativi.
Sistemi di Elaborazione dellInformazione Modulo 3 -Protocolli applicativi Unità didattica 4 -Protocolli del Web Ernesto Damiani Lezione 4 – Caching HTTP.
BIOINFO3 - Lezione 101 GLI IPERTESTI Una delle innovazioni introdotte da HTML e dal WWW in generale, rispetto ad un testo normale è sicuramente la possibilità
Informatica Lezione 9 Scienze e tecniche psicologiche dello sviluppo e dell'educazione (laurea triennale) Anno accademico:
Internet.
Lezione 8.
Creato da Riccardo Nuzzone
CORSO DI INFORMATICA Internet e Posta Elettronica
Realizzazione Sito Web
Internet e HTML Diffusione di informazioni mediante la rete Internet.
1 Storia di Internet Internet non è un’invenzione degli anni ’90….. Nata dagli studi di un’agenzia detta ARPA (Advanced Research Projects Agency) Internet.
HTML 4.01 Apogeo. I tag di base Capitolo 1 I tag SintassiEsempi:
Siti Web Elementi di base per la costruzione di siti web.
InternetInternet Sede: Salvo D’acquisto 2010/2011 Docente: Vito Monno.
Sistemi di elaborazione dell’informazione Modulo 3 -Protocolli applicativi Unità didattica 4 -Protocolli del Web Ernesto Damiani Lezione 2 – Complementi.
Servizi Internet Claudia Raibulet
Utilizzo base di Altervista. AlterVista AlterVista è una piattaforma web dove è possibile aprire gratuitamente un sito web, un blog Per aprire gratuitamente.
NUOVA ECDL ONLINE ESSENTIAL
Flipped classroom e nuove metodologie didattiche Modulo 2 – Terza lezione Antonio Todaro “ Il Sito Web del docente ” prima parte.
I NTERNET Rete interconnessa che permette il collegamento tra due host eterogenei, appartenenti a reti differenti separati anche da grande distanze. Internet.
INTERNET E INTRANET Classe VA SIA. La Storia di INTERNET ’ – ARPANET 1969 – anno di nascita università Michigan - Wayne 1970 – – INTERNET.
Roberto Covati – Roberto Alfieri INFN di Parma. Incontri di lavoro CCR dicembre Sommario VmWare Server (in produzione dal 2004) VmWare ESX.
Transcript della presentazione:

Crawling Saverio Caminiti

Il grafo di Internet

Sul grafo di Internet Pacchetti o stream Email, News, Web, Chat IRC, P2P, VoIP, Videoconferenze, ecc..

Grafo del Web

Sul grafo del web URL = Uniform Resource Locator Pagine HTML contenenti: Immagini, suoni, video VRML, Applet, shockwave altri oggetti embedded Link verso: Altre pagine HTML File in qualsiasi formato (http e ftp)

Spazio e tempo (8.8 miliardi di pagine) x (10Kb/pagina) = 88Tb compressione 3:1 => 30Tb 300 Gb / disco => 100 dischi! errori casuali 1 bit/Gb x mese => quotidianamente!

Motore di ricerca Scaricare Pulire e comprimere Assegnare Ogni motore di ricerca decide come suddividere le attività tra i vari moduli

Crawling Crawler (robot, spider, ecc…) è eseguito su una sola macchina (non è un virus). Scarica una pagina per volta con semplici richieste HTTP (e risoluzione di DNS) Google fino a 3500 pagine al secondo con più crawler paralleli

Esempio di richiesta http > telnet www.example.com 80 GET /path/file.html HTTP/1.1 Host: www.example.com 200 OK Content-Type: text/html Content-Length: 200 <HTML><HEAD> <TITLE> New Document </TITLE> ...

Netiquette Leggere il robot.txt per il Robot Exclusion Evitare di usare risorse significative di un singolo server: Tempo minimo tra due richieste Distribuire più server per crawler ed evitare che più crawler “attacchino” lo stesso server In caso di piccolo crawler sfruttare tempi morti per l’analisi delle pagine scaricate

Risoluzione dei DNS costosa Procede per chiamate successive www.theory.alg.di.uniroma1.it 151.100.17.246 Mantenere delle tabelle per non ripetere le chiamate

URL Server Alcuni degli aspetti già visti (robot.txt, DNS chace, ecc…) Politica per la visita del grafo: BFS, DFS Priority (PageRank) ecc…

BFS Buona strategia: le pagine linkate da quelle iniziali (accreditate) vengono visitate prima. Test dimostrano che è competitiva rispetto ad una visita con priorità basata su PageRank parziale (buona ma costosa).

BFS e Spam Passo 1: una sola pagina Passo 2: circa 10 pagine (il grado uscente medio di una pagina HTML è 10). Passo 3: circa 100 pagine. Di cui 1 di spam = 1%. Una pagina di spam può generare anche 1000 link a pagine virtuali di spam. Passo 4: circa 2000 pagine di cui 1000 di spam = 50%. Passo 5: circa 1.01ml pagine di cui 1ml di spam = 99%.

Aggiornamento Gestire le pagine già visitate (data di modifica con http, MD5, ecc…) e la frequenza di aggiornamento (Zipf)

Mirror Identificare e gestire i siti mirror per evitare di avere nell’indice tante pagine identiche Fino al 30% delle pagine Internet sono mirror di altre pagine!

Caratteristiche necessarie: ROLLBACK crash inevitabili richiedono un salvataggio continuo dei dati e la possibilità di ripartire dal momento del malfunzionamento, RICONFIGURAZIONE A CALDO il carico di CPU e banda deve poter essere modificato nel corso del crawl, così come altri parametri, TEST costruite da subito una infrastruttura per i test, che non richieda l’uso di banda “esterna”.