La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Crawling Saverio Caminiti.

Presentazioni simili


Presentazione sul tema: "Crawling Saverio Caminiti."— Transcript della presentazione:

1 Crawling Saverio Caminiti

2 Il grafo di Internet

3 Sul grafo di Internet Pacchetti o stream
, News, Web, Chat IRC, P2P, VoIP, Videoconferenze, ecc..

4 Grafo del Web

5 Sul grafo del web URL = Uniform Resource Locator
Pagine HTML contenenti: Immagini, suoni, video VRML, Applet, shockwave altri oggetti embedded Link verso: Altre pagine HTML File in qualsiasi formato (http e ftp)

6 Spazio e tempo (8.8 miliardi di pagine) x (10Kb/pagina) = 88Tb
compressione 3:1 => 30Tb 300 Gb / disco => 100 dischi! errori casuali 1 bit/Gb x mese => quotidianamente!

7 Motore di ricerca Scaricare Pulire e comprimere Assegnare Ogni motore di ricerca decide come suddividere le attività tra i vari moduli

8 Crawling Crawler (robot, spider, ecc…) è eseguito su una sola macchina (non è un virus). Scarica una pagina per volta con semplici richieste HTTP (e risoluzione di DNS) Google fino a 3500 pagine al secondo con più crawler paralleli

9 Esempio di richiesta http
> telnet 80 GET /path/file.html HTTP/1.1 Host: 200 OK Content-Type: text/html Content-Length: 200 <HTML><HEAD> <TITLE> New Document </TITLE> ...

10 Netiquette Leggere il robot.txt per il Robot Exclusion
Evitare di usare risorse significative di un singolo server: Tempo minimo tra due richieste Distribuire più server per crawler ed evitare che più crawler “attacchino” lo stesso server In caso di piccolo crawler sfruttare tempi morti per l’analisi delle pagine scaricate

11 Risoluzione dei DNS costosa
Procede per chiamate successive Mantenere delle tabelle per non ripetere le chiamate

12 URL Server Alcuni degli aspetti già visti (robot.txt, DNS chace, ecc…)
Politica per la visita del grafo: BFS, DFS Priority (PageRank) ecc…

13 BFS Buona strategia: le pagine linkate da quelle iniziali (accreditate) vengono visitate prima. Test dimostrano che è competitiva rispetto ad una visita con priorità basata su PageRank parziale (buona ma costosa).

14 BFS e Spam Passo 1: una sola pagina
Passo 2: circa 10 pagine (il grado uscente medio di una pagina HTML è 10). Passo 3: circa 100 pagine. Di cui 1 di spam = 1%. Una pagina di spam può generare anche 1000 link a pagine virtuali di spam. Passo 4: circa 2000 pagine di cui 1000 di spam = 50%. Passo 5: circa 1.01ml pagine di cui 1ml di spam = 99%.

15 Aggiornamento Gestire le pagine già visitate (data di modifica con http, MD5, ecc…) e la frequenza di aggiornamento (Zipf)

16 Mirror Identificare e gestire i siti mirror per evitare di avere nell’indice tante pagine identiche Fino al 30% delle pagine Internet sono mirror di altre pagine!

17 Caratteristiche necessarie:
ROLLBACK crash inevitabili richiedono un salvataggio continuo dei dati e la possibilità di ripartire dal momento del malfunzionamento, RICONFIGURAZIONE A CALDO il carico di CPU e banda deve poter essere modificato nel corso del crawl, così come altri parametri, TEST costruite da subito una infrastruttura per i test, che non richieda l’uso di banda “esterna”.


Scaricare ppt "Crawling Saverio Caminiti."

Presentazioni simili


Annunci Google