La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Crawling Saverio Caminiti. Il grafo di Internet Sul grafo di Internet Pacchetti o stream Email, News, Web, Chat IRC, P2P, VoIP, Videoconferenze, ecc..

Presentazioni simili


Presentazione sul tema: "Crawling Saverio Caminiti. Il grafo di Internet Sul grafo di Internet Pacchetti o stream Email, News, Web, Chat IRC, P2P, VoIP, Videoconferenze, ecc.."— Transcript della presentazione:

1 Crawling Saverio Caminiti

2 Il grafo di Internet

3 Sul grafo di Internet Pacchetti o stream , News, Web, Chat IRC, P2P, VoIP, Videoconferenze, ecc..

4 Grafo del Web

5 Sul grafo del web URL = Uniform Resource Locator Pagine HTML contenenti: Immagini, suoni, video VRML, Applet, shockwave altri oggetti embedded Link verso: Altre pagine HTML File in qualsiasi formato (http e ftp)

6 Spazio e tempo (8.8 miliardi di pagine) x (10Kb/pagina) = 88Tb compressione 3:1 => 30Tb 300 Gb / disco => 100 dischi! errori casuali 1 bit/Gb x mese => quotidianamente!

7 Motore di ricerca Scaricare Pulire e comprimere Assegnare Ogni motore di ricerca decide come suddividere le attività tra i vari moduli

8 Crawling Crawler (robot, spider, ecc…) è eseguito su una sola macchina (non è un virus). Scarica una pagina per volta con semplici richieste HTTP (e risoluzione di DNS) Google fino a 3500 pagine al secondo con più crawler paralleli

9 Esempio di richiesta http > telnet 80 GET /path/file.html HTTP/1.1 Host: 200 OK Content-Type: text/html Content-Length: 200 New Document...

10 Netiquette Leggere il robot.txt per il Robot Exclusion Evitare di usare risorse significative di un singolo server: Tempo minimo tra due richieste Distribuire più server per crawler ed evitare che più crawler attacchino lo stesso server In caso di piccolo crawler sfruttare tempi morti per lanalisi delle pagine scaricate

11 Risoluzione dei DNS costosa Procede per chiamate successive Mantenere delle tabelle per non ripetere le chiamate

12 URL Server Alcuni degli aspetti già visti (robot.txt, DNS chace, ecc…) Politica per la visita del grafo: BFS, DFS Priority (PageRank) ecc…

13 BFS Buona strategia: le pagine linkate da quelle iniziali (accreditate) vengono visitate prima. Test dimostrano che è competitiva rispetto ad una visita con priorità basata su PageRank parziale (buona ma costosa).

14 BFS e Spam Passo 1: una sola pagina Passo 2: circa 10 pagine (il grado uscente medio di una pagina HTML è 10). Passo 3: circa 100 pagine. Di cui 1 di spam = 1%. Una pagina di spam può generare anche 1000 link a pagine virtuali di spam. Passo 4: circa 2000 pagine di cui 1000 di spam = 50%. Passo 5: circa 1.01ml pagine di cui 1ml di spam = 99%.

15 Aggiornamento Gestire le pagine già visitate (data di modifica con http, MD5, ecc…) e la frequenza di aggiornamento (Zipf)

16 Mirror Identificare e gestire i siti mirror per evitare di avere nellindice tante pagine identiche Fino al 30% delle pagine Internet sono mirror di altre pagine!

17 Caratteristiche necessarie: ROLLBACK crash inevitabili richiedono un salvataggio continuo dei dati e la possibilità di ripartire dal momento del malfunzionamento, RICONFIGURAZIONE A CALDO il carico di CPU e banda deve poter essere modificato nel corso del crawl, così come altri parametri, TEST costruite da subito una infrastruttura per i test, che non richieda luso di banda esterna.


Scaricare ppt "Crawling Saverio Caminiti. Il grafo di Internet Sul grafo di Internet Pacchetti o stream Email, News, Web, Chat IRC, P2P, VoIP, Videoconferenze, ecc.."

Presentazioni simili


Annunci Google