La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un motore di ricerca ?

Presentazioni simili


Presentazione sul tema: "Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un motore di ricerca ?"— Transcript della presentazione:

1 Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un motore di ricerca ?

2 Paolo Ferragina, Università di Pisa Un lavoro storico: Brin & Page [1998]

3 Paolo Ferragina, Università di Pisa Motore di Ricerca: struttura Web Crawler Archivio Pagine Analizzatore pagine Controllo Query Risolutore ? Analizzatore Rilevanza Testo Struttura Utilità Indicizzatore

4 Paolo Ferragina, Università di Pisa Il Web Surface Web: 25 ÷ 75 Terabytes (1Tb = 1000 Gb) 6 miliardi di pagine (cambiano circa 10 milioni al giorno) Pagina in media 5 ÷ 40Kb, #links ~ 10 Circa il 23% delle pagine è duplicato Hidden Web: circa 500 volte più grande Siti intranet, database, pagine dinamiche,… Circa 4,200 Tb di dati testuali interessanti

5 Paolo Ferragina, Università di Pisa Una immagine pittorica del Web

6 Paolo Ferragina, Università di Pisa Alcuni dati

7 Paolo Ferragina, Università di Pisa Velocità di cambiamento [snapshot settimanale nel 2004: 154 web sites, 3 5 mil pg, 65Gb] Normalizzata rispetto prima settimana

8 Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un crawler ?

9 Paolo Ferragina, Università di Pisa Fase di Crawling Numerosi problemi di progettazione: Copertura: Quali pagine occorre visitare ? Aggiornamento: Quanto spesso occorre visitarle ? Invadenza: Come minimizzare il carico dei siti visitati ? Efficienza: Come parallelizzare il processo di crawling ? Scalabilità: Come gestire il flusso di pagine ?

10 Paolo Ferragina, Università di Pisa Link Extractor while( ){ } Downloader while( ){ } Crawler Manager while( ){ foreach link u { if ( (u pagine già viste ) || ( u pagine già viste && ) && ( ) ) { } } Ciclo di vita di un Crawler

11 Paolo Ferragina, Università di Pisa Politica di selezione delle pagine Data una pagina P, definire quanto sia buona. Esistono molte metriche: Guidate dal topic coperto dal motore Guidate dalla popolarità BFS, DFS, Random Strategie combinate BFS DFS

12 Paolo Ferragina, Università di Pisa Raggiungimento di pagine interessanti

13 Paolo Ferragina, Università di Pisa Alcuni risultati

14 Paolo Ferragina, Università di Pisa Focused Crawling Si scelgono selettivamente le pagine sulle quali continuare la visita, in accordo a un insieme di topic rilevanti definiti apriori. I topic sono specificati mediante documenti campione I topic sono specificati mediante indirizzi Risparmio di risorse di rete e di hardware. Esempi di crawler open-source Nutch, also used by Yahoo Hentrix, used by Archive.org


Scaricare ppt "Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Cosa è un motore di ricerca ?"

Presentazioni simili


Annunci Google