Motori di Ricerca presente e futuro prossimo

Slides:



Advertisements
Presentazioni simili
L’algoritmo PageRank.
Advertisements

IlTrovatore S.p.a. IlTrovatore RemoteSearch IlTrovatore mette a disposizione di portali Internet, piccole e medie imprese, tutto il suo know-how nel settore.
Modulo 1 – Ambiente di lavoro Windows 7
Informatica Modulo 4 – Ricerca di informazioni nel web.
SISTEMA INFORMATIVO AZIENDALE
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
Sintesi della legislazione dellUE: unintroduzione 2009.
Sintesi della legislazione dellUE: unintroduzione 2008.
Unintroduzione a…PowerWeb. n Articoli attuali n Notizie specifiche per il proprio corso n Aggiornamenti settimanali n Esercizi interattivi n Centinaia.
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
24 febbraio 2011 Il sito di IRIS a cura di Elena Franchi.
<Nome del gruppo di lavoro>
Promozione presso le Camere di Commercio dei servizi ICT avanzati resi disponibili dalla banda larga Camera di Commercio di Parma Parma.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: i motori di ricerca e la gestione dellinformazione biomedica CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE.
Il più grande database di abstracts tecnico-scientifici –14,000 riviste peer reviewed (entro la fine del 2004, comprese 1700 riviste Elsevier) –4,000.
Costruire un portale con Docebo Seminario residenziale CIBER Pescara maggio 2007 Nunzio Femminò CAB Università di Messina
1 Il servizio di prestito e fornitura documenti ILL-SBN Trieste -13 novembre 2008 Antonella Cossu.
MODALITÀ DI ACQUISIZIONE DEL SOFTWARE APPLICATIVO Paolo Atzeni Dipartimento di Informatica e Automazione Università Roma Tre 03/12/2008 (materiale da:
Crawling Saverio Caminiti.
CORSO DI RICERCA BIBLIOGRAFICA 4. giornata (20 marzo 2008) Web of Science Beilstein e Gmelin Crossfire.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Data mining for e-commerce sites
©2003 Dalmine Energie | Page 1 | Milano, 14 gennaio 2004 Accordo di collaborazione tra GAS INTENSIVE e Dalmine Energie.
Learning by digital doing. LYNX si occupa da oltre 15 anni di tecnologie per l'educazione, a tutti i livelli. Multimedia – E-learning – Web Progettazione.
Cos’è un CMS? Content Management System
La democrazia della rete Siamo tutti liberi di leggere, liberi di pubblicare, liberi di comunicare … …nel web libero. Un diritto fondamentale di tutti.
Nuove tecnologie e Didattica della Storia
DBMS ( Database Management System)
Large linguistically-processed Web corpora for multiple languages Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese.
INDEX. HOME PAGE La pagina è composta da una banda in alto (titolo del sito, orologio digitale, stato aggiornamenti e punto in cui ci si trova) e da 3.
Trattamento di Foto e Immagini Digitali
Norman SecureTide Soluzione sul cloud potente per bloccare le spam e le minacce prima che entrino all'interno della rete.
Studio di euristiche per il miglioramento di algoritmi di ranking per il World-Wide Web Università degli Studi di Milano Corso di Laurea in Informatica.
EMMEBIT SISTEMI S.a.S. di Marco Bonafede & C. Via Mario Greppi, 34 – Robbiate (LC) – Tel: – – Web:
La biblioteca organizza il Web parte II: OpenCMS per gestire siti Nuove tecnologie per le biblioteche digitali.
Portale CST. Descrizione e funzionalità del Portale CST Home page regionale Home page pubblica del CST Presentazione del CST Adesione al CST Home page.
CampusBlog - Campuswin Sistema Informativo di Ateneo CampusBlog.
Applicazioni di modelli matematici alla ricerca semantica
Test Reti Informatiche A cura di Gaetano Vergara Se clicchi sulla risposta GIUSTA passi alla domanda successiva Se clicchi sulla risposta ERRATA passi.
Regione Puglia Comune di Lecce I. I.S.S. A. De Pace Unione Europea - FSE
Internet Ricerche nel web Gli indici sistematici (directory)
BROKER SERVER Progetto di Ingegneria del Web 2008 Alessio Bianchi Andrea Gambitta Giuseppe Siracusano.
Motori di Ricerca presente e futuro prossimo
Motori di Ricerca presente e futuro prossimo
Progetto DATA - Seminario 25 Novembre DED (Data Entry Designer) Applicativo WEB Free & Open Source A disposizione di tutti: Utilizzabile sul server.
Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.
PawerPoint home page Costruzioni siti web Registrazioni domini Acquisto hosting Modifica siti già esistenti Clicca su e ………………prosegui…> Avanti.
GAUDI Carpi 29 settembre 2009.
Web Communities and their identificaton
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
Università la Sapienza di Roma STUDENTE: Vincenzi Federico Via Carlo Marx, 7 - Caprarola (VT) matricola: CORSO Laboratorio di Basi di Dati II.
Laurea specialistica in pianificazione e politiche per lambiente Progettazione operativa ed utilizzo di un archivio sulle tecnologie di bonifica Ing. Stefania.
È una raccolta di risorse Internet per la didattica, selezionate e organizzate in una rassegna vasta, aggiornata quotidianamente a libero accesso, per.
Larry Page e Sergey Brin INVENTORI DI GOOGLE. Quando avete ideato il progetto Google? Eravamo due giovani studenti di Stanford di 25 anni con il pallino.
1 Sharpdesk Descrizione generale Editoria ComposerRicerca Elaborazione immagini.
Search Engine Optimization: Teoria e Sperimentazione pratica Tesi di Soraya Abo Abia matr /25 Rel. Prof Marco Porta Correl. Prof Paolo Costa UNIVERSITA’
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
Wikipedia, l’enciclopedia libera Bressanone/Brixen 11 novembre 2005.
I Servizi per la fruizione delle risorse culturali Oriana Cuccu, Benedetta Stratta Servizi ai cittadini e modernizzazione Amministrativa: fatti e numeri.
La nuove frontiera dell’informazione online (parte terza) Andrea Muti - Editoria online - Università degli Studi Roma Tre.
Titolo della sezione Eventuale sottotitolo Formazione Volontari SCN 2011 Centro Linguistico di Ateneo - Mediateca Motori di ricerca non solo Google.
SEMINARIO WEB PROMOTION: I MOTORI DI RICERCA Letizia Catarini.
Tutor Domenico Cocciaglia PARTE INTRODUTTIVA LEZIONE 1 CORSO BASE INFORMATICA /07/20151.
Eprogram SIA V anno.
Flipped classroom e nuove metodologie didattiche Modulo 2 – Terza lezione Antonio Todaro “ Il Sito Web del docente ” prima parte.
Andrea Santo Sabato Seo Senior MediaSoft s.r.l. E Tourism: SEO/SEM e Web Strategy.
LA STORIA DI. CHE COS'E' UN MOTORE DI RICERCA? Un motore di ricerca (in inglese search engine) è un sistema automatico che su richiesta analizza un insieme.
Il contributo di Poste Italiane in vista del prossimo censimento nazionale Novembre, 2009 Nuova Offerta di servizi a supporto dei comuni per gli adempimenti.
… Dedicated Micros presenta un nuovo DVR ibrido? Sapevate che...
LA SCUOLA IN RETE Strumenti web al servizio della comunicazione scolastica Roberto Bondi Progetto Marconi - CSA Bologna ISI Direttissima – Castiglione.
Transcript della presentazione:

Motori di Ricerca presente e futuro prossimo Cosa è un motore di ricerca ? Paolo Ferragina, Università di Pisa

Un lavoro storico: Brin & Page [1998] Paolo Ferragina, Università di Pisa

Motore di Ricerca: struttura ? Archivio Pagine Crawler Analizzatore pagine Web Query Risolutore Indicizzatore Analizzatore Rilevanza Testo Struttura Utilità Controllo Paolo Ferragina, Università di Pisa

Il Web “Surface Web”: 25 ÷ 75 Terabytes (1Tb = 1000 Gb) 6 miliardi di pagine (cambiano circa 10 milioni al giorno) Pagina in media 5 ÷ 40Kb, #links ~ 10 Circa il 23% delle pagine è duplicato “Hidden Web”: circa 500 volte più grande Siti intranet, database, pagine dinamiche,… Circa 4,200 Tb di dati testuali interessanti Paolo Ferragina, Università di Pisa

Una immagine pittorica del Web Paolo Ferragina, Università di Pisa

Alcuni dati Paolo Ferragina, Università di Pisa

rispetto prima settimana Velocità di cambiamento [snapshot settimanale nel 2004: 154 web sites, 35 mil pg, 65Gb] Normalizzata rispetto prima settimana Paolo Ferragina, Università di Pisa

Motori di Ricerca presente e futuro prossimo Cosa è un crawler ? Paolo Ferragina, Università di Pisa

Fase di Crawling Numerosi problemi di progettazione: Copertura: Quali pagine occorre visitare ? Aggiornamento: Quanto spesso occorre visitarle ? Invadenza: Come minimizzare il carico dei siti visitati ? Efficienza: Come parallelizzare il processo di “crawling” ? Scalabilità: Come gestire il “flusso” di pagine ? Paolo Ferragina, Università di Pisa

“Ciclo di vita” di un Crawler Link Extractor while(<ci sono pagine da esaminare nel repository>){ <prendi una pagina p> <estrai i link contenuti in essa> <inserisci i link estratti in una coda, ciascuno con una priorità dipendente dalla politica scelta> <marca p come pagina da cui abbiamo estratto i link> } Downloader while(<ci sono link assegnati dal Manager>){ <estrai i link> <scarica le pagine pi dalla rete> <invia le pi al page repository> } Crawler Manager <estrai un gruppo di link dalla coda in ordine di priorità> while(<ci sono link nel gruppo>){ foreach link u { if ( (u  “pagine già viste” ) || ( u  “pagine già viste” && <sul Web server la pagina è più recente> ) && ( <u è un link accettato dal robot.txt del sito>) ) { <risolvi u rispetto al DNS> <invia u alla coda dei downloaders> } } Paolo Ferragina, Università di Pisa

Politica di selezione delle pagine Data una pagina P, definire quanto sia “buona”. Esistono molte metriche: Guidate dal topic coperto dal motore Guidate dalla popolarità BFS, DFS, Random Strategie combinate 4 7 7 6 3 5 1 1 6 4 2 2 BFS 5 3 DFS Paolo Ferragina, Università di Pisa

Raggiungimento di pagine interessanti Paolo Ferragina, Università di Pisa

Alcuni risultati Paolo Ferragina, Università di Pisa

Focused Crawling Si scelgono selettivamente le pagine sulle quali continuare la visita, in accordo a un insieme di topic rilevanti definiti apriori. I topic sono specificati mediante documenti campione I topic sono specificati mediante indirizzi Risparmio di risorse di rete e di hardware. Esempi di crawler open-source Nutch, also used by Yahoo Hentrix, used by Archive.org Paolo Ferragina, Università di Pisa