Focused Crawler Arlind Kopliku Dicembre 2006. Riferimenti Focused Crawling: A new approach to Topic-Specific Resource Discovery - Soumen Chakrabarti,

Slides:



Advertisements
Presentazioni simili
Dott. Nicola Ciraulo Internet ed il Web Dott. Nicola Ciraulo
Advertisements

TIC per ricerca e condivisione dell'informazione
L’algoritmo PageRank.
IlTrovatore S.p.a. IlTrovatore RemoteSearch IlTrovatore mette a disposizione di portali Internet, piccole e medie imprese, tutto il suo know-how nel settore.
Informatica Modulo 4 – Ricerca di informazioni nel web.
Dati Nielsen//NetRatings
Portale PESC/PSDC Unità PESC/PSDC, Direzione Generale Affari Politici e di Sicurezza (DGAP), Ministero degli Affari Esteri. Documenti e decisioni della.
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
Associazione Italiana Utenti ExLibris Pinassi Michele System manager ASB – Università degli Studi di Siena Cataloghi fuori di sé
Sistemi di supporto alle decisioni 2. Features space
Introduzione al corso Istituzioni di Economia Parte II Istituzioni di Economia CLES.
Roma, 12 marzo 2001 Enrica Massella Ducci Teri Sintesi della giornata svolta su "Analisi e verifica della qualità dei dati" del 26 febbraio.
Percorso: la rappresentazione dei dati
La piattaforma di BI si basa essenzialmente su un sistema di metadati centralizzato che garantisce la consistenza delle informazioni e consente la navigazione.
Comitato metodologie 17 novembre 2010 Ricognizione delle competenze metodologiche all'interno dell'Istituto: bozza questionario – osservazioni pervenute.
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
ON LINE ANALYTICAL TRANSACTION PROCESSING (OLAP)
Apprendimento Non Supervisionato
Approcci avanzati alla ricerca in rete. La capacità dellutente Information literacy: imparare a cercare su Internet La situazione: –problemi di Internet.
IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web
La Ricerca in Rete Danco Singer novembre 2002 novembre 2002 Master in Editoria Multimediale La Ricerca in Rete: strategie di navigazione.
Calcolo di PageRank: esercizio
Modelli probabilistici
Relevance Feedback. Query Expansion. Argomenti 1.Relevance feedback - Direct feedback - Pseudo feedback 2.Query expansion - Usando un thesaurus.
Crawling Saverio Caminiti.
Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Lavoro svolto da Veronica Mancin
4 Cosa è una rete? ã Punto di vista logico: sistema di dati ed utenti distribuito ã Punto di vista fisico: insieme di hardware, collegamenti, e protocolli.
1 CSB di Economia Le nuove risorse per linformazione online settembre 2006 SFX cosa è e a cosa serve SFX è un software acquisito e implementato dallAteneo.
La ricerca in rete e la comunicazione/collabor azione Laboratorio Le fonti e la ricerca nel web.
Comitato metodologie 9 luglio 2010 Costituzione di una rete per linnovazione metodologica nella produzione statistica.
Large linguistically-processed Web corpora for multiple languages Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese.
AMS - DICEMBRE 2001 UTENZA DA CASA & UFFICIO Copyright Nielsen//NetRatings 1 Legenda Active Internet Universe Tutti i membri delluniverso che usano Internet.
Database & Information Retrieval
Applicazioni di modelli matematici alla ricerca semantica
Internet Ricerche nel web Gli indici sistematici (directory)
BROKER SERVER Progetto di Ingegneria del Web 2008 Alessio Bianchi Andrea Gambitta Giuseppe Siracusano.
ACCESS Introduzione Una delle necessità più importanti in informatica è la gestione di grandi quantità di dati. I dati possono essere memorizzati.
Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.
Motori di Ricerca presente e futuro prossimo
Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione.
Ipertinenza lintelligenza dei motori di ricerca. Livelli di pertinenza Pertinenza (da per-tenere, appartenere) Si tratta delle domande tanto quanto delle.
STATISTICA PER LE DECISIONI DI MARKETING
Valutazione delle prstazioni di un sistema di retrieval
Web Communities and their identificaton
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
PERCHÉ L’ATTIVITÀ SEO È IMPORTANTE PER IL TUO BUSINESS
I LEGAMI E LE DIFFERENZE TRA OBIETTIVI, INDICATORI E TARGET DALLA PROGETTAZIONE ALLA PIANIFICAZIONE IPS "L.MILANI" 11 OTTOBRE 2013.
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
ECOSYSTEM FUNCTION MODEL AUTORE: Modello realizzato da Hydrologic Engineering Center (HEC) della US Army Corps of Engineers FINALITA': E' uno strumento.
Tipo Documento: unità didattica 4 Modulo 14 Compilatore: Antonella Bolzoni Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione.
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
Education & Training Microsoft FrontPage 98 Intranet ? Le reti Intranet consentono ai gruppi di lavoro di condividere le informazioni in modo rapido, efficiente.
InternetInternet Sede: Salvo D’acquisto 2010/2011 Docente: Vito Monno.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
1 Gestione della Memoria Capitolo Introduzione alla gestione della memoria 4.2 Swapping 4.3 Memoria virtuale 4.4 Implementazione 4.5 Algoritmi di.
Flusso di Costo Minimo Applicazione di algoritmi: Cammini Minimi Successivi (SSP) Esercizio 1 Sia data la seguente rete di flusso, in cui i valori riportati.
SEMINARIO WEB PROMOTION: I MOTORI DI RICERCA Letizia Catarini.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
ICT e Sistemi informativi Aziendali Materiale di supporto alla didattica.
SISR-USABILITÀ VALUTAZIONE DI USABILITÀ (fonte prof. Polillo)
Cercare In Internet. Cercare in Rete La scuola ha un ruolo preciso in relazione a quella che nei paesi anglosassoni viene denominata: Information Literacy.
I media interattivi. Laurillard: 5 tipi di media Narrativi stampa tv, cassette audio, video,dvd Ascoltare vedere, apprendere InterattiviIpertesto multimedia.
Andrea Santo Sabato Seo Senior MediaSoft s.r.l. E Tourism: SEO/SEM e Web Strategy.
Come Orientarsi. 2 Se ti colleghi da fuori Azienda: Senza password: medico-sicentifica-on-linehttp://
Software aggiornato nel 2014 dalla U.S. Army Corps of Engineers’
Posizionamen to siti web Sei proprietario di uno o più siti internet? Hai problemi con il posizionamento sui motori di ricerca dei tuoi siti internet?
PHP HyperText Prepocessor.  Linguaggio di scripting lato server sviluppato per generare pagine web.  Permette ad un sito web di diventare dinamico 
Transcript della presentazione:

Focused Crawler Arlind Kopliku Dicembre 2006

Riferimenti Focused Crawling: A new approach to Topic-Specific Resource Discovery - Soumen Chakrabarti, Martin van den Berg, Byron Dom, IBM Almaden Reasearch Center Mining the web - Morgan Kauffman Focused Crawling using context graphs – M.Diligenti, F.M Coetzze, S.Lawrence - Web surveyswww.Netcraft.org

Il focused crawler Il focused crawler è un gestionale dellinformazione ipertestuale. Esso cerca solo le pagine rilevanti a un certo insieme di argomenti. Invece di raccogliere tutte le pagine ipertestuali accessibili, per essere capace a rispondere a tutte le queries possibili, il focused cralwer analizza il suo confine cercando i link più rilevanti per lui. Evita cosi regioni inutili del web.

General-purpose crawler vs focused crawler Non è molto costoso Basta un PC Deve ricoprire una picola percentuale del web laggionamento è più veloce Non è dispersivo Da risposte solo dentro il dominio di ricerca Propone soluzioni a base di persona, campo di ricerca, argomenti, etc È costoso hw, risorse rete richiede enorme copertura del web aggiornamento lento E dispersivo Le risposte ottenute alle query sono spesso fuori dal dominio del qualle noi siammo interessati E una soluzione one-size fits all Focused crawlerGeneral-purpose crawler

La crescita del www NetcraftNetcraft's latest Web survey found 101,435,253 websites in November 2006

: Explosive growth, at a rate of 850% per year : Rapid growth, at a rate of 150% per year : Maturing growth, at a rate of 25% per year. Solo nel mese di novembre sono state aggiunti 3.5 milioni di nuovi siti. Il numero di pagine attuali del web si aggirà sulla decina di miliardi. Ci possiamo aspetare 200 milioni di siti per il 2010.

Statistiche sulle ricerche sui motori di ricerca piu famosi 6,40213Total 1666Others 37813Ask 48616AOL 84528MSN 1,79260Yahoo 2,73391Google Per Month (Millions)Per Day (Millions)Searches

Copertuara attuale web dai motori di ricerca : 30%-40% Laggiornamento dura da una settimana a mesi. Le risposte alle query sono spesso dispersive

Introduzione al focused crawler E un crawler a priorità Focalizzato su un insieme di argomenti (topic) Espande il suo dominio di ricerca solo a partire da pagine rilevanti Ha un sistema di valutazione di rilevanza e autorità E più difficile del general-purpose crawling

Focused Crawler URL seed Frontiera: i nodi rilevanti con link ancora inesplorati Composto da Crawler Rating system (Sistema di valutazione) Classificatore ipertestuale Il crawler fa i seguenti passi: Trova la pagina con priorità massima t.c sia rilevante Recupera le pagine linkate ad essa Classifica le pagine recuperate Valuta la loro rilevanza ed autorevolezza Ripete dal primo passo Fetch Il focused crawler ha le seguenti modalità operazionali: Imparare da esempi: nella fase iniziale. Scoprire risorse: grandi quantità in tempi rapidi, mantenendo alta rilevanza al topic. Ricognizionamento: identificare le pagine che portano al più possibile di pagine rilevanti. Mantenimento: verificare il materiale già recuperato.

Focused Crawler Administration Il focused crawler necessita dellintervento umano in 2 forme: –Costruzione di tassonomie basilari dei più importanti topic –Indicazione da parte dellutente delle categorie (e relative sottocategorie) in cui è interessato Le tassonomie sono strutturate in un master category tree e forniscono una base sulla quale lutente mappa i propri interessi. Perché mappare i topic su una gerarchia di categorie fissate? –Per poter riutilizzare il classifier-training: produrre lalbero una volta sola; utilizzare la nuova, ampia conoscenza come espansione del set di traning. –Per migliorare il modello di classe negativa gli esempi negativi sono fonte di informazione. –Per scoprire classi correlate che inizialmente non erano naturalmente correlate.

Focused Crawler Administration Il primo passo consiste nel mappare i topic in una serie di nodi allinterno del master category tree. Il classificatore dirotta i documenti al miglior nodo associato nellalbero delle categorie. Lamministratore può comunque fornire feedback in tre modi: –Correggendo classificazioni –Eliminando classi –Raffinando classi A questo punto può essere lanciato il crawler.

System Architecture La rilevanza è calcolata usando un hypertext classificator, assumendo che la tassonomia imponga una partizione gerarchica dei documenti R(d) = Σ good(c) Pr[c|d] La tabella del documento ha 2 campi inerenti alla tassonomia: –Relevance settata a R(d) –cid rappresenta il nodo che meglio associa al documento Yamaha d riguardante Vale Rossi radice tortemoto Ducati 1 0,80,1 0,860,3

La relevanza di un documento Il documento è visto come bag of words

System Architecture Oltre alla rilevanza, si calcola il popularity rating sulla base dellalgoritmo di HITS, generando un mutuo rinforzo sulla base: a[v] = Σ (u,v) E h[u] h[u] = Σ (u,v) E a[v] Un diverso algoritmo prevede di considerare anche la rilevanza: 1. Si seleziona una soglia di rilevanza; 2. Attraverso delle iterazioni si calcola a[v] come R[u]/h[u,v] e h[u] come R[u]/a[u,v]; 4. Cambieremo il valore di autorevolezza solo a quelle pagine che superano il valore R[x] > ;

HITS: authority score e hub score Per il calcolo di a[v] u1 u2 u3 v Per il calcolo di h[u] v1 v2 v3 u Il valore di hub di u è dato dalla somma dei valori di autorevolezza dei v puntati da u. Una pagina u è tanto più un buon hub quanto più punta a pagine autorevoli. Il valore di autorevolezza di v è dato dalla somma dei valori di hub degli u che puntanto a v. Una pagina v è tanto più autorevole quanto più è puntata da buoni hub.

Crawling Strategies Due tipologie di focused crawling: –Hard crawling Il problema di questo metodo è la possibilità di perdere informazioni sensibili riguardo il topic in questione (crawl stagnation: fallendo nellacquisizione di pagine rilevanti addizionali) –Soft crawling Questo metodo pecca del problema inverso, ovvero il rischio di una quantità di informazioni non eccessivamente in co-relazione con il topic in esame (crawl diffusion: accumulando troppo poche pagine rilevanti)

Evaluation Ci sono fondamentalmente 4 misure per valutare le performance di un crawler: –Relevance (precision) –Coverage (recall) spesso difficilmente calcolabile –Refresh rate spesso difficilmente calcolabile –Quality

Evaluation