2004/2005Marco Gori1 Basi Documentali in Ambienti di Hyperlinks Oltre la navigazione...

Slides:



Advertisements
Presentazioni simili
L’algoritmo PageRank.
Advertisements

Capitolo 8 Sistemi lineari.
Laboratorio Processi Stocastici
Informatica Generale Marzia Buscemi
Informatica Generale Alessandra Di Pierro
METODI EQUAZIONI DIFFERENZIALI Funzioni che mettono in relazione una variabile indipendente ( es. x), una sua funzione ( es. y = f(x) ) e la.
6. Catene di Markov a tempo continuo (CMTC)
Costruire una Home Page La homepage rappresenta la vostra faccia nel mondo. I vostri clienti prima di iniziare qualche affare con voi cercheranno la vostra.
Riconoscimento di forme
Memoria virtuale Memoria virtuale – separazione della memoria logica dell’utente dalla memoria fisica. Solo alcune parti di un programma devono trovarsi.
Sistemi di supporto alle decisioni 2. Features space
Alberi binari di ricerca
6. Catene di Markov a tempo continuo (CMTC)
5. Catene di Markov a tempo discreto (CMTD)
3. Modelli di reti complesse
Iterazione enumerativa (for)
Apprendimento Non Supervisionato
Web Information Retrieval. Il World Wide Web Sviluppato da Tim Berners-Lee nel 1990 al CERN per organizzare documenti di ricerca disponibili su Internet.
Algoritmi e Strutture Dati
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
Stima ed algoritmi di consensus distribuito: considerazioni su IKF
Ricerca della Legge di Controllo
Calcolo di PageRank: esercizio
Algoritmi e Strutture Dati
Argomenti – Lezione 8 Modulo III --- Calcolo del PageRank Modulo IV --- Costruzione del Dizionario Globale delle Parole.
Crawling Saverio Caminiti.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
RISORSE WEB Internet Per un uso consapevole delle risorse della Rete
DBMS ( Database Management System)
Large linguistically-processed Web corpora for multiple languages Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese.
Social network Internet. Eun sito web di reti sociali, ad accesso gratuito. È il secondo sito più visitato al mondo, preceduto solo da Google. Il.
Biologia Computazionale - Algoritmi
2a Lezione: Martedì 6 Febbraio – HTML Comandi base
(Laboratorio di ) Sistemi Informatici Avanzati
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Internet Ricerche nel web Gli indici sistematici (directory)
HTML Lezione 5 Immagini. URL Un Uniform Resource Locator o URL (Localizzatore di risorsa uniforme) è una sequenza di caratteri che identifica univocamente.
Strutture dati per insiemi disgiunti
Motori di Ricerca presente e futuro prossimo
Motori di Ricerca presente e futuro prossimo
Algoritmi e Strutture Dati
Motori di Ricerca presente e futuro prossimo
2. Grafi.
Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione.
Creare pagine web Xhtlm. Struttura di una pagina.
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
Web Communities and their identificaton
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione.
BIOINFO3 - Lezione 41 ALTRO ESEMPIO ANCORA Progettare il comando di creazione di una tabella di pubblicazioni scientifiche. Come chiave usare un numero.
Studio degli indici per query di similarità basati su matrici di distanze Esame di Sistemi Informativi per le Decisioni L-S Presentato da: Ing. Marco Patella.
HTML I tag HTML (parte 1). I tag HTML  I comandi che il browser interpreta  Etichette per marcare l’inizio e la fine di un elemento HTML  Formato e.
CORSO Di WEB DESIGN prof. Leonardo Moriello
Implementazione di dizionari Problema del dizionario dinamico Scegliere una struttura dati in cui memorizzare dei record con un campo key e alcuni altri.
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
Internet e HTML Diffusione di informazioni mediante la rete Internet.
Capitolo 6 Alberi di ricerca Algoritmi e Strutture Dati.
Allievi Elettrici - AA Le funzioni ricorsive in C
Algoritmi e Strutture Dati Strutture Dati Elementari.
Titolo della sezione Eventuale sottotitolo Formazione Volontari SCN 2011 Centro Linguistico di Ateneo - Mediateca Motori di ricerca non solo Google.
1 Informatica Generale Alessandra Di Pierro Ricevimento: Giovedì ore presso Dipartimento di Informatica, Via Buonarroti,
Sistemi di elaborazione dell’informazione Modulo 3 -Protocolli applicativi Unità didattica 4 -Protocolli del Web Ernesto Damiani Lezione 1 – World Wide.
Servizi Internet Claudia Raibulet
Flusso di Costo Minimo Applicazione di algoritmi: Cammini Minimi Successivi (SSP) Esercizio 1 Sia data la seguente rete di flusso, in cui i valori riportati.
A.A Roma Tre Università degli studi “Roma Tre” Facoltà di Ingegneria Corso di Laurea in Ingegneria Elettronica Servizi di localizzazione a livello.
Suggerimenti [1d5] SE la prima lettera della matrice (in alto a sinistra, matrice[0,0]) è diversa dalla prima lettera della parola (parola[0]) ALLORA siamo.
1 Scrivere su web 1. 2 Ci occuperemo di: Analisi dell’emittente e dell’audience Testo e paratesto Contenuti Disposizione in pagina.
Lezione n° 10 Algoritmo del Simplesso: - Coefficienti di costo ridotto - Condizioni di ottimalità - Test dei minimi rapporti - Cambio di base Lezioni di.
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Se A e B sono variabili random statisticamente indipendenti P (2) (B,A)=P(B)P(A) P(A)=probabilità che la variabile stocastica A assuma un certo valore.
Transcript della presentazione:

2004/2005Marco Gori1 Basi Documentali in Ambienti di Hyperlinks Oltre la navigazione...

2004/2005Marco Gori2 Il Web Pubblicazione distribuita Informazione senza struttura Qualità non garantita, problemi di spamming. Il Web ha importanti aspetti commerciali.

2004/2005Marco Gori3 Il Web Alcune pagine hanno poco testo e molte immagini Varietà di languaggi, milioni di termini per il dizionario KB a pagina, oltre 10 miliardi di pagine, 10 links per pagina... Crescita giornaliera (milioni pag./giorno).

2004/2005Marco Gori4 Analisi dei Links Due approcci Ordinamento universale, query-independent di tutte le pagine web pages anche indipendente dal contenuto delle pagine Ordinamento query-specific

2004/2005Marco Gori5 Ordinamento Indipendente dalle queries Prima generazione: conta i links come misura di popolarità. Due suggerimenti : Popolarità indiretta: Ogni pagina riceve uno score = numero in-links più numero out-links (3+2=5). Popularità diretta: Score pagina = numero di in-links (3).

2004/2005Marco Gori6 Query processing Schema di risposta alle queries: 1. Trova tutte le pagine che soddisfano la query (esempio spoon river). 2.Ordina i documenti sulla base della loro popolarità

2004/2005Marco Gori7 Spamming Come aumentare la visibilità? score = numero in-links + numero out-links. Score = numero in-links.

2004/2005Marco Gori8 Pagerank Immagina un random walk sulle pagine web: - Parti da una pagina random - Ad ogni step, esci dalla pagina seguendo gli hyperlinks in modo equiprobabile - Se si stabilisce uno stato stazionario, usa la frequenza di visita come page score.

2004/2005Marco Gori9 Attenzione ai Pozzi! Il Web è pieno di pozzi. Con la random walk uno si può fermare in simili nodi. In tal caso il modello perde senso... ??

2004/2005Marco Gori10 La Connessione Diretta Ad ogni passo, con probabilità 1-d, salta ad una pagina. Con la rimanente probabilità d, segui un link casuale. Si elimina il problema dello stop

2004/2005Marco Gori11 Catene di Markov Catena di Markov: n stati, matrice n n transizione di probabilità P. Ad ogni step, siamo in uno degli stati. Per 1 i,j n, P ij è la probabilità che j sia il prossimo stato, dato che lo stato corrente è i. ij P ij

2004/2005Marco Gori12 Catene di Markov Esercizio: Scrivi le equazioni del random walk per questo caso:

2004/2005Marco Gori13 Catene Ergodiche Catene ergodiche: Se cè un cammino da ogni stato a ogni altro allora con il random walk uno po essere in ogni stato con probabilità non-zero.

2004/2005Marco Gori14 Catene Markov Ergodiche Per ogni catana di Markov ergodica, cè un unico long-term visit rate per ogni stato. Distribzione stazionaria degli stati. Su un lungo periodo, noi visitiamo ogni stato in proporzione a questa frequenza. Non importa da dove si parte!

2004/2005Marco Gori15 Vettori Probabilità x = (x 1, … x n ) ci dice dove il random walk si trova. (010…0) significa siamo nello stato 2. Più in generale, x = (x 1, … x n ) significa che la passeggiata porta ad i con probabilità x i.

2004/2005Marco Gori16 Trans. delle Probabilità x = (x 1, … x n ) è la probabilità ad un certo stato, che succede al prossimo step? Dallo stato x, il nostro prossimo stato è xP.

2004/2005Marco Gori17 Calcolo del Rate di Visita Stato stazionario: a = (a 1, … a n ): a i probabilità che siamo in i. 12 3/4 1/4 3/41/4 Per questo esempio, a 1 =1/4 e a 2 =3/4.

2004/2005Marco Gori18 In Generale? a = (a 1, … a n ) è il vettore stato stazion. Condizione di stazionarietà: a=aP Dunque si trovano gli autovettori di P

2004/2005Marco Gori19 Altro Metodo E in effetti un modo per determinare lautovettore. Parti da una qualunque distribuzione (e.g. x=(10…0)). Primo step:xP; Secondo, terzo,... step: xP 2, xP 3,... Stazionarità significa per grossi k, xP k = a. Algoritmo: multiplica x per potenze incrementali d P finchè il prodotto è stabile.

2004/2005Marco Gori20 Google e Pagerank Pagerank è usato in Google! Usa però un dumping paramter d … (d=0.85 … perchè non d=1?) Dettagli su questo meccanismo di scoring Inside PageRank, Bianchini-Gori- Scarselli, ACM-TOIT (to appear)

2004/2005Marco Gori21 Analisi Query-dependent Per ogni query, invece di una lista ordinata di pagine che soddisfano la query, trova due insiemi di pagine: Pagine Hub: buona lista di links su un argomento. e.g., la lista dei links su Linux Pagine Authority: pagine che vengono fuori con alta frequenza.

2004/2005Marco Gori22 Hubs e Authorities Buona hub per un certo argomento punta a molte pagine con alta autorità su quellargomento. Un buona authority per un certo argomento è puntata da molte buone hubs per quellargomento. Def. circolare - schema di calcolo iterativo.

2004/2005Marco Gori23 Schema di Elaborazione Estrai l insieme base delle pagine che potrebbero essere buone hubs o authorities. Identifica un piccolo insieme di pagine hub e authority di alto livello usa schema iterativo

2004/2005Marco Gori24 Insieme Base Data una query usa un indice per determinare le pagine che la soddisfano (insieme radice) Aggiungi ogni pagina t.c. Punta ad una pagina dellinsieme radice E puntata da una pagina nellinsieme radice. Chiama questo insieme base.

2004/2005Marco Gori25 LInsieme Base Insieme radice Insieme Base

2004/2005Marco Gori26 Assembl. Insieme Base Insieme radice: nodi. Insieme base: circa 5000 nodi. Come si trova linsieme base? Segui gli out-links dallinsieme radice. Prendi in-links (e out-links) da un connectivity server.

2004/2005Marco Gori27 Calcolo Hub e Authorities Per ogni x nellinsieme base calcola hub score h(x) e authority score a(x). Initializza: Per ogni x, h(x) 1; a(x) 1; Aggiorna iterativamente h(x), a(x); Dopo ogni iterazione, output delle pagine con la più alta h() e la più alta a(). Key

2004/2005Marco Gori28 Scheme Iterativo Ripeti per tutti gli x: x x

2004/2005Marco Gori29 Scaling Per prevenire valori troppo alti di h() e a() si scalano i termini dopo ogni iterazione. Non importa il fattore di scaling: Ci interessano solo i valori relativi.

2004/2005Marco Gori30 Quante iterazioni? In pratica: Convergenza dopo poche iterazioni: dimostrazione (dopo) ~5 iterazioni si va vicino alla stabilità.

2004/2005Marco Gori31 Note Metti assieme pagine independentemente dal linguaggio e dal contenuto, ma conta la query. Usa solo lanalisi dei links dopo aver assemblato linsieme base retrieval - overhead significativo.

2004/2005Marco Gori32 Convergenza: Dim. n n matrice adiacenza A: A ij = 1 se i connette a j, altrimenti =

2004/2005Marco Gori33 Vettori Hub/Authority Aggiornamento iterativo

2004/2005Marco Gori34 In Forma Matriciale h=Aa. a=A t h. A t è la trasposta di A. Sostituendo, h=AA t h e a=A t Aa. Convergenza: h è autovettore di AA t e a è autovettore di A t A.

2004/2005Marco Gori35 Tag/position heuristics Increm. i pesi dei termini nei titoli Increm. i pesi dei termini vicino linizio del doc, dei suoi capitoli e paragrafi...

2004/2005Marco Gori36 Anchor text Qui cè una splendida immagine di una tigre immagine tigre Cool tiger webpage Testo vicino hyperlink: è descrittivo della pagina che punta.

2004/2005Marco Gori37 Anchor Text: Due Usi 1. Quando si indicizza una pagina, si indicizza anche lanchor text dei links che la puntano. 2. Per pesare links nellalgoritmo hubs/authorities. Anchor text: preso tipicamente da finestra con 6-8 parole intorno un link anchor.

2004/2005Marco Gori38 Anchor text: Indicizzaz. Quando si indicizza D, si include lanchor Armonk, NY-based computer giant IBM announced today Joes computer hardware links Compaq HP IBM Big Blue today announced record profits for the quarter

2004/2005Marco Gori39 Riferimenti per la lezione The Anatomy of a Large-Scale Hypertextual Web Search Engine Authoritative Sources in a Hyperlinked Environment