La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

2004/2005Marco Gori1 Basi Documentali in Ambienti di Hyperlinks Oltre la navigazione...

Presentazioni simili


Presentazione sul tema: "2004/2005Marco Gori1 Basi Documentali in Ambienti di Hyperlinks Oltre la navigazione..."— Transcript della presentazione:

1

2 2004/2005Marco Gori1 Basi Documentali in Ambienti di Hyperlinks http://www.dii.unisi.it/~marco/bdm Oltre la navigazione...

3 2004/2005Marco Gori2 Il Web Pubblicazione distribuita Informazione senza struttura Qualità non garantita, problemi di spamming. Il Web ha importanti aspetti commerciali.

4 2004/2005Marco Gori3 Il Web Alcune pagine hanno poco testo e molte immagini Varietà di languaggi, milioni di termini per il dizionario 10-15 KB a pagina, oltre 10 miliardi di pagine, 10 links per pagina... Crescita giornaliera (milioni pag./giorno).

5 2004/2005Marco Gori4 Analisi dei Links Due approcci Ordinamento universale, query-independent di tutte le pagine web pages anche indipendente dal contenuto delle pagine Ordinamento query-specific

6 2004/2005Marco Gori5 Ordinamento Indipendente dalle queries Prima generazione: conta i links come misura di popolarità. Due suggerimenti : Popolarità indiretta: Ogni pagina riceve uno score = numero in-links più numero out-links (3+2=5). Popularità diretta: Score pagina = numero di in-links (3).

7 2004/2005Marco Gori6 Query processing Schema di risposta alle queries: 1. Trova tutte le pagine che soddisfano la query (esempio spoon river). 2.Ordina i documenti sulla base della loro popolarità

8 2004/2005Marco Gori7 Spamming Come aumentare la visibilità? score = numero in-links + numero out-links. Score = numero in-links.

9 2004/2005Marco Gori8 Pagerank Immagina un random walk sulle pagine web: - Parti da una pagina random - Ad ogni step, esci dalla pagina seguendo gli hyperlinks in modo equiprobabile - Se si stabilisce uno stato stazionario, usa la frequenza di visita come page score.

10 2004/2005Marco Gori9 Attenzione ai Pozzi! Il Web è pieno di pozzi. Con la random walk uno si può fermare in simili nodi. In tal caso il modello perde senso... ??

11 2004/2005Marco Gori10 La Connessione Diretta Ad ogni passo, con probabilità 1-d, salta ad una pagina. Con la rimanente probabilità d, segui un link casuale. Si elimina il problema dello stop

12 2004/2005Marco Gori11 Catene di Markov Catena di Markov: n stati, matrice n n transizione di probabilità P. Ad ogni step, siamo in uno degli stati. Per 1 i,j n, P ij è la probabilità che j sia il prossimo stato, dato che lo stato corrente è i. ij P ij

13 2004/2005Marco Gori12 Catene di Markov Esercizio: Scrivi le equazioni del random walk per questo caso:

14 2004/2005Marco Gori13 Catene Ergodiche Catene ergodiche: Se cè un cammino da ogni stato a ogni altro allora con il random walk uno po essere in ogni stato con probabilità non-zero.

15 2004/2005Marco Gori14 Catene Markov Ergodiche Per ogni catana di Markov ergodica, cè un unico long-term visit rate per ogni stato. Distribzione stazionaria degli stati. Su un lungo periodo, noi visitiamo ogni stato in proporzione a questa frequenza. Non importa da dove si parte!

16 2004/2005Marco Gori15 Vettori Probabilità x = (x 1, … x n ) ci dice dove il random walk si trova. (010…0) significa siamo nello stato 2. Più in generale, x = (x 1, … x n ) significa che la passeggiata porta ad i con probabilità x i.

17 2004/2005Marco Gori16 Trans. delle Probabilità x = (x 1, … x n ) è la probabilità ad un certo stato, che succede al prossimo step? Dallo stato x, il nostro prossimo stato è xP.

18 2004/2005Marco Gori17 Calcolo del Rate di Visita Stato stazionario: a = (a 1, … a n ): a i probabilità che siamo in i. 12 3/4 1/4 3/41/4 Per questo esempio, a 1 =1/4 e a 2 =3/4.

19 2004/2005Marco Gori18 In Generale? a = (a 1, … a n ) è il vettore stato stazion. Condizione di stazionarietà: a=aP Dunque si trovano gli autovettori di P

20 2004/2005Marco Gori19 Altro Metodo E in effetti un modo per determinare lautovettore. Parti da una qualunque distribuzione (e.g. x=(10…0)). Primo step:xP; Secondo, terzo,... step: xP 2, xP 3,... Stazionarità significa per grossi k, xP k = a. Algoritmo: multiplica x per potenze incrementali d P finchè il prodotto è stabile.

21 2004/2005Marco Gori20 Google e Pagerank Pagerank è usato in Google! Usa però un dumping paramter d … (d=0.85 … perchè non d=1?) Dettagli su questo meccanismo di scoring Inside PageRank, Bianchini-Gori- Scarselli, ACM-TOIT (to appear)

22 2004/2005Marco Gori21 Analisi Query-dependent Per ogni query, invece di una lista ordinata di pagine che soddisfano la query, trova due insiemi di pagine: Pagine Hub: buona lista di links su un argomento. e.g., la lista dei links su Linux Pagine Authority: pagine che vengono fuori con alta frequenza.

23 2004/2005Marco Gori22 Hubs e Authorities Buona hub per un certo argomento punta a molte pagine con alta autorità su quellargomento. Un buona authority per un certo argomento è puntata da molte buone hubs per quellargomento. Def. circolare - schema di calcolo iterativo.

24 2004/2005Marco Gori23 Schema di Elaborazione Estrai l insieme base delle pagine che potrebbero essere buone hubs o authorities. Identifica un piccolo insieme di pagine hub e authority di alto livello usa schema iterativo

25 2004/2005Marco Gori24 Insieme Base Data una query usa un indice per determinare le pagine che la soddisfano (insieme radice) Aggiungi ogni pagina t.c. Punta ad una pagina dellinsieme radice E puntata da una pagina nellinsieme radice. Chiama questo insieme base.

26 2004/2005Marco Gori25 LInsieme Base Insieme radice Insieme Base

27 2004/2005Marco Gori26 Assembl. Insieme Base Insieme radice: 200-1000 nodi. Insieme base: circa 5000 nodi. Come si trova linsieme base? Segui gli out-links dallinsieme radice. Prendi in-links (e out-links) da un connectivity server.

28 2004/2005Marco Gori27 Calcolo Hub e Authorities Per ogni x nellinsieme base calcola hub score h(x) e authority score a(x). Initializza: Per ogni x, h(x) 1; a(x) 1; Aggiorna iterativamente h(x), a(x); Dopo ogni iterazione, output delle pagine con la più alta h() e la più alta a(). Key

29 2004/2005Marco Gori28 Scheme Iterativo Ripeti per tutti gli x: x x

30 2004/2005Marco Gori29 Scaling Per prevenire valori troppo alti di h() e a() si scalano i termini dopo ogni iterazione. Non importa il fattore di scaling: Ci interessano solo i valori relativi.

31 2004/2005Marco Gori30 Quante iterazioni? In pratica: Convergenza dopo poche iterazioni: dimostrazione (dopo) ~5 iterazioni si va vicino alla stabilità.

32 2004/2005Marco Gori31 Note Metti assieme pagine independentemente dal linguaggio e dal contenuto, ma conta la query. Usa solo lanalisi dei links dopo aver assemblato linsieme base retrieval - overhead significativo.

33 2004/2005Marco Gori32 Convergenza: Dim. n n matrice adiacenza A: A ij = 1 se i connette a j, altrimenti =0. 12 3 1 2 3 123123 0 1 0 1 1 1 1 0 0

34 2004/2005Marco Gori33 Vettori Hub/Authority Aggiornamento iterativo

35 2004/2005Marco Gori34 In Forma Matriciale h=Aa. a=A t h. A t è la trasposta di A. Sostituendo, h=AA t h e a=A t Aa. Convergenza: h è autovettore di AA t e a è autovettore di A t A.

36 2004/2005Marco Gori35 Tag/position heuristics Increm. i pesi dei termini nei titoli Increm. i pesi dei termini vicino linizio del doc, dei suoi capitoli e paragrafi...

37 2004/2005Marco Gori36 Anchor text Qui cè una splendida immagine di una tigre immagine tigre Cool tiger webpage Testo vicino hyperlink: è descrittivo della pagina che punta.

38 2004/2005Marco Gori37 Anchor Text: Due Usi 1. Quando si indicizza una pagina, si indicizza anche lanchor text dei links che la puntano. 2. Per pesare links nellalgoritmo hubs/authorities. Anchor text: preso tipicamente da finestra con 6-8 parole intorno un link anchor.

39 2004/2005Marco Gori38 Anchor text: Indicizzaz. Quando si indicizza D, si include lanchor www.ibm.com Armonk, NY-based computer giant IBM announced today Joes computer hardware links Compaq HP IBM Big Blue today announced record profits for the quarter

40 2004/2005Marco Gori39 Riferimenti per la lezione The Anatomy of a Large-Scale Hypertextual Web Search Engine http://citeseer.nj.nec.com/brin98anatomy.html Authoritative Sources in a Hyperlinked Environment http://citeseer.nj.nec.com/kleinberg97authoritative.html


Scaricare ppt "2004/2005Marco Gori1 Basi Documentali in Ambienti di Hyperlinks Oltre la navigazione..."

Presentazioni simili


Annunci Google