La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Algoritmi di Ranking per i Motori di Ricerca Gianna M. Del Corso Dipartimento Informatica Università di Pisa.

Presentazioni simili


Presentazione sul tema: "Algoritmi di Ranking per i Motori di Ricerca Gianna M. Del Corso Dipartimento Informatica Università di Pisa."— Transcript della presentazione:

1 Algoritmi di Ranking per i Motori di Ricerca Gianna M. Del Corso Dipartimento Informatica Università di Pisa

2 Sommario Statistiche Algoritmi di Ranking HITS PageRank di Google Approfondimenti

3 Statistiche

4 Dimensione Miliardi di pagine 5-10K per pagina => decine di terabytes La dimensione raddoppia ogni 2 anni Cambiamenti 23% cambia ogni giorno Tempo medio di durata circa 10 giorni [Nielsen//NetRatings]Nielsen//NetRatings

5 Percentuali: Aprile 2009 Aprile 2009 [Market Share]

6 Trend Andamento nellultimo anno

7 [google-watch.org]google-watch.org

8 I Numeri di [Googles IPO Sec Filing[Googles IPO Sec Filing]

9 Motori di Ricerca

10 I motori di ricerca Lo scopo (o meglio, il sogno) dei motori di ricerca è quello di poter catalogare tutto ciò che viene pubblicato sul web Si vuole poter accedere al Web tramite parole chiave (query) I primi risultati forniti dovrebbero essere i più rilevanti

11 Struttura dei Motori di Ricerca Spider Control Spiders Ranking Indexer Page Repository Query Engine Collection Analysis TextStructureUtility QueriesResults Indexes

12 Web Ranking

13 … In principio … A metà degli anni 90 Lordinamento delle pagine restituite in seguito ad una query dipendeva dal proprietario della pagina - Keywords - frequenza di un termine Problema: SPAM

14 Nel 1998 Due idee simili: HITS (John Klimberg) PageRank (S. Brin & L. Page) Limportanza di una pagina non dipende da colui che possiede e scrive la pagina

15 Idea di base Lautore della pagina p da un voto alla pagina q p q Idea: Se una pagina ha un contenuto interessante ci saranno molte pagine che la riferiscono. Si guarda la struttura dei link

16 Grafo Web Il Web è visto come un grafo: Ogni pagina web è un NODO Ogni link è un ARCO D1 D3 D4 D5 D2 G= D1 D2 D3 D4 D1D2D3D4 D5

17 Ranking Limportanza delle pagine è determinata dalla struttura del grafo web Questi algoritmi non utilizzano informazioni sul contenuto delle pagine È il grafo stesso a dirci se la pagina è interessante

18 HITS (Kleimberg) Ogni pagina ha due punteggi: a i punteggio autority h i punteggio hub Una pagina è una buona autority se è riferita da buoni hub. Una pagina è un buon hub se contemporaneamente riferisce buone autority su uno stesso argomento. Se la pagina p punta a pagine con un alto valore come autority deve ricevere un alto punteggio come hub Se p è riferita da molte pagine che hanno un alto punteggio come hub, allora deve ricevere un alto punteggio come autority

19 HITS h1h1 h2h2 h3h3 p a p =h 1 +h 2 +h 3 q3q3 q1q1 q2q2 a2a2 a1a1 q h q =a 1 +a 2 p1p1 p2p2

20 Proprietà delle matrici G T G e GG T sono matrici non negative G T G e GG T sono semidefinite positive Hanno autovalori reali e non negativi Per Perron-Frobenius Lautovettore associato allautovalore massimo è positivo

21 Teorema di Perron-Frobenius A>=0 e irriducibile (A)>0, esiste = (A) con molteplicita algebrica 1 Esiste x>0, autovettore corrispondente a (A) A>=0 e riducibile (A)>=0, esiste = (A) con molteplicita algebrica 1 Esiste x>=0, autovettore corrispondente a (A)

22 HITS Authority Hubness Authority and hubness weights

23 Riassumendo HITS A tempo di query Si trovano le pagine pertinenti Si costruisce il grafo a partire da queste pagine Si calcola lautovettore dominante della matrice G T G Si ordinano le pagine secondo lordinamento indotto dallautovettore principale

24 HITS Authority Hubness Authority and hubness weights La pagina 1 e la pagina 10 sono le più autorevoli Sono riferite da buone pagine hub: la 2 e la 12

25 PageRank (Google) Ranking statico- PageRank A tempo di query si trovano le pagine pertinenti la query Lordinamento delle pagine restituite si basa sul PageRank delle pagine che era stato precomputato

26 PageRank casa doc1doc2doc3 doc1 doc2 doc3 PR casa 1.doc 3 2.doc1 3.doc 2

27 PageRank Una pagina importante se votata da pagine importanti Una pagina è importante se è votata da pagine importanti Il voto si esprime linkando una pagina Il voto si esprime linkando una pagina A differenza di HITS non ho pagine hub!

28 PageRank di Google Random surfer model: Il navigatore della rete salta da una pagina ad una ad essa collegata con probabilità D1 D3 D4 D5 D2 o Una pagina trasmette la propria importanza suddivisa in parti ugiuali tra tutte le pagine a cui essa punta o Limportanza di una pagina è la somma delle importanze delle pagine che ad essa puntano

29 PageRank di Google A partire da un vettore z (0) Equivale al calcolo dellautovettore relativo allautovalore 1 di P T z1z1 z2z2 q z q =1/oudeg(p 1 )z 1 +1/oudeg(p 2 )z 2 p1p1 p2p2

30 PageRank Due problemi: Nodi Dangling P può non essere stocastica P non ha necessariamente lautovalore 1 Cicli La matrice è riducibile Lautovalore massimo può non essere unico

31 PageRank Dangling nodes d i =1 se la pagina i è dangling v=(1/n, 1/n, …1/n) T

32 Googles PageRank Cicli. Si forza lirriducibilià mettendo degli archi artificiali che con bassa probabilità saltano da ogni nodo verso ogni altro D1 D3 D4 D5 D2 c probabilità di saltare a caso c c c e=(1,1, …, 1) T ; v=(1/n, 1/n, …, 1/n) T c c=0.15

33 PageRank è stocastica ed irriducibile! Possiamo applicare Perron-Frobenius

34 Personalizzazione di PageRank Biased Rank a b [Hawelivala 02]

35 Eurekester Permette di creare e di entrare a far parte di SearchGroups per focalizzare la ricerca verso I propri interessi

36 Why we need a fast link-based rank? …The link structure of the Web is significantly more dynamic than the contents on the Web. Every week, about 25% new links are created. After a year, about 80% of the links on the Web are replaced with new ones. This result indicates that search engines need to update link-based ranking metrics very often… [ Cho et al., 04 ] Cho et al., 04

37 Interessi di Ricerca La matrice associata al grafo web è la più grande matrice esistente Gli algoritmi di Ranking devono essere in grado di gestire la mole dei dati Devono essere veloci… Google impiega circa un mese per aggiornare completamente il vettore di PageRank. Tecniche per aggiornare il vettore senza ricalcolarlo del tutto

38 Approfondimenti

39 Who powers Whom

40 Spam Farm: Insieme di pagine web costruito per far crescere il PageRank di una pagina t Spamming di PageRank [Garcia-Molina et al., 04]Garcia-Molina et al., 04 SEO: Search Engines Optimizer Consulenti che suggeriscono come far crescere il volume dei visitatori di siti web cercando di costruire dei siti che siano più visibili

41 Google Bombing

42 Alcuni esempi popolari : weapons of mass destruction - messaggio di errore tipo IE weapons of mass destruction cannot be found. weapons of mass destruction great president - biografia di George W. Bush. great presidentGeorge W. Bush out of touch executives – Pagina di informazione sullesecutivo di Google Waffle – sito di John Kerry (candidato democratico avversario di G.W.Bush) 25 Gennaio 2007 è stato annunciato che Goggle ha a disposizione un nuovo algoritmo resistente al Google bombing. [ wikipedia ]wikipedia

43 Risultati curiosi Jew - uno dei primi siti che vengono restituiti è un sito antisemita. Cè poi un messaggio di scuse da parte di Google Madonna - sito ufficiale di Madonna,… si inferisce la sua esistenza dal fatto che ha molti link che la riferiscono Coffee - il primo sito è una pagina di Starbucks …ma che non contiene mai la parola coffee…

44 Pubblicit à Per fare pubblicità su un MdR si può partecipare ad un ASTA per aggiudicarsi una keyword alla quale legare il proprio messaggio pubblicitario Su Google cè anche un servizio pay-per- click nel quale il venditore paga solo se lutente visita il suo sito

45

46 Comparing Ranks (Online Demo)

47 Finally…the perfect search engine? Sergei Brin: It would be the mind of God. Larry says it would know exactly what you want and give you back exactly what you need. Chackabarti: The web grew exponentially from almost zero to 800 million pages between 1991 and In comparison, it took 3.5 million years for the human brain to grow linearly from 400 to 1400 cubic centimeters. How do we work with the web without getting overwhelmed? We look for relevance and quality. Can we design programs to recognize these properties?

48 Grazie !


Scaricare ppt "Algoritmi di Ranking per i Motori di Ricerca Gianna M. Del Corso Dipartimento Informatica Università di Pisa."

Presentazioni simili


Annunci Google