Algoritmi di Ranking per i Motori di Ricerca

Slides:



Advertisements
Presentazioni simili
L’algoritmo PageRank.
Advertisements

1 Consorzio interuniversitario per le Applicazioni del Supercalcolo Per Università e Ricerca Stelline 2008 Sala Volta, venerdì 7 marzo 2008 Seminario:
IlTrovatore S.p.a. IlTrovatore RemoteSearch IlTrovatore mette a disposizione di portali Internet, piccole e medie imprese, tutto il suo know-how nel settore.
The mole.
Informatica Modulo 4 – Ricerca di informazioni nel web.
Dati Nielsen//NetRatings
Routing Crediti Parte delle slide seguenti sono adattate dalla versione originale di J.F Kurose and K.W. Ross (© All Rights Reserved)
1 COVEMA SpA. 2 Diapositive dellintervento:
Algoritmi Paralleli e Distribuiti a.a. 2008/09
Process synchronization
1 Esempi di consistenza sui limiti Non consistente sui limiti, considera Z=2, poi X-3Y=10 Ma il dominio qui sotto e consistente sui limiti: Confrontare.
Promozione presso le Camere di Commercio dei servizi ICT avanzati resi disponibili dalla banda larga Camera di Commercio di Parma Parma.
La Ricerca in Rete Danco Singer novembre 2002 novembre 2002 Master in Editoria Multimediale La Ricerca in Rete: strategie di navigazione.
Azione D1-F.S.E Conoscenza per una nuova didattica Docente Esperto: Simona Riolo Docente Tutor: Alfio Messina Lezione # I.C.S.
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
D2I - Tema 3 Analysis and comparison of methods and algorithms for data mining.
Calcolo di PageRank: esercizio
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Modelli probabilistici
Argomenti – Lezione 8 Modulo III --- Calcolo del PageRank Modulo IV --- Costruzione del Dizionario Globale delle Parole.
Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Data mining for e-commerce sites
Lavoro svolto da Veronica Mancin
Alcune Applicazioni della Matematica
AMS - DICEMBRE 2001 UTENZA DA CASA & UFFICIO Copyright Nielsen//NetRatings 1 Legenda Active Internet Universe Tutti i membri delluniverso che usano Internet.
Studio di euristiche per il miglioramento di algoritmi di ranking per il World-Wide Web Università degli Studi di Milano Corso di Laurea in Informatica.
Applicazioni di modelli matematici alla ricerca semantica
May 2011 Davide Maccarone The information contained in this document is to be considered strictly confidential.Any retaining, dissemination, distribution.
(Laboratorio di ) Sistemi Informatici Avanzati
Elementi di Informatica di base
Regione Puglia Comune di Lecce I. I.S.S. A. De Pace Unione Europea - FSE
Internet Ricerche nel web Gli indici sistematici (directory)
Motori di Ricerca presente e futuro prossimo
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Motori di Ricerca presente e futuro prossimo
Attività e strategie di web marketing. Fate clic per aggiungere un titolo.
Motori di Ricerca presente e futuro prossimo
2. Grafi.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 K 4 è planare? Sì!
Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione.
Prof. Cerulli – Dott.ssa Gentili
Frequency Domain Processing
Web Information Retrieval. Il World Wide Web Sviluppato da Tim Berners-Lee nel1990 al CERN per organizzare documenti di ricerca disponibili su Internet.
Web Communities and their identificaton
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione.
1 of 13 MARCO SALVO Seo Per il Turismo. 2 of 13 Questa volta ci sono? Seo tradizionale e remo contro corrente Co-Fondatore Progetto.
Istruzione, Tirocinio e Lavoro
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Algoritmi e basi del C Marco D. Santambrogio – Ver. aggiornata al 13 Marzo 2014.
Algoritmi di Ranking per i Motori di Ricerca Gianna M. Del Corso Dipartimento Informatica Università di Pisa.
1 (Not Provided) By Riccardo Mares (not provided) : atto finale …e poi basta !!!
La vita Nato il 26/04/1564 a Stratford-on- Abon. Frequentò la Grammar School . Nei primi anni dell a sua giovinezza lavora con il padre. William.
SEO Copywriting, l'Arte della Scrittura sul Web "Content is the King": il SEO Copywriting è definito, dai maggiori esperti della rete, la “benzina che.
Chi parlerà oggi 2 Adriano De Arcangelis CEO di DEA Marketing S.r.l., consulente SEO,DEA Marketing S.r.l. poi imprenditore, attivo nel settore dai primi.
1998 Founding Studenti.it: 2mln euro raccolti presso i VC nell’anno il gruppo impiega 70 persone e fattura 7 milioni con 1mln ebitda positivo.
Cuando Me Enamoro Quando M’Innamoro A Man Without Love M ộ t Ng ườ i Không Có Tình Yêu.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
Titolo della sezione Eventuale sottotitolo Formazione Volontari SCN 2011 Centro Linguistico di Ateneo - Mediateca Motori di ricerca non solo Google.
SEMINARIO WEB PROMOTION: I MOTORI DI RICERCA Letizia Catarini.
Comunicazione Multimediale Letizia Catarini. La differenza tra un motore di ricerca e una directory La differenza tra un motore di ricerca e una directory.
Discover the USA. What do you know about the USA? Would you like to know more? Do you know how the USA flag is called? What do the 50 stars and the 13.
LA STORIA DI. CHE COS'E' UN MOTORE DI RICERCA? Un motore di ricerca (in inglese search engine) è un sistema automatico che su richiesta analizza un insieme.
Corso di ricerca bibliografica. I motori di ricerca in rete Un motore di ricerca è un software composto da tre parti: 1.Un programma detto ragno (spider)
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Corso di formazione e training per attivisti "in e per" la Palestina La parola di VIK in Rete Daniele Frongia – ISM Italia Sala dell'Associazione Esquilino.
Activity diagrams Data & Control Flows Esempi
Transcript della presentazione:

Algoritmi di Ranking per i Motori di Ricerca Gianna M. Del Corso Dipartimento Informatica Università di Pisa

Sommario Statistiche Algoritmi di Ranking HITS PageRank di Google Approfondimenti

Statistiche

Statistiche Dimensione Cambiamenti Miliardi di pagine 5-10K per pagina => decine di terabytes La dimensione raddoppia ogni 2 anni Cambiamenti 23% cambia ogni giorno Tempo medio di durata circa 10 giorni [Nielsen//NetRatings]

Percentuali: Aprile 2009 Aprile 2009 [Market Share]

Trend Andamento nell’ultimo anno

Censured [google-watch.org]

I Numeri di [Google’s IPO Sec Filing]

Motori di Ricerca

I motori di ricerca Lo scopo (o meglio, il sogno) dei motori di ricerca è quello di poter catalogare tutto ciò che viene pubblicato sul web Si vuole poter accedere al Web tramite parole chiave (query) I primi risultati forniti “dovrebbero” essere i più rilevanti

Struttura dei Motori di Ricerca Web Spider Control Spiders Ranking Indexer Page Repository Query Engine Collection Analysis Text Structure Utility Queries Results Indexes

Web Ranking

… In principio … A metà degli anni ‘90 Problema: SPAM L’ordinamento delle pagine restituite in seguito ad una query dipendeva dal “proprietario” della pagina - Keywords - frequenza di un termine Problema: SPAM

Nel 1998 Due idee simili: HITS (John Klimberg) PageRank (S. Brin & L. Page) L’importanza di una pagina non dipende da colui che “possiede” e scrive la pagina

Idea di base L’autore della pagina p da’ un voto alla pagina q p q Si guarda la struttura dei link p q L’autore della pagina p da’ un voto alla pagina q Idea: Se una pagina ha un contenuto interessante ci saranno molte pagine che la riferiscono.

Grafo Web Il Web è visto come un grafo: Ogni pagina web è un NODO Ogni link è un ARCO G= D1 D2 D3 D4 D5 D1 D3 D4 D5 D2

Ranking L’importanza delle pagine è determinata dalla struttura del grafo web Questi algoritmi non utilizzano informazioni sul contenuto delle pagine È il grafo stesso a dirci se la pagina è interessante

HITS (Kleimberg) Ogni pagina ha due punteggi: ai punteggio autority hi punteggio hub Una pagina è una buona “autority” se è riferita da buoni hub. Una pagina è un buon “hub” se contemporaneamente riferisce buone autority su uno stesso argomento. Se la pagina p punta a pagine con un alto valore come autority deve ricevere un alto punteggio come hub Se p è riferita da molte pagine che hanno un alto punteggio come hub, allora deve ricevere un alto punteggio come autority

HITS a2 a1 q hq=a1+a2 p1 p2 h1 h2 h3 p ap=h1+h2+h3 q3 q1 q2

Proprietà delle matrici GTG e GGT sono matrici non negative GTG e GGT sono semidefinite positive Hanno autovalori reali e non negativi Per Perron-Frobenius L’autovettore associato all’autovalore massimo è positivo

Teorema di Perron-Frobenius A>=0 e irriducibile (A)>0, esiste = (A) con molteplicita’ algebrica 1 Esiste x>0, autovettore corrispondente a (A) A>=0 e riducibile (A)>=0, esiste = (A) con molteplicita’ algebrica 1 Esiste x>=0, autovettore corrispondente a (A)

HITS Authority and hubness weights Authority Hubness 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Authority and hubness weights

Riassumendo HITS A tempo di query Si trovano le pagine pertinenti Si costruisce il grafo a partire da queste pagine Si calcola l’autovettore dominante della matrice GTG Si ordinano le pagine secondo l’ordinamento indotto dall’autovettore principale

HITS Authority and hubness weights Authority Hubness 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Authority and hubness weights La pagina 1 e la pagina 10 sono le più autorevoli Sono riferite da buone pagine hub: la 2 e la 12

PageRank (Google) Ranking “statico”- PageRank A tempo di query si trovano le pagine pertinenti la query L’ordinamento delle pagine restituite si basa sul PageRank delle pagine che era stato precomputato

PageRank doc1 doc2 doc3 PR casa doc1 doc2 doc3 casa doc 3 doc1 doc 2

PageRank Una pagina è importante se è votata da pagine importanti Il voto si esprime “linkando” una pagina A differenza di HITS non ho pagine hub!

PageRank di Google Una pagina trasmette la propria importanza suddivisa in parti ugiuali tra tutte le pagine a cui essa punta L’importanza di una pagina è la somma delle importanze delle pagine che ad essa puntano Random surfer model: Il navigatore della rete salta da una pagina ad una ad essa collegata con probabilità D1 D3 D4 D5 D2

PageRank di Google Equivale al calcolo dell’autovettore relativo A partire da un vettore z(0) z1 z2 q zq=1/oudeg(p1)z1+1/oudeg(p2)z2 p1 p2 Equivale al calcolo dell’autovettore relativo all’autovalore 1 di PT

PageRank Due problemi: Nodi “Dangling” Cicli P può non essere stocastica P non ha necessariamente l’autovalore 1 Cicli La matrice è riducibile L’autovalore massimo può non essere unico

PageRank Dangling nodes di =1 se la pagina i è “dangling” v=(1/n, 1/n, …1/n)T

Google’s PageRank Cicli. Si forza l’irriducibilià mettendo degli archi artificiali che con “bassa probabilità” saltano da ogni nodo verso ogni altro c probabilità di saltare a caso c D2 D1 c D3 c c D4 e=(1,1, …, 1)T; v=(1/n, 1/n, …, 1/n)T c=0.15 D5

PageRank è stocastica ed irriducibile! Possiamo applicare Perron-Frobenius

Personalizzazione di PageRank b [Hawelivala 02] Biased Rank

Eurekester Permette di creare e di entrare a far parte di “SearchGroups” per focalizzare la ricerca verso I propri interessi

Why we need a fast link-based rank? “…The link structure of the Web is significantly more dynamic than the contents on the Web. Every week, about 25% new links are created. After a year, about 80% of the links on the Web are replaced with new ones. This result indicates that search engines need to update link-based ranking metrics very often…” [ Cho et al., 04 ]

Interessi di Ricerca La matrice associata al grafo web è la più grande matrice esistente Gli algoritmi di Ranking devono essere in grado di gestire la mole dei dati Devono essere veloci… Google impiega circa un mese per aggiornare completamente il vettore di PageRank. Tecniche per aggiornare il vettore senza ricalcolarlo del tutto

Approfondimenti

Who powers Whom

Spamming di PageRank Spam Farm: Insieme di pagine web costruito per far crescere il PageRank di una pagina t SEO: Search Engines Optimizer Consulenti che suggeriscono come far crescere il volume dei visitatori di siti web cercando di costruire dei siti che siano più visibili [Garcia-Molina et al., 04]

“Google Bombing”

“Google Bombing” Alcuni esempi popolari : weapons of mass destruction - messaggio di errore tipo IE “weapons of mass destruction cannot be found”. great president - biografia di George W. Bush. out of touch executives – Pagina di informazione sull’esecutivo di Google Waffle – sito di John Kerry (candidato democratico avversario di G.W.Bush) 25 Gennaio 2007 è stato annunciato che Goggle ha a disposizione un nuovo algoritmo resistente al Google bombing. [ wikipedia ]

Risultati curiosi Jew - uno dei primi siti che vengono restituiti è un sito antisemita. C’è poi un messaggio di “scuse” da parte di Google Madonna - sito ufficiale di Madonna,… si inferisce la sua esistenza dal fatto che ha molti link che la riferiscono Coffee - il primo sito è una pagina di Starbucks …ma che non contiene mai la parola coffee…

Pubblicità Per fare pubblicità su un MdR si può partecipare ad un ASTA per aggiudicarsi una keyword alla quale legare il proprio messaggio pubblicitario Su Google c’è anche un servizio “pay-per-click” nel quale il venditore paga solo se l’utente visita il suo sito

Comparing Ranks (Online Demo)

Finally…the perfect search engine? Sergei Brin: “It would be the mind of God. Larry says it would know exactly what you want and give you back exactly what you need.” Chackabarti: “The web grew exponentially from almost zero to 800 million pages between 1991 and 1999. In comparison, it took 3.5 million years for the human brain to grow linearly from 400 to 1400 cubic centimeters. How do we work with the web without getting overwhelmed? We look for relevance and quality. Can we design programs to recognize these properties?”

Grazie!