La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

(L ABORATORIO DI ) S ISTEMI I NFORMATICI A VANZATI Giuseppe Manco.

Presentazioni simili


Presentazione sul tema: "(L ABORATORIO DI ) S ISTEMI I NFORMATICI A VANZATI Giuseppe Manco."— Transcript della presentazione:

1 (L ABORATORIO DI ) S ISTEMI I NFORMATICI A VANZATI Giuseppe Manco

2 C ENTRALITÀ, S TRUTTURA DI I NTERNET. S EARCH : HITS E P AGE R ANK

3 Centralità

4 C ENTRALITÀ La centralità misura limportanza relativa di un nodo allinterno di un grafo Esistono svariate misure di centralità. Degree centrality Closeness centrality Betweenness centrality Ecc…

5 D EGREE CENTRALITY La Degree centrality di un nodo è definita come il numero di archi incidenti ad esso La Degree centrality misura la capacità immediata di un nodo di diffondere informazioni nella rete In caso di grafi diretti si possono calcolare due tipi di centrality: Indegree Outdegree

6 D EGREE CENTRALITY Matematicamente Nella versione normalizzata Complessità Grafo denso: Grafo sparso:

7 C LOSENESS CENTRALITY Misura basata su: Shortest Path Length ( spl ) tra due nodi Farness: fissato un nodo, è la somma di tutte le Shortest Path Length tra il nodo in esame e tutti gli altri nodi della rete La Closeness Centrality è linverso della farness Intuitivamente, misura step sono necessari per diffondere una informazione da un nodo a tutta la rete

8 C LOSENESS CENTRALITY Matematicamente Nella versione normalizzata Complessità (dettata dalla ricerca di tutti gli spl ) Grafo denso: (Floyd–Warshall algorithm) Grafo sparso: (Johnson's algorithm)

9 C LOSENESS CENTRALITY La formulazione originale è valida solo per grafi completamente connessi Formulazione alternativa (tra le tante proposte) Opsahl (2010):

10 B ETWEENNESS CENTRALITY È un indice che misura la frequenza di un nodo allinterno dello shortest path tra due nodi qualunque Ad esempio, la capacità di raccogliere informazioni da parte di uno sniffer in una rete informatica

11 B ETWEENNESS CENTRALITY Sia v il nodo di cui si voglia calcolare la betweenness e siano s e t altri due nodi della rete diversi tra loro e diversi da v Sia il numero di shortest path che uniscono s e t tra loro Sia il numero di shortest path tra s e t che contengono v

12 B ETWEENNESS CENTRALITY Matematicamente Grafo diretto Grafo indiretto Nella versione normalizzata Grafo diretto Grafo indiretto

13 B ETWEENNESS CENTRALITY Complessità (dettata dalla ricerca di tutti gli spl ) Grafo denso: (Floyd–Warshall algorithm) Grafo sparso: (Johnson's algorithm)

14 P ARAGONE Rete:

15 P ARAGONE Degree centrality

16 P ARAGONE Closeness centrality

17 P ARAGONE Betweenness centrality

18 E IGENVECTOR CENTRALITY Misura la centralità di un nodo in base alle sue interazioni con la rete Un nodo è importante se è collegato a nodi importanti Ricorda qualcosa?

19 E IGENVECTOR CENTRALITY Supponiamo che G sia diretto con matrice di adiacenze Matematicamente Dove x v è la Eigenvector centrality del nodo v, mentre λ è una costante

20 E IGENVECTOR CENTRALITY In forma vettoriale: Questa è la formulazione degli autovettori, mentre le costanti sono gli autovalori Tra tutti gli autovalori possibili scegliamo quello maggiore autovettore positivo (teorema di Perron– Frobenius) La v- esima componente dellautovettore x è il grado di centralità del nodo v In letteratura ci sono svariati algoritmi per il calcolo dei migliori autovalori/autovettori SVD

21 C ENTRALITÀ, S TRUTTURA DI I NTERNET. S EARCH : HITS E P AGE R ANK Struttura di Internet

22 S TRUTTURA DI I NTERNET Source: David Easley, Jon Kleinberg Networks, Crowds, and Markets, Cambridge University Press (2010)

23 S TRUTTURA DI I NTERNET

24 B OW -T IE Source:A. Broder, et al. Graph structure in the Web. In Proc. WWW, pages 309–320, 2000.

25 B OW -T IE Internet è dunque una rete di contenuti con proprietà simili a quelle studiate finora Anche le risorse del web sono nodi di un grafo È possibile dunque calcolare un grado di centralità e di importanza di ogni risorsa È possibile guidare la ricerca di contenuti in base allimportanza delle risorse

26 C ENTRALITÀ, S TRUTTURA DI I NTERNET. S EARCH : HITS E P AGE R ANK Search

27 S EARCH Problema della ricerca web: individuare le risorse richieste dallutente nel minor tempo possibile a partire da un certo numero di parole chiave Inserisci un termine nella pagina di Google Analizza i risultati Il primo elemento è quello che ti aspettavi? Come ha fatto Google a calcolare il risultato?

28 S EARCH Un problema difficile Information retrieval: ricerca in grosse repositories, sulla base di keywords Keywords limitate e inespressive, e: sinonimia (modi multipli per dire la stessa cosa: casa, abitazione) Polisemia (significati multipli per lo stesso termine: Jaguar, Apple) Differenti modalità di authoring Esperti, novizi, etc. Estrema dinamicità del web Shift Scarcity abundance

29 C ENTRALITÀ, S TRUTTURA DI I NTERNET. S EARCH : HITS E P AGE R ANK Algoritmo HITS

30 HITS HITS è lacronimo per Hyperlink-Induced Topic Search (anche noto come hubs and authorities algorithm ) È una variante di Eigenvector Centrality Due tipi di pagine web: Hubs: sono pagine che non hanno contenuto informativo autorevole in merito allargomento di ricerca, ma hanno dei link verso pagine autorevoli Autorities: pagine di contenuti informativi sugli argomenti di ricerca

31 HITS Hub Authority

32 HITS Data una ricerca sul web, lalgoritmo effettua due operazioni principali: Recupero delle pagine web che trattano largomento in questione Assegnamento, ad ogni pagina ottenuta al passo precedente, di due punteggi Score di authority: stima dellimportanza del contenuto della pagina Hub value: stima del valore dei link verso le altre pagine

33 HITS Lassegnamento dei due punteggi avviene attraverso una procedura mutua ed iterativa Ad ogni passo uno score modifica laltro Sia A la matrice di adiacenze del grafo che rappresenta le pagine web selezionate in base alla ricerca Sia v il vettore che contiene i valori (ordinati per nodo) di authority di ogni nodo Sia u il vettore che contiene i valori (ordinati per nodo) di hub di ogni nodo

34 HITS Inizializzazione Ogni elemento di u è pari ad 1 Ogni elemento di v è pari ad A t u Update In forma chiusa

35 HITS In forma procedurale: Authority Update Rule Per ogni nodo p Dove n è il numero di pagine che puntano su p Hub Update Rule Per ogni nodo p Dove n è il numero di pagine puntate da p

36 HITS Terminazione dellalgoritmo: Così come è definito lalgoritmo diverge È necessario un passo di normalizzazione che garantisce la convergenza von Ahn, Luis ( ). "Hubs and Authorities" : Science of the Web Course Notes. Carnegie Mellon University. Retrieved

37 HITS Procedura

38 HITS Esempio. Rete:

39 HITS Matrice di adiacenze Valore iniziale di u

40 HITS Authority Hub

41 HITS Il nodo 3 è il più autorevole I nodi 1 e 2 non sono autorevoli ma sono equamente validi come hub Ripetere il processo ulteriormente non porta ulteriori miglioramenti I vettori u e v saranno solo moltiplicati per uno scalare Serve la normalizzazione per ottenere un punto fisso

42 C ENTRALITÀ, S TRUTTURA DI I NTERNET. S EARCH : HITS E P AGE R ANK PageRank

43 P AGE R ANK Il PageRank è una misura di importanza delle pagine Web derivata dalla Eigenvector centrality È un sistema attualmente alla base del motore di ricerca di Google Il suo brevetto appartiene alla Stanford University Google ha acquistato dalla Stanford University una licenza speciale del PageRank per lammontare di 1.8Mln di azioni Google Nel 2005 la Stanford University ha venduto le azioni in suo possesso per un totale di 336Mln di dollari

44 P AGE R ANK Il PageRank è una distribuzione probabilistica che misura la verosimiglianza che un utente generico, navigando in maniera random attraverso i link delle pagine visitate, arrivi ad una pagina target La stima della distribuzione di probabilità, come per lalgoritmo HITS, prevede una procedura iterativa ed approssimata

45 P AGE R ANK – D EFINIZIONE DI BASE In una rete con n nodi assegniamo ad ogni nodo un PageRank iniziale pari ad 1/n Scegliamo un numero limitato di step k Effettuiamo k volte la procedura di update dei PageRank delle varie pagine Basic PageRank Update Rule: Ogni pagina divide il proprio PageRank per il suo outdegree e passa tale quantità al PageRank delle pagine alle quali punta Se una pagina non ha link uscenti passa lattuale PageRank a se stessa Ogni pagina assegna al proprio PageRank la somma di tutte le porzioni di PageRank trasferitegli dalle pagine che la puntano

46 P AGE R ANK – D EFINIZIONE DI BASE Matematicamente. Inizializzazione. Per ogni pagina p i Update. Per ogni nodo p i Dove M ( p i ) è linsieme di tutte le pagine che puntano p i

47 P AGE R ANK – D EFINIZIONE DI BASE Esempio

48 P AGE R ANK – D EFINIZIONE DI BASE StepABCDEFGH 11/8 21/21/16 1/8 35/161/4 1/32 1/16 4……………………

49 P AGE R ANK – P ROBLEMA Si consideri la seguente rete

50 P AGE R ANK – P ROBLEMA Poiché il sotto ramo della pagina C non ha archi che facciano defluire il rank accumulato indietro nei nodi A, B, D, E e H, si verificherà la seguente condizione dopo un certo numero di iterazioni di PageRank: PR(A) = PR(B) = PR(C) = PR(D) = PR(E) = PR(H) = 0 PR(F) = PR(G) = 0.5 Questo scenario è molto verosimile nel Web: modello Bow-Tie

51 P AGE R ANK – S OLUZIONE Si aggiunge un fattore di dump ( d ) : Si suppone che ad ogni click, lutente, che naviga in maniera random seguendo i link, possa decidere di smettere di seguire i link e di scegliere di aprire una pagina a caso Update. Per ogni nodo p i Ora si ha il problema della stima del parametro d Google, attualmente, usa un valore intorno a 0.85

52 P AGE R ANK Forma matriciale Update Dove la funzione di adiacenza l(p i, p j ) è pari a 0 se non esiste un arco tra p i e p j, ed è normalizzata in presenza di archi in modo da avere:

53 P AGE R ANK I valori dei PageRank sono le entry dellautovettore dominante della matrice di adiacenze modificata La matrice di adiacenze è resa stocastica Rappresenta la probabilità di transazione da una pagina alla successiva Le colonne sommano ad 1 Siamo, quindi, di fronte ad una variante delleigenvector centrality

54 D IFFERENZE TRA HITS E P AGE R ANK Tempo di esecuzione HITS è eseguito contestualmente alla query query lente hub e authority score dipendenti dalle query Il PageRank è eseguito in una fase di indicizzazione precedente alle query Query veloci Score generale (ed unico) Numero di score HITS calcola due score per ogni documento Il PageRank calcola un solo score per documento Quantità di pagine in analisi HITS lavora su un sottoinsieme di documenti rilevanti ai fini della query Il PageRank indicizza tutte le pagine web

55 P ROBLEMA DEL P AGERANK Il principale problema riscontrato nellutilizzo del PageRank è la preferenza verso le pagine con la maggiore età. Pagine nuove, anche se ricche di contenuti, sono penalizzate dal fatto di non essere puntate da altre pagine esistenti A meno di non far parte di un sito già esistente fortemente connesso Ecco il motivo perché Wikipedia è sempre nei primi posti in una ricerca su Google


Scaricare ppt "(L ABORATORIO DI ) S ISTEMI I NFORMATICI A VANZATI Giuseppe Manco."

Presentazioni simili


Annunci Google