Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione.

Slides:



Advertisements
Presentazioni simili
Premessa: si assume di aver risolto (correttamente
Advertisements

Algoritmi e Strutture Dati
L’algoritmo PageRank.
1. LO SCORING Lo scoring è una metodologia di analisi che consente di esprimere un giudizio estremamente sintetico, rappresentato da un singolo numero,
Il problema del minimo albero ricoprente in un grafo non cooperativo
Introduzione Cosa sono le reti di Petri?
SPIM Esercizi. Esercizio 1 – il comando li Il codice deve eseguire una singola operazione: mettere il valore immediato 1023 nel registro s3.
Dato il sistema SA s1 s3 s5 s7 s8 b a con B c con Y b d con B e C s2 s4 s6 a con A g d con A e C s1s2 s4 s3 s5 s7 s8 s6 e con X b a d con C c con Y g b.
1 Il punto di vista Un sistema è una parte del mondo che una persona o un gruppo di persone, durante un certo intervallo di tempo, sceglie di considerare.
Bruno Mario Cesana Stefano Calza
Analisi Fattoriale Esplorativa
Il problema del cammino minimo tra 2 nodi in un grafo con archi privati.
Algoritmi e Strutture Dati
Scenario Archi di un grafo controllati da agenti egoistici
Macchine non completamente specificate
Apprendimento Non Supervisionato
Esercizi di esonero (a.a. 2007/2008) Compito C, terzo esercizio Data una sequenza di caratteri s1 ed una stringa s2 diciamo che s1 è contenuta in s2 se.
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 05/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
CAMPIONAMENTO Estratto dal Cap. 5 di:
Il problema del minimo albero ricoprente in un grafo con archi privati
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
1 2. Analisi degli Algoritmi. 2 Algoritmi e strutture dati - Definizioni Struttura dati: organizzazione sistematica dei dati e del loro accesso Algoritmo:
Stima ed algoritmi di consensus distribuito: considerazioni su IKF
Ricerca della Legge di Controllo
Modelli e Algoritmi per la Logistica Branch & Bound Prof. Carlo Mannino Prof. Antonio Sassano Dipartimento di Informatica e Sistemistica Università di.
BIOINGEGNERIA S. Salinari Lezione 4.
Modelli e Algoritmi per la Logistica
Modelli e Algoritmi per la Logistica
Introduzione1 Algoritmi e strutture dati - Definizioni Struttura dati: organizzazione sistematica dei dati e del loro accesso Algoritmo: procedura suddivisa.
Algoritmi e Strutture Dati
Modelli probabilistici
Argomenti – Lezione 8 Modulo III --- Calcolo del PageRank Modulo IV --- Costruzione del Dizionario Globale delle Parole.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Analisi delle corrispondenze
Lavoro svolto da Veronica Mancin
RISORSE WEB Internet Per un uso consapevole delle risorse della Rete
Composizione parallela - alternanza di azioni
Il calcolo di radiosity
Rappresentazione di conoscenza Procedurale
Qualità Questa voce riguarda la qualità nell'accezione più usata quando ci si riferisce ad un bene, materiale o immateriale, che viene prodotto per un.
Studio di euristiche per il miglioramento di algoritmi di ranking per il World-Wide Web Università degli Studi di Milano Corso di Laurea in Informatica.
Il sistema nazionale di valutazione:strumento di ricerca, di confronto informato, di supporto per la qualità Piero Cipollone INVALSI.
Main tools of the probabilistic method with applications in graph theory Attività formativa - Yuri Faenza Supervisore: Prof. B. Scoppola CdLS in Ingegneria.
Elementi di Informatica di base
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Prof. Cerulli – Dott.ssa Gentili
Semi-Supervised Learning
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
2. Grafi.
Web Communities and their identificaton
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
Link Spam Alliances di Zoltàn Gyöngyi Hector Garcia-Molina
Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione.
Il Problema del Commesso Viaggiatore. Traveling Salesman’s Problem (TSP) Un commesso viaggiatore deve visitare un certo numero di città Conosce la distanza.
Capitolo 13 Cammini minimi Algoritmi e Strutture Dati.
Dipartimento di Ingegneria dell’Informazione Università degli Studi di Parma Intelligenza Artificiale Apprendimento Agostino Poggi Stefano Cagnoni.
Flusso di Costo Minimo Trasformazioni Equivalenti e Trasformazioni Inverse Viene data la seguente rete di flusso, in cui i valori riportati vicino agli.
Capitolo 13 Cammini minimi: Bellman e Ford Algoritmi e Strutture Dati.
Diagrammi a blocchi.
Flusso di Costo Minimo Applicazione di algoritmi: Cammini Minimi Successivi (SSP) Esercizio 1 Sia data la seguente rete di flusso, in cui i valori riportati.
SEMINARIO WEB PROMOTION: I MOTORI DI RICERCA Letizia Catarini.
Responsabili scientifici: Franco Ghione, Mauro Casalboni, Giovanni Casini Gruppo di lavoro dell’Istituto. Laboratorio Tempo.
  Lingua materna (LM o L1): la lingua che acquisiamo ‘inconsciamente’, del nostro vivere quotidiano  Lingua seconda (L2): la lingua che si impara in.
Algoritmi e Strutture Dati Luciano Gualà
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Algoritmi di routing statici (pag.72) UdA2L4 Questi algoritmi, sono eseguiti solamente all'avvio della rete, e le decisioni di routing a cui essi pervengono.
Algoritmi Avanzati a.a.2013/2014 Prof.ssa Rossella Petreschi Albero ricoprente di costo minimo Lezione n°12.
Algoritmi Avanzati a.a.2014/2015 Prof.ssa Rossella Petreschi Lezione n°9.
Transcript della presentazione:

Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione di: Cristina Valent Elisa Silenzi Fabrizio Pinto Relatore: Cristina Valent Gruppo 6

Sommario Cenni storici Cenni storici Obiettivi Obiettivi Soluzioni iniziali Soluzioni iniziali Spam Detection Algorithm Spam Detection Algorithm Caso di studio Caso di studio Conclusioni Conclusioni

Un po di storia… Fin dagli inizi di Internet sono state applicate tecniche di web spamming per influenzare maliziosamente il ranking: Agli albori term spamming Farcire le pagine con parole chiave spesso non inerenti al contenuto Al giorno doggi link spamming Insiemi di pagine intercorrelate tra loro, per alterare a proprio vantaggio il loro PageRank Si è diffusa enormemente in seguito allaffermazione del PageRank come tecnica di ranking Costruzione delle spam farms da parte degli spammer

Obiettivi Contrastare il link spamming, calcolando un PageRank corretto e trascurando i contributi delle spam farm

Concetti di riferimento (1) Modello del web: Grafo orientato senza autoanelli Nodi: Pagine, Host, Siti Inlink archi entranti in un dato nodo Outlink archi uscenti da un dato nodo Spam Farm Gruppo di nodi interconnessi che linkano un singolo nodo target con l'obiettivo di incrementare il PageRank di quest'ultimo Più spam farm si possono alleare ed avere più nodi target

Concetti di riferimento (2) Stray link Link da nodi autorevoli che vengono coinvolti inconsapevolmente nel link spamming da parte degli spammer stessi Possono esistere per diverse ragioni: spammer pubblicizza un commento che include un link spam in un sito autorevole (blog, bacheca, …) honey pot. Pagina che contiene informazioni utili, ma è comunque coinvolta nella spam farm acquisto di domini popolari scaduti di recente

Assunzioni di base Partizione dei nodi web : Partizione dei nodi web : V + = { nodi buoni } V + = { nodi buoni } V – = { nodi spam } V – = { nodi spam } Conoscenza a priori della tipologia dei nodi vicini Conoscenza a priori della tipologia dei nodi vicini c fattore di riduzione usato nel calcolo del PageRank (damping factor) c fattore di riduzione usato nel calcolo del PageRank (damping factor)Legenda: = 1-c = 1-c c = 1- c = 1- out(y) n° outlink di y out(y) n° outlink di y A insieme degli archi A insieme degli archi

Approccio Naive Base Idea base: Considerare la tipologia degli inlink diretti di un nodo, etichettando questultimo a maggioranza Procedimento: 1. si sceglie il nodo x 2. si considerano i nodi degli inlink diretti di x 3. si contano quanti nodi appartengono alle due tipologie (buoni/spam) 4. si assegna al nodo x letichetta prevalente

Approccio Naive Base: funziona? Nodi Spam ? Nodi Good inlink good = 2 inlink spam = 4 PageRank(x) = (6c + 1)(1 - c)/n Contributo g 0, g 1 = c(1-c)/nContributo s 1, s 2, s 3, s 4 = c(1-c)/n = g0g0 g1g1 s1s1 s2s2 s3s3 s4s4 x

Approccio Naive Base: funziona davvero? ? inlink good = 2 inlink spam = 1 s1s1 s2s2 sksk s0s0 Nodi Spam Nodi Good g0g0 g1g1 PageRank(x) = (1 + 3c + kc 2 )(1 - c)/n Contributo g 0, g 1 = c(1-c)/nContributo s 0 = (c+kc 2 )(1-c)/n x Per questo viene usato solo come primo schema di labeling Ma… ?!?

Approccio Naive: variante 1 Come prima: Considerare: inlink diretti al nodo inlink diretti al nodo numero degli inlink diretti al nodo numero degli inlink diretti al nodo Idea di base nuova: Considerare anche il contributo PageRank degli inlink diretti.

Variante 1 Naive: funziona? ? s1s1 s2s2 sksk s0s0 Nodi Spam Nodi Good g0g0 g1g1 PageRank(x) = (1 + 3c + kc 2 )(1 - c)/n Contributo g 0, g 1 = c(1-c)/nContributo s 0 = (c+kc 2 )(1-c)/n x

Variante 1 Naive: funziona davvero? ? s1s1 s2s2 s0s0 g0g0 g2g2 PageRank(x) = (1 + 3c + 8c 2 )(1 - c)/n x s3s3 s5s5 s4s4 s6s6 g3g3 g1g1 Contributo g 0 + g 2 = (2c+4c 2 )(1-c)/nContributo s 0 = (c+4c 2 )(1-c)/n Problema: guarda solo gli inlink diretti. Soluzione: guardare anche quelli indiretti.

Problemi comuni Conoscenza a priori dei nodi buoni e di quelli spam: Conoscenza a priori dei nodi buoni e di quelli spam: non disponibile non disponibile difficile da produrre difficile da produrre tende a diventare datata in breve tempo tende a diventare datata in breve tempo

Spam Detection Algorithm Concetti base: PageRank Contribution PageRank Contribution PageRank Score PageRank Score Spam Mass: Spam Mass: assoluto assoluto relativo relativo

PageRank Contribution Definizione PageRank Contribution: Si introduce il concetto di: cammino (walk) da x a y cammino (walk) da x a y contributo del PageRank lungo il cammino contributo del PageRank lungo il cammino considerazione degli inlink indiretti considerazione degli inlink indiretti Da notare: il contributo di un nodo a se stesso è pari alla probabilità di saltare casualmente su quel nodo [(1-c) n] il contributo di un nodo a se stesso è pari alla probabilità di saltare casualmente su quel nodo [(1-c) n] in assenza di un cammino da x a y, il contributo di x su y, in termini di PageRank, è nullo in assenza di un cammino da x a y, il contributo di x su y, in termini di PageRank, è nullo

PageRank Score & Spam Mass Definizione PageRank Score: Il PageRank Score di un nodo y è la somma dei contributi di tutti gli altri nodi (collegati direttamente o indirettamente) nei confronti di y. Definizione Spam Mass: E la misura dellimpatto del link spamming sul PageRank dei nodi Assoluto : misura di quanto i nodi spam incrementano il PageRank del nodo consideratoAssoluto : misura di quanto i nodi spam incrementano il PageRank del nodo considerato Relativo : è la frazione di PageRank del nodo considerato dovuto al contributo dei nodi spam (spam mass assoluto / PageRank del nodo considerato)Relativo : è la frazione di PageRank del nodo considerato dovuto al contributo dei nodi spam (spam mass assoluto / PageRank del nodo considerato)

Nuove Assunzioni 1. Uso di approssimazioni: + : approssimazione dellinsieme dei nodi good + : approssimazione dellinsieme dei nodi good – : approssimazione dellinsieme dei nodi spam – : approssimazione dellinsieme dei nodi spam Deve essere disponibile almeno uno dei 2 sottoinsiemi 2. Uso di + (good-core). Molto più stabile di – 3. Si considerano: p : vettore dei PageRank Score normale p : vettore dei PageRank Score normale p : vettore dei PageRank Score calcolato sulla base p : vettore dei PageRank Score calcolato sulla base di + : soglia di confronto con lo spam mass relativo approssimato (m). Se m è superiore il nodo viene etichettato come spam : soglia di confronto con lo spam mass relativo approssimato (m). Se m è superiore il nodo viene etichettato come spam ρ : soglia di confronto con il PageRank (PR). Se PR è inferiore il nodo non viene considerato ρ : soglia di confronto con il PageRank (PR). Se PR è inferiore il nodo non viene considerato

Spam Detection Algorithm Procedimento: 1. Si calcolano i vettori: p p m = (p - p)/p vettore degli spam mass relativi approssimati m = (p - p)/p vettore degli spam mass relativi approssimati 2. Per ogni nodo il cui PageRank è >= ρ a) se lo spam mass relativo approssimato del nodo è >=, il nodo viene etichettato come spam b) altrimenti si passa al nodo successivo

Spam Detection: funziona? s1s1 s2s2 s0s0 g0g0 g2g2 s3s3 s5s5 s4s4 s6s6 g3g3 g1g1 ? x V + + PageRank(x) beneficia parecchio del contributo dei nodi spam Spam Mass Relativo di x m(x) = (p(x) – p+(x)) / p(x) link spamming in corso!!!! Oh… yeah!!

Caso Yahoo! Considerati 73,3 milioni di host distinti estrapolati dagli indici di Yahoo! del 2004 Considerati 73,3 milioni di host distinti estrapolati dagli indici di Yahoo! del 2004 Composizione good core: Composizione good core: –host di una web directory ritenuta affidabile –host governativi USA –host di istituti scolastici di più di 150 paesi Dimensione finale del good core poco più di host distinti Dimensione finale del good core poco più di host distinti

Caso Yahoo!: valutazione algoritmo Calcolo degli spam mass relativi Calcolo degli spam mass relativi Filtraggio dei PageRank con uso di una soglia ρ pari a 10 Filtraggio dei PageRank con uso di una soglia ρ pari a 10 Host risultanti circa (insieme T) Host risultanti circa (insieme T) Selezione di un insieme campione pari allo 0,1% di T che vengono: Selezione di un insieme campione pari allo 0,1% di T che vengono: –verificati manualmente –suddivisi in 20 gruppi in base allo spam mass relativo

Caso Yahoo!: composizione campione

Caso Yahoo!: precisione algoritmo (1) Precisione rapporto tra: il numero di host valutati manualmente come spam il numero di host valutati manualmente come spam il numero di host considerati spam dallalgoritmo il numero di host considerati spam dallalgoritmo

Caso Yahoo!: precisione algoritmo (2)

Osservazioni Il Good Core deve: Il Good Core deve: essere di dimensione opportunaessere di dimensione opportuna offrire una buona copertura dello scenario web da valutare (rappresentativo)offrire una buona copertura dello scenario web da valutare (rappresentativo) Spam mass relativo vs assoluto Spam mass relativo vs assoluto Alcuni host molto popolari e autorevoli possono avere uno spam mass assoluto elevato (contributo dei nodi spam), ma questo valore è trascurabile se rapportato al loro PageRank. Quindi lo spam mass relativo permette di pesare meglio i contributi dei nodi spam.

Alt... Attenzione!!! Alt... Attenzione!!! Fare attenzione a: comunità isolate che ricevono uno spam mass positivo dal: comunità isolate che ricevono uno spam mass positivo dal: –reciproco ed elevato link tra i partecipanti –basso numero di inlink esterni Esempio: Warcraft fans acquisizione da parte degli spammer di domini popolari scaduti di recente acquisizione da parte degli spammer di domini popolari scaduti di recente NON CONSIDERATI DALLALGORITMO

Conclusioni Algoritmo si basa sullo spam mass. Facile da calcolare Algoritmo si basa sullo spam mass. Facile da calcolare Con il minimo sforzo è capace di identificare parecchie decine di migliaia di link spam host Con il minimo sforzo è capace di identificare parecchie decine di migliaia di link spam host E robusto rispetto allintervento degli spammer che dovrebbero manipolare in maniera non ovvia il grafo dei nodi good E robusto rispetto allintervento degli spammer che dovrebbero manipolare in maniera non ovvia il grafo dei nodi good Manipolazione impossibile senza conoscenza dellinsieme dei nodi good in input allalgoritmo Ottimo per la gestione di strutture link irregolari Ottimo per la gestione di strutture link irregolari

Grazieperlattenzione!!!