Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione.

Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione di: Cristina Valent Elisa Silenzi Fabrizio Pinto Relatore: Cristina Valent Gruppo 6

Sommario Cenni storici Cenni storici Obiettivi Obiettivi Soluzioni iniziali Soluzioni iniziali Spam Detection Algorithm Spam Detection Algorithm Caso di studio Caso di studio Conclusioni Conclusioni

Un po di storia… Fin dagli inizi di Internet sono state applicate tecniche di web spamming per influenzare maliziosamente il ranking: 1. 1. Agli albori term spamming Farcire le pagine con parole chiave spesso non inerenti al contenuto 2. 2. Al giorno doggi link spamming Insiemi di pagine intercorrelate tra loro, per alterare a proprio vantaggio il loro PageRank Si è diffusa enormemente in seguito allaffermazione del PageRank come tecnica di ranking Costruzione delle spam farms da parte degli spammer

Obiettivi Contrastare il link spamming, calcolando un PageRank corretto e trascurando i contributi delle spam farm

Concetti di riferimento (1) Modello del web: Grafo orientato senza autoanelli Nodi: Pagine, Host, Siti Inlink archi entranti in un dato nodo Outlink archi uscenti da un dato nodo Spam Farm Gruppo di nodi interconnessi che linkano un singolo nodo target con l'obiettivo di incrementare il PageRank di quest'ultimo Più spam farm si possono alleare ed avere più nodi target

Concetti di riferimento (2) Stray link Link da nodi autorevoli che vengono coinvolti inconsapevolmente nel link spamming da parte degli spammer stessi Possono esistere per diverse ragioni: spammer pubblicizza un commento che include un link spam in un sito autorevole (blog, bacheca, …) honey pot. Pagina che contiene informazioni utili, ma è comunque coinvolta nella spam farm acquisto di domini popolari scaduti di recente

Assunzioni di base Partizione dei nodi web : Partizione dei nodi web : V + = { nodi buoni } V + = { nodi buoni } V – = { nodi spam } V – = { nodi spam } Conoscenza a priori della tipologia dei nodi vicini Conoscenza a priori della tipologia dei nodi vicini c fattore di riduzione usato nel calcolo del PageRank (damping factor) c fattore di riduzione usato nel calcolo del PageRank (damping factor)Legenda: = 1-c = 1-c c = 1- c = 1- out(y) n° outlink di y out(y) n° outlink di y A insieme degli archi A insieme degli archi

Approccio Naive Base Idea base: Considerare la tipologia degli inlink diretti di un nodo, etichettando questultimo a maggioranza Procedimento: 1. si sceglie il nodo x 2. si considerano i nodi degli inlink diretti di x 3. si contano quanti nodi appartengono alle due tipologie (buoni/spam) 4. si assegna al nodo x letichetta prevalente

Approccio Naive Base: funziona? Nodi Spam ? Nodi Good inlink good = 2 inlink spam = 4 PageRank(x) = (6c + 1)(1 - c)/n Contributo g 0, g 1 = c(1-c)/nContributo s 1, s 2, s 3, s 4 = c(1-c)/n = g0g0 g1g1 s1s1 s2s2 s3s3 s4s4 x

Approccio Naive Base: funziona davvero? ? inlink good = 2 inlink spam = 1 s1s1 s2s2 sksk s0s0 Nodi Spam Nodi Good g0g0 g1g1 PageRank(x) = (1 + 3c + kc 2 )(1 - c)/n Contributo g 0, g 1 = c(1-c)/nContributo s 0 = (c+kc 2 )(1-c)/n x Per questo viene usato solo come primo schema di labeling Ma… ?!?

Approccio Naive: variante 1 Come prima: Considerare: inlink diretti al nodo inlink diretti al nodo numero degli inlink diretti al nodo numero degli inlink diretti al nodo Idea di base nuova: Considerare anche il contributo PageRank degli inlink diretti.

Variante 1 Naive: funziona? ? s1s1 s2s2 sksk s0s0 Nodi Spam Nodi Good g0g0 g1g1 PageRank(x) = (1 + 3c + kc 2 )(1 - c)/n Contributo g 0, g 1 = c(1-c)/nContributo s 0 = (c+kc 2 )(1-c)/n x

Variante 1 Naive: funziona davvero? ? s1s1 s2s2 s0s0 g0g0 g2g2 PageRank(x) = (1 + 3c + 8c 2 )(1 - c)/n x s3s3 s5s5 s4s4 s6s6 g3g3 g1g1 Contributo g 0 + g 2 = (2c+4c 2 )(1-c)/nContributo s 0 = (c+4c 2 )(1-c)/n Problema: guarda solo gli inlink diretti. Soluzione: guardare anche quelli indiretti.

Problemi comuni Conoscenza a priori dei nodi buoni e di quelli spam: Conoscenza a priori dei nodi buoni e di quelli spam: non disponibile non disponibile difficile da produrre difficile da produrre tende a diventare datata in breve tempo tende a diventare datata in breve tempo

Spam Detection Algorithm Concetti base: PageRank Contribution PageRank Contribution PageRank Score PageRank Score Spam Mass: Spam Mass: assoluto assoluto relativo relativo

PageRank Contribution Definizione PageRank Contribution: Si introduce il concetto di: cammino (walk) da x a y cammino (walk) da x a y contributo del PageRank lungo il cammino contributo del PageRank lungo il cammino considerazione degli inlink indiretti considerazione degli inlink indiretti Da notare: il contributo di un nodo a se stesso è pari alla probabilità di saltare casualmente su quel nodo [(1-c) n] il contributo di un nodo a se stesso è pari alla probabilità di saltare casualmente su quel nodo [(1-c) n] in assenza di un cammino da x a y, il contributo di x su y, in termini di PageRank, è nullo in assenza di un cammino da x a y, il contributo di x su y, in termini di PageRank, è nullo

PageRank Score & Spam Mass Definizione PageRank Score: Il PageRank Score di un nodo y è la somma dei contributi di tutti gli altri nodi (collegati direttamente o indirettamente) nei confronti di y. Definizione Spam Mass: E la misura dellimpatto del link spamming sul PageRank dei nodi Assoluto : misura di quanto i nodi spam incrementano il PageRank del nodo consideratoAssoluto : misura di quanto i nodi spam incrementano il PageRank del nodo considerato Relativo : è la frazione di PageRank del nodo considerato dovuto al contributo dei nodi spam (spam mass assoluto / PageRank del nodo considerato)Relativo : è la frazione di PageRank del nodo considerato dovuto al contributo dei nodi spam (spam mass assoluto / PageRank del nodo considerato)

Nuove Assunzioni 1. Uso di approssimazioni: + : approssimazione dellinsieme dei nodi good + : approssimazione dellinsieme dei nodi good – : approssimazione dellinsieme dei nodi spam – : approssimazione dellinsieme dei nodi spam Deve essere disponibile almeno uno dei 2 sottoinsiemi 2. Uso di + (good-core). Molto più stabile di – 3. Si considerano: p : vettore dei PageRank Score normale p : vettore dei PageRank Score normale p : vettore dei PageRank Score calcolato sulla base p : vettore dei PageRank Score calcolato sulla base di + : soglia di confronto con lo spam mass relativo approssimato (m). Se m è superiore il nodo viene etichettato come spam : soglia di confronto con lo spam mass relativo approssimato (m). Se m è superiore il nodo viene etichettato come spam ρ : soglia di confronto con il PageRank (PR). Se PR è inferiore il nodo non viene considerato ρ : soglia di confronto con il PageRank (PR). Se PR è inferiore il nodo non viene considerato

Spam Detection Algorithm Procedimento: 1. Si calcolano i vettori: p p m = (p - p)/p vettore degli spam mass relativi approssimati m = (p - p)/p vettore degli spam mass relativi approssimati 2. Per ogni nodo il cui PageRank è >= ρ a) se lo spam mass relativo approssimato del nodo è >=, il nodo viene etichettato come spam b) altrimenti si passa al nodo successivo

Spam Detection: funziona? s1s1 s2s2 s0s0 g0g0 g2g2 s3s3 s5s5 s4s4 s6s6 g3g3 g1g1 ? x V + + PageRank(x) beneficia parecchio del contributo dei nodi spam Spam Mass Relativo di x m(x) = (p(x) – p+(x)) / p(x) link spamming in corso!!!! Oh… yeah!!

Caso Yahoo! Considerati 73,3 milioni di host distinti estrapolati dagli indici di Yahoo! del 2004 Considerati 73,3 milioni di host distinti estrapolati dagli indici di Yahoo! del 2004 Composizione good core: Composizione good core: –host di una web directory ritenuta affidabile –host governativi USA –host di istituti scolastici di più di 150 paesi Dimensione finale del good core poco più di 500.000 host distinti Dimensione finale del good core poco più di 500.000 host distinti

Caso Yahoo!: valutazione algoritmo Calcolo degli spam mass relativi Calcolo degli spam mass relativi Filtraggio dei PageRank con uso di una soglia ρ pari a 10 Filtraggio dei PageRank con uso di una soglia ρ pari a 10 Host risultanti circa 900.000 (insieme T) Host risultanti circa 900.000 (insieme T) Selezione di un insieme campione pari allo 0,1% di T che vengono: Selezione di un insieme campione pari allo 0,1% di T che vengono: –verificati manualmente –suddivisi in 20 gruppi in base allo spam mass relativo

Caso Yahoo!: composizione campione

Caso Yahoo!: precisione algoritmo (1) Precisione rapporto tra: il numero di host valutati manualmente come spam il numero di host valutati manualmente come spam il numero di host considerati spam dallalgoritmo il numero di host considerati spam dallalgoritmo

Caso Yahoo!: precisione algoritmo (2)

Osservazioni Il Good Core deve: Il Good Core deve: essere di dimensione opportunaessere di dimensione opportuna offrire una buona copertura dello scenario web da valutare (rappresentativo)offrire una buona copertura dello scenario web da valutare (rappresentativo) Spam mass relativo vs assoluto Spam mass relativo vs assoluto Alcuni host molto popolari e autorevoli possono avere uno spam mass assoluto elevato (contributo dei nodi spam), ma questo valore è trascurabile se rapportato al loro PageRank. Quindi lo spam mass relativo permette di pesare meglio i contributi dei nodi spam.

Alt... Attenzione!!! Alt... Attenzione!!! Fare attenzione a: comunità isolate che ricevono uno spam mass positivo dal: comunità isolate che ricevono uno spam mass positivo dal: –reciproco ed elevato link tra i partecipanti –basso numero di inlink esterni Esempio: Warcraft fans acquisizione da parte degli spammer di domini popolari scaduti di recente acquisizione da parte degli spammer di domini popolari scaduti di recente NON CONSIDERATI DALLALGORITMO

Conclusioni Algoritmo si basa sullo spam mass. Facile da calcolare Algoritmo si basa sullo spam mass. Facile da calcolare Con il minimo sforzo è capace di identificare parecchie decine di migliaia di link spam host Con il minimo sforzo è capace di identificare parecchie decine di migliaia di link spam host E robusto rispetto allintervento degli spammer che dovrebbero manipolare in maniera non ovvia il grafo dei nodi good E robusto rispetto allintervento degli spammer che dovrebbero manipolare in maniera non ovvia il grafo dei nodi good Manipolazione impossibile senza conoscenza dellinsieme dei nodi good in input allalgoritmo Ottimo per la gestione di strutture link irregolari Ottimo per la gestione di strutture link irregolari

Grazieperlattenzione!!!

Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione.

Presentazioni simili

Presentazione sul tema: "Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione.

Presentazioni simili

Presentazione sul tema: "Link Spam Detection Based on Mass Estimation Sessione di conferenza 1 di: Zoltan Gyongyi Hector Garcia-Molina Pavel Berking Jan Pederson Presentazione."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back