La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi.

Presentazioni simili


Presentazione sul tema: "Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi."— Transcript della presentazione:

1 Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi LS a.a di Zoltàn Gyöngyi Hector Garcia-Molina Stanford University Computer Science Department

2 Link Spam Alliances - gruppo 72 Outline Introduzione al web spam Formulazione del PageRank Studio delle Spam Farm: Analisi di una singola Farm Alleanze tra due Farm Caso multi-Farm Spam detection Conosci il tuo nemico; Conoscilo e lavrai per metà vinto. (Confucio)

3 Link Spam Alliances - gruppo 73 Spam: perché? Luso di motori di ricerca per rintracciare indirizzi Internet è sempre più diffuso [FMN] Assicurarsi un ranking alto coincide con laumentare le proprie entrate Nel periodo aprile-giugno 2005 negli USA le vendite tramite eCommerce hanno rappresentato il 2.2% del totale ( milioni di dollari) [USC] …e se non si è ai primi posti si cerca di plasmare i risultati…

4 Link Spam Alliances - gruppo 74 Spam: definizione Lo spamming è dannoso [NAJ] Per gli utenti Rende più difficile trovare le informazioni desiderate Scoraggia lutente Per i motori di ricerca Spreca la banda del crawler Inquina la rete con pagine di spam Distorce il ranking reale dei risultati Spamming: ingannare i motori di ricerca per ottenere un ranking più elevato di quanto ci si meriti in realtà

5 Link Spam Alliances - gruppo 75 Link Spam Link Spam: si costruiscono strutture di pagine interconnesse per aumentare il PageRank di uno o più target

6 Link Spam Alliances - gruppo 76 cTp (1 – c) p = N + 1N1N Una pagina è importante se è puntata da tante altre pagine importanti Essendo basato sulla struttura dei collegamenti, lalgoritmo del PageRank può essere vulnerabile al Link Spamming PageRank PageRank di p i che punta a p 0 link uscenti da p i random jump PageRank della pagina p 0 : damping factor Generalizzando: matrice di transizione p 0 = cΣ i p i /|F(i)| + (1-c)

7 Link Spam Alliances - gruppo 77 Spam Farm: pagine ? ? λ1λ1 λ2λ2 λkλk λ0λ0 pkpk p2p2 p1p1 p0p0 Target page Ogni Farm ne ha una sola Lobiettivo dello spammer è aumentare il suo ranking Boosting pages Sono controllate dallo spammer Puntano al target per aumentare il suo PageRank

8 Link Spam Alliances - gruppo 78 λ0λ0 Spam Farm: link esterni ? ? λ1λ1 λ2λ2 λkλk pkpk p2p2 p1p1 p0p0 Leakage PageRank aggiunto al target da pagine al di fuori della Farm (forum, blog, …) Lo spammer non ne ha il controllo λ = λ 0 + … + λ k

9 Link Spam Alliances - gruppo 79 Optimal Farm pkpk p2p2 p1p1 p0p0 λ qkqk q2q2 q1q1 q0q0 λ Ottimale Il target punta alle boosting pages q 0 = p 0 / (1 – c 2 ) Intuitivo Ogni boosting page punta unicamente al target qkqk q2q2 q1q1 q0q0 λ (1 – c)(ck + 1) p 0 = cλcλ N + Intuitivamente: target e boosting pages si rinforzano a vicenda

10 Link Spam Alliances - gruppo 710 Alleanze tra due Farm Intuitivo Ogni boosting page punta ad entrambi i target pkpk p2p2 p1p1 p0p0 qmqm q2q2 q1q1 q0q0 Economico Si interconnettono unicamente i target pkpk p2p2 p1p1 p0p0 qmqm q2q2 q1q1 q0q0 Redistribuzione del PageRank conveniente per la Farm più piccola q 0 = p 0 = d(k + m)/2 (k + m) nuovi link solo 2 nuovi link [d = c/N(1 + c)]

11 Link Spam Alliances - gruppo 711 Incremento del PageRank conveniente per entrambe le Farm Alleanze tra due Farm Ottimo Ogni target punta allaltro target I target non hanno link alle boosting pages qmqm q2q2 q1q1 q0q0 pkpk p2p2 p1p1 p0p0 ck + c 2 m p 0 = (1 + c)N 1 N + Intuitivamente: questo modello risulta vincente perché concentra tutto il PageRank sui target minimizzando quello delle boosting pages

12 Link Spam Alliances - gruppo 712 Web ring Complete core Alleanze multi-Farm qmqm q2q2 q1q1 q0q0 pkpk p2p2 p1p1 p0p0 rnrn r2r2 r1r1 r0r0 core Due strutture fondamentali:

13 Link Spam Alliances - gruppo 713 Web ring Modalità di connessione più semplice ed intuitiva qmqm q2q2 q1q1 q0q0 pkpk p2p2 p1p1 p0p0 rnrn r2r2 r1r1 r0r0 ck + c 2 m + c 3 n p 0 = (1 + c + c 2 )N 1 N + la distanza influenza il contributo di ogni Farm al PageRank delle altre

14 Link Spam Alliances - gruppo 714 Complete core Il core è un sotto-grafo completamente connesso qmqm q2q2 q1q1 q0q0 pkpk p2p2 p1p1 p0p0 rnrn r2r2 r1r1 r0r0 2ck – c 2 k + c 2 m + c 2 n p 0 = (2 + c)N 1 N + il contributo di ogni Farm al PageRank delle altre è uniforme

15 Link Spam Alliances - gruppo 715 Riassumendo Farm non connesse: il PageRank del target è lineare nella dimensione della Farm (numero di boosting pages) Complete core: aumentano tutti i PageRank, soprattutto quelli dei target delle Farm di minori dimensioni Web ring: Il PageRank del target della Farm 10 diminuisce rispetto al caso di non connessione

16 Link Spam Alliances - gruppo 716 Riassumendo Complete core: si conserva la maggiorparte del PageRank, agli altri target viene dato un identico contributo molto minore Web ring: i valori dei contributi sono vicini tra loro e diminuiscono allaumentare della distanza Contributo della Farm 1 agli altri target

17 Link Spam Alliances - gruppo 717 Entrare in unalleanza Web ring Perchè p 0 accetti r 0 in unalleanza con q 0 organizzata secondo la struttura del Web ring è necessario rispettare le seguenti condizioni: PR(alleanza p, q, r) > PR(alleanza p, q) ck + c 2 m + c 3 n (1 + c + c 2 )N ck + c 2 m (1 + c)N > n k + cm (1 + c) > Le dimensioni delle Farm già presenti determinano la dimensione minima che deve avere una Farm per essere accettata La media pesata delle dimensioni delle Farm già presenti costituisce un lower bound sulla dimensione della nuova Farm Es: k = 20; m = 10: Con FL a q n = 16 Il punto di inserimento della Farm entrante ne influenza la dimensione minima

18 Link Spam Alliances - gruppo 718 Entrare in unalleanza Complete core Perchè p 0 accetti r 0 in unalleanza con q 0 organizzata secondo la struttura del Complete core è necessario rispettare le seguenti condizioni: PR(alleanza p, q, r) > PR(alleanza p, q) La media aritmetica delle dimensioni delle Farm già presenti costituisce un lower bound sulla dimensione della nuova Farm Es: k = 20; m = 10 n = 16 per m; n = 15 per k media aritmetica = 15 La terza Farm deve avere almeno 16 boosting pages n arithmetic mean > La dimensione minima che deve avere una Farm per essere accettata è determinata considerando la Farm più piccola già presente nellalleanza: n k + m – (1 – c)min{k, m} (1 + c) >

19 Link Spam Alliances - gruppo 719 Lasciare unalleanza Prima abbiamo osservato che: Intuizione: la Farm 10 contribuisce troppo al PageRank dei suoi alleati e riceve troppo poco in cambio PR(10, non connessa) > PR(10, ring) Nellalleanza tra 10 Farm, risulta che il limite per la Farm 10 è 9091 avendo boosting pages, le conviene uscire dallalleanza Web ring La Farm p 0 decide di lasciare lalleanza se: PR(non connessa) > PR(ring) > ck + c 2 m + c 3 n (1 + c + c 2 )N 1 N + (1 + c)N ck + 1 > c - m(1 - c 2 ) - cn(1 - c 2 ) (1 - c) k

20 Link Spam Alliances - gruppo 720 Lasciare unalleanza Complete core La Farm p 0 decide di lasciare lalleanza se: PR(non connessa) > PR(complete core) > 2 + c + (1 + c)(k + m + n) 7c 2 k > (1 + c)N ck + 1 2ck – c 2 k + c 2 m + c 2 n (2 + c)N 1 N + Nellalleanza tra 10 Farm, risulta che nessuna raggiunge la dimensione limite a tutte conviene restare nellalleanza Contributi distribuiti in modo più uniforme rispetto al Web ring Piccole differenze tra i limiti di dimensione per le diverse Farm

21 Link Spam Alliances - gruppo 721 Spam detection Idea di base: identificare strutture come quelle descritte in precedenza Obiettivo: determinate potenziali candidati per il link spamming Zipfian distribution Amplification factor Spam mass

22 Link Spam Alliances - gruppo 722 Zipfian distribution pkpk p2p2 p1p1 p0p0 λ Fetterly et al., 2004 Le Farm sono spesso generate automaticamente ed hanno strutture molto regolari Si analizzano i gradi di entrata ed uscita delle pagine Molte pagine seguono la distribuzione di Zipfian Agglomerati di pagine i cui gradi di ingresso ed uscita seguono questa distribuzione in modo esatto risultano spesso essere parte di una Farm ZD(p) = |F(1)| = |F(2)| = … = |F(k)| ZD(p) = |B(1)| = |B(2)| = … = |B(k)|

23 Link Spam Alliances - gruppo 723 colluding pages Amplification factor Amp(H): in un gruppo di H pagine, è il rapporto tra il PageRank delle pagine nel gruppo ed il contributo di quelle esterne Se Amp(H) è dellordine di 1/(1–c), le pagine del gruppo possono essere target di Farm connesse in unalleanza p 0 + q 0 = O c Σ i p i + Σ j q j Amplification factor Zhang et al., 2004 Una caratteristica comune delle Farm è la capacità dei target di catturare il PageRank proveniente dalle boosting pages I target amplificano il contributo delle boosting pages pkpk p2p2 p1p1 p0p0 qmqm q2q2 q1q1 q0q0

24 Link Spam Alliances - gruppo c Relative spam mass Mass(i): relativo alla pagina i, è il rapporto tra PageRank totale e PageRank con apporto del random jump posto a 0: Spam mass Zyöngyi et Garcia-Molina, 2005 I target aumentano il proprio PageRank soprattutto grazie alle boosting pages Il PageRank delle boosting pages è dovuto al random jump pkpk p2p2 p1p1 p0p0 λ pkpk p2p2 p1p1 p0p0 λ Per pagine che non hanno grandi benefici da boosting pages, Mass(i) tende a 0 Se Mass(i) è elevato, la pagina i è probabilmente un target allinterno di una Farm p 0 – p 0 p0p0 p 0 = PageRank totale p 0 = PageRank parziale

25 Link Spam Alliances - gruppo 725 Conclusioni Le tecniche di Spam Detection presentate sono ancora sperimentali Riescono spesso ad identificare solo il core di unalleanza Possono risultare utili, ma presentano ancora problemi La tecnica riguardante la distribuzione di Zipfian non identifica strutture non regolari La tecnica dellAmplification factor identifica come alleanze di Farm anche gruppi di pagine che non lo sono La tecnica basata sulla Spam Mass non identifica target che aumentano il proprio PageRank soprattutto grazie al leakage Il primo passo per combattere realmente il Link Spam è conoscere a fondo le strutture proprie di questa tecnica Il percorso che porta ad individuare tecniche realmente efficaci per combattere il Link Spamming è comunque ancora molto lungo…

26 Link Spam Alliances - gruppo 726 Riferimenti [FMN] Spam, Damn Spam, and Statistics, Dennis Fetterly, Mark Manasse, Mark Najork, research.microsoft.com/research/sv/PageTurner/webdb2004.pdf [GGM] Link spam alliances Technical Report, Stanford University, infolab.stanford.edu/~zoltan/publications.html [NAJ] Heuristics for Detecting Spam Web Pages, Mark Najork – Microsoft Research, Silicon Valley, [USC] U.S. Census Bureau, E-Stats

27 Link Spam Alliances - gruppo 727 Demo … and now… WE WANT YOU see our


Scaricare ppt "Presentazione a cura del gruppo 7: Cristian Caruso Matteo Degli Esposti Claudia Fontan Relatore: Claudia Fontan Link Spam Alliances Sistemi Informativi."

Presentazioni simili


Annunci Google