(L ABORATORIO DI ) S ISTEMI I NFORMATICI A VANZATI Giuseppe Manco.

Slides:



Advertisements
Presentazioni simili
Teoria e Tecniche del Riconoscimento
Advertisements

Algoritmi e Strutture Dati
Reti sociali Reti sociali.
Algoritmi e Strutture Dati
Apprendimento Automatico Apprendimento supervisionato
Estendere i linguaggi: i tipi di dato astratti
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Generazione di Piani attraverso Grafi di Pianificazione
Riconoscimento di forme
Breath-first search Visita in ampiezza di un grafo Algoritmo Esempio
Sistemi di supporto alle decisioni 2. Features space
Il problema del cammino minimo tra 2 nodi in un grafo con archi privati.
Algoritmi e Strutture Dati
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Università degli Studi di Roma Tor Vergata
Algoritmi e Strutture Dati
Scenario Archi di un grafo controllati da agenti egoistici
Apprendimento Automatico: Apprendimento Probabilistico Roberto Navigli 1 Apprendimento Automatico: Apprendimento Bayesiano.
Computational Learning Theory and PAC learning
Metodi di Ensemble Metaclassificatori.
Il problema del minimo albero ricoprente in un grafo con archi privati
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Capitolo 12 Minimo albero ricoprente: Algoritmi di Prim e di Borůvka Algoritmi.
Algoritmi e Strutture Dati
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Capitolo 12 Minimo albero ricoprente: Algoritmi di Prim e di Borůvka Algoritmi.
Algoritmi e Strutture Dati
Il problema del cammino minimo tra 2 nodi in un grafo con archi privati.
Cammini minimi Algoritmo SPT.Acyclic
Seminario su clustering dei dati – Parte I
Ricerca della Legge di Controllo
BILAYER SEGMENTATION OF LIVE VIDEO
Apprendimento di movimenti della testa tramite Hidden Markov Model
Algoritmi e Strutture Dati
Modelli probabilistici
Intelligenza Artificiale Algoritmi Genetici
Intelligenza Artificiale
Main tools of the probabilistic method with applications in graph theory Attività formativa - Yuri Faenza Supervisore: Prof. B. Scoppola CdLS in Ingegneria.
(Laboratorio di ) Sistemi Informatici Avanzati
Algoritmi e Strutture Dati
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Semi-Supervised Learning
PARTE PRIMA: Reti Cablate
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
2. Grafi.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 K 4 è planare? Sì!
Modelli predittivi delle agenzie di rating internazionali: il modello MEU evoluto (maximum expected utility) Mattia Ciprian*, Daria Marassi°, Valentino.
Algoritmi e Strutture Dati
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Capitolo 12 Minimo albero ricoprente: Algoritmi di Prim e di Borůvka Algoritmi.
Università degli Studi di Cagliari
Perceptron. è la somma effettuata sul nodo i-esimo dello strato j n è il numero di nodi dello strato j-1 è l'output proveniente dal nodo k-esimo dello.
Master Bioinformatica 2002: Grafi
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Implementazione di dizionari Problema del dizionario dinamico Scegliere una struttura dati in cui memorizzare dei record con un campo key e alcuni altri.
GLI ALGORITMI VISIBILE SUL BLOG INFORMATICA ANNO SCOLASTICO 2013 / 2014 GABRIELE SCARICA 2°T.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Strutture dati per.
La lavagna luminosa del futuro Adotteremo il modello degli agenti cognitivi.
Capitolo 13 Cammini minimi: Ordinamento topologico Algoritmi e Strutture Dati.
Capitolo 12 Minimo albero ricoprente: Algoritmo di Kruskal Algoritmi e Strutture Dati.
Capitolo 13 Cammini minimi Algoritmi e Strutture Dati.
Flusso di Costo Minimo Trasformazioni Equivalenti e Trasformazioni Inverse Viene data la seguente rete di flusso, in cui i valori riportati vicino agli.
Automi temporizzati.
Capitolo 13 Cammini minimi: algoritmo di Dijkstra Algoritmi e Strutture Dati.
Progetto AMBIT: Ottimizzazione e Valutazione Sperimentale del Motore di Ricerca Semantico Basato sul Contesto Università degli studi di Modena e Reggio.
Capitolo 12 Minimo albero ricoprente: Algoritmo di Kruskal Algoritmi e Strutture Dati.
Dispositivi Mobili per Sentiment Analysis
Capitolo 11 Grafi e visite di grafi Algoritmi e Strutture Dati Camil Demetrescu, Irene Finocchi, Giuseppe F. Italiano.
Introduzione a Weka Di Fabio Cassano
Fabio Rinnone Matricola 667/ Università di Catania Facoltà di SS. MM. FF. NN. Dipartimento di Matematica e Informatica Corso di Laurea di Primo Livello.
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Transcript della presentazione:

(L ABORATORIO DI ) S ISTEMI I NFORMATICI A VANZATI Giuseppe Manco

L INK P REDICTION

O UTLINE Overview Link Prediction Variants Deterministic Methods Probabilistic Methods Supervised Learning Approaches

P ROBLEM D EFINITION Data una snapshot della social network al tempo t, cerchiamo di predire accuratamente quali archi verranno aggiunti alla rete durante lintervallo di tempo da t fino ad un istante futuro t

A PPLICAZIONI Identificazione della struttura di una rete criminale: I dati a disposizione sono incompleti Cerchiamo di ricostruire i collegamenti allinterno della rete criminale

A PPLICAZIONI Superare il problema della sparsità nei recommender systems basati sul collaborative filtering Chi compra: Comprerà anche:

A PPLICAZIONI Accelerare il formarsi di link che altrimenti si sarebbero formati in maniera spontanea ma molto più lentamente (serendipity). Rete della ricerca scientifica Rete di lavoro

A PPLICAZIONI Analizzare la storia di navigazione degli utenti di internet al fine di incrementare lefficienza di navigazione Predictive server prefetching

A PPLICAZIONI Monitorare e controllare virus che viaggiano su reti di poste elettroniche

L INK C OMPLETION Problema I dati a disposizione di una rete sociale potrebbero essere incompleti Un link potrebbe unire più di una coppia di nodi Obiettivo Dato un nodo (o una serie di nodi) connesso (connessi) tramite un link, determinare quali altri nodi fanno parte del link

L INK C OMPLETION Esempio Un cliente compra 5 libri online, e durante il trasferimento in rete dei nodi si perde linformazione sul titolo di uno dei libri Un algoritmo di Link Completion potrebbe inferire il nome del libro mancante basandosi sul profilo dellutente e sugli altri libri acquistati

L INK C OMPLETION Esempio Maria, Marco ed una terza persona partecipano ad un meeting A partire dalle precedenze co-occorrenze a meeting della base di utenti cui appartengono Maria e Marco, determinare il nome della terza persona

S OLUZIONE S EMPLICE Associamo ad ogni entità A un punteggio score Co-occorrenze: Score(A) = somma del numero di co-occorrenze precedenti tra A e gli altri nodi del link Popolarità Score(A) = numero di occorrenze di A in altri link

P ROBLEMI NELLA L INK D ISCOVERY Il numero di coppie da analizzare è quadratico rispetto al numero di nodi del grafo Reti sparse pochi casi osservati di interesse Scoperta di link inattesi e/o anomali allinterno dei dati osservati (outliers) Pochissimi comuni vicini o troppo distanti fra loro

L INK P REDICTION

T ECNICHE DI L INK P REDICTION Tutte le tecniche che analizzeremo associano uno score(x,y) a tutte le coppie di nodi (x,y) della rete, in base allorganizzazione del grafo in input Loutput è una lista di probabili archi che si formeranno in futuro, ordinati per score(x,y) decrescenti

S HORTEST P ATH Lo score(x,y) è la lunghezza del percorso minimo tra x e y score(x,y) = spl(x,y)

C OMMON N EIGHBORS Lo score(x,y) è la cardinalità dellintersezione dei vicinati di x e y Newman 2001: La probabilità che uno scienziato A collabori con un altro scienziato B, aumenta condizionalmente al numero di collaboratori che hanno in comune.

J ACCARD S IMILARITY Bilanciamento della misura Common Neighbors tramite le dimensioni dei vicinati x e y condividono molti vicini perché probabilmente hanno vicinati estesi Si pesano solo i vicinati aderenti al link in analisi Rispetto al Common Neighbors è una misura relativa e non assoluta

A DAMIC /A DAR Lo score(x,y) dipende da quante feature condividono x e y Nel caso in cui le feature siano altri nodi

P REFERENTIAL A TTACHMENT Nel preferential attachment lo score è definito: Newman 2001: La probabilità che x sia coatore di y è correlata al prodotto del numero di collabaratori di x e y

K ATZ C ENTRALITY (1953) Secondo la Katz Centrality: indica linsieme dei percorsi di lunghezza pari ad l tra x e y Alla somma dei pesi dei percorsi nel caso di grafo pesato La centralità di Katz è una misura che somma i pesi di tutti i path tra due nodi bilanciadoli sulla lunghezza tramite un fattore esponenziale

H ITTING T IME Dove è il tempo atteso per un random walk da x a y è la porzione di tempo in cui si staziona in x

R OOTED P AGE R ANK Modello Hitting Time con passi random Con probabilità a salta ad un nodo qualsiasi della rete Con probabilità (a – 1 ) spostati verso un vicino del nodo attuale

S IM R ANK Definizione ricorsiva di similarità Due oggetti sono simili se sono connessi ad oggetti simili Definizione nel caso dei link Due oggetti appartengono ad un link se sono connessi ad oggetti che appartengono agli stessi link Definita solo per grafi orientati γ è una costante compresa tra 0 e 1

U NSEEN BIGRAMS Supponiamo di avere una funzione di similarità tra nodi sim(x,y) Sia linsieme dei δ nodi più simili ad x secondo sim(x,y) Lo score(x,y) dipende da quanti nodi, simili ad x, sono in relazione con y

C LUSTERING Calcola lo score(u,v) per ogni arco (u,v) della rete Rimuovi il k% di archi con lo score più basso Calcola lo score(x,y) per ogni coppia di nodi (x,y)

C LUSTERING Calcola lo score(u,v) per ogni arco (u,v) della rete Rimuovi il k% di archi con lo score più basso Calcola lo score(x,y) per ogni coppia di nodi (x,y)

C LUSTERING Calcola lo score(u,v) per ogni arco (u,v) della rete Rimuovi il k% di archi con lo score più basso Calcola lo score(x,y) per ogni coppia di nodi (x,y)

P ERFORMANCE C OMPARISON Liben-Nowell et al., 2003

O BSERVATIONS Le misure Adamic/Adar e Common Neighbors si comportano sorprendentemente bene anche se molto sono semplici Le accuratezze di tutte le misure in generale sono basse cè spazio per la definizione di nuove misure per il miglioramento dellaccuratezza

P ROBABILISTIC M ODELS Idea: La rete sociale è governata da una distribuzione probabilistica i cui parametri Θ devono essere stimati Lesistenza di un arco sconosciuto che lega due nodi x e y dipende quindi da:

P ROBABILISTIC M ODELS I dati a disposizione sono: Struttura della rete sociale Nodi e archi Informazioni contestuali Tipizzazione di nodi ed archi Contenuto informativo associato a nodi ed archi

P ROBABILISTIC M ODELS Vista la natura ibrida dei dati (contestuali + strutturali) in letteratura sono stati proposti modelli relazionali I principali framework per la modellazione relazionale probabilistica sono: PRM: probabilistic relational models, basato sul modello relazionale DAPER: directed acyclic probabilistic entity relationship, basato sul modello entità – relazione

PRM Il PRM cerca di astrarre i dati della rete osservati in modelli compatti a grafo Il modello PRM è composto da tre grafi: Il Data Graph: la rete in input Il Model Graph: la rappresentazione compatta delle caratteristiche dei dati LInference Graph: grafo per lattuazione del modello su nuovi dati di rete, diversi da quelli di training

PRM

Il framework prevede diverse varianti ed implementazioni. Le più note sono: Relational Bayesian Networks (RBN) Relational Markov Networks (RMN) Relational Dependency Networks (RDN)

DAPER Il Framework DAPER è adatto per rappresentare contesti Bayesiani spinge alla rappresentazione esplicita dei parametri e degli iper – parametri del modello Il modello può contenere sia parametri globali che locali: La parametrizzazione delle prior permette la definizione di modelli molto flessibili

D APER DAPER formula un framework probabilistico per un database in forma entità – relazione La componente principale (first class) della modellazione è linsieme delle relazioni Un modello DAPER consiste nella definizione di una serie di : entity classes relationship classes attribute classes arc classes local distribution classes constraint classes

DAPER

S UPERVISED L EARNING A PPROACHES La link prediction può essere vista come un problema di learning supervisionato Obiettivo: Addestrare un classificatore binario in grado di predire se un link esiste tra due nodi della rete oppure no

E XPERIMENTAL S ETUP Dataset: Co-authorship Network Si suddivide il dataset in due partizioni, tra le quali non esiste sovrapposizione temporale Training (pubblicazioni passate) & Test (pubblicazioni recenti)

C LASSIFICATION D ATASET La classificazione si basa sulla scelta di due autori Non esiste, nei dati di training, una pubblicazione tra i due autori Determinare la probabilità (o meno) che i due autori pubblicheranno insieme in futuro Esempio positivo: i due autori selezionati hanno una pubblicazione comune nel test set Esempio negativo: altrimenti

E XPERIMENTAL S ETUP Datasets: DBLP Train (1990 – 2000) Test (2001 – 2004) BIOBASE Train (1998 – 2001) Test (2002)

E XPERIMENTAL S ETUP Scelta delle feature

A LGORITHMS SVM Decision Trees Multilayer Perceptron KNN Naïve Bayes RBF Bagging

R ESULTS