Collaboration networks

Slides:



Advertisements
Presentazioni simili
Reti sociali Reti sociali.
Advertisements

Algoritmi e Strutture Dati
Selezione delle caratteristiche - Principal Component Analysis
TEN-T Policy Review: CORE NETWORK PLANNING 22 Feb. 2010
6. Catene di Markov a tempo continuo (CMTC)
Introduzione Cosa sono le reti di Petri?
1 Il punto di vista Un sistema è una parte del mondo che una persona o un gruppo di persone, durante un certo intervallo di tempo, sceglie di considerare.
Network Biologiche.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
3. Modelli di reti complesse
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 28/04/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
1 Capitolo 2: Semplificazione, Ottimizzazione e Implicazione.
U V U V (a) |cfc|=2 prima e dopo (b) |cfc|=2 prima e |cfc|=1 dopo
Capitolo 11 Grafi e visite di grafi Algoritmi e Strutture Dati.
Algoritmi e Strutture Dati
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Capitolo 12 Minimo albero ricoprente: Algoritmi di Prim e di Borůvka Algoritmi.
Algoritmi e Strutture Dati
Capitolo 11 Grafi e visite di grafi Algoritmi e Strutture Dati.
Capitolo 11 Grafi e visite di grafi Algoritmi e Strutture Dati.
Progetto e Sviluppo di un algoritmo per la gestione della Federazione Interdominio in unarchitettura di Service Discovery Candidato: XXX Roma, Febbraio.
Seminario su clustering dei dati – Parte II
Introduzione all’algebra lineare
Algoritmi e Strutture Dati
Modelli probabilistici
Queuing or Waiting Line Models
Analisi delle corrispondenze
Politecnico di Milano Esercizi Preparazione alla prima prova intermedia.
Fibonacci Heaps e il loro utilizzo nell’algoritmo di Prim
CAP 6 Centri e periferia Quantificazione dell’informazione informale in una organizzazione Centrality nodo Centralization intera rete Misure (su reti.
Gli studenti saranno in grado di usare limperfetto per descrivere cosa facevano da piccoli. Da Fare Ora: 1.Che programma televisivo hai guardato ieri?
Pajek Download: Corso Pajek Sidney DATA.
REGIONE AUTONOMA FRIULI VENEZIA GIULIA PROTEZIONE CIVILE DELLA REGIONE
(Laboratorio di ) Sistemi Informatici Avanzati
Prof. Cerulli – Dott.ssa Gentili
Metodi Matematici per le Applicazioni Industriali MMAI
Prof. Cerulli – Dott.ssa Gentili
OCTAVE.
Algoritmi e Strutture Dati
1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.
2. Grafi.
Euristiche: algoritmi costruttivi e di ricerca locale
Teoremi di Lieb Permette di stabilire l’esistenza di
Frequency Domain Processing
Web Communities and their identificaton
Project Review byNight byNight December 21th, 2011.
Project Review byNight byNight December 21th, 2011.
Superfici nascoste Daniele Marini.
Metaclassificazione Giovedì, 18 novembre 2004 Francesco Folino ( Combinare Classificatori Lecture 8.
Chapter 5 - Part 2 1 Procedura di sintesi  Specifiche  Formulazione – Ricavare un diagramma o una tabella di stato  Assegnazione della codifica di stato.
Reti Complesse seconda lezione
AlgoLab - MST code binomiali Algoritmi per il calcolo di MST: uso di code unificabili Laboratorio di Algoritmi 02/03 Prof. Ugo de’ Liguoro.
Ontologia AA F. Orilia. Lez. 16 Discussione dell'approccio controfattualista di lewis condotta da Antonio De Grandis.
Metodi Quantitativi per Economia, Finanza e Management Lezioni n° 7-8.
Capitolo 12 Minimo albero ricoprente: Algoritmo di Kruskal Algoritmi e Strutture Dati.
L A R OUTINE D EL M ATTINO Ellie B.. Io mi sono svegliata alle cinque del mattino.
SUMMARY Transmission and distribution of the electric energy RIEPILOGO Trasmissione e distribuzione dell’energia elettrica RIEPILOGO Trasmissione e distribuzione.
Filtri del secondo ordine e diagrammi di Bode
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
Capitolo 12 Minimo albero ricoprente: Algoritmo di Kruskal Algoritmi e Strutture Dati.
Discover the USA. What do you know about the USA? Would you like to know more? Do you know how the USA flag is called? What do the 50 stars and the 13.
LA SOCIAL NETWORK ANALYSIS
Progetti con arduino e pic.  Il trasduttore è analogico  Trasforma la temperatura in tensione secondo la relazione V millivolts =10*t celsius Essendo.
Dipartimento di Economia, Management e Istituzioni APPPLICAZIONI AZIENDALI MEDIANTE FOGLIO ELETTRONICO 4° modulo: Calcoli statistici, Regressione Prof.
ORGANISATION OF THE EDUCATION SYSTEM IN ITALY 2010/2011.
Activity diagrams Data & Control Flows Esempi
Fabio Rinnone Matricola 667/ Università di Catania Facoltà di SS. MM. FF. NN. Dipartimento di Matematica e Informatica Corso di Laurea di Primo Livello.
AA LEZ 26Sistemi per la Gestione Aziendale - Prof. Giuseppe Zollo1 Sistemi per la Gestione Aziendale. AA Ingegneria Gestionale (LS) Facoltà.
The paper is available free of charge at:
Transcript della presentazione:

Collaboration networks RETI 4 2-mode networks Collaboration networks

Definizione Esempi Proiezione Statistica Coesione Utilizzo di Pajek alcuni studi sulle reti bipartite Boards/Directors recommendation system

Definizione

-Scientific collaboration (authoring network) Esempi reali -Scientific collaboration (authoring network) Collaboration acts=papers; Actors= authors Corporate board and director network Collaboration acts=board (consigli d’amministrazione) Actors= directors -Occurrence networks Collaboration acts=sentences of the book the words appear; Actors= words occurring in a book Peer-to-peer exchange networks Collaboration acts=data the peers use Actors= peers

2-mode matrix m (5) rows , n (4) columns B(mxn)= BT(nxm)= bipartite matrix m+n rows, m+n columns m n m B BT n

Proiezione 2-mode 1-mode network  

http://toreopsahl.com/2009/05/01/projecting-two-mode-networks-onto-weighted-one-mode-networks/ “This diagram illustrates a binary two-mode network where the colors represent the node set to which a node belongs”. Le reti 2-mode vengono proiettate per poter usare le misure delle reti 1-mode

“weighted one-mode network by defining the weights as the number of co-occurrences. “ “Newman (2001) extended this procedure while working with scientific collaboration networks. He argued that the social bonds among scientist collaborating with few others on a paper were stronger than the bonds among scientists collaborating with many on a paper. He proposed to discount for the size of the collaboration by defining the weights among the nodes using the following formula:              where Np    is the number of authors on paper p “   (e.g., the number of blue nodes connected to the red node ). A-B connection weight 1/(2-1)+1/(3-1)=1+1/2=3/2=1.5

Esempi: donne (W)/eventi (E) (directors/boad, readers/magazines) w1 E1 E2 E3 w3 w2 B

Proiezione su W (righe) A=B BT w1 E1 E2 E3 w3 w2 w1 w2 w3 1 2 3 Potrebbe essere una «multiple line» Valore delle linee= n° eventi in comune Elementi diagonali= n° totale di eventi per ogni donna

Proiezione su E AT=BTB Valori delle linee= n° di donne che partecipano ad entrambi gli eventi Elementi diagonali: (loops)= n° di donne per ogni evento Problemi con la proiezione Con la proiezione si possono perdere o aggiungere proprietà alla rete

Normalizzazione della proiezione con Pajek: Esempio: donne /eventi (giornali/lettori) 2 3 1 w1 w2 w3 2 3 1 w1 w2 w3 correlazione 2 3 1 w1 w2 w3 Dipendenza Essere influenzati da..

Osservazioni GEO è una misura della connettività cioè della correlazione tra i nodi MINDIR trasforma la rete in rete diretta (orientata). Gli archi vanno dal nodo con peso minore a nodi con peso maggiore. 3. MINDIR: Gli archi vanno dal giornale con meno lettori a quello con più lettori 4. MINDIR: Il valore degli archi corrisponde alla percentuale di lettori del primo giornale che hanno letto anche il secondo

Statistica di base 1-mode,

La statistica di base si applica sia alle rete intera che alle sue proiezioni

Statistica avanzata delle reti 1-mode Sia applica in genere solo alle proiezioni Degree distribution= per tutti gli interi i è la frazione di nodi di grado i, ovvero la probabilità che un vertice scelto a caso abbia grado i. per ogni intero i. Misure di centrality: Clustering coefficient= probabilità che due nodi siano collegati tra loro avendo alcuni vicini in comune= probabilità che 2 intorni di un nodo qualsiasi siano legati tra di loro. Degree centrality Betweenness … 3. Assortatività= correlazione tra i gradi (grado medio dei nodi di grado i) 4. Coesione

Riprendiamo alcune misure di coesione già viste…. cliques Tutti con tutti Si possono sovrapporre k core Ogni nodo nel gruppo è connesso con k nel gruppo p-cliques Frequenza dei link di ogni nodo del gruppo=p

1 2 4 Si trasforma la rete in una unimodale m-slices Si trasforma la rete in una unimodale I pesi degli archi corrispondono ad esempio al numero di eventi (donne, etc.) in comune m-slice: è il sottografo massimo che contiene le linee con una molteplicità ≥m 1 2 4 1-slice 1 1 A = 1 1 2 2 slice A differenza delle clique e dei core le m-slice considerano la forza delle connessioni (peso delle linee) Net/Partitions/valued core

Isole In una rete dove sono note alcune proprietà dei vertici o delle linee si possono trovare isole (isole di vertici o isole di archi). Le isole sono clusters di vertici connessi con linee aventi valori più alti delle linee che collegano i vertici con gli altri ovvero il valore delle linee all’interno dell’isola è maggiore del valore delle linee tra isole. Si crea una partizione, una comunità. In Pajek le isole si calcolano: Net/Partitions/Islands/Line Weigths

Differenza tra m-slice e islands E’ una differenza di rappresentazione Peso archi 1 m-slice 2 isole

Studio delle reti bipartite con Pajek

ESEMPIO DAVIS SOUTHERN CLUB WOMEN DESCRIPTION 18 women×14 events BACKGROUND These data were collected by Davis et al in the 1930s. They represent observed attendance at 14 social events by 18 Southern women. The result is a person-by-event matrix: cell (i,j) is 1 if person i attended social event j, and 0 otherwise. REFERENCES Breiger R. (1974). The duality of persons and groups. Social Forces, 53, 181-190. Davis, A et al. (1941). Deep South. Chicago: University of Chicago Press.

Rappresentazione grafica Statistica di base su tutta la rete Statistica di base ed avanzata sulle proiezioni Coesione: m-slide, isole

Davis1.net …..

Visualizziamo la rete Draw/draw Visualizziamo la rete con la bi partizione Net/Partition/2-mode Draw/Draw partition

Statistica di base sulla rete completa Info/Network/General

Statistica di base sulla proiezione Proiezione sulle righe (women) Proiettiamo la rete Net/Transform/2-mode to 1-mode/Rows (include loops) Info/Network/general (n=18, m=157 (erano 93 prima della proiezione), loops=18)

Statistica avanzata sulla proiezione Proietto su Rows senza loops e linee multiple Net/Transform/Remove Loops Rimuovo le linee <3 (nelle proiezioni tendono ad esserci troppe linee. Net/transform/remove/line with values/lower than (3) Elimino i nodi isolati Net/transform/reduction/degree (all) Controllo se c’è solo una componente connessa Net/Component/weak Net/Path between 2 vertices/Diameter  3

Net/Path between 2 vertices/Shortest Path Length matrice La matrice si può salvare in un file di testo (prova2.m). Distanza media=1.8125 Diametro=3

Degree Distribution Proiettando Davis.net sull’insieme delle donne No loops, no multiple lines

donne eventi

Misuriamo la coesione (m-slice e isole) Proietto su Rows no loops e no linee multiple Net/Transform/2-mode 1 mode/Rows

Se troppo densa rimuoviamo delle linee Info /network/line Values Net/transform/Remove/line with value/lower than (3) Se ci sono nodi isolati li rimuoviamo: Net transform/reduction/Degree/All Digitare 2 e rispondere «si» alle domande seguenti

NB: le slice individuano sottoinsiemi di donne che hanno almeno m-slices in Pajek Net/Partitions/Valued Core/ Use max instead of sum Net/Partitions/Valued Core/ First threshold and Step/Input First theshold=0, Step=1 Ora Pajek ha creato una partizione con i numeri delle classi che corrispondono alla più alta m-slice a cui ogni vertice appartiene. Per rappresentare le m-slice: Draw/Draw Partition Per interagire Export/2D/SVG/line value/Nested Classes Aprendo la figura con un browser si possono deselezionare dei box e tutte le linee con valori fino a quello segnato saranno cancellate e così pure i vertici isolati. NB: le slice individuano sottoinsiemi di donne che hanno almeno Con un’altra donna un certo numero k di eventi in comune

esempio 3 4 5 2 1 Nodi del value core-1 e non del value core-2 Nodi del value core-2 e non del value core-3 Nodi del value core-3 e non del value core-4 Nodi del value core-4 e non del value core-5 Nodi del value core-5 e non del value core-6

Isole Le isole sono clusters di vertici connessi con linee aventi valori più alti delle linee che collegano i vertici con gli altri ovvero il valore delle linee all’interno dell’isola è maggiore del valore delle linee tra isole. Si crea una partizione, una comunità. Nella rete bimodale (rows) vista prima calcoliamo isole di archi: In Pajek le isole si calcolano: Net/Partitions/Islands/Line Weigths Esercizio: Davis1.net. Calcolare le isole di linee di dimensione da 2 a 6 per entrambe le reti ottenute dalla 2-mode network.

Nodi del value core-1 e non del value core-2 esempio 3 4 5 2 1 2 isole ma 1 value-core (1-slice) Nodi del value core-1 e non del value core-2 Nodi del value core-2 e non del value core-3 Nodi del value core-3 e non del value core-4 Nodi del value core-5 e non del value core-6 Nodi del value core-4 e non del value core-5 ISOLA

Draw partition Draw partition-vector

Correlazione/Influenza tra i nodi: Normalizzazione in Pajek Per normalizzare: Net/Tranform/2-mode 1-mode/ rows (include loops no multiple lines) Net/Transform/2-Mode to 1-Mode/Normalize 1-Mode (GEO o MINDIR) Info/Network/line Value Net/ Transform/Remove/line with value/Lower than (0.7) La normalizzazione con GEO crea degli archi pesati (non diretti) che ci dicono quanti interessi in comune hanno 2 donne. La normalizzazione con MINDIR crea una rete diretta che ci dice quanto una donna è influenzata dall’altra

GEO MinDir

Misure di centralità Osservazioni: Le misure di centralità come il clustering e la betweenness, non hanno molto senso per Davis.net Può servire invece la misura di centralità basata sull’out-degree dopo aver normalizzato la rete per vedere quali donne sono più influenti su un maggior numero di altre

la misura di centralità basata sull’out-degree dopo aver normalizzato la rete per vedere quale donna influenza il maggio numero di altre donne Draw-Vector

Esercizi (cap5): Considerare le seguenti reti 2-mode e misurare: la statistica di base, avanzata e la coesione (m-slice e isole) delle proiezioni 1. Scotland.net Corporate interlocks in Scotland (1904-5). Scotland.net: Pajek two-mode network with 244 vertices (136 multiple directors and 108 companies), 356 edges (directorate), no arcs, no loops. Industrial_categories.clu: classification of the 108 companies according to industry type (1 - oil & mining, 2 - railway, 3 - engineering & steel, 4 - electricity & chemicals, 5 - domestic products, 6 - banks, 7 - insurance, 8 - investment. Capital.vec: the total capital or deposits of the (108) companies (in 1,000 pound sterling). Scotland.paj: Pajek project file with the data described above.

2. Movies.net Movies.net: two-mode network with 102 vertices (40 composers and 62 producers), 192 valued edges (cooperation of producer and composer; line values represent the number of films cooperated on). Movies_top_composers.clu: identification of the five top composers (1 - top 5 composer, 0 - not a top 5 composer). This network contains the collaboration of 40 composers of film scores and the 62 producers who produced a minimum of five movies in Hollywood, 1964-1976. This is a 2-mode network: a line between a composer and a producer indicates that the former created the soundtrack for the movie produced by the latter. The line values indicate the number of movies by one producer for which the composer created the music in the period 1964- 1976. The five top composers, each of whom earned 1.5% or more of the total income of Hollywood movie score composers in the 1960s and 1970s, are identified.

Alcuni studi sulle reti bipartite

Communities in italian corporate networks C. Piccardi, L.Calatroni, F. Bertoni Physica A 389 (2010) 5247-5258

Gli autori applicano la community analysis per individuare possibili partizioni tra direttori o consigli di amministrazione. Nodi dello stesso gruppo avranno proprietà in comune o ruoli simili Boards Directors

Un sottoinsieme Chn (n° di nodi) è chiamato community se la densità dei link interni a Ch è maggiore della densità dei link che connettono i nodi Ch con il resto della rete Una definizione quantiva di community è stata data da Newman and Girvan (2004) introducendo il concetto di modularity Q La modularità Q misura il numero di link all’interno della comunità rispetto a quelli attesi se la rete fosse random (link medi per nodo per il numero di nodi). Q è un valore normalizzato. Q è dato per una fissata rete e una fissata partizione. L=numero di links ki=grado nodo i, aij=elemento matrice adiacenza, c=community

Somma al variare delle comunità nella partizione Somma al variare dei link nella comunità Community analysis: trovare la partizione che massimizza Q Q è un valore normalizzato e 1. Q è calcolato fissata una rete e una partizione

Per vedere se il valore di Qmax ottenuto è significativo, si generano tante reti random (M) aventi la stessa sequenza di gradi. Per ognuna si calcola la massima modularità , i=1..M Calcoliamo la media (m) e la varianza (s2) dei valori Quindi si testa l’ipotesi nulla che la rete è random calcolando z

La misura della modularità può essere estesa a reti pesate:

Italian corporate board network for those companies listed in italian Stock Market at the end of 2008 (http://consob.it)

Weigths in the board network: Were nij is the number of director shared by board i and j and ni the n° of directors of board i 0=No links between boards 1= the two boards are identical

Pirelli Proiezione sui boards 12 communities nella giant component Community structure: Qmax=0.66, z=51.7 Se trascuriamo i pesi: Community structure: Qmax=0.54, z=12 Conclusione la community sctucture dei consigli si amministrazione rimane importante

Proiezione sulle firms/directors Nodi:firms Links: esiste un link tra A e B se le decisioni di B possono essere influenzate da A ad esempio quando i direttori di A sono anche azionisti di B. La matrice delle connessioni si può supporre simmetrica 15 communities (giant component) Community structure: Qmax=0.82, z=29.2 Se trascuriamo i pesi: Community structure: Qmax=0.59, z=3.82 Conclusione la community structure delle firms è molto meno importante

Quantificazione della similitudine tra le due proiezioni (partizioni) Esistono diversi indicatori per misurare quanto le due proiezioni diano le stesse informazioni L’aspetto più interessante della community analysis è la capacità di mettere in evidenza forme più sottili di coalizione Per l’interpretazione dei risultati si rimanda all’articolo

NO

Recommendation System «A Recommandation System consists of users and objects where each users has collected some objects… A resonable assumption is that the objects you have collected are what you like and a reconmmendation algorithm aims at predicting your personal opinions (to what extent you like or hate them) on those object that you have not yet collected» In pratica si misura la forza del link tra l’utente i e j e poi si fa un ranking degli oggetti scelti da j e non ancora scelti da i e gli si consigliano. I pesi iniziali dei nodi rappresentano l’ammontare iniziale della risorsa (potere di raccomandazione, etc) .

Utenti oggetti Propongono di pesare la rete dei nodi x,y,z che considera anche l’altro gruppo di nodi Si crea una rete diretta di utenti che dice quanto le scelte di j possono influenzare quelle di i

La risorsa finale (potere di raccomandazione) collocata nei nodi top si può calcolare in modo compatto così: L’elemento ij della matrice rappresenta la frazione di risorsa che il nodo j (top) distribuisce al nodo i (top). E’ una matrice di adiacenza pesata Consideriamo i nodi: f(xi)>=0, risorsa iniziale di xi k(xi)= grado nodo xi. (aij)=matrice di adiacenza (mxn,mxn) da 0 e 1 Le risorse finali che fluiranno in xi saranno: dove w=(nxn)

Recommendation System NBI (Network-Based Inference) Oggetti Utenti aij=1 se uj ha già scelto l’oggetto i, 0 altrimenti Proiezione della rete bipartita sugli oggettiG Consideriamo l’utente i. le preferenze degli oggetti da lui scelti sono definite dalla funzione: (12)

Lavori http://vlado.fmf.uni-lj.si/pub/networks/data

Presentare il data set Illustrare le analisi già fatte in letteratura sul data set (references) 3. a. Rappresentare graficamente e matematicamente la rete, b. applicare la statistica di base c. applicare la statistica avanzata (centralità dei nodi, degree distribution) d. studiare la coesione (componenti connesse)

Soft specifico Cfr tra modi di raccogliere dati sociali no

Hub-authorities no Paper/authors Similarity in Slovenian parties Manca descrizione

no no no no

no no no no