La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Network Biologiche. Indice Esempi di network biologiche –Network di interazione proteina proteina (PPI networks) –Network metaboliche –Pathway Caratterizzazione.

Presentazioni simili


Presentazione sul tema: "Network Biologiche. Indice Esempi di network biologiche –Network di interazione proteina proteina (PPI networks) –Network metaboliche –Pathway Caratterizzazione."— Transcript della presentazione:

1 Network Biologiche

2 Indice Esempi di network biologiche –Network di interazione proteina proteina (PPI networks) –Network metaboliche –Pathway Caratterizzazione delle network (grafi) –Grafi random –Network scale-free –Network gerarchici Esempi di topologie scale-free e gerarchiche Rilevamento della struttura modulare –Algoritmi tradizionali Misure di distanza Single linkage clustering Average linkage clustering –Algoritmi basati su betweenness centrality (Girvan, Newman) –Applicazioni su network sociologiche, metaboliche e biochimiche

3 PPI network Interazioni tra proteine –Una proteina crea un legame temporaneo o permanente con unaltra proteina o con un gruppo di proteine –Nel caso di legame di lungo periodo si ha un complesso proteico –I legami per brevi periodi servono a svolgere alcune funzioni della cellula: trasporto, segnalazione etc. –Tutte le interazioni possono essere rappresentate attraverso una grande network in cui i nodi sono proteine e gli archi rappresentano le interazioni tra proteine RanGTP Cycle and Nuclear Import/Export (Nakielny and Dreyfuss, 1999) Colicin-immunity protein complex David Masica, Mike Daily, and Jeff Gray, March 2004

4 Network metaboliche Rappresentano un insieme di reazioni chimiche in una cellula –Un insieme di metaboliti (composti chimici) subiscono delle trasformazioni (reazioni chimiche) catalizzate da altre sostanze (enzimi) –Alla network possono essere aggiunti altri elementi: interazioni con proteine, elementi regolatori Schwarz et al. BMC Bioinformatics 2007

5 Pathway Una pathway rappresenta un determinato processo biologico (es. apoptosi) –Nodi: proteine, metaboliti, piccole molecole, geni, RNA, tutto ciò che è coinvolto nei processi in questione –Archi: relazioni tra i nodi (interazioni, trasformazioni, etc.)

6 Indice Esempi di network biologiche –Network di interazione proteina proteina (PPI networks) –Network metaboliche –Pathway Caratterizzazione delle network (grafi) –Grafi random –Network scale-free –Network gerarchici Esempi di topologie scale-free e gerarchiche Rilevamento della struttura modulare –Algoritmi tradizionali Misure di distanza Single linkage clustering Average linkage clustering –Algoritmi basati su betweenness centrality (Girvan, Newman) –Applicazioni su network sociologiche, metaboliche e biochimiche

7 Caratteristiche di una network Grado –Di un nodo: numero di archi entranti e/o uscenti –Di un grafo: media dei gradi dei nodi Distribuzione del grado –P(k) = N(k) / n –Poisson –Esponenziale Lunghezza del cammino minimo –Tra due nodi –Media di un grafo Coefficiente di clustering –Di un nodo: C i = 2 n i /[ k i ( k i -1)] –Di un grafo: media dei coefficienti dei nodi –Dipendenza dal grado: C(k)

8 Network Biology COEFFICIENTE DI CLUSTERING In molte network se A è connesso con B (con un link diretto) e B è connesso con C allora con alta probabilità anche A ha un link diretto a C. Questo fenomeno può essere quantificato con Dove n i è il numero di link che connettono i k vicini del nodo i ad ogni altro. La media caratterizza la tendenza globale dei nodi a formare cluster.

9 Network Biology COEFFICIENTE DI CLUSTERING In altre parole C i da il numero di triangoli che passano attraverso i. k(k-1)/2 è il numero massimo possibile di triangoli. Esempio: Solo B e C fra i vicini di A sono linkati. Quindi: n A =1 C A =2/20 Invece per F si ha C F =0

10 Network Biology Ha molta importanza anche la funzione C(k) definita come la media del coefficiente di clustering per tutti i nodi con k link. Per molte network reali si ha: Ciò caratterizza una rete gerarchica. COEFFICIENTE DI CLUSTERING

11 Grafi random Presi n nodi, per ogni coppia di nodi si inserisce un arco con probabilità p Caratteristiche –Grado medio: p(N-1) –Distribuzione del grado: di Poisson –Lunghezza del cammino minimo: l log n –Coefficiente di clustering medio: C = p –Coeff. clustering costante al variare del numero di nodi I grafi random presentano caratteristiche differenti da quelle delle network biologiche (e in generale di altri tipi di network). Infatti, le network risentono dei fenomeni di attaccamento preferenziale e duplicazione genica.

12 Attaccamento preferenziale Duplicazione genica I grafi random non descrivono bene le reti reali

13 Network scale-free I nodi vengono aggiunti uno per volta. Ogni nuovo nodo viene connesso a un altro nodo i della rete con probabilità i = k i / j k j Caratteristiche –Distribuzione del grado esponenziale: P(k) k - 3 i clusters perdono di importanza e non è più scale- free –Presenza di hub –Lunghezza del cammino minimo: l log log n. –Coefficiente di clustering basso –Coeff. clustering non dipendente dal grado –Coeff. di clustering decrescente sul numero di nodi ( N -0,75 )

14 Network gerarchiche

15 Caratteristiche delle network gerarchiche Topologia scale-free –Distribuzione di grado esponenziale –Presenza di hub –Lunghezza del cammino minimo: l log log n. Clustering –Alto coefficiente di clustering medio C = 0,6 –Dipendenza del coefficiente di clustering dal grado: C(k) = 1/k –Coeff. clustering costante al variare del numero di nodi

16 Struttura delle network gerarchiche Modularità: la rete è suddivisa in sottoinsiemi di nodi detti moduli (o cluster) –connessioni tra nodi dello stesso cluster molto dense –connessioni tra nodi di differenti cluster poco dense Struttura gerarchica –I moduli sono connessi formando meta-moduli –I meta-moduli sono connessi in maniera più debole formando una gerarchia di moduli (gerarchia di cluster)

17 Confronti Grafirandomscale-freegerarchiche Distribuzione di gradoPoissonesponenziale Esistenza di hubNoSi Lungh. Cammino minimo log n log log n Coeff. di clustering medio p bassoalto (0,6) Coeff. di clustering - gradono 1/k Coeff. di clustering - nodicostantedecrescente N -0,75 costante

18 Esempi di network scale-free e gerarchiche Network sociologiche –Network di conoscenze –Network di collaborazione Reti tecnologiche –Internet –World Wide Web –Reti elettriche Network biologiche –Network di interazioni (tra proteine, RNA, DNA, piccole molecole) –Network metaboliche –Network cellulari –Food web

19 Indice Esempi di network biologiche –Network di interazione proteina proteina (PPI networks) –Network metaboliche –Pathway Caratterizzazione delle network (grafi) –Grafi random –Network scale-free –Network gerarchici Esempi di topologie scale-free e gerarchiche Rilevamento della struttura modulare –Algoritmi tradizionali Misure di distanza Single linkage clustering Average linkage clustering –Algoritmi basati su betweenness centrality (Girvan, Newman) –Applicazioni su network sociologiche, metaboliche e biochimiche

20 Rilevamento della struttura modulare Network sociologiche –Gruppi di individui legati da interessi in comune –Gruppi reali, società, club, associazioni, famiglie Reti tecnologiche (web) –Gruppi di pagine su argomenti correlate (reti di link) –Gruppi di articoli su uno stesso argomento (reti di citazioni) Network biologiche –Gruppi funzionali o moduli (reti metaboliche)

21 Rilevamento della struttura modulare

22 Albero di clustering o Dendogramma

23 Algoritmi di clustering Tradizionali –Si calcola un peso W ij per ogni coppia di nodi i, j del grafo Overlap topologico Numero di path indipendenti (massimo flusso) Numero di path totali –Si applica un algoritmo di clustering classico usando come distanza linverso del peso (approccio bottom-up) Single linkage clustering Average linkage clustering Basati su betweenness centrality –Approccio top-down. Si eliminano gli archi meno centrali (con maggiore betweenness)

24 Overlap topologico Overlap topologico O T (i,j) tra due nodi i e j –Numero di nodi vicini di i oppure di j –Numero di nodi vicini sia di i che di j –Rapporto tra i due valori O T (i,j) = 1 se i e j sono connessi agli stessi nodi O T (i,j) = 0 se i e j non hanno vicini in comune

25 Numero di path indipendenti Numero di cammini indipendenti tra due nodi –Due cammini sono indipendenti se non hanno archi in comune Trovare il massimo flusso tra i nodi (max-flow) Equivalente a trovare il taglio minimo (minimum-cut) Algoritmo Ford-Fulkerson (tempo polinomiale)

26 s t Esempio: trovare il massimo flusso tra s e t Algoritmo Ford-Fulkerson

27 27 Ford-Fulkerson Max Flow s t Questo è il massimo flusso

28 Numero di path totali Numero di cammini tra due nodi (non per forza indipendenti) Problema –Se un cammino ha un ciclo esistono infiniti cammini Soluzione –ogni cammino è pesato di un fattore α l con l = lunghezza del path

29 Single linkage clustering Definita una funzione distanza tra nodi d(x i,x j ) mediante matrice di adiacenza Si prende linsieme di nodi senza archi Si seleziona la distanza più bassa. Si aggiunge un arco tra i nodi coinvolti. Se larco unisce due cluster si genera un nuovo cluster che li contiene Si procede iterativamente prendendo distanze via via crescenti Alla fine si ottiene un albero rappresentante la gerarchia di cluster

30 Average linkage clustering Definita una funzione distanza tra nodi d(x i,x j ) mediante matrice di adiacenza Si definisce la distanza tra due cluster C K, C L come la media delle distanze tra tutte le copie appartenenti a cluster diversi Si sceglie la coppia di nodi con distanza minore e si uniscono in un cluster. Si calcola la distanza del nuovo cluster da tutti gli altri nodi della rete (come media delle distanze di ogni nodo dai nodi del cluster) Si aggiornano le entry della matrice di adiacenza relative ai nodi del cluster mettendo le distanze del cluster Si procede in maniera iterativa

31 Rilevamento della struttura modulare Consideriamo la network metabolica dell Escherichia coli, la cui classificazione funzionale dei metaboliti è stata ben studiata Applichiamo lalgoritmo average-linkage clustering per rilevare la struttura modulare della network metabolica Confrontiamo i risultati (moduli rilevati) con le caratteristiche conosciute (caratterizzazione funzionale dei metaboliti) Ravasz et. al.

32 Algoritmo Calcoliamo la matrice di overlap O T (i,j) della network metabolica Applichiamo lalgoritmo di clustering gerarchico (average-linkage method of Sokal e Michener) Output: albero di clustering gerarchico (dendogramma)

33 Esempio Ravasz et. al.

34 Risultati Ravasz et. al. Blu = metabolismo dei carboidrati Rosso = metabolismo dei nucleotidi e acido nucleico Verde = metabolismo delle proteine e aminoacidi Ciano = metabolismo dei lipidi Rosa = metabolismo dei composti aromatici Giallo = metabolismo dei composti del carbonio Arancione = metabolismo dei coenzimi

35 Problemi Overlap topologico –Vengono considerate solo le caratteristiche locali ad ogni nodo Numero di path indipendenti –Se un nodo e connesso con un unico link, il numero di path indipendenti con tutti gli altri nodi è 1 (minore di tutti gli altri nodi) –Scarsi risultati su network la cui struttura modulare è ben conosciuta

36 Indice Esempi di network biologiche –Network di interazione proteina proteina (PPI networks) –Network metaboliche –Pathway Caratterizzazione delle network (grafi) –Grafi random –Network scale-free –Network gerarchici Esempi di topologie scale-free e gerarchiche Rilevamento della struttura modulare –Algoritmi tradizionali Misure di distanza Single linkage clustering Average linkage clustering –Algoritmi basati su betweenness centrality (Girvan, Newman) –Applicazioni su network sociologiche, metaboliche e biochimiche

37 Approccio Girvan-Newman Si parte dal grafo completo Si identificano gli archi (o i nodi) meno centrali (con alta betweenness) Si eliminano gli archi (o i nodi) meno centrali e poi via via quelli più centrali. Ogni volta che si separano due componenti, queste vengono riportate nellalbero di clustering

38 Betweenness di un nodo Proposta originariamente da Freeman –Fissato un nodo r –Tra tutte le coppie di nodi si considerano i cammini minimi (per ogni coppia ce ne può essere più di uno) –Tra tutti i cammini minimi di una coppia di nodi m, m ( mm ) si prendono tutti i cammini minimi che passano per r ( mm (r) ) –Si calcola il rapporto mm (r) / mm –Si sommano tutti i rapporti calcolati per tutte le coppie di nodi

39 Betweenness di un arco Analoga alla betweenness di un nodo Algoritmo di Newman per il calcolo delle betweenness di tutti gli archi –Complessità O(mn)

40 Algoritmo Calcola la betweenness di tutti gli archi del grafo utilizzando lalgoritmo di Newman Rimuovi larco con betweenness più alta Ricalcola la betweenness di tutti gli archi della componente affetta dalla rimozione Ripeti iterativamente finchè non ci sono più archi da rimuovere Complessità: O(m 2 n) (in media è inferiore)

41 Validazione Generato un grafo random –4 componenti –128 nodi –16 archi per nodo (z) –z in di questi archi sono associati a nodi della stessa componente (in maniera random) –I restanti z out = z - z in sono associati a nodi di una componente diversa (in maniera random)

42 Validazione

43 Indice Esempi di network biologiche –Network di interazione proteina proteina (PPI networks) –Network metaboliche –Pathway Caratterizzazione delle network (grafi) –Grafi random –Network scale-free –Network gerarchici Esempi di topologie scale-free e gerarchiche Rilevamento della struttura modulare –Algoritmi tradizionali Misure di distanza Single linkage clustering Average linkage clustering –Algoritmi basati su betweenness centrality (Girvan, Newman) –Applicazioni su network sociologiche, metaboliche e biochimiche

44 Karate club di Zachary Osservazioni su 34 membri di un karate club in un periodo di 2 anni –Rete di amicizie tra i membri del club Durante lo studio ci fu un disaccordo tra lamministratore del club e listruttore Listruttore lasciò il club e ne creò un altro portando con se circa la metà dei membri

45 Karate club di Zachary Rete di amicizie Dendogramma Algoritmo Club originario Nuovo club Classificazione non corretta

46 Incontri di football americano

47 Istituto Santa Fe

48 Chesapeake Bay food web

49 Applicazione alle network cellulari Struttura network biochimiche (grafo bipartito) –Sostanze: Metaboliti, Macromoduli, Complessi –Reazioni –Ogni sostanza è collegata ad unaltra attraverso una reazione –Una reazione ha archi entranti (sostanze che partecipano alla reazione) e archi uscenti (il risultato della reazione) Algoritmo di Girvan Newman modificato –Si calcola la betweenness per tutti i nodi reazione e si divide per il numero di archi entranti –Si eliminano i nodi reazione in sequenza (analogamente allalgoritmo di Girvan e Newman)

50 Applicazione alle network cellulari Struttura network biochimiche (grafo bipartito) –Sostanze: Metaboliti, Macromoduli, Complessi –Reazioni –Ogni sostanza è collegata ad unaltra attraverso una reazione –Una reazione ha archi entranti (sostanze che partecipano alla reazione) e archi uscenti (il risultato della reazione) Algoritmo di Girvan Newman modificato –Si calcola la betweenness per tutti i nodi reazione e si divide per il numero di archi entranti –Si eliminano i nodi reazione in sequenza (analogamente allalgoritmo di Girvan e Newman)

51 Risultati Holme, Huss, Jeong

52 Topologie Sono presenti due diverse topologie: –Community-type ordering (fig. a): cè una netta suddivisione tra i moduli –Shell-type ordering (fig. b): partendo da un modulo più piccolo vengono aggiunti nuovi elementi generando moduli sempre più grandi (struttura a conchiglia) Holme, Huss, Jeong

53 Conclusioni Lanalisi delle network è un processo importante nella comprensione dei processi cellulari. PPI networks e network metaboliche sono molto importanti in biologia. Il modello che meglio si adatta allo studio di network presenti in natura (biologiche, sociologiche) è la network gerarchica Gli algoritmi di clustering sono molto utili per identificare insiemi di componenti che contribuiscono a svolgere una stessa funzione (moduli funzionali o complessi). Algoritmi di clustering tradizionali possono essere utilizzati con opportune misure di distanza. Gli algoritmi basati su betweenness centrality hanno dato risultati migliori rispetto agli algoritmi classici.

54 Approfondimenti Network biology: Understanding the cells functional organization Ravasz, Somera, Mongru, Oltvai, Barabàsi – Science 297 (2002) Hierarchical organizzation of modularity in metabolic network Ravasz, Somera, Mongru, Oltvai, Barabàsi – Science 297 (2002) Community structure in social and biological networks Michelle Girvan, M. E. J. Newman – Proc. Natl. Acad. Sci. USA 99 (2002) Subnetwork hierarchies of biochemical pathways Holme, Huss, Jeong – Bioinformatics 19 (2003) Modular organization of cellular network River, Galitski - Proc. Natl. Acad. Sci. USA 100 (2003)


Scaricare ppt "Network Biologiche. Indice Esempi di network biologiche –Network di interazione proteina proteina (PPI networks) –Network metaboliche –Pathway Caratterizzazione."

Presentazioni simili


Annunci Google