Reti biologiche e allineamento

Slides:

Advertisements

Presentazioni simili

Premessa: si assume di aver risolto (correttamente

Advertisements

Teoria e Tecniche del Riconoscimento

Ricorsione in SQL-99.

6. Catene di Markov a tempo continuo (CMTC)

Dinamica del manipolatore

Introduzione Cosa sono le reti di Petri?

RICERCA DI SIMILARITA’ IN BANCHE DATI

Network Biologiche.

Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –

Generazione di Piani attraverso Grafi di Pianificazione

6. Catene di Markov a tempo continuo (CMTC)

BASI DI DATI BIOLOGICHE - 3

Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.

Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.

Teoria e Tecniche del Riconoscimento

Apprendimento Non Supervisionato

Analisi e sintesi di circuiti combinatori

Analisi e Sintesi di circuiti sequenziali

Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.

Processi Aleatori : Introduzione – Parte I

Algoritmi e Strutture Dati (Mod. B)

Stima ed algoritmi di consensus distribuito: considerazioni su IKF

Ricerca della Legge di Controllo

Apprendimento di movimenti della testa tramite Hidden Markov Model

Le cause del moto: la situazione prima di Galilei e di Newton

Modelli simulativi per le Scienze Cognitive Paolo Bouquet (Università di Trento) Marco Casarotti (Università di Padova)

Analisi e Sintesi di circuiti sequenziali. Definizione Una macchina sequenziale é un sistema nel quale, detto I(t) l'insieme degli ingressi in t, O(t)

Modelli probabilistici

Metodi basati sulle similitudini per dedurre la funzione di un gene

Alberi ricoprenti minimi Alcune applicazioni Lunedì 17 novembre 2003.

Bioinformatica Andrea G. B. Tettamanzi.

Intelligenza Artificiale Algoritmi Genetici

Intelligenza Artificiale

Lezione 13 Equazione di Klein-Gordon Equazione di Dirac (prima parte)

Fibonacci Heaps e il loro utilizzo nell’algoritmo di Prim

Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.

Algoritmi e Strutture Dati

Web Communities and their identificaton

Cammini minimi da un sorgente

A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.

Studio degli indici per query di similarità basati su matrici di distanze Esame di Sistemi Informativi per le Decisioni L-S Presentato da: Ing. Marco Patella.

Perceptron. è la somma effettuata sul nodo i-esimo dello strato j n è il numero di nodi dello strato j-1 è l'output proveniente dal nodo k-esimo dello.

Metaclassificazione Giovedì, 18 novembre 2004 Francesco Folino ( Combinare Classificatori Lecture 8.

Rete di Hopfield applicata al problema del TSP Federica Bazzano

La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.

Dip. Scienze Biomolecolari e Biotecnologie

Esempio di utilizzo del programma BLAST disponibile all’NCBI

R. Soncini Sessa, MODSS, L 26 Stima degli effetti Calcolo degli obiettivi (Laplace) Rodolfo Soncini Sessa MODSS Copyright 2004 © Rodolfo Soncini.

Capitolo 13 Cammini minimi: Algoritmo di Floyd e Warshall Algoritmi e Strutture Dati.

Paola Disisto, Erika Griffini, Yris Noriega.  Insieme ordinato di operazioni non ambigue ed effettivamente computabili che, quando eseguito, produce.

Claudio Arbib Università dell’Aquila Ricerca Operativa Metodo del simplesso per problemi di distribuzione single-commodity.

Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.

Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.

WORKING WITH BIOSEQUENCES Alignments and similarity search.

Allineamento di sequenze

Flusso di Costo Minimo Applicazione di algoritmi: Cammini Minimi Successivi (SSP) Esercizio 1 Sia data la seguente rete di flusso, in cui i valori riportati.

Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.

Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.

Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.

REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.

Normalizzazione. Introduzione Nell’organizzazione tradizionale degli archivi, si verificano alcuni problemi, quali: Ridondanza dei dati (gli stessi dati.

  Disegno assistito dal computer STRATEGIE PER LA RICERCA DEI NUOVI LEADS Computer-assisted design utilizza la chimica computazionale per al scoperta.

Self-Organizing Map (SOM Kohonen, 1981) è una tecnica di visualizzazione dei dati multidimensionali SOM è una mappa mono- (bi-)dimensionale che rappresenta.

Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:

Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.

Lezioni di Ricerca Operativa Corso di Laurea in Informatica

Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.

Fondamenti di chimica organica Janice Gorzynski Smith Copyright © 2009 – The McGraw-Hill Companies srl 1 Fondamenti di chimica organica Janice Gorzynski.

Transcript della presentazione:

Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa micale@di.unipi.it

Outline Reti biologiche Analisi comparativa di reti biologiche Allineamento di reti: Allineamento di reti PPI GASOLINE Allineamento di protein structure networks PROPOSAL

Reti biologiche

Definizione di rete Una rete (o grafo) G=(V,E) è una struttura dati definita da: V: insieme di nodi che rappresentano le entità di una rete; E: insieme di archi che descrivono le relazioni tra le entità. Un arco è una coppia ordinata di nodi. A C A C B D B D

Networks everywhere

Reti biologiche Esempi di reti biologiche: Descrivono processi biologici che avvengono nella cellula a diversi ‘livelli di risoluzione’; Descrivono l’insieme delle interazioni fisiche o reazioni chimiche tra vari tipi di molecole (es. RNA, geni, proteine, metaboliti). Esempi di reti biologiche: Reti di interazione proteina-proteina (PPI); Reti trascrizionali; Reti metaboliche; Mappe di contatto;

Reti di interazione proteina-proteina (PPI) Nodi: proteine; Archi: contatti fisici che si stabiliscono tra le proteine come conseguenza di eventi biochimici o forze elettrostatiche; Gli archi possono essere pesati con probabilità di interazione.

Due tipi di interazioni Signal transduction: una proteina interagisce con una o più proteine per trasmettere un segnale o uno stimolo esterno alla cellula (es. inizio trascrizione) Interazioni a catena (solitamente mediante fosforilazione); Interazioni tipicamente transitoria. Complex assembly: un insieme di proteine si unisce a formare una struttura cellulare più grande (complesso) Interazioni stabili tra tutte le proteine del complesso

Identificare PPIs Metodi sperimentali e computazionali; Metodi per individuare interazioni fisiche: Yeast 2-hybrid (Y2H) screening; Mass spectrometry; Metodi per individuare associazioni funzionali: Correlazione di profili di espressione di mRNA; Interazioni genetiche; Metodi in silico (ad esempio gene fusion)

Banche dati di PPIs Biological General Repository for Interaction Datasets (BioGRID) Human Protein Reference Database (HPRD) Saccharomyces Genome Database (SGD) Search Tool for the Retrieval of Interacting Genes/Proteins (STRING) Molecular interaction database (IntAct) Database of Interacting Proteins (DIP) Molecular Interactions Database (MINT) …

Limitazioni su PPI data Alto tasso di falsi positivi e negativi; Incompletezza dei dati attuali su molte specie: Yeast  50%, Human  10%; Le PPI dei virus sono quelle più complete. Scarso overlap tra i vari dataset: Mancanza di uno standard; Inconsistenza del mapping. Mancanza di informazioni temporali e relative a condizioni sperimentali; Relazione tra concentrazione di una proteina e il suo insieme di interattori?

Reti trascrizionali Nodi: geni; Arco: un gene influenza la produzione di un altro gene, per mezzo della sua corrispondente proteina (fattore di trascrizione); Due tipi di archi: stimolazione o repressione dell’espressione del gene.

Reti trascrizionali Le più complete sono relative a organismi modello semplici (lievito, verme, moscerino della frutta); Alcune sorgenti di dati: Kyoto Encyclopedia of Genes and Genomes (KEGG); RegulonDB; Reactome; TRANSPATH; TRANSFACT; EcoCyc.

Reti metaboliche Usate per descrivere il metabolismo, cioè l’insieme delle reazioni biochimiche che permettono all’organismo, si crescere, riprodursi e rispondere all’ambiente esterno; E’ formata da pathway metaboliche; La pathway descrive l’insieme delle reazioni biochimiche necessarie per realizzare una funzione (ad es. apoptosi e glicolisi)

Reti metaboliche I nodi della rete sono metaboliti ed enzimi; I metaboliti sono molecole e costituiscono prodotti intermedi e finali del metabolismo (es. glucosio, aminoacidi e polisaccaridi); Gli enzimi sono proteine che catalizzano le reazioni chimiche; Gli archi (diretti) corrispondono alle reazioni metaboliche, che convertono un metabolita in un altro, mediante l’intervento di uno o più enzimi.

Reti metaboliche

Reti metaboliche Le reti metaboliche sono ottenute in parte sperimentalmente e in parte per omologia; Dati disponibili per molti organismi; Alcuni database: Kyoto Encyclopedia of Genes and Genomes (KEGG); GeneDB; BioCyc; EcoCyc; MetaCyc; ERGO.

Mappe di contatto Nodi: aminoacidi; Un arco collega due amino acidi se sono sufficientemente vicini nella struttura tridimensionale della proteina (ad es. 10 Angstrom);

Mappe di contatto Mappano la struttura 3D della proteina in modelli 2D (grafi), più semplici da analizzare; Invarianti a rotazioni e traslazioni; Sotto certe condizioni, è possibile ricostruire le coordinate 3D di una proteina a partire dalla sua contact map;

Altre reti biologiche Reti neurali: connessioni sinaptiche tra neuroni; Reti ecologiche: sistema prede – predatori; Reti di correlazioni: descrivono le correlazioni tra le espressioni dei geni; Diversamente dalle reti trascrizionali non sono il risultato diretto di esperimenti; Reti di associazione ‘disease-gene’: lega malattie causate dallo stesso gene e geni che causano la stessa malattia; Reti di associazione ‘drug-target’: lega drugs che targettano lo stesso gene (o proteina) e geni (o proteine) targettate dalla stessa drug.

Analisi comparativa di reti biologiche

Network vs sequence analysis Per molti anni, la ricerca si è concentrata sull’analisi di singoli geni o proteine, per capirne la loro funzione; Tuttavia alcuni processi sono complessi e coinvolgono molti geni o proteine; L’analisi delle reti biologiche può spiegare meglio il funzionamento di questi processi

Proprietà delle reti biologiche Le reti biologiche (ed in particolare le reti PPI) sono costituite da piccoli gruppi di proteine altamente interconnessi (moduli); I moduli sono collegati tra loro da un ristretto numero di proteine di grado elevato (hub), che corrispondono a proteine ‘centrali’; I moduli coinvolgono tipicamente nodi che svolgono una funzione comune o sono coinvolti nello stesso processo (ad es. complessi).

Esempio su D. Melanogaster PPI

Analisi comparativa Il problema di individuare moduli funzionali nelle reti biologiche è analogo al problema di individuare elementi funzionali in sequenze di genomi o proteine; Assunzione biologica: la ‘conservazione’ di una sottorete di molecole nell’evoluzione di una specie implica una rilevanza funzionale; Conservazione riguarda sia le molecole coinvolte che le loro interazioni

Tecniche di network comparison Network alignment: confrontare due o più reti biologiche dello stesso tipo ma di specie diverse, identificando regioni di similarità; Individuare moduli funzionali conservati in specie diverse Network integration: combinare due o più reti di diverso tipo ma della stessa specie e definite sullo stesso set di elementi; Individuare moduli di proteine che interagiscono allo stesso modo mediante interazioni di tipo diverso; Predire nuove interazioni. Network querying: ricercare, all’interno di una rete, sottoreti simili ad una rete di interesse (query graph); Identificare istanze duplicate o conservate di un modulo

Esempio di network integration

Esempio di network querying

Allineamento di reti

Allineamento di reti Date N reti biologiche, individuare un insieme di N sottoreti di W nodi, una per ogni rete, in modo tale che la similarità tra le sottoreti sia massimizzata, in termini di similarità molecolare e topologica; W può essere fissato oppure no.

Allineamento locale vs globale Allineamento locale: trovare sottoreti locali simili e ‘allineare’ le reti in corrispondenza di queste sottostrutture; Allineamento globale: mappare tra loro i nodi delle varie reti, cercando di massimizzare il numero di archi conservati nelle varie reti.

Allineamento di reti PPI

Allineamento di reti PPI Allineamento locale: Individuare moduli funzionali di proteine conservati in specie diverse: Complessi (tipicamente sottoreti dense); Pathway (tipicamente strutture ad albero o a catena). Allineamento globale: misurare la similarità tra specie diverse a livello di reti PPI (analogo all’allineamento genomico): Valutare la distanza evolutiva tra specie diverse Può essere pairwise (due reti) o multiplo (più reti)

Allineamento di reti PPI Quali proteine, interazioni tra proteine e gruppi di interazione hanno funzioni equivalenti tra le specie? A partire da queste similarità, è possibile predire la funzione alcune proteine e nuove interazioni? Cosa ci suggeriscono queste relazioni sull’evoluzione delle proteine, di alcuni processi o dell’intera rete nei vari organismi? E’ possibile migliorare la confidenza che abbiamo su una interazione, se quest’ultima risulta conservata tra specie diverse?

Funzione di similarità tra proteine Nell’allineamento di reti PPI, occorre definire una funzione di similarità molecolare tra le proteine; Una scelta tipica è quella di considerare il BLAST E-value (o il Bit Score); Le proteine che si corrispondono nell’allineamento sono considerate ortologhe; Ortologhi: proteine che svolgono una funzione simile in specie diverse; Ortologia e similarità sequenziale non sempre coincidono!;

Paraloghi e omologhi Una proteina può avere due o più ‘copie’ (più o meno divergenti) nella stessa specie (paraloghi); La presenza di paraloghi è dovuta a processi di duplicazione e successiva modificazione subiti dalle proteine nel corso dell’evoluzione; Le modifiche possono riguardare anche la rete PPI; Paraloghi e ortologhi prendono anche il nome di omologhi.

Duplication-divergence model

Mapping tra proteine allineate Nell’allineamento finale, il mapping prodotto può essere uno-a-uno oppure molti-a-molti; Il mapping molti-a-molti è in grado di considerare paraloghi e ortologhi, ma può essere più difficile da interpretare.

Panoramica su algoritmi di allineamento di reti PPI

Un algoritmo di allineamento di reti PPI: GASOLINE

GASOLINE GASOLINE: Greedy and Stochastic algorithm for Optimal Local alignment of Interaction NEtworks Greedy: usa un approccio seed-extend per cercare sottografi conservati, partendo da allineamento di singoli nodi (seed dell’allineamento); Stochastic: usa il Gibbs sampling, un metodo stocastico e probabilistico, per cercare un mapping ottimale tra i nodi.

Preprocessing Obbiettivo: ridurre lo spazio di ricerca per i potenziali seed; Si ‘marcano’ le proteine che hanno ortologhi in tutte le reti allineate e grado superiore un valore di soglia σ; Tutti i nodi ‘marcati’ nella rete Gi sono aggiunti ad un insieme Si; Gli insiemi S1, S2, …, Sk sono utilizzati come input per GASOLINE e aggiornati ad ogni iterazione.

Descrizione generale di GASOLINE Input: G: set of N PPI networks S1, S2, …, SN: set of nodes from networks G1, G2, …, GN marked as potential seeds Bootstrap phase: find an optimal alignment of seeds False All aligned seeds are orthologs Remove seeds from S1, S2, …, SN True Save the alignment found Iterative phase: iteratively remove and add nodes True Extension step: extend seeds until the degree ratio increases Removal step: remove the set of mapped nodes with minimum Goodness score S1, S2, …, SN are not empty False Output: set of local alignments of N subgraphs

A running example

Gibbs sampling Sia la fase iniziale (bootstrap phase) che la fase iterativa (e in particolare ogni estensione) sono eseguite usando il Gibbs sampling Il Gibbs sampling è un metodo di campionamento, che fa parte della classe dei metodi Markov Chain Monte Carlo (MCMC); Il Gibbs sampling si basa sui concetti di catene di Markov e distribuzione stazionaria;

Catena di Markov Def: a catena di Markov è una tripla (Q, P(π1),A): Q è un insieme finite di k stati (o eventi); πi for i=1, 2, …, è lo stato della catena all’istante di tempo i; P(π1) è la distribuzione di probabilità iniziale degli stati (probabilità di trovarsi in uno stato all’istante iniziale); A = [aij] è una matrice di probabilità di transizione da uno stato i ad uno stato j.

Tipi di catene di Markov Def: una catena di Markov del primo ordine è una catena in cui la probabilità di trovarsi in uno stato al tempo i+1 dipende soltanto dallo stato della catena al tempo i: i ≥ 1, P(πi+1|π1, …, πi) = P(πi+1|πi) Def: una catena di Markov è finita se l’insieme dei suoi stati è finito. Def: una catena di Markov è irriducibile se tutti I suoi stati sono raggiungibili da qualsiasi stato della catena.

Tipi di catene di Markov Def: il periodo di uno stato s della catena di Markov è il numero minimo di transizioni (con probabilità non nulla) che sono necessari per tornare a s partendo da s stesso. E3 E1 E3 E1 … Period(E1) = 2 E1 E4 E2 E4 E2 … Def: uno stato è aperiodico se ha periodo uguale a 1. Def: una catena di Markov è aperiodica se tutti i suoi stati sono aperiodici.

Distribuzione stazionaria Def: Data una catena di Markov del primo ordine, finita, aperiodica e irriducibile con n stati, un vettore φ=(φ1, φ2, …, φn) è una distribuzione stazionaria se: φ x A = φ Data una catena di Markov con queste proprietà trovare la distribuzione stazionaria è semplice (risolvendo la precedente equazione); Il problema inverso è computazionalmente difficile e si può risolvere tramite metodi di campionamento (Gibbs sampling, Hasting-Metropolis, etc…)

Bootstrap phase – Gibbs sampling Sia M una catena di Markov in cui gli stati sono combinazioni di k protein, una per ogni rete(prese dagli insiemi Si); Scegli in maniera random una proteina da ogni rete e sia A questo allineamento iniziale; Per i=1,2,…k Estrai in maniera random una proteina Ai da A; Sostituisci Ai con una proteina x della stessa rete, sulla base di una probabilità di transizione (ovvero cambia stato in M); Aggiungi x ad A; Restituisci A.

Bootstrap phase – probabilità di trans. Supponiamo di voler sostituire Ai con x nell’allineamento A; Sia S(a,b) lo score di similarità tra le sequenze delle proteine a e b (es. BLAST Bit score); Label similarity score di x: Probabilità di transizione:

Bootstrap phase – terminazione Il Gibbs sampling viene iterato per un numero fissato di volte; Al termine del Gibbs sampling, l’ultimo allineamento ottenuto viene restituito.

Iterative phase – fase di estensione Sia M una catena di Markov dove gli stati sono combinazioni di k proteine, una per ogni rete (prese dagli insiemi dei nodi adiacenti ai nodi già allineati); Scegli in maniera random un nodo adiacente da ogni insieme e sia A questo allineamento iniziale; Per i=1,2,…k Estrai in maniera random una proteina Ai da A; Sostituisci Ai con una proteina x della stessa rete, sulla base di una probabilità di transizione P (cambia stato in M); Aggiungi x ad A; Estendi ciascun seed con I nodi corrispondenti in A. Ripeti finché il degree ratio dei sottografi allineati cresce.

Iterative phase – Probabilità di trans. Supponiamo di rimpiazzare Ai con x nell’allineamento A; Label similarity score di x: Per la similarità topologica, sia V(n) il vettore topologico, un array che memorizza i pesi degli archi che collegano un nodo n ai nodi della stessa rete già allineati. La posizione dei pesi nel vettore segue l’ordine di inserimento dei nodi nell’allineamento di sottografi parziale.

Vettore di topologia - esempio 3 0.3 2 0.7 n 1 V(n) = [0.7, 0, 0.3]

Iterative phase – Probabilità di trans. Similarità tra i vettori topologici di due proteine a e b: Topology similarity score di x: Score di similarità complessivo di x: Probabilità di transizione di x: dove Adj(k) è l’insieme degli adiacenti al sottografo già allineato della k-esima rete.

Iterative phase – terminazione Il Gibbs sampling viene iterato per un numero fisso di volte; Al termine del Gibbs sampling, l’ultimo allineamento prodotto viene restituito.

Degree ratio Sia S un sottografo allineato, G il grafo di cui fa parte, degInt(x) il numero di archi che collegano un nodo x in S con i nodi di S e deg(x) il grado di x in G; Degree ratio di S: Degree ratio dell’allineamento A: Il processo di estensione viene eseguito finché il degree ratio di A cresce.

Removal step Elimina dall’allineamento corrente l’insieme di nodi allineati che dà il contributo minimo alla qualità dell’allineamento; Rappresentiamo A come una matrice k x w, dove ogni colonna contiene proteine allineate nelle varie reti; Eliminiamo la colonna con Goodness score minimo; Goodness di una proteina A[i,j]: Goodness di una colonna j di A:

Score dell’allineamento finale La qualità dell’allineamento viene valutata in termini di conservazione strutturale; Numero di interazioni conservate in nodi x e y di diversi sottografi allineati: Score di similarità strutturale tra due sottografi allineati P e Q: dove P[i] and Q[i] sono nodi allineati in P and Q.

Score dell’allineamento finale Score di similarità strutturale di un allineamento A: Index of Structural Conservation (ISC) di A: ISC(A)  [0,1]

Postprocessing Obbiettivo: filtrare complessi che hanno un elevato grado di overlap; Gli allineamenti vengono ordinati per dimensione e ISC score; Sia S un sottografo dell’allineamento A e Perc(S) la percentuale di proteine in S osservate in precedenti allineamenti; Perc(A) è il valore medio di Perc(S) sui vari sottografi allineati in A; Se Perc(A) è al di sopra di una certa soglia l’allineamento viene scartato.

Test – alcuni risultati

Test – alcuni risultati

Test – alcuni risultati

Riferimenti bibliografici

Una app per Cytoscape

Una app per Cytoscape

Una app per Cytoscape

Una app per Cytoscape

Una app per Cytoscape

Una app per Cytoscape

Allineamento di reti di strutture di proteine

Perché confrontare strutture 3D La funzione di una proteina è principalmente legata alla sua struttura 3D oltre che alle proteine con cui interagisce; La struttura 3D di una proteina è generalmente più conservata della sua sequenza; L’analisi comparativa a livello strutturale può fornire ancora più indizi sulla funzione di una proteina rispetto a quella fatta a livello di sequenze.

Allineamento di protein structures Confrontare due o più strutture 3D di proteine al fine di individuare delle similarità (locali o globali); Similarità relative sia agli aminoacidi coinvolti che alle loro distanze dagli altri residui; Obbiettivo: trovare una sovrapposizione ottimale delle strutture.

Allineamento di protein structures

Allineamento locale Individuare potenziali siti di legame con altre molecole (proteine, RNA, ecc.) conservati in più proteine; Applicazioni: Predire interazioni tra proteine a livello molecolare (docking molecolare); Drug design. L’allineamento si può fare sia a livello 3D che 2D (contact maps); Il mapping a 2D viene fatto per ridurre la complessità computazionale del problema.

Funzione di similarità tra aminoacidi Similarità tra le label dei nodi: matrici di sostituzione (PAM, BLOSUM); BLOSUM: matrice di sostituzione, con score che indicano la frequenza di sostituzione di aminoacidi con altri, sulla base di allineamenti locali già computati; BLOSUMx: matrice costruita usando sequenze con non più del 62% di similarità; Per proteine distanti conviene usare BLOSUM33, per proteine simili si può usare anche BLOSUM80;

Valutazione della qualità dell’allineamento La qualità dell’allineamento è misurata sulla base della distanza media tra gli aminoacidi allineati; Dati due set di k residui allineati C e D, si cerca prima la sovrapposizione ottimale di questi residui, quella che minimizza la loro distanza nello spazio (tramite rotazioni e traslazioni); Quindi si calcola l’RMSD (Root Mean Square Deviation) a partire dalle coordinate x,y,z dei residui allineate dopo la trasformazione:

Panoramica su algoritmi di allineamento strutturale di proteine 3D structure comparison: DALI; VAST; SSAP; CE; MultiProt; TM-Align; MATT; DeepAlign. 2D contact maps comparison: Apurva; (Di Lena et al.); MSVNS; GR-Align. Local aligners (pairwise): ProBiS; SMAP.

Un algoritmo di allineamento locale di strutture: PROPOSAL

PROPOSAL PROPOSAL: PROtein comparison through Probabilistic Optimal Structure local ALignment Greedy: use a seed-extend approach to look for conserved substructures, starting from the alignment of triplets of aminoacids; Stochastic: use a Gibbs sampling strategy to find an optimal mapping between aminoacids.

Descrizione di PROPOSAL

Differenze tra GASOLINE e PROPOSAL Gli allineamenti hanno dimensione fissata W; Si parte da allineamenti di triplette di aminoacidi e non più da singoli nodi; L’estensione iniziale è fatta sempre fino a W aminoacidi, poi si procede sempre per rimozione e aggiunta di singoli aminoacidi allineati (da W-1 a W e viceversa); Cambiano le funzioni di scoring per Gibbs sampling; Goodness sostituita con Badness score.

Allineamento iniziale L’allineamento iniziale avviene a partire da triplette di aminoacidi. Le triplette candidate ad essere allineate sono tutte quelle in cui gli aminoacidi sono a distanza massima di 10 Angstrom tra loro. Gli aminoacidi da allineare devono corrispondersi (ad es. C deve essere mecciato con C, D con D, ecc.)

Probabilità di transizione nella fase iniziale Siano S1, S2, …, SN le triplette di aminoacidi nell’alllineamento corrente; Sia X la tripletta candidata a sostituire Si ad una certa iterazione del Gibbs sampling; Distance similarity: La probabilità di transizione è ottenuta normalizzando Sim(X) in [0,1].

Probabilità di transizione nella fase di estensione Siano S1, S2, …, SN le sottostrutture già allineate; Vogliamo estendere ogni sottostruttura già allineata con l’aggiunta di un nuovo aminoacido della stessa struttura tramite Gibbs sampling; Gli aminoacidi candidati sono quelli che si trovano a distanza al più 10 Angstrom da almeno un residuo nella sottostruttura corrispondente; Sia A l’allineamento corrente di aminoacidi nel Gibbs sampling e supponiamo di sostituire Ai con x; La probabilità di transizione è calcolata considerando la similarità tra x e gli altri aminoacidi in A e le distanze tra x e gli altri aminoacidi in A;

Probabilità di transizione nella fase di estensione Similarità tra label: Distance similarity: La probabilità di transizione è il prodotto delle due similarità

Badness score Nella refinement phase si rimuove il set di aminoacidi allineati che dà il contributo ‘peggiore’ all’allineamento finale; Badness score: Si rimuove il set di aminoacidi allineati con più alto Badness score.

Test – alcuni risultati

Test – alcuni risultati

Test – alcuni risultati

Riferimenti bibliografici

Considerazioni finali Gli algoritmi descritti possono essere generalizzati ed estesi a qualsiasi tipo di rete e contesto; Qualsiasi funzione di similarità tra i nodi delle reti può essere usata; Possibili estensioni: Analisi di reti sociali; Reti dinamiche; Reti multidimensionali; …

Questions?