UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 8 Allineamento.

Slides:



Advertisements
Presentazioni simili
Primary Italian Saying How You Are.
Advertisements

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Routing Crediti Parte delle slide seguenti sono adattate dalla versione originale di J.F Kurose and K.W. Ross (© All Rights Reserved)
1 Capitolo 2: Semplificazione, Ottimizzazione e Implicazione.
BRISCOLA GO ON AVANTI. Storia I giochi di carte hanno le origini più disparate e vengono collocati in differenti epoche, la Briscola risale al La.
2000 Prentice Hall, Inc. All rights reserved. 1 Capitolo 3 - Functions Outline 3.1Introduction 3.2Program Components in C++ 3.3Math Library Functions 3.4Functions.
Queuing or Waiting Line Models
Fonti, metodi e strumenti per lanalisi dei flussi turistici A.A Prof.ssa Barbara Baldazzi Corso di Laurea PROGEST Facoltà di Lettere e Filosofia.
Intelligenza Artificiale
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Come nella stampa tradizionale, un giornale online può essere di informazione informazione o un periodico dedicato a una disciplina specifica.
Distribuzione del numero di alleli condivisi da coppie di fratelli e di non-parenti tipizzati rispettivamente per 5, 9 e 13 markers.
Frequency Domain Processing
Il Futuro The Future Tense.
D2I Modena, 27 Aprile 2001 Progettazione e interrogazione di Data Warehouse (Tema 2) Unità Responsabile: Cosenza Unità Coinvolte: Cosenza - Bologna.
Cuando Me Enamoro Quando M’Innamoro A Man Without Love M ộ t Ng ườ i Không Có Tình Yêu.
Imagine.
PINK FLOYD DOGS You gotta be crazy, you gotta have a real need. You gotta sleep on your toes. And when you're on the street. You gotta be able to pick.
Ontologia AA F. Orilia. Lez. 16 Discussione dell'approccio controfattualista di lewis condotta da Antonio De Grandis.
4/20/20151 Metodi formali dello sviluppo software a.a.2013/2014 Prof. Anna Labella.
SCOPA Avanti.
Metodi Quantitativi per Economia, Finanza e Management Lezioni n° 7-8.
Capitolo 14 Il presente del congiuntivo (the present subjunctive)
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle.
COESIONE convergenza, competitività, cooperazione Commissione europea Corso di Politiche Economiche Regionali Prof.ssa Cristina Brasili COSLI - A.A
Un problema multi impianto Un’azienda dispone di due fabbriche A e B. Ciascuna fabbrica produce due prodotti: standard e deluxe Ogni fabbrica, A e B, gestisce.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 3 Mappe genetiche.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 11 Distanza genomica.
Accoppiamento scalare
Rieti: The Medieval Walls. Fare la conta per formare le coppie per ballare e per individuare il bambino che ballerà con la scopa Do a count and make.
SUMMARY Time domain and frequency domain RIEPILOGO Dominio del tempo e della frequenza RIEPILOGO Dominio del tempo e della frequenza.
Viruses.
SUMMARY Quadripoles and equivalent circuits RIEPILOGO Quadripoli e circuiti equivalenti RIEPILOGO Quadripoli e circuiti equivalenti.
John Winston Ono Lennon was an English musician. From 1962 to 1970 he was a composer and singer (soloist) of the musical group the Beatles. Along with.
SUMMARY High efficiency motors RIEPILOGO Motori ad alta efficienza RIEPILOGO Motori ad alta efficienza.
SUMMARY Dinamic analysis RIEPILOGO Analisi dinamica RIEPILOGO Analisi dinamica.
Circuiti matematici con amplificatori operazionali
Summary Module 1 – Unit 1 (Current, potential difference, resistance) RIEPILOGO Modulo 1 – Unità 1 (Corrente, tensione, resistenza)
SUMMARY Different classes and distortions RIEPILOGO Le diverse classi e le distorsioni RIEPILOGO Le diverse classi e le distorsioni.
SUMMARY Applications of synchronous motors and stepper motors RIEPILOGO Applicazioni dei motori sincroni e dei motori passo-passo RIEPILOGO Applicazioni.
SUMMARY A/D converters RIEPILOGO Convertitori A/D RIEPILOGO Convertitori A/D.
Filtri del secondo ordine e diagrammi di Bode
SUMMARY Real operational amplifiers RIEPILOGO Amplificatori operazionali reali RIEPILOGO Amplificatori operazionali reali.
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
SUMMARY Interconnection of quadripoles RIEPILOGO Interconnessione di quadripoli RIEPILOGO Interconnessione di quadripoli.
NOTE: To change the image on this slide, select the picture and delete it. Then click the Pictures icon in the placeholder to insert your own image. ITALIAN.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle Prof.
Simple Sentences in Italian
Fotonica 3D.
Language of Algebra.
Language of Algebra. Basic concepts Key words Practice exercises Basic concepts Key words Practice exercises.
Polygons, Quadrilaterals, Trapezes and Parallelogramms
Polygons, Quadrilaterals, Trapezes and Parallelogramms
LE PREPOSIZIONI. Le Preposizioni semplici (Simple prepositions) A preposition describes a relationship between other words in a sentence. In itself, a.
Buon giorno, ragazzi oggi è il quattro aprile duemilasedici.
Un processo separativo di tipo cromatografico ha quindi come risultato un profilo di concentrazione risolto nello spazio o nel tempo di forma gaussiana.
 Italian 3 – Cap. 9. The imperative form of verbs is used to give order, suggestions, directions, and instructions. The informal imperative – the tu,
Crescita I: Paolo Sospiro Università di Macerata Macerata 29 Settembre 2014 Economia dello Sviluppo Università di Macerata.
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Activity diagrams Data & Control Flows Esempi
SUMMARY Checking RIEPILOGO Verifiche RIEPILOGO Verifiche.
A Tiny Voice Inside Una piccola Voce interiore By Carole Smith Gaetano Lastilla.
STMan Advanced Graphics Controller. What is STMan  STMan is an advanced graphic controller for Etere automation  STMan is able to control multiple graphics.
MSc in Communication Sciences Program in Technologies for Human Communication Davide Eynard Facoltà di scienze della comunicazione Università della.
Dyslexia activity Group 2 (Debora Q.) Lesson Outline  This activity is targeted at beginners half way through their first year but it could also work.
WRITING – EXERCISE TYPES
Bubble Sort.
Progettazione concettuale
A comparison between day and night cosmic muons flux
Transcript della presentazione:

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 8 Allineamento multiplo di sequenze

2 Perché l’allineamento multiplo? Analisi filogenetica  Proteine con funzioni simili in specie diverse  L’allineamento multiplo ottimale fornisce informazioni sulla storia evolutiva delle specie  Scoperta di irregolarità (es. gene della Fibrosi Cistica) Individuazione regioni conservate  L’allineamento multiplo locale rivela regioni conservate  Le regioni conservate di solito sono regioni chiave per la funzionalità  Le regioni conservate sono target prioritari per lo sviluppo di farmaci

3 Definizione del problema INPUT INPUT: un insieme S = {S 1,S 2,…,S n } di n sequenze definite su un alfabeto  e  una matrice di punteggio d: (  {-}) 2  R OUTPUT OUTPUT: un insieme S ’ = {S’ 1,S’ 2,…,S’ n } di n sequenze sull’alfabeto  U{  } con le seguenti proprietà: 4  S i ’| = L  i 4 eliminando gli spazi da S i ’ si ottiene S i  i 4 il punteggio di allineamento A è massimo

Indice di colonna M Q P I L L L M L R - L L - M K - I - L L M P P V I L L Esempio 1

5 Esempio 2 SUGAR SUCRE AZUCAR ZUCKER SAKARI ZUCCHER O SOKKER SUGAR- SUC-RE SU G/C? R? -SUGAR- -SUC-RE AZUCAR- -ZU CK ER- -SAKARI -ZU CK ERO -SO KK ER SU CK AR- E

6 Tutte le formulazioni del problema di allineamento multiplo sono NP-difficili Complessità del problema Occorre trovare algoritmi che producano un buon allineamento e siano efficienti rispetto al tempo utilizzato

7 La valutazione di un allineamento multiplo è basata su una funzione di punteggio predefinita; l’obiettivo è l’ottenimento di uno fra gli allineamenti di punteggio massimo Il punteggio relativo ad un allineamento S ’ di S, è dato dalla somma dei punteggi associati a tutte le colonne di S ’ Dovremmo dare una funzione w: (  U{  }) k  R a k argomenti, e quindi considerare un numero esponenziale di casi   Sappiamo calcolare il punteggio dell’allineamento a coppie, per somma dei punteggi delle colonne; come estendere all’allineamento multiplo? (N.B: diamo un punteggio anche all’allineamento tra due spazi, ad esempio d( ,  ) = 0). Punteggio di un allineamento multiplo

8 La misura SP (Sum of Pairs) Il punteggio relativo ad una colonna dell’allineamento S ’ è dato dalla somma dei punteggi di tutte le coppie di simboli nella colonna (incluse coppie di gap) Il punteggio dell’allineamento S ’ è la somma dei punteggi di tutte le colonne Euristiche per accelerare l’algoritmo di programmazione dinamica

9 Sequenza di consenso Dato un allineamento S’ di un insieme S di n sequenze si definiscee la sequenza di consenso S c per S’ nel seguente modo  S c ha la stessa lunghezza l è la della generica sequenza S’ i in S’  Il simbolo i-esimo in S c è uguale al simbolo più frequente nella colonna i-esima di S’ Il punteggio dell’allineamento S ’ è la somma dei punteggi degli allineamenti di ciascuna sequenza S’ i in S’ con S c

10 Allineamento con albero Dato l’insieme S = {S 1,S 2,…,S n } e l’albero T che ha S come insieme dei nodi, si determinano gli allineamenti ottimi tra le coppie (S i,S j ) che appartengono all’insieme degli archi di T A T si associa un punteggio P dato dalla somma dei punteggi degli allineamenti di cui al punto 1 (somma dei punteggi degli archi) Si ricostruisce l’allineamento multiplo S ’ di S a partire dagli allineamenti ottimi determinati al punto 1

11 Metodo Star Alignment 1. Dato l’insieme S = {S 1,S 2,…,S n }, si determinano gli allineamenti ottimi tra tutte le coppie di sequenze (S i,S j ) (j=1,2,…,n e j  i) 2. Ad ogni S i si associa un punteggio P i dato dalla somma dei punteggi degli allineamenti di cui al punto 1 con tutte le altre sequenze S j 3. Si considera l’indice i per cui il valore di P i è ottimo (minimo o massimo) 4. Si ricostruisce l’allineamento multiplo S ’ di S a partire dagli allineamenti ottimi determinati al punto 1 per la stella di indice i, aggiungendo man mano gaps a S i

12 S1S1 S2S2 S3S3 S4S4 S5S5 S1S1 S3S3 S4S4 S2S2 S5S PiPi Star Alignment: esempio S = { ATTGCCATT, ATGGCCATT, ATCCAATTTT, ATCTTCTT, ACTGACC} Schema di punteggio: d(x,x) = 1 d(x,y) = -1 d(x,-) = d(-,x) = -2

13 Metodo Star Alignment: esempio Centro stella  S 1 =ATTGCCATT Ricostruzione dell’allineamento multiplo ATTGCCATT-- ATGGCCATT-- ATC-CAATTTT ATCTTC-TT-- ACTGACC----

14 Sofware disponibili CLUSTAL  Basato su algoritmo di Feng-Doolittle  Idea:  allineare a coppie le sequenze del set di input S  utilizzare l’insieme dei punteggi trovati come matrice delle distanze del metodo neighbor-joining per costruire un albero filogenetico per le sequenze in S  allineare le sequenze secondo l’ordine fissato dall’albero filogenetico (prima le sequenze più simili) DiAlign  Idea:  individuare diagonali (sottosequenze allineate senza spazi)  costruire l’allineamento a partire dalle diagonali

15 Sofware disponibili CLUSTAL-W  Standard popular software  It does multiple alignment as follows:  Align 2  Repeat: keep on adding a new sequence to the alignment until no more, or do tree-like heuristics  Problem: It is simply a heuristics  Alternative: dynamic programming nk for k sequences. This is simply too slow  We need to understand the problem and solve it right

16 Making the problem simpler! Multiple alignment is very hard  For k sequences, nk time, by dynamic programming  NP hard in general, not clear how to approximate Popular practice -- alignment within a band: the p-th letter in one sequence is not more than c places away from the p-th letter in another sequence in the final alignment – the alignment is along a diagonal bandwidth 2c Used in final stage of FASTA program

17 In literature NP hardness under various models  Wang-Jiang (JCB)  Li-Ma-Wang (STOC99)  Just Approximation results  Gusfield (2- 1/L)  Bafna, Lawler, Pevzner (CPM94, 2-k/L)  star alignment Sankoff, Kruskal discussed “within a band” Pearson showed alignment within a band gives very good results for a lot protein superfamilies Altschul and Lipman, Chao-Pearson-Miller, Fickett, Ukkonen, Spouge (survey) all have studied alignment within a band

18 The following were proved SP-Alignment 4NP hard 4PTAS for constant band 4PTAS for constant number of insertion/deletion gaps per sequence on average (for coding regions, this assumption makes a lot of sense) Star-Alignment 4 PTAS in constant band 4 PTAS for constant number of insertion/deletion gaps per sequence on average

19 We will do only SP-alignment Notation: in an alignment, a block of inserted “---” is called a gap. If a multiple alignment has c gaps on the average for each sequence, we call it average c-gap alignment We first design a PTAS for the average c-gap SP alignment Then using the PTAS for the average c-gap SP alignment, we design a PTAS for SP-alignment within a band

20 Average c-gap SP Alignment Key Idea: choose r representative sequences, we find their “correct” alignment in the optimal alignment, by exhaustive search. Then we use this alignment as reference Then we align every other sequence against this alignment Then choose the best All we have to show is that there are r sequences whose letter frequencies in each column of their alignment approximates the complete alignment

21 Some over-simplified reasoning If M is optimal average c-gap SP alignment In this alignment, many sequences have less than cl gaps. So if we take r of these sequences, and try every possibly way, one way coincides with M Then hopefully, its letter frequencies in each column “more or less” approximates that of M’s Then we can simply optimally align all the rest of the sequences one by one according to this frequency matrix

22 If this column has k percent a’s We also expect this column has ~ k percent a’s Complete AlignmentAlignment with r sequences jj Sampling r sequences

23 for L=m to nm { for any r sequences { for all possible alignment M ’ of length L and with no more than cl gaps { align all other sequences to M ’ //one alignment }}} Output the best alignment AverageSPAlign

24 SP Alignment within c-Band Basic Idea Dynamically cut sequences into segments Each segment satisfies the average c-gap condition. Hence use previous algorithm Then assemble the segments together Divide and Conquer Cutting these sequences into 6 segments, each segment has c-gaps per sequence on average in optimal alignment

25 while (not finished) { find a maximum prefix for each sequence (same length) such that AverageSPAlign returns “ low ” cost. Keep the multiple alignment for this segment } Concatenate the multiple alignments for all segments together to as final alignment The final algorithm: diagonalAlign