La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

UNIVERSITA DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 7 Allineamento.

Presentazioni simili


Presentazione sul tema: "UNIVERSITA DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 7 Allineamento."— Transcript della presentazione:

1 UNIVERSITA DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 7 Allineamento di sequenze

2 2 Allineamento globale di sequenze Cosè un allineamento globale? Date due sequenze S = s 1 s 2 …s n e T = t 1 t 2 …t m sullalfabeto, un allineamento (globale) di S e T consiste in una coppia di sequenze S = s 1 s 2 …s l e T = t 1 t 2 …t l sullalfabeto U{ } (con carattere di spazio), che godono delle seguenti proprietà: 4 S = T = l (max(n,m) l (m+n)) 4 Eliminando gli spazi da S si ottiene S 4 Eliminando gli spazi da T si ottiene T Se s i =, allora t i e viceversa

3 3 Allineamento globale: esempio ttc-gagccttag-cgta ttat-agcg-tagtcgta S T ttcgagccttagcgta ttatagcgtagtcgta S T Cancellazione in S o inserzione in T Cancellazione in T o inserzione in S Mismatch Match

4 4 Allineamento globale Rispetto alla distanza di edit, massimizza la similarità anziché minimizzare la differenza La distanza di edit è riconducibile ad esso Tecniche utilizzate: Analisi di dot matrix (dotplot) Algoritmi di Programmazione Dinamica Metodi euristici (FASTA, BLAST)

5 5 Esempio Senza gap: punteggio 10 IPLMTRWDQEQESDFGHKLPIYTREWCTRG CHKIPLMTRWDQQESDFGHKLPVIYTREW Con gap: punteggio 25 IPLMTRWDQEQESDFGHKLP IYTREWCTRG CHKIPLMTRWDQ QESDFGHKLPVIYTREW

6 6 Allineamento pesato Cosè una matrice di punteggio? Matrice che assegna ad ogni coppia di caratteri (a,b) ( {-}) 2 un punteggio d che esprime il costo (o il beneficio) della sostituzione del simbolo a col simbolo b. Punteggio A dellallineamento S, T

7 7 Allineamento globale : il problema INPUT INPUT: due sequenze S e T definite su un alfabeto e una matrice di punteggio d: ( {-}) 2 R OUTPUT OUTPUT: un allineamento (S, T) tra S e T il cui punteggio A sia minimo (o massimo) NB: Se d(a,b) esprime un costo, A è da minimizzare. Se d(a,b) esprime un beneficio, A è da massimizzare NB: Se d(a,b) esprime un costo, A è da minimizzare. Se d(a,b) esprime un beneficio, A è da massimizzare

8 8 Allineamento globale con indels Inserimenti e cancellazioni (indels) sono necessari per allineare accuratamente sequenze anche molto simili come le e globine Lapproccio ingenuo per trovare lallineamento ottimo di due sequenze con indels consiste nel generare tutti i possibili allineamenti, sommare i punteggi per ogni coppia di simboli corrispondenti in ogni allineamento e scegliere quello di punteggio massimo. Questa idea è praticamente irrealizzabile anche per sequenze corte (anche solo di 100 caratteri).

9 9 Algoritmo di Needleman-Wunsch (1970) Si considerino le sequenze S=s 1 s 2 …s n e T=t 1 t 2 …t m Sia A(i,j) il costo dellallineamento tra il prefisso s 1 s 2 …s i e il prefisso t 1 t 2 …t j. Si hanno tre possibilità: 4 il carattere s i si allinea con il carattere t j e quindi: A(i,j) = costo allineamento tra i prefissi s 1 s 2 …s i-1 e t 1 t 2 …t j-1 + d(s i,t j ) 4 il carattere s i si allinea con uno spazio e quindi: A(i,j) = costo allineamento tra i prefissi s 1 s 2 …s i-1 e t 1 t 2 …t j + d(s i,-) 4 il carattere t j si allinea con uno spazio e quindi: A(i,j) = costo allineamento tra i prefissi s 1 s 2 …s i e t 1 t 2 …t j-1 + d(-,t j ) d( s i,t j )=0 se s i uguale a t j, Si considerino le sequenze S = s 1 s 2 …s n e T = t 1 t 2 …t m Sia A(i,j) il costo dellallineamento tra il prefisso s 1 s 2 …s i e il prefisso t 1 t 2 …t j. Si hanno tre possibilità: 4 il carattere s i si allinea con il carattere t j e quindi: A(i,j) = A(i-1,j-1) + d(s i,t j ) 4 il carattere s i si allinea con uno spazio e quindi: A(i,j) = A(i-1,j) + d(s i,-) 4 il carattere t j si allinea con uno spazio e quindi: A(i,j) = A(i,j-1) + d(-, t j )

10 10 Algoritmo di Needleman-Wunsch Se si vuole un valore minimo, si ottiene la ricorrenza A(i,j) = min A(i-1,j-1) + d(s i,t j ) A(i-1,j) + d(s i,-) A(i,j-1) + d(-,t j ) che stabilisce un legame tra il generico sottoproblema A(i,j) e i sottoproblemi A(i-1,j-1), A(i-1,j) e A(i,j-1)

11 11 Algoritmo di Needleman-Wunsch I casi base, per i quali il valore di A è immediatamente calcolabile, sono: 4 A(0,0) = 0 A(i,0) = i k=1 d(s k,-) per 0

12 12 Le matrici di punteggio Esempi di matrice di punteggio 4d(x,x) = 1, d(-,x) = d(x,-) = -a, d(x,y) = -u ê Se a = 0, u = LCS (Longest Common Subsequence) 4PAM oppure BLOSUM per le proteine

13 13 Le matrici di punteggio A T C G A T C G A T C G A 5-4 T 5 C 5 G 5 A T C G A 1-5 T C 1-5 G-5 1 Matrice identità Matrice transizione trasversione Matrice BLAST

14 14 Calcolo della distanza di edit La distanza di edit può essere ricondotta ad un problema di allineamento globale d(s i,t j )=0 per s i =t j d(s i,t j )=1 per s i t j d(s i,-)=d(-,t j )=1 j d(s i,t j )=0 per s i =t j d(s i,t j )=1 per s i t j d(s i,-)=d(-,t j )=1 j D(i,j) = min D(i-1,j-1) + d(s i,t j ) D(i-1,j) + d(s i,-) D(i,j-1) + d(-,t j )

15 15 Matrici PAM (Point Accepted Mutations) Sono utilizzate per il confronto di sequenze proteiche Sono derivate dalla frequenza con cui un aminoacido sostituisce un altro in sequenze evolutivamente correlate Le mutazioni accettate non hanno causato leliminazione dellorganismo Sono evidenziate allineando proteine omologhe in specie diverse (es. emoglobina alfa in uomo e orango)

16 16 Matrici PAM (Point Accepted Mutations) PAM1: Matrice corrispondente a distanza evolutiva 1 (1% di mutazioni) PAMn: Matrice corrispondente a distanza evolutiva n, PAM1 n La matrice di punteggio S è calcolata a partire da una matrice di probabilità di transizione M

17 17 Il calcolo di PAM 1 p a, probabilità di occorrenza dellaminoacido a in un insieme abbastanza ampio di sequenze proteiche f a,b = f b,a numero di mutazioni a b accettate f a = f a,b f = f a (doppio del numero di mutazioni) M a,b = prob. che a cambi in b (anche per a=b) M a,a è calcolata partendo dalla mutabilità relativa di a: m a = f a /100f p a M a,a = 1 - m a M a,b = f a,b * m a /f a

18 18 PAM 240

19 19 BLOSUM 50 A R N D C Q E G H I L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V

20 20 Schemi di peso per i gap 4Linear score ê f(g)= -gd con d gap-open penalty e g lunghezza del gap ê Un peso dei gap dipendente dalla sola lunghezza comporta che due gap isolati diano lo stesso costo di due consecutivi 4Affine score ê f(g)= -d –(g-1)e con d gap-open penalty, e gap-extension penalty e g lunghezza del gap ê Modello di transizione da una sequenza allaltra biologicamente più significativo, dal momento che inserzioni e cancellazioni di più di un residuo non sono eventi poco comuni tra sequenze proteiche omologhe

21 21 Allineamento globale vs locale Lallineamento di due o più sequenze può essere globale o locale Globale: lintera sequenza viene allineata Locale: solo frammenti della sequenza vengono allineati

22 22 Allineamento locale: esempio LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKA LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKA

23 23 Allineamento locale E meglio avere molte coincidenze sparse o averne meno, ma concentrate? Allineamento locale Date S e T trovare due sottostringhe v e w di S e T rispettivamente la cui similarità (allineamento ottimo) sia massima su tutte le coppie di sottostringhe di S e T.

24 24 Allineamento locale: esempio S =pqraxabcstvq T = xyaxbacsll axab-cs ax-bacs Con il seguente punteggio: - d(x,x) = 2 - d(x,y) = -2 - d(x,-) = -1 si ottiene uno score pari a 8

25 25 Quando e perché lallineamento locale? 4Confronto sequenze DNA anonimo, per individuare sottostringhe collegate 4Individuazione subunità strutturali comuni a proteine diverse 4…4…

26 26 Considerazioni di complessità 4Ci sono (n 2 m 2 ) coppie di sottostringhe 4Lallineamento locale può tuttavia essere calcolato in tempo O(nm) come quello globale

27 27 Algoritmo di Smith-Waterman Date due sequenze S e T (di lunghezza m e n): 4Si costruisce una matrice A di dimensione (m+1)x(n+1) in cui A(i,j) è il costo di un allineamento tra il suffisso (eventualmente vuoto) S[1,i] e il suffisso T[1,j] 4 Si inizializza la prima riga e la prima colonna di A a zero 4 La ricorrenza è derivata da quella dellallineamento globale, con laggiunta di 0 come valore minimo: A(i,j) = max{0, A(i-1,j) + d(s i,-); A(i,j-1)+d(-,t j ); A(i-1,j-1)+d(s i,t j )}

28 28 -41

29 29 One example of local dynamic programming using a linear score for gaps and Blosum50

30 30

31 31 Strategie euristiche per lallineamento di sequenze in ricerche in database: tempi a confronto

32 32 Similarità di sequenze con FASTA

33 33 FASTA

34 34 BLAST (Basic Local Alignment Search Tool)

35 35 BLOSUM 62

36 36 Mega BLAST uses the greedy algorithm for nucleotide sequence alignment search. This program is optimized for aligning sequences that differ slightly as a result of sequencing or other similar "errors". When larger word size is used (see explanation below), it is up to 10 times faster than more common sequence similarity programs. Mega BLAST is also able to efficiently handle much longer DNA sequences than the blastn program of traditional BLAST algorithm. Ricerca con Mega BLAST

37 37 Allineamento Multiplo Costruzione del profilo di una sequenza

38 38 La struttura di PSI-BLAST PSI-BLAST takes as input a protein sequence and compares it to a protein database, using the gapped BLAST program The program constructs a multiple alignment, and then a profile, from any significant local alignment found. The original query sequence serves as a template for the multiple alignment and profile, whose lengths are identical to that of the query. Different numbers of sequences can be aligned in different template positions The profile is compared to the protein database, again seeking local alignments. After a few minor modifications, the BLAST algorithm can be used for this directly. PSI-BLAST estimates the statistical significance of the local alignments found. Because profile substitution scores are constructed to a fixed scale, and gap scores remain independent of position, the statistical theory and parameters for gapped BLAST alignments remain applicable to profile alignments. Finally, PSI-BLAST iterates, by returning to step (2), an arbitrary number of times or until convergence.


Scaricare ppt "UNIVERSITA DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 7 Allineamento."

Presentazioni simili


Annunci Google