La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011.

Presentazioni simili


Presentazione sul tema: "Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011."— Transcript della presentazione:

1 Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011

2 Allineamento di sequenze Allineamento multiplo: motivazioni e definizioni Soluzione esatta: Programmazione Dinamica Euristiche per il MSA –Center Star Method –Profili –Allineamento Iterativo –Allineamento Progressivo: Feng-Doolittle –ClustalW –Metodi basati su consistenza –T-Coffee Funzioni di scoring e Valutazione degli allineamenti

3 Allineamento Multiplo di Sequenze (Multiple Sequence Alignment – MSA) Motivazioni –Filogenesi molecolare Costruzione di alberi filogenetici che illustrino le distanze ed i rapporti evolutivi tra le molecole analizzate, a partire dai confronti tra di esse. –Studio dellevoluzione dei genomi –Caratterizzazione di geni e proteine con funzione sconosciuta Attraverso lindividuazione di motivi ricorrenti e siti funzionalmente importanti. –Individuazione di elementi regolatori Attraverso lindividuazione di pattern comuni a diversi organismi.

4 MSA: Definizione Dato un alfabeto Σ (ad es. Σ={A, C, G, T}) e le sequenze S 1, S 2, …, S k : S iΣ* per 1ik, un allineamento multiplo associa a S 1, S 2, … S k le sequenze S 1, S 2, …, S k : S i(Σ{-})* per 1ik, in modo che: |S 1 |=|S 2 |=…=|S k |=l (le sequenze abbiano tutte la stessa lunghezza) Rimuovendo gli spazi - da S 1, S 2, … S k si ottengano nuovamente S 1, S 2, … S k.

5 MSA: un esempio 1pamA TDVIYQIFTD RFSDGNPANN P---TGAAFD GSC-TNLRLY CGGDWQGIIN cdgt_bacli TDVIYQVFTD RFLDGNPSNN P---TGAAFD GTC-SNLKLY CGGDWQGLVN amy_thetu TDVIYQIVTD RFVDGNTSNN P---TGDLYD PTH-TSLKKY FGGDWQGIIN cdg2_bacma TDTVYQIVTD RFVDGNSANN P---TGAAFS SDH-SNLKLY FGGDWQGITN cdg1_bacma TDVIYQIVTD RFADGDRTNN P---AGDAFS GDR-SNLKLY FGGDWQGIID cdgt_bacst SDVVYQIVVD RFVDGNTSNN P---SGALFS SGC-TNLRKY CGGDWQGIIN cdgt_bacs2 KDVIYQIVTD RFSDGNPGNN P---SGAIFS QNC-IDLHKY CGGDWQGIID amym_bacst GDVIYQIIID RFYDGDTTNN NPAKSYGLYD PTK-SKWKMY WGGDLEGVRQ cdgt_klepn KETIYFLFLD RFSDGDPSNN A---GFNSAT YDP-NNLKKY TGGDLRGLIN amyb_bacpo KQSIYFIMTD RFSNGDPSND N---YGG-FN SN-NSDQRKW HGGDFQGIIN amy1_schpo RRSIYQIITD RFSLEEGATE R IPCDPVRFMY CGGTWNGIRN 2aaa TQSIYFLLTD RFGRTDNSTT ATCNTGNEIY CGGSWQGIID amya_aspor SQSIYFLLTD RFARTDGSTT A TC-NTADQKY CGGTWQGIID amy1_schoc DQSIYQIVTD RFARSDGSTT ADCLVSDRKY CGGSYKGIID amy1_sacfi SQSIYQIVTD RFARTDGDTS A SC-NTEDRLY CGGSFQGIIK ydd2_schpo KQVIYQVLTD RFALDEDN FYAKASGNLY LGGTWKGITR amy_bacci TDVIYQIVTD RFVDGNTANN P---AGSAYD ATCSTNLKLY CGGDWQGIMN 1jdc GD---EIILQ GFHWNVVREA P NDWYNILR

6 Sum-Of-Pairs Score Come nel caso Pairwise, lallineamento multiplo di sequenze consiste nel massimizzare una funzione di scoring. La funzione più utilizzata è il Sum-Of-Pairs Score che è la somma degli score degli allineamenti pairwise indotti dallallineamento multiplo: dove S(m k,m l ) è lo score dellallineamento della coppia di sequenze m k ed m l indotto dallallineamento multiplo m. Come visto nel caso Pairwise i concetti di Score e Distanza sono equivalenti, per cui è possibile definire la distanza Sum-Of-Pairs.

7 Sum-Of-Pairs Score: un esempio Se scegliamo di utilizzare una metrica di tipo crisp che assegna 1 ad ogni match e 0 ad ogni mismatch si ha: A A C T G – T - - A G A A C – G – T A T A C A A C T – A T A - - G

8 Allineamento di sequenze Allineamento multiplo: motivazioni e definizioni Soluzione esatta: Programmazione Dinamica Euristiche per il MSA –Center Star Method –Profili –Allineamento Iterativo –Allineamento Progressivo: Feng-Doolittle –ClustalW –Metodi basati su consistenza –T-Coffee –MSA by HMM: Probcons Funzioni di scoring e Valutazione degli allineamenti

9 Soluzione esatta: Programmazione Dinamica Lallineamento multiplo ottimale di k sequenze viene calcolato usando un ipercubo a k dimensioni D, definendo D(j 1, j 2, …, j k ) come il miglior score dellallineamento dei prefissi di lunghezza j 1, j 2, …, j k delle sequenze x 1, x 2, …, x k, rispettivamente. Si ha: dove è la scoring function ed è un vettore che indica la direzione del processo di allineamento nellipercubo.

10 Programmazione Dinamica: Ipercubo Date le sequenze S 1 =VSNS, S 2 =SNA ed S 3 =AS si ottiene il seguente ipercubo a 3 dimensioni: Lalgoritmo ha complessità spaziale e temporale O(n k ), dove n è la lunghezza delle sequenze e k il numero di sequenze. Il problema del calcolo del MSA esatto è NP-Completo.

11 Allineamento di sequenze Allineamento multiplo: motivazioni e definizioni Soluzione esatta: Programmazione Dinamica Euristiche per il MSA –Center Star Method –Profili –Allineamento Iterativo –Allineamento Progressivo: Feng-Doolittle –ClustalW –Metodi basati su consistenza –T-Coffee Funzioni di scoring e Valutazione degli allineamenti

12 Center Star Method Il metodo Center-Star di Gusfield è un algoritmo approssimato per il calcolo del MSA secondo il Sum- Of-Pairs Score (SP). Dato in input un insieme di sequenze S = {S 1, S 2, … S k }, vogliamo trovare lallineamento multiplo M che minimizzi la distanza SP (o che massimizzi lo score SP).

13 Center Star Method: Definizioni Dato un insieme S di k sequenze, si definisce sequenza centrale S c S, la sequenza che minimizza la funzione: Cioè la somma delle distanze di tutte le sequenze da S c sia la minima possibile.

14 Center Star Method: Definizioni Si definisce Center-Star un albero con k nodi, in cui S c è il nodo centrale e in cui i restanti k-1 nodi sono etichettati da stringhe distinte in S \ {S c } Il MSA M c dellinsieme di sequenze S è lallineamento multiplo consistente con tale albero.

15 Center Star Method: Algoritmo Trova la sequenza S t S che minimizza e siaTrova la sequenza S t S che minimizza e sia Aggiungi le sequenze in S\{S t } ad M una ad una, secondo la maggiore vicinanza a S t, allineando ogni nuova sequenza ad S t ed aggiungendo eventuali nuovi gap alle sequenze già allineate.Aggiungi le sequenze in S\{S t } ad M una ad una, secondo la maggiore vicinanza a S t, allineando ogni nuova sequenza ad S t ed aggiungendo eventuali nuovi gap alle sequenze già allineate. Complessità: O(k 2 n 2 ), dove k è il numero di sequenze e n la massima lunghezza.Complessità: O(k 2 n 2 ), dove k è il numero di sequenze e n la massima lunghezza. La distanza SP dellallineamento prodotto è minore del doppio della distanza SP ottimale.La distanza SP dellallineamento prodotto è minore del doppio della distanza SP ottimale.

16 Allineamento di sequenze Allineamento multiplo: motivazioni e definizioni Soluzione esatta: Programmazione Dinamica Euristiche per il MSA –Center Star Method –Profili –Allineamento Iterativo –Allineamento Progressivo: Feng-Doolittle –ClustalW –Metodi basati su consistenza –T-Coffee Funzioni di scoring e Valutazione degli allineamenti

17 I Profili I profili sono strutture utili per riassumere le proprietà comuni di gruppi di sequenze e sono alla base di molti metodi di allineamento multiplo di sequenze. Sia M un allineamento multiplo di sequenze di lunghezza l. Il Profilo di M è una matrice dove Σ è lalfabeto delle sequenze di M, le cui colonne indicano la frequenza di ciascun simbolo nella corrispondente colonna dellallineamento.

18 Profili: un esempio A C A - - G – T C A A C - - T G C T – A - C A A T G C T G A ACGT- 12/30001/3 203/ /30001/ / /3 6003/ /3001/ /30 901/ /30000

19 Allineamento di una sequenza ad un profilo Per allineare una sequenza ad un profilo si utilizza lalgoritmo di Needleman-Wunsch con unopportuna funzione di scoring. Sia p(i,j) un profilo, con i=1…l e j=1…|Σ|+1 e sia S = {S 1, S 2, …, S n }. Possiamo definire la seguente Scoring Function:

20 Allineamento di due profili Siano e con i=1…l e j=1…|Σ|+1 due profili. In questo caso utilizziamo la seguente funzione di scoring: dove f è una funzione che assegna uno score a coppie di colonne tenendo conto della frequenza dei singoli simboli dellalfabeto.

21 Allineamento di sequenze Allineamento multiplo: motivazioni e definizioni Soluzione esatta: Programmazione Dinamica Euristiche per il MSA –Center Star Method –Profili –Allineamento Iterativo –Allineamento Progressivo: Feng-Doolittle –ClustalW –Metodi basati su consistenza –T-Coffee Funzioni di scoring e Valutazione degli allineamenti

22 Allineamento iterativo Questo approccio usa gli score pairwise per aggiungere sequenze ad un allineamento multiplo. Si comincia allineando la coppia di sequenze più vicine secondo una certa nozione di distanza. Quindi, ad ogni passo, si prende la sequenza che ha la distanza minima da tutte quelle già allineate e la si allinea al profilo dellallineamento già prodotto. Eventuali nuovi spazi - sono aggiunti alle sequenze già allineate.

23 Allineamento di sequenze Allineamento multiplo: motivazioni e definizioni Soluzione esatta: Programmazione Dinamica Euristiche per il MSA –Center Star Method –Profili –Allineamento Iterativo –Allineamento Progressivo: Feng-Doolittle –ClustalW –Metodi basati su consistenza –T-Coffee Funzioni di scoring e Valutazione degli allineamenti

24 Allineamento Progressivo Lidea chiave di questo algoritmo è che linformazione biologica più affidabile ottenibile da un insieme di sequenze da allineare scaturisce dallallineamento della coppia di sequenze più vicine. Quindi ogni gap - che compare in questo allineamento deve essere preservato nella costruzione dellallineamento multiplo, a differenza di quanto accade nellallineamento iterativo. Numerosi tools di MSA si basano su questo approccio, tra i quali ClustalW e T-Coffee.

25 Allineamento Progressivo: Lalgoritmo di Feng-Doolittle Calcola i allineamenti pairwise e converti i loro score in distanze. Costruisci un albero filogenetico. Allinea le sequenze nellordine suggerito dallalbero iniziando dalla coppia di sequenze più vicine, e utilizzando lallineamento per profili per aggiungere una sequenza allallineamento già prodotto o per allineare due allineamenti.

26 Allineamento di sequenze Allineamento multiplo: motivazioni e definizioni Soluzione esatta: Programmazione Dinamica Euristiche per il MSA –Center Star Method –Profili –Allineamento Iterativo –Allineamento Progressivo: Feng-Doolittle –ClustalW –Metodi basati su consistenza –T-Coffee Funzioni di scoring e Valutazione degli allineamenti

27 ClustalW ClustalW è il tool più popolare per lallineamento multiplo di biosequenze. Utilizza lapproccio progressivo e si basa sullalgoritmo di Feng-Doolittle. Dato un insieme S di n sequenze da allineare, ClustalW allinea tutte le coppie di sequenze di S separatamente e costruisce una matrice con le distanze tra ogni coppia di sequenze. Seq. ASeq. BSeq. CSeq. D Seq. A0.00 Seq. B Seq. C Seq. D

28 ClustalW Viene quindi costruito un albero guida filogenetico utilizzando il metodo neighbour-joining. Si sceglie la coppia più vicina: questa andrà a formare il primo sottoalbero: Seq. ASeq. BSeq. CSeq. D Seq. A0.00 Seq. B Seq. C Seq. D AB AB

29 ClustalW Sostituiamo nella tabella la entry AB alle singole entry A e B e calcoliamo le distanze di AB dalle sequenze rimanenti facendo una semplice media aritmetica: Seq. ABSeq. CSeq. D Seq. AB0.00 Seq. C0.00 Seq. D0.00 ? 0.57? Iterando il procedimento si ottiene lalbero completo.

30 ClustalW: Albero Filogenetico Otterremo un albero i cui rami hanno lunghezza proporzionale alla distanza tra le sequenze : Questalbero verrà utilizzato per guidare lallineamento progressivo. Nel nostro esempio verranno allineate per prime le sequenze A e B. Successivamente verrà allineata la sequenza D allallineamento AB e infine verrà allineata la sequenza C allallineamento ABD. A B C D

31 Albero filogenetico: un esempio Lalbero filogenetico in figura è costruito mediante ClustalW a partire dalle sequenze della proteina mnSOD su diversi organismi: il clustering ottenuto rispecchia in maniera abbastanza fedele quella che è la filogenesi classica (cioè basata su dati geopaleontologici).

32 Allineamento con ClustalW Questo è un particolare delloutput di ClustalW. Nellallineamento di sequenze nucleotidiche è possibile trovare solo simboli * nel caso di identità della colonna al 100%. La presenza di un simbolo * in fondo ad una colonna indica un match del 100%. Il simbolo : indica unalta similarità (>75%). Il simbolo. indica una media similarità (50%- 75%).

33 ClustalW: Server On Line Il server ufficiale di ClustalW si trova sul sito dellEMBL: Vi sono comunque molti altri server di ClustalW; uno dei più popolari è quello dello Swiss Institute of Bioinformatics: Questa versione di ClustalW ha uninterfaccia semplificata rispetto a quella ufficiale su EMBL.

34 Allineamento di sequenze Allineamento multiplo: motivazioni e definizioni Soluzione esatta: Programmazione Dinamica Euristiche per il MSA –Center Star Method –Profili –Allineamento Iterativo –Allineamento Progressivo: Feng-Doolittle –ClustalW –Metodi basati su consistenza –T-Coffee Funzioni di scoring e Valutazione degli allineamenti

35 Metodi basati su consistenza Il primo algoritmo di MSA consistency-based è stato introdotto da Kececioglu nel Dato un insieme di sequenze S, lallineamento ottimale deve essere il più consistente possibile con gli allineamenti pairwise ottimali delle sequenze in S. Il calcolo di tale allineamento è un problema NP- Completo che può quindi essere risolto in modo esatto solo per un piccolo numero di sequenze.

36 Vantaggi della consistenza Funzioni-obiettivo consistenti non dipendono da specifiche matrici di sostituzione ma dai metodi per lallineamento pairwise. Gli schemi basati su consistenza dipendono dalle posizioni dei residui negli allineamenti pairwise; ciò significa che lo score associato allallineamento di due residui dipende dalla loro posizione nelle sequenze piuttosto che dalla loro natura chimico-fisica.

37 Consistency-based tool Uno dei primi tools euristici basati su consistenza è SAGA (1996). In SAGA viene utilizzata la funzione-obiettivo COFFEE (Consistency-based Objective Function For alignmEnt Evaluation), che riflette il livello di consistenza tra un allineamento multiplo di sequenze ed una libreria di allineamenti pairwise delle stesse sequenze. Il COFFEE-Score viene ottimizzato utilizzando un algoritmo genetico. Sebbene SAGA sia in grado di fornire risultati interessanti, lapproccio basato su algoritmi genetici si rivela troppo lento.

38 Allineamento di sequenze Allineamento multiplo: motivazioni e definizioni Soluzione esatta: Programmazione Dinamica Euristiche per il MSA –Center Star Method –Profili –Allineamento Iterativo –Allineamento Progressivo: Feng-Doolittle –ClustalW –Metodi basati su consistenza –T-Coffee –MSA by HMM: Probcons Funzioni di scoring e Valutazione degli allineamenti

39 T-Coffee T-Coffee (Tree-based COFFEE) è uneuristica per il MSA basata sulla funzione-obiettivo COFFEE. Lallineamento multiplo viene calcolato a partire da una collezione di allineamenti pairwise locali e globali delle sequenze in input attraverso lapproccio progressivo guidato da un albero filogenetico creato con il metodo neighbor-joining (come in ClustalW). Grazie allutilizzo degli allineamenti pairwise locali e globali e della funzione-obiettivo consistente, T- Coffee raggiunge una notevole precisione nellallineamento multiplo di sequenze a bassa similarità.

40 Lalgoritmo di T-Coffee A B A C B C Libreria primaria by ClustalW A B A C B C Libreria primaria by LAlign Weighting LIBRERIA PRIMARIA ESTENSIONE LIBRERIA ESTESA Allineamento Progressivo ABCABC

41 Lalgoritmo di T-Coffee A B A C B C Libreria primaria by ClustalW A B A C B C Libreria primaria by LAlign Weighting LIBRERIA PRIMARIA ESTENSIONE LIBRERIA ESTESA Allineamento Progressivo ABCABC

42 Libreria primaria di allineamenti pairwise globali Tutte le coppie di sequenze in input vengono allineate mediante ClustalW. Per ogni allineamento pairwise viene calcolata lidentità percentuale: Dove sim(S 1,S 2 ) è il numero dei match nellallineamento e pos il numero delle coppie allineate di residui escluse quelle in cui compare un gap. S 1 ) A C A - G – T C A S 2 ) A G - T G C T – T

43 Libreria Nella libreria ogni allineamento pairwise è rappresentato come una lista di coppie di residui pesati (constraint list). Inizialmente ogni coppia di residui riceve un peso equivalente alla sequence identity dellallineamento da cui proviene: Seq1Seq2Res1Res2Weight S1S21160 S1S22260 S1S24460 S1S25660 S1S27760 S 1 ) A C A - G – T C A S 2 ) A G - T G C T – T

44 Libreria primaria di allineamenti pairwise locali Viene creata una seconda libreria a partire dagli allineamenti locali creati con LAlign, un tool del pacchetto FASTA. Viene creata una seconda libreria a partire dagli allineamenti locali creati con LAlign, un tool del pacchetto FASTA. Lallineamento locale di una coppia di sequenze S 1, S 2 consiste nellallineamento di sottosequenze di S 1 ed S 2, al fine di mettere in evidenza eventuali regioni ad alta similarità: Lallineamento locale di una coppia di sequenze S 1, S 2 consiste nellallineamento di sottosequenze di S 1 ed S 2, al fine di mettere in evidenza eventuali regioni ad alta similarità: LAlign restituisce i 10 migliori allineamenti locali (in termini di similarità) della coppia di sequenze in input. LAlign restituisce i 10 migliori allineamenti locali (in termini di similarità) della coppia di sequenze in input. Una volta individuato lallineamento locale con il massimo score, LAlign cerca il successivo escludendo dalla ricerca le due regioni appena trovate: in questo modo gli allineamenti prodotti non si intersecheranno. Una volta individuato lallineamento locale con il massimo score, LAlign cerca il successivo escludendo dalla ricerca le due regioni appena trovate: in questo modo gli allineamenti prodotti non si intersecheranno. S1S1 S2S2

45 Libreria primaria A partire dalle due librerie globale e locale viene creata ununica libreria primaria mediante una semplice operazione di addizione. Le coppie di residui comuni vengono sostituite da ununica entry il cui peso è la somma dei due pesi, mentre tutte le altre coppie vengono trascritte così come sono: Global Alignments by ClustalW Seq1Seq2Res1Res2Weight S1S21160 S1S22260 S1S23360 S1S25660 S1S27760 Local Alignments by LAlign Seq1Seq2Res1Res2Weight S1S21130 S1S22230 S1S23330 S1S S1S Primary Library Seq1Seq2Res1Res2Weight S1S21190 S1S22290 S1S23390 S1S25660 S1S27760 S1S S1S

46 Lalgoritmo di T-Coffee A B A C B C Libreria primaria by ClustalW A B A C B C Libreria primaria by LAlign Weighting LIBRERIA PRIMARIA ESTENSIONE LIBRERIA ESTESA Allineamento Progressivo ABCABC

47 Estensione della libreria primaria Lidea chiave dellestensione è di combinare le informazioni nella libreria così che il peso finale associato ad ogni coppia rifletta anche le informazioni contenute nel resto della libreria. Questo viene realizzato prendendo tutte le coppie di residui nella libreria e confrontando il loro allineamento con i residui provenienti dalle altre sequenze.

48 Estensione della libreria primaria Consideriamo, ad esempio, quattro sequenze A, B, C, D. Siano A(1) il primo di residuo di A e B(1) il primo residuo di B e sia W(A(1),B(1))=60 il peso associato a tale coppia nella libreria primaria: Consideriamo adesso lallineamento delle sequenze A e B attraverso la sequenza C: Vediamo che A(1) e C(1) sono allineati così come C(1) e B(1). Concludiamo dunque che cè un allineamento di A(1) e B(1) attraverso la sequenza C. A) A C A - G – T C A B) A G - T G C T – T A) A C A - G – T C A C) A G - T G C A C A B) A G - T G C T – T

49 Associamo alla coppia A(1), B(1) il peso minimo tra W(A(1),C(1))=66 e W(C(1),B(1))=71 W(A(1),B(1))=66. Questo peso viene sommato al valore già contenuto nella libreria W(A(1),B(1))=60. Si ha quindi W(A(1),B(1))=126. Lestensione completa richiede lanalisi di tutte le restanti triplette e chiaramente non tutte porteranno informazioni. Ad es. lallineamento di A e B attraverso D non contiene informazioni circa la coppia A(4), B(4) e quindi non influisce sul peso di tale coppia: Estensione della libreria primaria A) A C A - G – T C A C) A G – T G C A C A B) A G - T G C T – T A) A C A - G – T C A D) A G A T – C – C T B) A G - T G C T – T

50 Estensione della libreria primaria Riassumendo, il peso associato ad ogni coppia di residui nella libreria sarà pari alla somma dei pesi ottenuti dallanalisi delle triplette. Quante più sequenze intermedie supportano lallineamento di una certa coppia di residui, tanto più alto sarà il peso di tale coppia nella libreria. Loperazione di estensione viene eseguita per tutte le coppie di residui di tutte le coppie di sequenze in input contenute nella libreria primaria.

51 Lalgoritmo di T-Coffee A B A C B C Libreria primaria by ClustalW A B A C B C Libreria primaria by LAlign Weighting LIBRERIA PRIMARIA ESTENSIONE LIBRERIA ESTESA Allineamento Progressivo ABCABC

52 Allineamento progressivo in T-Coffee Una volta costruita la libreria, vengono allineate tutte le coppie e gli score di similarità vengono convertiti in distanze come in ClustalW. E come in ClustalW viene costruito un albero guida con il metodo neighbor-joining. Le sequenze vengono allineate nellordine suggerito dallalbero ma vengono utilizzati i pesi contenuti nella libreria estesa anziché gli score delle matrici di sostituzione. Questo rende lallineamento più preciso dato che vengono utilizzate informazioni precise sui residui delle sequenze in esame e su come questi vengono allineati tra loro, piuttosto che informazioni generiche sulla natura degli aminoacidi come quelle contenute nelle matrici.

53 Allineamento di sequenze Allineamento multiplo: motivazioni e definizioni Soluzione esatta: Programmazione Dinamica Euristiche per il MSA –Center Star Method –Profili –Allineamento Iterativo –Allineamento Progressivo: Feng-Doolittle –ClustalW –Metodi basati su consistenza –T-Coffee –MSA by HMM: Probcons Funzioni di scoring e Valutazione degli allineamenti

54 Esistono numerose funzioni di scoring oltre al Sum- Of-Pairs, utilizzate dai tools di MSA come funzioni obiettivo da massimizzare e per valutare gli allineamenti prodotti. Ne consideriamo due: –Entropia –Circular-Sum La scelta della scoring function giusta è fondamentale nella progettazione di un buon algoritmo di allineamento. Sfortunatamente non esistono ancora funzioni universali in grado di catturare pienamente il significato biologico del confronto tra residui.

55 Entropia Entropia dove C sono le colonne dellallineamento: e p X è la frequenza del simbolo X nella colonna C. Una colonna altamente conservata ha una bassa variabilità e un alto contenuto informativo. Tanto più è buono lallineamento tanto più bassa sarà lentropia. A A C T G – T - - A G A A C – G – T A T A C A A C T – A T A - - T

56 Circular Sum Circular-Sum: dove e è lo score del pairwise-alignment indotto dal MSA. A A C T G – T - - A G A A C – G – T A T A C A A C T – A T A - - T


Scaricare ppt "Bioinformatica Corso di Laurea Specialistica in Informatica Allineamento Multiplo di sequenze 01-04/04/2011."

Presentazioni simili


Annunci Google