Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere questi residui? In un allineamento di due proteine simili la maggior parte dei residui è rimasta invariata e quindi non è possibile distinguere i residui funzionali da quelli conservati per ragioni casuali. Proteine molto lontane dal punto di vista evolutivo sono difficili da allineare e quindi è elevato il rischio di non allineare residui conservati.
Allineamenti Multipli Soluzione Allineare non solo due sequenze omologhe ma quante più sequenze possibili in modo da creare un allineamento multiplo. Le colonne contenenti residui conservati in tutte o in molte delle proteine dell’allineamento indicheranno i residui strutturalmente e/o funzionalmente importanti. Un allineamento multiplo rappresenta anche un buon metodo per ottimizzare un allineamento a coppia fra due sequenze molto distanti. Infatti le sequenze intermedie faranno da guida nell’allineamento delle sequenze più distanti. Sequenze A e B = 25% id allineamento difficile Sequenze A e C = 50% id allineamento semplice Sequenze B e C = 50% id allineamento semplice Soluzione: allineare A + C e B + C, quindi usare C come guida
SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRVNTFIISSATTVKAICTGV-INMN 59 RC208 QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGVNTFIISSATTVKAICTGV-INMN 59 RC218 QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 RC212 QNWATFQQKHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 SBL-J QNWAKFQEKHIPNTSNINCNTIMDKSIYIVGGQCKERNTFIISSATTVKAICSGASTNRN 60 RC-RNASEL1 QNWAKFKEKHITSTSSIDCNTIMDKAIYIVGGKCKERNTFIISSEDNVKAICSGVSPDRK 60 ONC QDWLTFQKKHITNTRDVDCDNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 ONC-LR1 QDWLTFQKKHLTNTRDVDCNNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 RC-RNASE6 QDWDTFQKKHLTDTKKVKCDVEMKKALF----DCKKTNTFIFARPPRVQALCKNIKDNTN 56 RC-RNASE3 QDWETFQKKHLTDTKKVKCDVEMAKALF----DCKKTNTFIYALPGRVKALCKNIRDNTD 56 RC-RNASE2 QNWETFQKKHLTDTRDVKCDAEMKKALF----DCKQKNTFIYARPGRVQALCKNIIVSKN 56 RC-RNASE4 QDWATFKKKHLTDTWDVDCDNLMPTSLF----DCKDKNTFIYSLPGPVKALCRGVIFSAD 56 * *.*:::*:.* :.*. *. ::.** **** *:.:*... SBL-C VLSTTRFQLNTCTRTSITPRPCPYSSRTETNYICVKCENQYPVHFAGIGRCP 111 RC208 VLSTTRFQLNTCTRTSITPRPCPYSSRTENNYICVKCENQYPVHFAGIGRCP 111 RC218 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 RC212 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 SBL-J VLSTTRFQLNTCIRSATAPRPCPYNSRTETNVICVKCENRLPVHFAGIGRC- 111 RC-RNASEL1 ELSTTSFKLNTCIRDSITPRPCPYHPSPDNNKICVKCEKQLPVHFVGIGKC- 111 ONC VLTTSEFYLSDCNVT---SRPCKYKLKKSTNKFCVTCENQAPVHFVGVGSC- 104 ONC-LR1 VLTTSEFYLSDCNVT---SRPCKYKLKKSTNTFCVTCENQAPVHFVGVGHC- 104 RC-RNASE6 VLSRDVFYLPQCNRK---KLPCHYRLDGSTNTICLTCMKELPIHFAGVGKCP 105 RC-RNASE3 VLSRDAFLLPQCDRI---KLPCHYKLSSSTNTICITCVNQLPIHFAGVGSCP 105 RC-RNASE2 VLSTDEFYLSDCNRI---KLPCHYKLKKSSNTICITCENKLPVHFVAVEECP 105 RC-RNASE4 VLSNSEFYLAECNVKP--RKPCKYKLKKSSNRICIRCEHELPVHFAGVGICP 106 *: * * ** *..* :*: * :. *:**..: *
Esistono numerosi programmi per la visualizzazione e anche la modifica manuale degli allineamenti multipli (ottimizzazione manuale). Due molto usati sono: GeneDoc SeaView ftp://biom3.univ-lyon1.fr/pub/mol_phylogeny/seaview
Creazione di Allineamenti Multipli Gli algoritmi esatti per la creazione di allineamenti a coppie potrebbero in teoria essere usati anche per la creazione di allineamenti multipli tuttavia i tempi di calcolo sarebbero enormi: Se L è la lunghezza delle sequenze e N il numero di sequenze da allineare l’ordine delle operazioni è O (L N ) Il numero di operazioni cresce ESPONENZIALMENTE con il numero delle sequenze!
Creazione di Allineamenti Multipli Pertanto gli allineamenti multipli vengono creati attraverso una strategia semplificata che consiste nell’allineare prima coppie di sequenze molto simili e poi “fissare” questi allineamenti e allinearli tra loro. La prima operazione è generare tutti i possibili allineamenti a coppie per trovare le sequenze più simili tra loro. Se N è il numero di sequenze il numero di allineamenti a coppie da calcolare è [N*(N-1)]/2
Creazione di Allineamenti Multipli Le percentuali di differenze di ciascuna coppia di sequenze vengono utilizzate per creare una matrice di differenze fra le sequenze. La matrice viene utilizzata per creare un albero guida i cui rami hanno lunghezza proporzionale alle differenze fra le sequenze matrice di differenze albero guida
Sulla base dell’albero guida verranno prima allineate le sequenze 1-2 e le sequenze 3-4. Quindi il “cluster” 1-2 verrà allineato al “cluster” 3-4. Infine il “cluster” verrà allineato alla sequenza 5.
“cluster” 1-2 “cluster” 3-4
“cluster”
Aggiungere una sequenza ad un allineamento multiplo L’aggiunta di una sequenza ad un allineamento multiplo o l’allineamento fra due cluster di allineamento si effettua in maniera simile ad un semplice allineamento a coppie creando una matrice bidimensionale che però stavolta riporterà in orizzontale le posizioni dell’allineamento multiplo e in verticale la sequenza da aggiungere o il secondo allineamento. Ad esempio allineamo la sequenza AGRSGS all’allineamento ASDKL VSERF
AVAV SSSS DEDE KRKR LFLF A 0.5*(2+0) G R S G S Score = [Score(A,A) + Score(A,V)] 2 Lo score assegnato a ciascuna casella è la media degli score per tutti i possibili accoppiamenti!
AVAV SSSS DEDE KRKR LFLF A 0.5*(2+0)0.5*(1+1)0.5*(0+0)0.5*(-1-2)0.5*(-2-4) G 0.5*(1-1)0.5*(1+1)0.5*(1+0)0.5*(-2-3)0.5*(-4-5) R S G S Score = [Score(A,A) + Score(A,V)] 2 Lo score assegnato a ciascuna casella è la media degli score per tutti i possibili accoppiamenti!
AVAV SSSS DEDE KRKR LFLF A I ( ) 4 G R K S G A S T Score = [Score(A,A) + Score(A,V) + Score(I,A) + Score(I,V) ] 4 Lo score assegnato a ciascuna casella è la media degli score per tutti i possibili accoppiamenti!
Esistono vari programmi per la costruzione degli allineamenti multipli. Due molto usati sono: ClustalW (aggiunge anche nuove sequenze ad allineamenti preesistenti) MSA (multiple sequence alignment)
Da un allineamento multiplo si possono ricavare “sequenze consensus” e “profili”: *** la sequenza consensus di un allineamento multiplo riporta per ciascuna posizione l’amminoacido che ricorre più frequentemente di una certa frequenza soglia (ad esempio 60%). Se nessun amminoacido è presente in una percentuale superiore alla soglia viene aggiunto il carattere “X” o un vuoto. (a volte si usa il carattere maiuscolo se un aa è presente oltre una percentuale m% e il carattere minuscolo se l’aa è presente oltre una percentuale n% minore di m%) *** Un profilo al contrario è un “modello probabilistico” che per ogni posizione riporta la probabilità che sia presente ognuno dei 20 amminoacidi o anche un gap.
gap ACDEFGHKILMNPQRSTVYW ……………………………………………………… 4……………………………………………………… 5……………………………………………………… 6……………………………………………………… 7……………………………………………………… 8……………………………………………………… 9……………………………………………………… ……………………………………………………… …………………………………………………………
I profili più usati sono generati tramite i cosiddetti “Hidden Markov Models” (HMM) che sono funzioni probabilistiche che non solo consentono di associare una probabilità ad ogni singola posizione ma consentono di dare valori differenti di probabilità ad una posizione a seconda dei residui (o nucleotidi) presenti nelle altre posizioni dell’allineamento. Ad esempio un HMM può specificare che in posizione 124 dell’allineamento è più comune Arg se nelle posizioni 122 e 123 ci sono Gly, Ala o Ser mentre l’amminoacido più probabile in 124 è Trp se in posizioni 122 e 123 ci sono Val, Leu, Ile, Met. Gli HMM non solo consentono di creare profili da allineamenti multipli ricchi di informazioni su come cambiano i residui dell’allineamento ma consentono anche di cercare proteine in una banca dati che rispondono ai requisiti di un particolare HMM e quindi potrebbero far parte di un’unica famiglia di proteine omologhe (un meccanismo simile è utilizzato da PSI-Blast)
I “Sequence Logo” sono una rappresentazione grafica di un allineamento multiplo di proteine o nucleotidi. In un “logo” i residui o le basi presenti in ciascuna posizione dell’allineamento sono riportati con caratteri di altezza proporzionale alla loro frequenza nell’allineamento. Le posizioni più conservate sono globalmente più “alte” di quelle meno conservate.
Sequenza consensus del “ribosomal binding site” (RBS) di E. coli Start Codon
Tutti i “logo” mostrati sono stati creati con il programma WebLogo accessibile al sito: