Evoluzione Molecolare & Filogenesi Molecolare In tutte le popolazioni naturali si verificano mutazioni nel genoma (mutazioni nel DNA della popolazione) Le mutazioni si verificano in maniera casuale, e a frequenza costante per ogni data popolazione. In realtà la frequenza di mutazioni genomiche è molto simile non solo per popolazioni diverse di una stessa specie ma anche di specie molto diverse tra loro (non bisogna dimenticare che la chimica e la biochimica del DNA e della sua replicazione sono sostanzialmente simili in tutti gli organismi viventi)
Anche se la velocità con cui si verificano mutazioni nel DNA è molto simile in tutti gli organismi il destino delle mutazioni è molto diverso non solo in organismi differenti ma anche nello stesso organismo a seconda di dove si è verificata la mutazione e quindi quale è l’effetto della mutazione. Alcune mutazioni si verificano nelle regioni non codificanti (tratti intergenici, introni, ecc.). Queste mutazioni possono alterare i livelli di espressine di una proteina o quando e dove deve essere prodotta. Alcune mutazioni si verificano nelle regioni codificanti. Di queste alcune cambieranno un codone per un aa in un codone sinonimo (mutazioni nella terza base del codone) e quindi non produrranno effetti a livello della proteina codificata. Le restanti cambieranno la sequenza della proteina.
Se una mutazione verificatasi in uno o più individui si diffonde nella popolazione (ciò se aumenta progressivamente la percentuale di individui che porta quella mutazione) si dice che la mutazione è stata “fissata”. Il fatto che una mutazione venga fissata in una popolazione può dipendere da due processi differenti: *** La selezione naturale *** La deriva genica casuale (“neutral genetic drift”)
Mutazioni che migliorano la funzione di una proteina o che creano una nuova funzione utile daranno agli individui che le portano una “fitness” maggiore cioè una migliore capacità di sopravvivere e riprodursi e quindi una maggiore probabilità di trasmettere la mutazione ai discendenti: *** le mutazioni positive tendono a diffondersi e fissarsi nelle popolazioni a causa della selezione naturale positiva. Mutazioni che peggiorano la funzione di una proteina o la eliminano daranno agli individui che le portano una “fitness” inferiore cioè una ridotta capacità di sopravvivere e riprodursi e quindi una ridotta probabilità di trasmettere la mutazione ai discendenti: *** le mutazioni negative vengono eliminate dalle popolazioni a causa della selezione naturale negativa.
Molte mutazioni, soprattutto quelle che cambiano residui in residui simili o quelle che cambiano residui situati alla superficie delle proteine ma non in siti di binding per substrati ed effettori, non hanno effetto o hanno un effetto trascurabile sulla funzionalità e la stabilità delle proteine. Le mutazioni che cambiano la sequenza amminoacidica ma non le proprietà di una proteina vengono definite “mutazioni neutre”. *** le mutazioni neutre possono diffondersi e fissarsi nelle popolazioni o venire eliminate per ragioni totalmente casuali e statistiche secondo un processo noto come “deriva genica casuale” o “neutral genetic drift”.
Consideriamo una famiglia di proteine omologhe perfettamente adattate a svolgere un determinato compito in un certo numero di organismi Poiché le proteine di questa famiglia sono già ottimizzate per lo svolgimento della loro funzione è verosimile che siano rarissime le mutazioni capaci di migliorare ulteriormente la funzione(mutazioni positive). La stragrande maggioranza delle mutazioni saranno negative o neutre! Ma le mutazioni negative vengono controselezionate e quindi spariscono, pertanto si deve concludere che la stragrande maggioranza delle mutazioni amminoacidiche osservate nelle famiglie di proteine omologhe siano mutazioni neutre!
Quanto sono frequenti le mutazioni neutre in una data famiglia proteica? In ogni famiglia proteica la frequenza di mutazioni neutre è inversamente proporzionale alla frazione di amminoacidi più direttamente coinvolti nella funzione e nel mantenimento della struttura. In altre parole famiglie proteiche con funzioni differenti evolvono a velocità differenti!!!
Numero di mutazioni per 100 residui Tempo di divergenza (milioni di anni) Citocromi c Globine dei vertebrati Fibrinopeptidi dei vertebrati
Ogni data famiglia proteica che evolva ad una velocità nota può fungere da vero e proprio “orologio molecolare” per calcolare la divergenza fra due organismi! Se per due proteine o due geni di due organismi è noto il tempo di divergenza “t” (cioè quanti milioni di anni fa i due organismi si sono separati) allora la velocità di evoluzione dei due geni o proteine “v” sarà data da v = _K_ 2t dove K è la divergenza (espressa in sostituzioni per sito) delle due sequenze attuali.
A questo punto ammettendo che tutte le altre proteine della famiglia evolvono alla stessa velocità v, se misuriamo K (cioè le differenze osservate) per due sequenze attuali potremo calcolare il tempo di divergenza di due organismi: t = _K_ 2v Ad esempio il tempo di divergenza stimato per uomo e ratto è 80 milioni di anni. Le alfa globine di uomo e ratto mostrano sostituzioni/sito. Quindi la velocità di evoluzione delle alfa-globine è v = _ 0.093__ sostituzioni/sito 2*8*10 7 anni Cioè 5.8* sostituzioni/sito/anno Quindi se le globine di uomo e maiale mostrano sostituzioni/sito il loro tempo di divergenza deve essere t = __0.084 sostituzioni/sito_________ = 72 milioni di anni 2* 5.8* sostituzioni/sito/anno
Più in generale date un certo numero di sequenze (nucleotidiche o amminoacidiche) S 1, S 2, S 3 ….S n omologhe si può calcolare una matrice di differenze accumulate (espresse per sito o per 100 residui) simile alla matrice di differenze generate dai programmi di allineamento multiplo. Se si conosce il tempo di divergenza di una coppia qualsiasi dell’insieme S i -S j si potrà calcolare il tempo si divergenza di qualsiasi altra coppia dell’insieme. S1S1 S2S2 …SiSi …SnSn S1S1 0 S2S ………0 SiSi …0 ……………0 SnSn 0.2 …0.4…0 matrice di differenze (sostituzioni/sito)
Attenzione!!! I valori da inserire nella tabella non sono le sostituzioni osservate ma quelle effettivamente verificatesi nel corso dell’evoluzione. Le mutazioni realmente avvenute sono più numerose di quelle osservate perché più mutazioni possono colpire la stessa posizione ed inoltre i residui e i nucleotidi possono retromutare. In pratica quello che si fa è utilizzare dei modelli matematici che a partire dagli allineamenti di sequenze attuali cercano di prevedere quante mutazioni si sono realmente verificate per dar conto delle sostituzioni osservate. Una operazione simile nel caso delle proteine è stata fatta anche per ricavare le matrici PAM.
Il modo migliore per raffigurare le relazioni evolutive tra le sequenze non è attraverso una matrice ma con un albero filogenetico simile agli alberi filogenetici costruiti per gli organismi. Questo è particolarmente vero se le sequenze analizzate sono molto numerose! Un albero filogenetico fornisce in maniera semplice e diretta tutte le informazioni più utili come per esempio quali sequenze dell’insieme sono le più strettamente imparentate e quale percorso evolutivo le sequenze hanno seguito.
Tempo di divergenza OUTs (Operational Taxonomic Units) Nodi (sequenze ancestrali) Radice (antenato comune) Albero Filogenetico Rooted (con radice)
Albero Filogenetico Unrooted (senza radice) OUTs (Operational Taxonomic Units) Nodi (sequenze ancestrali)
Esistono vari metodi per ricavare un albero filogenetico da un gruppo di sequenze omologhe. Tutti partono dall’allineamento multiplo delle sequenze in esame. *** UPGMA (Unweighted Pair Group Method with Arithmetic mean) *** Neighbor joining *** Massima parsimonia *** Massima verosimiglianza Tutti possono essere applicati sia a sequenze nucleotidiche che proteiche anche se i vari metodi possono funzionare meglio con un tipo di sequenza o con l’altro.
UPGMA (Unweighted Pair Group Method with Arithmetic mean) Questo metodo lavora in maniera simile ai programmi di allineamento multiplo che creano un “albero guida”. Ovviamente in questo caso si utilizza una matrice di sostituzioni effettive piuttosto che quella di sostituzioni osservate. HJKXZ H0 J0.170 K X Z matrice di differenze per sito calcolate
HJKXZ H0 J0.170 K X Z matrice di differenze per sito calcolate H-JK-XZ H-J- K-X0.37- Z H J K X Z rooted tree
Neighbor-joining Questo metodo parte da una topologia a stella (albero “non risolto”), quindi identifica sequenze simili (“neighbors”) e le unisce su un nodo dell’albero. A B F E D C A A C C B D E F B F E D Unrooted tree
Z H J K X 0.1 Neighbor-joining unrooted tree
0.1 H J K X Z Neighbor-joining unrooted tree
Massima Parsimonia Questo metodo trova l’albero che giustifica le differenze osservate nelle sequenze attuali con il minore numero di sostituzioni. Non stima le effettive distanze genetiche poiché non tiene conto della possibilità che si verifichino sostituzioni multiple. Fornisce quindi alberi in cui i rami sono tutti della stessa lunghezza (albero di tipo qualitativo).
Massima Verosimiglianza (Maximum Likelihood) Questo metodo utilizza approcci statistici per individuare l’albero che ha la massima probabilità di spiegare l’allineamento multiplo di partenza. E’ sicuramente il più completo e credibile metodo per generare un albero filogenetico a partire da un allineamento. L’unico svantaggio è che richiede un numero molto elevato di calcoli pertanto con più di sequenze il tempo di calcolo diviene troppo lungo perché il metodo sia conveniente.
Gli alberi filogenetici molecolari sono simili agli alberi filogenetici degli organismi creati con metodi classici? In generale c’è buon accordo solo se l’ipotesi dell’orologio biologico è ben rispettata da tutte le sequenze usate per creare l’albero (cioè se tutte le sequenze evolvono alla stessa velocità). Una sequenza che per qualche motivo evolve più velocemente (lentamente) delle altre nell’albero genererà un ramo troppo lungo (corto) nell’albero filogenetico molecolare. La filogenesi molecolare deve sempre essere fatta utilizzando più famiglie proteiche. In altre parole è necessario confrontare alberi filogenetici ottenuti con proteine differenti. Inoltre proteine a rapida evoluzione serviranno a confrontare organismi strettamente imparentati, mentre proteine che evolvono lentamente serviranno a confrontare organismi lontani.
Long Branch Attraction A B C D A B C D Filogenesi reale (le sequenze B e C evolvono più rapidamente di A e D) Filogenesi Calcolata (le sequenze A e D sono erroneamente considerate più imparentate tra loro)
Ricampionamento dei Dati Anche se tutte le proteine di una famiglia evolvono a velocità confrontabili non è detto che tutte le posizioni dell’allineamento multiplo evolvano alla stessa velocità! Ad esempio le posizioni strutturalmente e/o funzionalmente importanti (sito attivo, siti di legame per cofattori o effettori per partner molecolari ecc.) evolveranno più lentamente delle restanti posizioni. Al contrario regioni molto esposte e non coinvolte in interazioni con altre molecole evolveranno più velocemente rispetto alla velocità media della famiglia. Quindi, utilizzando parti diverse dell’allineamento è possibile che si calcolini alberi filogenetici molecolari differenti!!!
SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRVNTFIISSATTVKAICTGV-INMN 59 RC208 QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGVNTFIISSATTVKAICTGV-INMN 59 RC218 QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 RC212 QNWATFQQKHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 SBL-J QNWAKFQEKHIPNTSNINCNTIMDKSIYIVGGQCKERNTFIISSATTVKAICSGASTNRN 60 RC-RNASEL1 QNWAKFKEKHITSTSSIDCNTIMDKAIYIVGGKCKERNTFIISSEDNVKAICSGVSPDRK 60 ONC QDWLTFQKKHITNTRDVDCDNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 ONC-LR1 QDWLTFQKKHLTNTRDVDCNNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 RC-RNASE6 QDWDTFQKKHLTDTKKVKCDVEMKKALF----DCKKTNTFIFARPPRVQALCKNIKDNTN 56 RC-RNASE3 QDWETFQKKHLTDTKKVKCDVEMAKALF----DCKKTNTFIYALPGRVKALCKNIRDNTD 56 RC-RNASE2 QNWETFQKKHLTDTRDVKCDAEMKKALF----DCKQKNTFIYARPGRVQALCKNIIVSKN 56 RC-RNASE4 QDWATFKKKHLTDTWDVDCDNLMPTSLF----DCKDKNTFIYSLPGPVKALCRGVIFSAD 56 * *.*:::*:.* :.*. *. ::.** **** *:.:*... SBL-C VLSTTRFQLNTCTRTSITPRPCPYSSRTETNYICVKCENQYPVHFAGIGRCP 111 RC208 VLSTTRFQLNTCTRTSITPRPCPYSSRTENNYICVKCENQYPVHFAGIGRCP 111 RC218 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 RC212 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 SBL-J VLSTTRFQLNTCIRSATAPRPCPYNSRTETNVICVKCENRLPVHFAGIGRC- 111 RC-RNASEL1 ELSTTSFKLNTCIRDSITPRPCPYHPSPDNNKICVKCEKQLPVHFVGIGKC- 111 ONC VLTTSEFYLSDCNVT---SRPCKYKLKKSTNKFCVTCENQAPVHFVGVGSC- 104 ONC-LR1 VLTTSEFYLSDCNVT---SRPCKYKLKKSTNTFCVTCENQAPVHFVGVGHC- 104 RC-RNASE6 VLSRDVFYLPQCNRK---KLPCHYRLDGSTNTICLTCMKELPIHFAGVGKCP 105 RC-RNASE3 VLSRDAFLLPQCDRI---KLPCHYKLSSSTNTICITCVNQLPIHFAGVGSCP 105 RC-RNASE2 VLSTDEFYLSDCNRI---KLPCHYKLKKSSNTICITCENKLPVHFVAVEECP 105 RC-RNASE4 VLSNSEFYLAECNVKP--RKPCKYKLKKSSNRICIRCEHELPVHFAGVGICP 106 *: * * ** *..* :*: * :. *:**..: *
SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRVNTFIISSATTVKAICTGV-INMN 59 RC208 QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGVNTFIISSATTVKAICTGV-INMN 59 RC218 QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 RC212 QNWATFQQKHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 SBL-J QNWAKFQEKHIPNTSNINCNTIMDKSIYIVGGQCKERNTFIISSATTVKAICSGASTNRN 60 RC-RNASEL1 QNWAKFKEKHITSTSSIDCNTIMDKAIYIVGGKCKERNTFIISSEDNVKAICSGVSPDRK 60 ONC QDWLTFQKKHITNTRDVDCDNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 ONC-LR1 QDWLTFQKKHLTNTRDVDCNNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 RC-RNASE6 QDWDTFQKKHLTDTKKVKCDVEMKKALF----DCKKTNTFIFARPPRVQALCKNIKDNTN 56 RC-RNASE3 QDWETFQKKHLTDTKKVKCDVEMAKALF----DCKKTNTFIYALPGRVKALCKNIRDNTD 56 RC-RNASE2 QNWETFQKKHLTDTRDVKCDAEMKKALF----DCKQKNTFIYARPGRVQALCKNIIVSKN 56 RC-RNASE4 QDWATFKKKHLTDTWDVDCDNLMPTSLF----DCKDKNTFIYSLPGPVKALCRGVIFSAD 56 * *.*:::*:.* :.*. *. ::.** **** *:.:*... SBL-C VLSTTRFQLNTCTRTSITPRPCPYSSRTETNYICVKCENQYPVHFAGIGRCP 111 RC208 VLSTTRFQLNTCTRTSITPRPCPYSSRTENNYICVKCENQYPVHFAGIGRCP 111 RC218 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 RC212 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 SBL-J VLSTTRFQLNTCIRSATAPRPCPYNSRTETNVICVKCENRLPVHFAGIGRC- 111 RC-RNASEL1 ELSTTSFKLNTCIRDSITPRPCPYHPSPDNNKICVKCEKQLPVHFVGIGKC- 111 ONC VLTTSEFYLSDCNVT---SRPCKYKLKKSTNKFCVTCENQAPVHFVGVGSC- 104 ONC-LR1 VLTTSEFYLSDCNVT---SRPCKYKLKKSTNTFCVTCENQAPVHFVGVGHC- 104 RC-RNASE6 VLSRDVFYLPQCNRK---KLPCHYRLDGSTNTICLTCMKELPIHFAGVGKCP 105 RC-RNASE3 VLSRDAFLLPQCDRI---KLPCHYKLSSSTNTICITCVNQLPIHFAGVGSCP 105 RC-RNASE2 VLSTDEFYLSDCNRI---KLPCHYKLKKSSNTICITCENKLPVHFVAVEECP 105 RC-RNASE4 VLSNSEFYLAECNVKP--RKPCKYKLKKSSNRICIRCEHELPVHFAGVGICP 106 *: * * ** *..* :*: * :. *:**..: *
SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRVNTFIISSATTVKAICTGV-INMN 59 RC208 QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGVNTFIISSATTVKAICTGV-INMN 59 RC218 QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 RC212 QNWATFQQKHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 SBL-J QNWAKFQEKHIPNTSNINCNTIMDKSIYIVGGQCKERNTFIISSATTVKAICSGASTNRN 60 RC-RNASEL1 QNWAKFKEKHITSTSSIDCNTIMDKAIYIVGGKCKERNTFIISSEDNVKAICSGVSPDRK 60 ONC QDWLTFQKKHITNTRDVDCDNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 ONC-LR1 QDWLTFQKKHLTNTRDVDCNNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 RC-RNASE6 QDWDTFQKKHLTDTKKVKCDVEMKKALF----DCKKTNTFIFARPPRVQALCKNIKDNTN 56 RC-RNASE3 QDWETFQKKHLTDTKKVKCDVEMAKALF----DCKKTNTFIYALPGRVKALCKNIRDNTD 56 RC-RNASE2 QNWETFQKKHLTDTRDVKCDAEMKKALF----DCKQKNTFIYARPGRVQALCKNIIVSKN 56 RC-RNASE4 QDWATFKKKHLTDTWDVDCDNLMPTSLF----DCKDKNTFIYSLPGPVKALCRGVIFSAD 56 * *.*:::*:.* :.*. *. ::.** **** *:.:*... SBL-C VLSTTRFQLNTCTRTSITPRPCPYSSRTETNYICVKCENQYPVHFAGIGRCP 111 RC208 VLSTTRFQLNTCTRTSITPRPCPYSSRTENNYICVKCENQYPVHFAGIGRCP 111 RC218 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 RC212 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 SBL-J VLSTTRFQLNTCIRSATAPRPCPYNSRTETNVICVKCENRLPVHFAGIGRC- 111 RC-RNASEL1 ELSTTSFKLNTCIRDSITPRPCPYHPSPDNNKICVKCEKQLPVHFVGIGKC- 111 ONC VLTTSEFYLSDCNVT---SRPCKYKLKKSTNKFCVTCENQAPVHFVGVGSC- 104 ONC-LR1 VLTTSEFYLSDCNVT---SRPCKYKLKKSTNTFCVTCENQAPVHFVGVGHC- 104 RC-RNASE6 VLSRDVFYLPQCNRK---KLPCHYRLDGSTNTICLTCMKELPIHFAGVGKCP 105 RC-RNASE3 VLSRDAFLLPQCDRI---KLPCHYKLSSSTNTICITCVNQLPIHFAGVGSCP 105 RC-RNASE2 VLSTDEFYLSDCNRI---KLPCHYKLKKSSNTICITCENKLPVHFVAVEECP 105 RC-RNASE4 VLSNSEFYLAECNVKP--RKPCKYKLKKSSNRICIRCEHELPVHFAGVGICP 106 *: * * ** *..* :*: * :. *:**..: *
Ricampionamento dei Dati JACKNIFE & BOOTSTRAP Nel ricampionamento mediante “jacknife” la metà a caso delle colonne dell’allineamento viene cancellata. Se la procedura è utilizzata 250 volte si otterranno 250 allineamenti ricampionati di lunghezza dimezzata e quindi 250 alberi filogenetici alternativi che verranno confrontati fra loro. Solitamente viene creato un “albero consensus” che riporta le ramificazioni trovate più frequentemente (un nuvero scritto in prossimità del nodo indica la percentuale di volte che quel nodo è stato trovato)
PspCF600 Sso Pst Pme Aeu BspJS150 Pae BceAA1 Rme Xsp Rsp Nco MspM Mtr MspKSPIII Mca PspK1 Rsp Aca Asp20B PpuH PpuP35X Rme RspKN1 ReuE2 Bku BceG4 Rme CtetA441 CteR5 BspJS Pst
Ricampionamento dei Dati JACKNIFE & BOOTSTRAP Nel ricampionamento mediante “bootstrap” una certa percentuale a caso (ad esempio tra il 30 e il 70%) delle colonne dell’allineamento viene cancellata. Poiché per ragioni statistiche è necessario che tutti gli alberi vengano generati da allineamenti con lo stesso numero di colonne le colonne rimaste vengono “moltiplicate” in modo tale da mantenere costante la dimensione dell’allineamento. Se la procedura è utilizzata 250 volte si otterranno 250 allineamenti ricampionati e quindi 250 alberi filogenetici alternativi che verranno confrontati fra loro. Solitamente viene creato un “albero consensus” che riporta le ramificazioni trovate più frequentemente (un nuvero scritto in prossimità del nodo indica la percentuale di volte che quel nodo è stato trovato)
SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRV RC208 QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGV RC218 QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKV SBL-C QNWWWFFQKKIIITPIINNNTIIIINIYYVGGQCKKV RC208 QNWWWFFQKKITTTSSINNNTIIIINIYYVGGQCKKV RC218 QNWWWFFEQQITTTSSINNSNIIIISLYYVGGQCKKV SBL-C QNNNTFQQQHHINTTIINCCCIMDDDIYIIGGQQKRR RC208 QNNNTFQQQHHTNTTSINCCCIMDDDIYIIGGQQKGG RC218 QNNNTFQEEHHTNTTSINCCCIMNNNLYIIGGQQKKK SBL-C QQQQTFQQKKIINNNIINCNTIIDNNNYIVVVQCCCV RC208 QQQQTFQQKKITNNNSSNCNTIIDNNNYIVVVQCCCV RC218 QQQQTFQEQQITNNNSSNCSNIINNSSYIVVVQCCCV BOOTSTRAP
Gram + Gram – Alfa Beta Gamma Archea Rsp Xsp Mtr Msp Sso Mca KSP Nco P.K1 Rsp Pst Pme Rme AA1 Pae JS150 Aeu JS150 A20B Aca Pst CF6 PpuH P35X Rme KN1 RuE2 Bku Rme CteR5