Evoluzione Molecolare & Filogenesi Molecolare

Slides:



Advertisements
Presentazioni simili
Filogenesi molecolare
Advertisements

Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
© 2015 Giorgio Porcu - Aggiornamennto 01/12/2015 I STITUTO T ECNICO SECONDO BIENNIO T ECNOLOGIE E P ROGETTAZIONE Rappresentazione dell’ Informazione Sistemi.
Table View. Problemi ricorrenti Una situazione ricorrente è quella in cui il controller potrebbe avere un’altezza superiore a quella dello schermo. In.
Evoluzione Molecolare & Filogenesi Molecolare In tutte le popolazioni naturali si verificano mutazioni nel genoma (mutazioni nel DNA della popolazione)
Laboratorio evoluzione Marcello Sala “STEMMI” [Henry Gee, Tempo profondo, Einaudi 2006]
Programmi per l’ALLINEAMENTO DELLE SEQUENZE La creazione di programmi per l’allineamento delle sequenze richiede la definizione di: *** Un criterio oggettivo.
Il test del DNA: utilizzi ● Riconoscimento della paternità/maternità ● In criminologia e diritto ● Identificare le vittime di un disastro.
Huffman Canonico: approfondimento. Come abbiamo visto, Huffman canonico ci permette di ottenere una decompressione più veloce e con un uso più efficiente.
Capacità elettrica Condensatori. Il condensatore è il sistema più semplice per avere un campo elettrico costante e poter immagazzinare energia elettrostatica.
8 – La cinetica.pdf – V 2.0 – Chimica Generale – Prof. A. Mangoni– A.A. 2012/2013 La cinetica chimica La cinetica chimica è la parte della chimica che.
Indici di Posizione Giulio Vidotto Raffaele Cioffi.
RICERCA DI SIMILARITA’ in DB Problema: identificare all’interno di una banca dati di sequenze quelle sequenze che sono più simili ad una sequenza di nostro.
CONFRONTO DI SEQUENZE Una delle analisi più informative che si possano compiere utilizzando sequenze nucleotidiche o amminoacidiche è il CONFRONTO FRA.
Genetica delle Popolazioni a.a prof S. Presciuttini DIMENSIONE EFFETTIVA DELLA POPOLAZIONE Questo documento è pubblicato sotto licenza Creative.
La chimica della vita Ogni organismo vivente è una macchina sofisticata, risultato di un complesso insieme di reazioni chimiche. La costruzione e il funzionamento.
LA STATISTICA DESCRITTIVA
Effetto scuola o Valore aggiunto
RNS_BOVIN ANG1_MOUSE TPA_HUMAN UROK_HUMAN
DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE
L’altro importante equilibrio genetico è un EQUILIBRIO APLOIDE
CALENDARIO LEZIONI AGGIORNATO
laboratorio evoluzione Marcello Sala
La velocità delle reazioni chimiche
Branch and Bound Lezione n°19 Prof.ssa Rossella Petreschi
Le equazioni di II°Grado
Branch and Bound Lezione n°14 Prof.ssa Rossella Petreschi
ESERCITAZIONI ANTROPOLOGIA
LA PRIMA TEORIA EVOLUTIVA
coordinate geografiche longitudine, latitudine
Progettazione di una base di dati relazionale
13/11/
Il calcolo della probabilità
L'ABC della statistica LA MEDIA ARITMETICA
B-alberi e alberi autoaggiustanti
13/11/
Genetica e OGM Il DNA è la struttura cellulare che consente la codifica e la trasmissione delle informazioni necessarie al funzionamento della cellula.
Tecniche di conteggio di particelle/fotoni
Corso di Laurea in Scienze e tecniche psicologiche
Macchine sequenziali Capitolo 4.
Il DNA è un polimero di nucleotidi
Introduzione a Statistica e Probabilità
La Statistica Istituto Comprensivo “ M. G. Cutuli”
Indici di variabilità La variabilità è la ragione dell’esistenza della psicologia. Le persone hanno dei comportamenti diversi che non possono essere predetti.
Statistica descrittiva
PILLOLE DI GENETICA PARTE 3
Corso di Genetica -Lezione 12- Cenci
I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.
Confronto tra diversi soggetti:
32 = 9 x2 = 9 x = 3 32 = 9 √9 = 3 L’estrazione di radice
La Fabbrica delle Proteine
Lezione n°6 Prof.ssa Rossella Petreschi
Branch and Bound Lezione n°18 Prof.ssa Rossella Petreschi
Teoria sintetica dell’evoluzione
Approccio all’insegnamento dell’anatomia comparata: i sistemi
Interpretare la grandezza di σ
ANALISI DI REGRESSIONE
Variazione percentuale di una grandezza
Excel 3 - le funzioni.
13/11/
PILLOLE DI GENETICA PARTE 3
Virus, viroidi, prioni, ftoplasmi
Definizione di GENETICA
Variabile interveniente
Evoluzione molecolare
(Theodosius Dobzhansky)
Programmi per l’ALLINEAMENTO DELLE SEQUENZE
CONFRONTO DI SEQUENZE Una delle analisi più informative che si possano compiere utilizzando sequenze nucleotidiche o amminoacidiche è il CONFRONTO FRA.
Transcript della presentazione:

Evoluzione Molecolare & Filogenesi Molecolare In tutte le popolazioni naturali si verificano mutazioni nel genoma (mutazioni nel DNA della popolazione) Le mutazioni si verificano in maniera casuale, e a frequenza costante per ogni data popolazione. In realtà la frequenza di mutazioni genomiche è molto simile non solo per popolazioni diverse di una stessa specie ma anche di specie molto diverse tra loro (non bisogna dimenticare che la chimica e la biochimica del DNA e della sua replicazione sono sostanzialmente simili in tutti gli organismi viventi)

Anche se la velocità con cui si verificano mutazioni nel DNA è molto simile in tutti gli organismi il destino delle mutazioni è molto diverso non solo in organismi differenti ma anche nello stesso organismo a seconda di dove si è verificata la mutazione e quindi quale è l’effetto della mutazione. Alcune mutazioni si verificano nelle regioni non codificanti (tratti intergenici, introni, ecc.). Queste mutazioni possono alterare i livelli di espressine di una proteina o quando e dove deve essere prodotta. Alcune mutazioni si verificano nelle regioni codificanti. Di queste alcune cambieranno un codone per un aa in un codone sinonimo (mutazioni nella terza base del codone) e quindi non produrranno effetti a livello della proteina codificata. Le restanti cambieranno la sequenza della proteina.

Se una mutazione verificatasi in uno o più individui si diffonde nella popolazione (ciò se aumenta progressivamente la percentuale di individui che porta quella mutazione) si dice che la mutazione è stata “fissata”. Il fatto che una mutazione venga fissata in una popolazione può dipendere da due processi differenti: *** La selezione naturale *** La deriva genica casuale (“neutral genetic drift”)

Mutazioni che migliorano la funzione di una proteina o che creano una nuova funzione utile daranno agli individui che le portano una “fitness” maggiore cioè una migliore capacità di sopravvivere e riprodursi e quindi una maggiore probabilità di trasmettere la mutazione ai discendenti: *** le mutazioni positive tendono a diffondersi e fissarsi nelle popolazioni a causa della selezione naturale positiva. Mutazioni che peggiorano la funzione di una proteina o la eliminano daranno agli individui che le portano una “fitness” inferiore cioè una ridotta capacità di sopravvivere e riprodursi e quindi una ridotta probabilità di trasmettere la mutazione ai discendenti: *** le mutazioni negative vengono eliminate dalle popolazioni a causa della selezione naturale negativa.

Molte mutazioni, soprattutto quelle che cambiano residui in residui simili o quelle che cambiano residui situati alla superficie delle proteine ma non in siti di binding per substrati ed effettori, non hanno effetto o hanno un effetto trascurabile sulla funzionalità e la stabilità delle proteine. Le mutazioni che cambiano la sequenza amminoacidica ma non le proprietà di una proteina vengono definite “mutazioni neutre”. *** le mutazioni neutre possono diffondersi e fissarsi nelle popolazioni o venire eliminate per ragioni totalmente casuali e statistiche secondo un processo noto come “deriva genica casuale” o “neutral genetic drift”.

Consideriamo una famiglia di proteine omologhe perfettamente adattate a svolgere un determinato compito in un certo numero di organismi Poiché le proteine di questa famiglia sono già ottimizzate per lo svolgimento della loro funzione è verosimile che siano rarissime le mutazioni capaci di migliorare ulteriormente la funzione(mutazioni positive). La stragrande maggioranza delle mutazioni saranno negative o neutre! Ma le mutazioni negative vengono controselezionate e quindi spariscono, pertanto si deve concludere che la stragrande maggioranza delle mutazioni amminoacidiche osservate nelle famiglie di proteine omologhe siano mutazioni neutre!

Quanto sono frequenti le mutazioni neutre in una data famiglia proteica? In ogni famiglia proteica la frequenza di mutazioni neutre è inversamente proporzionale alla frazione di amminoacidi più direttamente coinvolti nella funzione e nel mantenimento della struttura. In altre parole famiglie proteiche con funzioni differenti evolvono a velocità differenti!!!

Numero di mutazioni per 100 residui Fibrinopeptidi dei vertebrati Globine dei vertebrati Numero di mutazioni per 100 residui Citocromi c Tempo di divergenza (milioni di anni)

Ogni data famiglia proteica che evolva ad una velocità nota può fungere da vero e proprio “orologio molecolare” per calcolare la divergenza fra due organismi! Se per due proteine o due geni di due organismi è noto il tempo di divergenza “t” (cioè quanti milioni di anni fa i due organismi si sono separati) allora la velocità di evoluzione dei due geni o proteine “v” sarà data da v = _K_ 2t dove K è la divergenza (espressa in sostituzioni per sito) delle due sequenze attuali.

A questo punto ammettendo che tutte le altre proteine della famiglia evolvono alla stessa velocità v, se misuriamo K (cioè le differenze osservate) per due sequenze attuali potremo calcolare il tempo di divergenza di due organismi: t = _K_ 2v Ad esempio il tempo di divergenza stimato per uomo e ratto è 80 milioni di anni. Le alfa globine di uomo e ratto mostrano 0.093 sostituzioni/sito. Quindi la velocità di evoluzione delle alfa-globine è v = _ 0.093__ sostituzioni/sito 2*8*107 anni Cioè 5.8*10-10 sostituzioni/sito/anno Quindi se le globine di uomo e maiale mostrano 0.084 sostituzioni/sito il loro tempo di divergenza deve essere t = __0.084 sostituzioni/sito_________ = 72 milioni di anni 2* 5.8*10-10 sostituzioni/sito/anno

Più in generale date un certo numero di sequenze (nucleotidiche o amminoacidiche) S1, S2, S3….Sn omologhe si può calcolare una matrice di differenze accumulate (espresse per sito o per 100 residui) simile alla matrice di differenze generate dai programmi di allineamento multiplo. Se si conosce il tempo di divergenza di una coppia qualsiasi dell’insieme, Si e Sj, si potrà calcolare il tempo si divergenza di qualsiasi altra coppia dell’insieme. S1 S2 … Si Sn 0.1 0.5 0.4 0.2 matrice di differenze (sostituzioni/sito)

Attenzione!!! I valori da inserire nella tabella non sono le sostituzioni osservate ma quelle effettivamente verificatesi nel corso dell’evoluzione. Le mutazioni realmente avvenute sono più numerose di quelle osservate perché più mutazioni possono colpire la stessa posizione ed inoltre i residui e i nucleotidi possono retromutare. In pratica quello che si fa è utilizzare dei modelli matematici che a partire dagli allineamenti di sequenze attuali cercano di prevedere quante mutazioni si sono realmente verificate per dar conto delle sostituzioni osservate. Una operazione simile nel caso delle proteine è stata fatta anche per ricavare le matrici PAM.

Il modo migliore per raffigurare le relazioni evolutive tra le sequenze non è attraverso una matrice ma con un albero filogenetico simile agli alberi filogenetici costruiti per gli organismi. Questo è particolarmente vero se le sequenze analizzate sono molto numerose! Un albero filogenetico fornisce in maniera semplice e diretta tutte le informazioni più utili come per esempio quali sequenze dell’insieme sono le più strettamente imparentate e quale percorso evolutivo le sequenze hanno seguito.

(sequenze ancestrali) Albero Filogenetico Rooted (con radice) Nodi (sequenze ancestrali) Radice (antenato comune) OUTs (Operational Taxonomic Units) Tempo di divergenza

(sequenze ancestrali) Albero Filogenetico Unrooted (senza radice) Nodi (sequenze ancestrali) OUTs (Operational Taxonomic Units)

Esistono vari metodi per ricavare un albero filogenetico da un gruppo di sequenze omologhe. Tutti partono dall’allineamento multiplo delle sequenze in esame. *** UPGMA (Unweighted Pair Group Method with Arithmetic mean) *** Neighbor joining *** Massima parsimonia *** Massima verosimiglianza Tutti possono essere applicati sia a sequenze nucleotidiche che proteiche anche se i vari metodi possono funzionare meglio con un tipo di sequenza o con l’altro.

(Unweighted Pair Group Method with Arithmetic mean) UPGMA (Unweighted Pair Group Method with Arithmetic mean) Questo metodo lavora in maniera simile ai programmi di allineamento multiplo che creano un “albero guida”. Ovviamente in questo caso si utilizza una matrice di sostituzioni effettive piuttosto che quella di sostituzioni osservate. matrice di differenze per sito calcolate H J K X Z 0.17 0.59 0.6 0.13 0.77 0.75

matrice di differenze per sito calcolate H J K X Z 0.17 0.59 0.6 0.13 0.77 0.75 0.085 H J K X 0.065 Z - 0.49 Z 0.37 K-X H-J

matrice di differenze per sito calcolate H J K X Z 0.17 0.59 0.6 0.13 0.77 0.75 rooted tree 0.085 H J K X 0.065 Z - 0.49 Z 0.37 K-X H-J 0.1 0.12

matrice di differenze per sito calcolate H J K X Z 0.17 0.59 0.6 0.13 0.77 0.75 H-J-K-X Z H-J- K-X - Z 0.49 - 0.085 H J K X 0.065 Z 0.1 0.12 0.06 H-J K-X Z H-J - K-X 0.37 - Z 0.49 0.49 - 0.245 rooted tree

Neighbor-joining A B B F D A C E C E F D B A F C D E Questo metodo parte da una topologia a stella (albero “non risolto”), quindi identifica sequenze simili (“neighbors”) e le unisce su un nodo dell’albero. A B B F D A C E E C F D B A F Unrooted tree C D E

Neighbor-joining unrooted tree H J Z K X 0.1 0.079 0.06 0.1 0.203 0.12 0.04 K 0.1 0.084 X

Neighbor-joining unrooted tree H J K X Z 0.1 0.079 0.1 0.06 0.066 0.04 0.12 0.084 X 0.137 Z 0.1

Massima Parsimonia Questo metodo trova l’albero che giustifica le differenze osservate nelle sequenze attuali con il minore numero di sostituzioni. Non stima le effettive distanze genetiche poiché non tiene conto della possibilità che si verifichino sostituzioni multiple. Fornisce quindi alberi in cui i rami sono tutti della stessa lunghezza (albero di tipo qualitativo).

Massima Verosimiglianza (Maximum Likelihood) Questo metodo utilizza approcci statistici per individuare l’albero che ha la massima probabilità di spiegare l’allineamento multiplo di partenza. E’ sicuramente il più completo e credibile metodo per generare un albero filogenetico a partire da un allineamento. L’unico svantaggio è che richiede un numero molto elevato di calcoli pertanto con più di 20-30 sequenze il tempo di calcolo diviene troppo lungo perché il metodo sia conveniente.

Gli alberi filogenetici molecolari sono simili agli alberi filogenetici degli organismi creati con metodi classici? In generale c’è buon accordo solo se l’ipotesi dell’orologio biologico è ben rispettata da tutte le sequenze usate per creare l’albero (cioè se tutte le sequenze evolvono alla stessa velocità). Una sequenza che per qualche motivo evolve più velocemente (lentamente) delle altre nell’albero genererà un ramo troppo lungo (corto) nell’albero filogenetico molecolare. La filogenesi molecolare deve sempre essere fatta utilizzando più famiglie proteiche. In altre parole è necessario confrontare alberi filogenetici ottenuti con proteine differenti. Inoltre proteine a rapida evoluzione serviranno a confrontare organismi strettamente imparentati, mentre proteine che evolvono lentamente serviranno a confrontare organismi lontani.

Long Branch Attraction D Filogenesi Calcolata (le sequenze A e D sono erroneamente considerate più imparentate tra loro) B B Filogenesi reale (le sequenze B e C evolvono più rapidamente di A e D) C A D C

Ricampionamento dei Dati Anche se tutte le proteine di una famiglia evolvono a velocità confrontabili non è detto che tutte le posizioni dell’allineamento multiplo evolvano alla stessa velocità! Ad esempio le posizioni strutturalmente e/o funzionalmente importanti (sito attivo, siti di legame per cofattori o effettori per partner molecolari ecc.) evolveranno più lentamente delle restanti posizioni. Al contrario regioni molto esposte e non coinvolte in interazioni con altre molecole evolveranno più velocemente rispetto alla velocità media della famiglia. Quindi, utilizzando parti diverse dell’allineamento è possibile che si calcolini alberi filogenetici molecolari differenti!!!

SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRVNTFIISSATTVKAICTGV-INMN 59 RC208 QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGVNTFIISSATTVKAICTGV-INMN 59 RC218 QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 RC212 QNWATFQQKHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 SBL-J QNWAKFQEKHIPNTSNINCNTIMDKSIYIVGGQCKERNTFIISSATTVKAICSGASTNRN 60 RC-RNASEL1 QNWAKFKEKHITSTSSIDCNTIMDKAIYIVGGKCKERNTFIISSEDNVKAICSGVSPDRK 60 ONC QDWLTFQKKHITNTRDVDCDNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 ONC-LR1 QDWLTFQKKHLTNTRDVDCNNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 RC-RNASE6 QDWDTFQKKHLTDTKKVKCDVEMKKALF----DCKKTNTFIFARPPRVQALCKNIKDNTN 56 RC-RNASE3 QDWETFQKKHLTDTKKVKCDVEMAKALF----DCKKTNTFIYALPGRVKALCKNIRDNTD 56 RC-RNASE2 QNWETFQKKHLTDTRDVKCDAEMKKALF----DCKQKNTFIYARPGRVQALCKNIIVSKN 56 RC-RNASE4 QDWATFKKKHLTDTWDVDCDNLMPTSLF----DCKDKNTFIYSLPGPVKALCRGVIFSAD 56 * * .*:::*: .* :.*. * . :: .** **** *:.:* . . .   SBL-C VLSTTRFQLNTCTRTSITPRPCPYSSRTETNYICVKCENQYPVHFAGIGRCP 111 RC208 VLSTTRFQLNTCTRTSITPRPCPYSSRTENNYICVKCENQYPVHFAGIGRCP 111 RC218 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 RC212 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 SBL-J VLSTTRFQLNTCIRSATAPRPCPYNSRTETNVICVKCENRLPVHFAGIGRC- 111 RC-RNASEL1 ELSTTSFKLNTCIRDSITPRPCPYHPSPDNNKICVKCEKQLPVHFVGIGKC- 111 ONC VLTTSEFYLSDCNVT---SRPCKYKLKKSTNKFCVTCENQAPVHFVGVGSC- 104 ONC-LR1 VLTTSEFYLSDCNVT---SRPCKYKLKKSTNTFCVTCENQAPVHFVGVGHC- 104 RC-RNASE6 VLSRDVFYLPQCNRK---KLPCHYRLDGSTNTICLTCMKELPIHFAGVGKCP 105 RC-RNASE3 VLSRDAFLLPQCDRI---KLPCHYKLSSSTNTICITCVNQLPIHFAGVGSCP 105 RC-RNASE2 VLSTDEFYLSDCNRI---KLPCHYKLKKSSNTICITCENKLPVHFVAVEECP 105 RC-RNASE4 VLSNSEFYLAECNVKP--RKPCKYKLKKSSNRICIRCEHELPVHFAGVGICP 106 *: * * ** * ..* :*: * :. *:**..: *

SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRVNTFIISSATTVKAICTGV-INMN 59 RC208 QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGVNTFIISSATTVKAICTGV-INMN 59 RC218 QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 RC212 QNWATFQQKHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 SBL-J QNWAKFQEKHIPNTSNINCNTIMDKSIYIVGGQCKERNTFIISSATTVKAICSGASTNRN 60 RC-RNASEL1 QNWAKFKEKHITSTSSIDCNTIMDKAIYIVGGKCKERNTFIISSEDNVKAICSGVSPDRK 60 ONC QDWLTFQKKHITNTRDVDCDNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 ONC-LR1 QDWLTFQKKHLTNTRDVDCNNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 RC-RNASE6 QDWDTFQKKHLTDTKKVKCDVEMKKALF----DCKKTNTFIFARPPRVQALCKNIKDNTN 56 RC-RNASE3 QDWETFQKKHLTDTKKVKCDVEMAKALF----DCKKTNTFIYALPGRVKALCKNIRDNTD 56 RC-RNASE2 QNWETFQKKHLTDTRDVKCDAEMKKALF----DCKQKNTFIYARPGRVQALCKNIIVSKN 56 RC-RNASE4 QDWATFKKKHLTDTWDVDCDNLMPTSLF----DCKDKNTFIYSLPGPVKALCRGVIFSAD 56 * * .*:::*: .* :.*. * . :: .** **** *:.:* . . .   SBL-C VLSTTRFQLNTCTRTSITPRPCPYSSRTETNYICVKCENQYPVHFAGIGRCP 111 RC208 VLSTTRFQLNTCTRTSITPRPCPYSSRTENNYICVKCENQYPVHFAGIGRCP 111 RC218 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 RC212 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 SBL-J VLSTTRFQLNTCIRSATAPRPCPYNSRTETNVICVKCENRLPVHFAGIGRC- 111 RC-RNASEL1 ELSTTSFKLNTCIRDSITPRPCPYHPSPDNNKICVKCEKQLPVHFVGIGKC- 111 ONC VLTTSEFYLSDCNVT---SRPCKYKLKKSTNKFCVTCENQAPVHFVGVGSC- 104 ONC-LR1 VLTTSEFYLSDCNVT---SRPCKYKLKKSTNTFCVTCENQAPVHFVGVGHC- 104 RC-RNASE6 VLSRDVFYLPQCNRK---KLPCHYRLDGSTNTICLTCMKELPIHFAGVGKCP 105 RC-RNASE3 VLSRDAFLLPQCDRI---KLPCHYKLSSSTNTICITCVNQLPIHFAGVGSCP 105 RC-RNASE2 VLSTDEFYLSDCNRI---KLPCHYKLKKSSNTICITCENKLPVHFVAVEECP 105 RC-RNASE4 VLSNSEFYLAECNVKP--RKPCKYKLKKSSNRICIRCEHELPVHFAGVGICP 106 *: * * ** * ..* :*: * :. *:**..: *

SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRVNTFIISSATTVKAICTGV-INMN 59 RC208 QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGVNTFIISSATTVKAICTGV-INMN 59 RC218 QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 RC212 QNWATFQQKHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 SBL-J QNWAKFQEKHIPNTSNINCNTIMDKSIYIVGGQCKERNTFIISSATTVKAICSGASTNRN 60 RC-RNASEL1 QNWAKFKEKHITSTSSIDCNTIMDKAIYIVGGKCKERNTFIISSEDNVKAICSGVSPDRK 60 ONC QDWLTFQKKHITNTRDVDCDNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 ONC-LR1 QDWLTFQKKHLTNTRDVDCNNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 RC-RNASE6 QDWDTFQKKHLTDTKKVKCDVEMKKALF----DCKKTNTFIFARPPRVQALCKNIKDNTN 56 RC-RNASE3 QDWETFQKKHLTDTKKVKCDVEMAKALF----DCKKTNTFIYALPGRVKALCKNIRDNTD 56 RC-RNASE2 QNWETFQKKHLTDTRDVKCDAEMKKALF----DCKQKNTFIYARPGRVQALCKNIIVSKN 56 RC-RNASE4 QDWATFKKKHLTDTWDVDCDNLMPTSLF----DCKDKNTFIYSLPGPVKALCRGVIFSAD 56 * * .*:::*: .* :.*. * . :: .** **** *:.:* . . .   SBL-C VLSTTRFQLNTCTRTSITPRPCPYSSRTETNYICVKCENQYPVHFAGIGRCP 111 RC208 VLSTTRFQLNTCTRTSITPRPCPYSSRTENNYICVKCENQYPVHFAGIGRCP 111 RC218 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 RC212 VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 SBL-J VLSTTRFQLNTCIRSATAPRPCPYNSRTETNVICVKCENRLPVHFAGIGRC- 111 RC-RNASEL1 ELSTTSFKLNTCIRDSITPRPCPYHPSPDNNKICVKCEKQLPVHFVGIGKC- 111 ONC VLTTSEFYLSDCNVT---SRPCKYKLKKSTNKFCVTCENQAPVHFVGVGSC- 104 ONC-LR1 VLTTSEFYLSDCNVT---SRPCKYKLKKSTNTFCVTCENQAPVHFVGVGHC- 104 RC-RNASE6 VLSRDVFYLPQCNRK---KLPCHYRLDGSTNTICLTCMKELPIHFAGVGKCP 105 RC-RNASE3 VLSRDAFLLPQCDRI---KLPCHYKLSSSTNTICITCVNQLPIHFAGVGSCP 105 RC-RNASE2 VLSTDEFYLSDCNRI---KLPCHYKLKKSSNTICITCENKLPVHFVAVEECP 105 RC-RNASE4 VLSNSEFYLAECNVKP--RKPCKYKLKKSSNRICIRCEHELPVHFAGVGICP 106 *: * * ** * ..* :*: * :. *:**..: *

Ricampionamento dei Dati JACKNIFE & BOOTSTRAP Nel ricampionamento mediante “jacknife” la metà a caso delle colonne dell’allineamento viene cancellata. Se la procedura è utilizzata 250 volte si otterranno 250 allineamenti ricampionati di lunghezza dimezzata e quindi 250 alberi filogenetici alternativi che verranno confrontati fra loro. Solitamente viene creato un “albero consensus” che riporta le ramificazioni trovate più frequentemente (un nuvero scritto in prossimità del nodo indica la percentuale di volte che quel nodo è stato trovato)

PpuP35X PpuH PspCF600 Rme Pst RspKN1 Aca 100 ReuE2 Asp20B 100 100 61 Bku BceG4 Rme Rsp 69 CtetA441 52 100 CteR5 55 BspJS150 100 BspJS150 PspK1 100 85 96 Sso 94 60 100 51 Pst Mca 94 Pme 99 100 59 MspKSPIII 100 100 61 Aeu 98 Mtr BspJS150 86 MspM Pae Nco Rme Rsp BceAA1 Xsp

Ricampionamento dei Dati JACKNIFE & BOOTSTRAP Nel ricampionamento mediante “bootstrap” una certa percentuale a caso (ad esempio tra il 30 e il 70%) delle colonne dell’allineamento viene cancellata. Poiché per ragioni statistiche è necessario che tutti gli alberi vengano generati da allineamenti con lo stesso numero di colonne le colonne rimaste vengono “moltiplicate” in modo tale da mantenere costante la dimensione dell’allineamento. Se la procedura è utilizzata 250 volte si otterranno 250 allineamenti ricampionati e quindi 250 alberi filogenetici alternativi che verranno confrontati fra loro. Solitamente viene creato un “albero consensus” che riporta le ramificazioni trovate più frequentemente (un nuvero scritto in prossimità del nodo indica la percentuale di volte che quel nodo è stato trovato)

SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRV RC208 QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGV RC218 QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKV SBL-C QNWWWFFQKKIIITPIINNNTIIIINIYYVGGQCKKV RC208 QNWWWFFQKKITTTSSINNNTIIIINIYYVGGQCKKV RC218 QNWWWFFEQQITTTSSINNSNIIIISLYYVGGQCKKV SBL-C QNNNTFQQQHHINTTIINCCCIMDDDIYIIGGQQKRR RC208 QNNNTFQQQHHTNTTSINCCCIMDDDIYIIGGQQKGG RC218 QNNNTFQEEHHTNTTSINCCCIMNNNLYIIGGQQKKK SBL-C QQQQTFQQKKIINNNIINCNTIIDNNNYIVVVQCCCV RC208 QQQQTFQQKKITNNNSSNCNTIIDNNNYIVVVQCCCV RC218 QQQQTFQEQQITNNNSSNCSNIINNSSYIVVVQCCCV ..... ..................................... BOOTSTRAP

Gram + Gram – Alfa Beta Gamma Archea PpuH Rme CF6 P35X KN1 RuE2 Pst Aca Bku A20B Rme Rsp CteR5 JS150 JS150 P.K1 Sso Pst Mca Pme KSP Aeu Msp Mtr Pae JS150 Nco Rme Rsp AA1 Xsp