Evoluzione Molecolare & Filogenesi Molecolare

Evoluzione Molecolare & Filogenesi Molecolare
In tutte le popolazioni naturali si verificano mutazioni nel genoma (mutazioni nel DNA della popolazione) Le mutazioni si verificano in maniera casuale, e a frequenza costante per ogni data popolazione. In realtà la frequenza di mutazioni genomiche è molto simile non solo per popolazioni diverse di una stessa specie ma anche di specie molto diverse tra loro (non bisogna dimenticare che la chimica e la biochimica del DNA e della sua replicazione sono sostanzialmente simili in tutti gli organismi viventi)

Anche se la velocità con cui si verificano mutazioni nel DNA è molto simile in tutti gli organismi il destino delle mutazioni è molto diverso non solo in organismi differenti ma anche nello stesso organismo a seconda di dove si è verificata la mutazione e quindi quale è l’effetto della mutazione. Alcune mutazioni si verificano nelle regioni non codificanti (tratti intergenici, introni, ecc.). Queste mutazioni possono alterare i livelli di espressine di una proteina o quando e dove deve essere prodotta. Alcune mutazioni si verificano nelle regioni codificanti. Di queste alcune cambieranno un codone per un aa in un codone sinonimo (mutazioni nella terza base del codone) e quindi non produrranno effetti a livello della proteina codificata. Le restanti cambieranno la sequenza della proteina.

Se una mutazione verificatasi in uno o più individui si diffonde nella popolazione (ciò se aumenta progressivamente la percentuale di individui che porta quella mutazione) si dice che la mutazione è stata “fissata”. Il fatto che una mutazione venga fissata in una popolazione può dipendere da due processi differenti: *** La selezione naturale *** La deriva genica casuale (“neutral genetic drift”)

Mutazioni che migliorano la funzione di una proteina o che creano una nuova funzione utile daranno agli individui che le portano una “fitness” maggiore cioè una migliore capacità di sopravvivere e riprodursi e quindi una maggiore probabilità di trasmettere la mutazione ai discendenti: *** le mutazioni positive tendono a diffondersi e fissarsi nelle popolazioni a causa della selezione naturale positiva. Mutazioni che peggiorano la funzione di una proteina o la eliminano daranno agli individui che le portano una “fitness” inferiore cioè una ridotta capacità di sopravvivere e riprodursi e quindi una ridotta probabilità di trasmettere la mutazione ai discendenti: *** le mutazioni negative vengono eliminate dalle popolazioni a causa della selezione naturale negativa.

Molte mutazioni, soprattutto quelle che cambiano residui in residui simili o quelle che cambiano residui situati alla superficie delle proteine ma non in siti di binding per substrati ed effettori, non hanno effetto o hanno un effetto trascurabile sulla funzionalità e la stabilità delle proteine. Le mutazioni che cambiano la sequenza amminoacidica ma non le proprietà di una proteina vengono definite “mutazioni neutre”. *** le mutazioni neutre possono diffondersi e fissarsi nelle popolazioni o venire eliminate per ragioni totalmente casuali e statistiche secondo un processo noto come “deriva genica casuale” o “neutral genetic drift”.

Consideriamo una famiglia di proteine omologhe perfettamente adattate a svolgere un determinato compito in un certo numero di organismi Poiché le proteine di questa famiglia sono già ottimizzate per lo svolgimento della loro funzione è verosimile che siano rarissime le mutazioni capaci di migliorare ulteriormente la funzione(mutazioni positive). La stragrande maggioranza delle mutazioni saranno negative o neutre! Ma le mutazioni negative vengono controselezionate e quindi spariscono, pertanto si deve concludere che la stragrande maggioranza delle mutazioni amminoacidiche osservate nelle famiglie di proteine omologhe siano mutazioni neutre!

Quanto sono frequenti le mutazioni neutre in una data famiglia proteica?
In ogni famiglia proteica la frequenza di mutazioni neutre è inversamente proporzionale alla frazione di amminoacidi più direttamente coinvolti nella funzione e nel mantenimento della struttura. In altre parole famiglie proteiche con funzioni differenti evolvono a velocità differenti!!!

Numero di mutazioni per 100 residui
Fibrinopeptidi dei vertebrati Globine dei vertebrati Numero di mutazioni per 100 residui Citocromi c Tempo di divergenza (milioni di anni)

Ogni data famiglia proteica che evolva ad una velocità nota può fungere da vero e proprio “orologio molecolare” per calcolare la divergenza fra due organismi! Se per due proteine o due geni di due organismi è noto il tempo di divergenza “t” (cioè quanti milioni di anni fa i due organismi si sono separati) allora la velocità di evoluzione dei due geni o proteine “v” sarà data da v = _K_ 2t dove K è la divergenza (espressa in sostituzioni per sito) delle due sequenze attuali.

A questo punto ammettendo che tutte le altre proteine della famiglia evolvono alla stessa velocità v, se misuriamo K (cioè le differenze osservate) per due sequenze attuali potremo calcolare il tempo di divergenza di due organismi: t = _K_ 2v Ad esempio il tempo di divergenza stimato per uomo e ratto è 80 milioni di anni. Le alfa globine di uomo e ratto mostrano sostituzioni/sito. Quindi la velocità di evoluzione delle alfa-globine è v = _ 0.093__ sostituzioni/sito 2*8* anni Cioè 5.8*10-10 sostituzioni/sito/anno Quindi se le globine di uomo e maiale mostrano sostituzioni/sito il loro tempo di divergenza deve essere t = __ sostituzioni/sito_________ = 72 milioni di anni 2* 5.8*10-10 sostituzioni/sito/anno

Più in generale date un certo numero di sequenze (nucleotidiche o amminoacidiche) S1, S2, S3….Sn omologhe si può calcolare una matrice di differenze accumulate (espresse per sito o per 100 residui) simile alla matrice di differenze generate dai programmi di allineamento multiplo. Se si conosce il tempo di divergenza di una coppia qualsiasi dell’insieme, Si e Sj, si potrà calcolare il tempo si divergenza di qualsiasi altra coppia dell’insieme. S1 S2 … Si Sn 0.1 0.5 0.4 0.2 matrice di differenze (sostituzioni/sito)

Attenzione!!! I valori da inserire nella tabella non sono le sostituzioni osservate ma quelle effettivamente verificatesi nel corso dell’evoluzione. Le mutazioni realmente avvenute sono più numerose di quelle osservate perché più mutazioni possono colpire la stessa posizione ed inoltre i residui e i nucleotidi possono retromutare. In pratica quello che si fa è utilizzare dei modelli matematici che a partire dagli allineamenti di sequenze attuali cercano di prevedere quante mutazioni si sono realmente verificate per dar conto delle sostituzioni osservate. Una operazione simile nel caso delle proteine è stata fatta anche per ricavare le matrici PAM.

Il modo migliore per raffigurare le relazioni evolutive tra le sequenze non è attraverso una matrice ma con un albero filogenetico simile agli alberi filogenetici costruiti per gli organismi. Questo è particolarmente vero se le sequenze analizzate sono molto numerose! Un albero filogenetico fornisce in maniera semplice e diretta tutte le informazioni più utili come per esempio quali sequenze dell’insieme sono le più strettamente imparentate e quale percorso evolutivo le sequenze hanno seguito.

(sequenze ancestrali)
Albero Filogenetico Rooted (con radice) Nodi (sequenze ancestrali) Radice (antenato comune) OUTs (Operational Taxonomic Units) Tempo di divergenza

(sequenze ancestrali)
Albero Filogenetico Unrooted (senza radice) Nodi (sequenze ancestrali) OUTs (Operational Taxonomic Units)

Esistono vari metodi per ricavare un albero filogenetico da un gruppo di sequenze omologhe. Tutti partono dall’allineamento multiplo delle sequenze in esame. *** UPGMA (Unweighted Pair Group Method with Arithmetic mean) *** Neighbor joining *** Massima parsimonia *** Massima verosimiglianza Tutti possono essere applicati sia a sequenze nucleotidiche che proteiche anche se i vari metodi possono funzionare meglio con un tipo di sequenza o con l’altro.

(Unweighted Pair Group Method with Arithmetic mean)
UPGMA (Unweighted Pair Group Method with Arithmetic mean) Questo metodo lavora in maniera simile ai programmi di allineamento multiplo che creano un “albero guida”. Ovviamente in questo caso si utilizza una matrice di sostituzioni effettive piuttosto che quella di sostituzioni osservate. matrice di differenze per sito calcolate H J K X Z 0.17 0.59 0.6 0.13 0.77 0.75

matrice di differenze per sito calcolate
H J K X Z 0.17 0.59 0.6 0.13 0.77 0.75 0.085 H J K X 0.065 Z - 0.49 Z 0.37 K-X H-J

H J K X Z 0.17 0.59 0.6 0.13 0.77 0.75 rooted tree 0.085 H J K X 0.065 Z - 0.49 Z 0.37 K-X H-J 0.1 0.12

H J K X Z 0.17 0.59 0.6 0.13 0.77 0.75 H-J-K-X Z H-J- K-X - Z 0.49 - 0.085 H J K X 0.065 Z 0.1 0.12 0.06 H-J K-X Z H-J - K-X 0.37 - Z 0.49 0.49 - 0.245 rooted tree

Neighbor-joining A B B F D A C E C E F D B A F C D E
Questo metodo parte da una topologia a stella (albero “non risolto”), quindi identifica sequenze simili (“neighbors”) e le unisce su un nodo dell’albero. A B B F D A C E E C F D B A F Unrooted tree C D E

Neighbor-joining unrooted tree H J Z K X 0.1 0.079 0.06 0.1 0.203 0.12
0.04 K 0.1 0.084 X

Neighbor-joining unrooted tree H J K X Z 0.1 0.079 0.1 0.06 0.066 0.04
0.12 0.084 X 0.137 Z 0.1

Massima Parsimonia Questo metodo trova l’albero che giustifica le differenze osservate nelle sequenze attuali con il minore numero di sostituzioni. Non stima le effettive distanze genetiche poiché non tiene conto della possibilità che si verifichino sostituzioni multiple. Fornisce quindi alberi in cui i rami sono tutti della stessa lunghezza (albero di tipo qualitativo).

Massima Verosimiglianza
(Maximum Likelihood) Questo metodo utilizza approcci statistici per individuare l’albero che ha la massima probabilità di spiegare l’allineamento multiplo di partenza. E’ sicuramente il più completo e credibile metodo per generare un albero filogenetico a partire da un allineamento. L’unico svantaggio è che richiede un numero molto elevato di calcoli pertanto con più di sequenze il tempo di calcolo diviene troppo lungo perché il metodo sia conveniente.

Gli alberi filogenetici molecolari sono simili agli alberi filogenetici degli organismi creati con metodi classici? In generale c’è buon accordo solo se l’ipotesi dell’orologio biologico è ben rispettata da tutte le sequenze usate per creare l’albero (cioè se tutte le sequenze evolvono alla stessa velocità). Una sequenza che per qualche motivo evolve più velocemente (lentamente) delle altre nell’albero genererà un ramo troppo lungo (corto) nell’albero filogenetico molecolare. La filogenesi molecolare deve sempre essere fatta utilizzando più famiglie proteiche. In altre parole è necessario confrontare alberi filogenetici ottenuti con proteine differenti. Inoltre proteine a rapida evoluzione serviranno a confrontare organismi strettamente imparentati, mentre proteine che evolvono lentamente serviranno a confrontare organismi lontani.

Long Branch Attraction
D Filogenesi Calcolata (le sequenze A e D sono erroneamente considerate più imparentate tra loro) B B Filogenesi reale (le sequenze B e C evolvono più rapidamente di A e D) C A D C

Ricampionamento dei Dati
Anche se tutte le proteine di una famiglia evolvono a velocità confrontabili non è detto che tutte le posizioni dell’allineamento multiplo evolvano alla stessa velocità! Ad esempio le posizioni strutturalmente e/o funzionalmente importanti (sito attivo, siti di legame per cofattori o effettori per partner molecolari ecc.) evolveranno più lentamente delle restanti posizioni. Al contrario regioni molto esposte e non coinvolte in interazioni con altre molecole evolveranno più velocemente rispetto alla velocità media della famiglia. Quindi, utilizzando parti diverse dell’allineamento è possibile che si calcolini alberi filogenetici molecolari differenti!!!

SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRVNTFIISSATTVKAICTGV-INMN 59
RC QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGVNTFIISSATTVKAICTGV-INMN 59 RC QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 RC QNWATFQQKHITNTSSINCSNIMNNSLYIVGGQCKKVNTFIASSATTVKGICSGV-TDKK 59 SBL-J QNWAKFQEKHIPNTSNINCNTIMDKSIYIVGGQCKERNTFIISSATTVKAICSGASTNRN 60 RC-RNASEL QNWAKFKEKHITSTSSIDCNTIMDKAIYIVGGKCKERNTFIISSEDNVKAICSGVSPDRK 60 ONC QDWLTFQKKHITNTRDVDCDNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 ONC-LR QDWLTFQKKHLTNTRDVDCNNIMSTNLF----HCKDKNTFIYSRPEPVKAICKGIIASKN 56 RC-RNASE QDWDTFQKKHLTDTKKVKCDVEMKKALF----DCKKTNTFIFARPPRVQALCKNIKDNTN 56 RC-RNASE QDWETFQKKHLTDTKKVKCDVEMAKALF----DCKKTNTFIYALPGRVKALCKNIRDNTD 56 RC-RNASE QNWETFQKKHLTDTRDVKCDAEMKKALF----DCKQKNTFIYARPGRVQALCKNIIVSKN 56 RC-RNASE QDWATFKKKHLTDTWDVDCDNLMPTSLF----DCKDKNTFIYSLPGPVKALCRGVIFSAD 56 * * .*:::*: .* :.*. * . :: .** **** *:.:* SBL-C VLSTTRFQLNTCTRTSITPRPCPYSSRTETNYICVKCENQYPVHFAGIGRCP 111 RC VLSTTRFQLNTCTRTSITPRPCPYSSRTENNYICVKCENQYPVHFAGIGRCP 111 RC VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 RC VLSSTKFQLDICTRIFITPRPCPYSSRTETNYICVKCENQYPVHFAGIGQCP 111 SBL-J VLSTTRFQLNTCIRSATAPRPCPYNSRTETNVICVKCENRLPVHFAGIGRC- 111 RC-RNASEL ELSTTSFKLNTCIRDSITPRPCPYHPSPDNNKICVKCEKQLPVHFVGIGKC- 111 ONC VLTTSEFYLSDCNVT---SRPCKYKLKKSTNKFCVTCENQAPVHFVGVGSC- 104 ONC-LR VLTTSEFYLSDCNVT---SRPCKYKLKKSTNTFCVTCENQAPVHFVGVGHC- 104 RC-RNASE VLSRDVFYLPQCNRK---KLPCHYRLDGSTNTICLTCMKELPIHFAGVGKCP 105 RC-RNASE VLSRDAFLLPQCDRI---KLPCHYKLSSSTNTICITCVNQLPIHFAGVGSCP 105 RC-RNASE VLSTDEFYLSDCNRI---KLPCHYKLKKSSNTICITCENKLPVHFVAVEECP 105 RC-RNASE VLSNSEFYLAECNVKP--RKPCKYKLKKSSNRICIRCEHELPVHFAGVGICP 106 *: * * ** * ..* :*: * :. *:**..: *

JACKNIFE & BOOTSTRAP Nel ricampionamento mediante “jacknife” la metà a caso delle colonne dell’allineamento viene cancellata. Se la procedura è utilizzata 250 volte si otterranno 250 allineamenti ricampionati di lunghezza dimezzata e quindi 250 alberi filogenetici alternativi che verranno confrontati fra loro. Solitamente viene creato un “albero consensus” che riporta le ramificazioni trovate più frequentemente (un nuvero scritto in prossimità del nodo indica la percentuale di volte che quel nodo è stato trovato)

PpuP35X PpuH PspCF600 Rme Pst RspKN1 Aca 100 ReuE2 Asp20B 100 100 61 Bku BceG4 Rme Rsp 69 CtetA441 52 100 CteR5 55 BspJS150 100 BspJS150 PspK1 100 85 96 Sso 94 60 100 51 Pst Mca 94 Pme 99 100 59 MspKSPIII 100 100 61 Aeu 98 Mtr BspJS150 86 MspM Pae Nco Rme Rsp BceAA1 Xsp

JACKNIFE & BOOTSTRAP Nel ricampionamento mediante “bootstrap” una certa percentuale a caso (ad esempio tra il 30 e il 70%) delle colonne dell’allineamento viene cancellata. Poiché per ragioni statistiche è necessario che tutti gli alberi vengano generati da allineamenti con lo stesso numero di colonne le colonne rimaste vengono “moltiplicate” in modo tale da mantenere costante la dimensione dell’allineamento. Se la procedura è utilizzata 250 volte si otterranno 250 allineamenti ricampionati e quindi 250 alberi filogenetici alternativi che verranno confrontati fra loro. Solitamente viene creato un “albero consensus” che riporta le ramificazioni trovate più frequentemente (un nuvero scritto in prossimità del nodo indica la percentuale di volte che quel nodo è stato trovato)

SBL-C QNWATFQQKHIINTPIINCNTIMDNNIYIVGGQCKRV
RC QNWATFQQKHITNTSSINCNTIMDNNIYIVGGQCKGV RC QNWATFQEQHITNTSSINCSNIMNNSLYIVGGQCKKV SBL-C QNWWWFFQKKIIITPIINNNTIIIINIYYVGGQCKKV RC QNWWWFFQKKITTTSSINNNTIIIINIYYVGGQCKKV RC QNWWWFFEQQITTTSSINNSNIIIISLYYVGGQCKKV SBL-C QNNNTFQQQHHINTTIINCCCIMDDDIYIIGGQQKRR RC QNNNTFQQQHHTNTTSINCCCIMDDDIYIIGGQQKGG RC QNNNTFQEEHHTNTTSINCCCIMNNNLYIIGGQQKKK SBL-C QQQQTFQQKKIINNNIINCNTIIDNNNYIVVVQCCCV RC QQQQTFQQKKITNNNSSNCNTIIDNNNYIVVVQCCCV RC QQQQTFQEQQITNNNSSNCSNIINNSSYIVVVQCCCV BOOTSTRAP

Gram + Gram – Alfa Beta Gamma Archea PpuH Rme CF6 P35X KN1 RuE2 Pst
Aca Bku A20B Rme Rsp CteR5 JS150 JS150 P.K1 Sso Pst Mca Pme KSP Aeu Msp Mtr Pae JS150 Nco Rme Rsp AA1 Xsp

Evoluzione Molecolare & Filogenesi Molecolare

Presentazioni simili

Presentazione sul tema: "Evoluzione Molecolare & Filogenesi Molecolare"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Evoluzione Molecolare & Filogenesi Molecolare

Presentazioni simili

Presentazione sul tema: "Evoluzione Molecolare & Filogenesi Molecolare"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back