Pattern di sostituzione

Pattern di sostituzione
“La vita organica, ci dicono, si è evoluta gradualmente dal protozoo al filosofo, e questa evoluzione, ci assicurano, rappresenta senza dubbio un progresso. Disgraziatamente, chi ce lo assicura è il filosofo, non il protozoo.” (B. Russel, Misticismo e Logica, 1918)

Sommario L’evoluzione molecolare Pattern di sostituzione nei geni
Stima del numero di sostituzioni Variazioni nelle velocità evolutive tra geni Orologi molecolari L’evoluzione negli organelli

Introduzione Confronti tra sequenze nucleotidiche di due o più organismi spesso rivelano che sono stati accumulati cambiamenti a livello del DNA, anche se le sequenze provengono da regioni funzionalmente equivalenti Non è raro, infatti, trovare sequenze che durante il percorso evolutivo sono diventate così diverse da rendere assai difficile ottenerne degli allineamenti attendibili Le analisi, sia del numero sia del tipo di sostituzioni che si sono verificate durante il percorso evolutivo, sono di centrale importanza per lo studio dell’evolu-zione molecolare

Perché l’evoluzione molecolare?  1
DNA molecules are not only the key to heredity, but they are “document of evolutionary history” (Emile Zuckerkandl) L’evoluzione molecolare integra la biologia evolutiva, la biologia molecolare e la genetica delle popolazioni Descrive il processo evolutivo (cambiamenti nel tempo, essere vs. divenire) di DNA, RNA e proteine Si occupa di pattern (schemi, modelli) e studia l’evolu-zione… …delle entità molecolari, geni, genomi, proteine, introni, arrangiamenti cromosomici …degli organismi e dei complessi biologici, cioè specie, sistemi che coevolvono, nicchie ecologiche, modelli migra-tori, usando i dati molecolari

Per capire le basi della diversità biologica

Per comprendere la storia evolutiva della vita sulla terra, che è scritta nelle nostre molecole

Poiché il processo di selezione naturale è veramente efficace nel rimuovere i cambiamenti dannosi, l’evo-luzione molecolare serve anche a riconoscere e caratterizzare le porzioni di genoma che sono più importanti dal punto di vista funzionale …ovvero a rilevare come la frequenza di sostituzione dei nucleotidi sia diversa in zone distinte dello stesso gene, per geni differenti, e attraverso le specie, e possa essere usata come una misura dell’importanza funzionale (e quindi della necessità di “conservazio-ne”) della particolare sequenza

Geni e proteine  1 Perché le proteine possono cambiare?
Perché sono presenti più proteine che svolgono la stessa funzione quindi, se ne cambia una, la funzione è comun-que preservata Perché il cambiamento non comporta modifiche né nella struttura (destabilizzazione) né nella funzione

Geni e proteine  2 Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro Il fenomeno della speciazione porta alla divergenza dei geni e quindi delle proteine che essi codificano Esempio: le globine di uomo e di topo hanno iniziato a divergere circa 80 milioni di anni fa, quando avvenne la divisione che dette vita ai primati e ai roditori Geni paraloghi: geni originati dalla duplicazione di un unico gene nello stesso organismo Esempio: globina e globina umana hanno iniziato a divergere in seguito alla duplicazione di un gene globinico ancestrale In entrambi i casi, c’è omologia

Geni e proteine  2 speciazione duplicazione

Come cambiano le proteine  1
Una proteina presente in un organismo può cambiare in seguito a mutazioni nella sua sequenza codificante Le mutazioni possono essere puntiformi o più estese Sostituzione puntiforme  sostituzione di una singola base Inserzione  una o più basi vengono inserite Delezione  una o più basi vengono tolte Inversione  un tratto di DNA si inverte

Il codice genetico è ridondante, perciò non sempre una sostituzione porta ad un cambiamento di aminoacido Si ha una mutazione silente se la proteina rimane funzionalmente invariata Negli altri casi, dal punto della mutazione in poi, gli aminoacidi cambiano, e la proteina può diventare “irriconoscibile” e perdere la propria funzionalità

Sostituzioni puntiformi 3 2 1 Acido glutammico  Acido glutammico Cisteina  Serina (aminoacidi polari con molecola chirale) Glutammina  Codone di stop

Delezioni

Inserzioni

Inversioni

La similarità biologica è spesso dovuta ad omologia, ma può anche presentarsi per caso, oppure per fenomeni di convergenza adattativa, sia a livello morfologico (analogia) sia a livello molecolare Convergenza adattativa: adozione, da parte di organismi diversi, di «soluzioni tecniche» simili per adattarsi all’ambiente, talvolta anche partendo da organi e apparati differenti Esempio: l’ala di un uccello e l’ala di un pipistrello si sono evolute indipendentemente e di conseguenza non sono omologhe Nel trattare le sequenze è sempre più corretto utilizzare il termine similarità, in quanto è sempre possibile stabilire quanto due sequenze siano simili, mentre non sempre si può decidere se la similarità sia dovuta ad omologia, a convergenza adattativa, oppure al caso

Se due sequenze hanno un significativo grado di similarità per tutta la loro lunghezza è altamente probabile che ciò sia dovuto ad una “memoria” della loro relazione evolutiva Due sequenze che non mostrano forti similarità possono però ugualmente essere omologhe ma molto diver- genti (comune progenitore molto remoto, dinamica evolutiva molto rapida) Attenzione: Similarità  Omologia È un dato quantitativo, legato alla scelta di una metrica, e prescinde da eventuali ipotesi sulla causa della similarità stessa È un dato qualitativo, che da atto dell’origine filogenetica comune di due sequenze

Pattern di sostituzione nei geni  1
Le alterazioni della sequenza del DNA possono avere conseguenze drastiche per le cellule viventi Mutazioni: scambi di nucleotidi o eventi indel Gli errori possono essere deleteri, vantaggiosi o neutrali Inoltre: I cambiamenti vantaggiosi sono in minoranza Alcuni cambiamenti in sequenze nucleotidiche hanno mag-giori conseguenze, che si diversificano ulteriormente in rela-zione ad organismi distinti Tuttavia, per un organismo nel suo ambiente tipico, la maggior parte dei geni è molto vicina allo stato ottimale Le cellule hanno sviluppato meccanismi complessi che assicurano l’accuratezza della replicazione e della riparazione del DNA

La replicazione (o duplicazione) del DNA è il meccanismo molecolare attraverso cui viene prodotta una copia del DNA cellulare Ogni volta che una cellula si divide, infatti, l’intero genoma deve essere duplicato per poter essere trasmesso alla progenie La riparazione del DNA è essenziale alla sopravvivenza delle cellule, perché protegge il genoma da danni e mutazioni permanenti e nocive È un processo costantemente in atto Esempio: nelle cellule umane, sia le normali attività metabo-liche che i fattori ambientali determinano almeno singole lesioni molecolari per cellula al giorno

Quando la cellula invecchia, la velocità di replicazione/ripa-razione del DNA decresce fino a non tenere più il passo con gli eventi di creazione dei danni Senescenza (dormienza irreversibile): indica il processo per cui, durante la duplicazione cellulare, alcune cellule perdono progressivamente la capacità di dividersi Apoptosi (morte cellulare programmata): è un sofisticato meccanismo in cui l’evoluzione cellulare ha fatto da setaccio per difendere l’organismo da cellule infettate da virus, da cellule del sistema immune autoreattive, da cellule in cui si verifica un danno al DNA, da cellule tumorali Carcinogenesi: è il processo che trasforma cellule normali in cellule cancerose

Frequenze di mutazione  1
Il numero di sostituzioni K che due sequenze omolo-ghe hanno subito dal loro ultimo antenato comune può essere valutato contandone le differenze Quando K è espresso in termini di numero di sostitu-zioni per sito ed è accoppiato con un tempo di diver-genza T Si può valutare la frequenza r di sostituzione Supponendo che le sostituzioni si accumulino simulta-neamente e indipendentemente in entrambe le se-quenze, la frequenza di sostituzione è r  K(2T )

Frequenze di mutazione  2
Il calcolo della frequenza di sostituzione è efficace se le velocità evolutive, per diverse specie, sono simili Stima dei tempi degli eventi evolutivi Confronti delle frequenze di sostituzione all’interno di uno stesso gene, e fra un gene e l’altro, sono utili per determinare il ruolo di regioni genomiche differenti

Vincoli funzionali  1 Cambiamenti di geni che diminuiscono la capacità di sopravvivenza di un organismo vengono “arginati” dal processo di selezione naturale Poiché le proteine sono responsabili della funzionalità delle cellule, non sorprende che quei cambiamenti nella sequenza nucleotidica che fanno variare le proprietà catalitiche o strutturali delle proteine codificate siano oggetto di selezione naturale Le porzioni di geni particolarmente importanti sono definite sotto vincoli funzionali e tendono a variare poco (a cambiare molto lentamente) nel corso dell’evoluzione

Vincoli funzionali  2 Viceversa, molti cambiamenti della sequenza nucleotidica di un gene non hanno effetto sulla codifica delle relative sequenze aminoacidiche o sui livelli di espres- sione delle proteine Sono meno soggetti a selezione naturale e si accumulano rapidamente durante il processo evolutivo

Vincoli funzionali  3 Esempio: cambiamenti accumulati nei geni per le globine di quattro mammiferi (uomo, topo, coniglio e mucca) che hanno avuto un antenato comune 100 milioni di anni fa Regione Lunghezza (in coppie di basi) No. medio di cambiamenti Deviazione standard Frequenza di sostituzione Non codificante 913 67.9 14.1 3.33 Codificante 441 69.2 16.7 1.58 Sequenza 5’flanking 300 96.0 19.6 3.39 Sequenza 5’ non tradotta 50 9.0 3.0 1.86 Introne 1 131 41.8 8.1 3.48 Sequenza 3’ non tradotta 132 33.0 11.5 3.00 Sequenza 3’flanking 76.3 14.3 3.60

Vincoli funzionali  4 Esempio (cont.)
Un tipico gene eucariotico è composto sia da nucleotidi che specificano la sequenza aminoacidica di una proteina (sequenze codificanti), sia da sequenze non codificanti La frequenza dei cambiamenti è circa due volte più alta nelle sequenze non codificanti dei geni per le globine (3.33109 sostituzioni/sito/anno contro 1.58109 sostituzioni/sito/anno) Le sequenze non codificanti si dividono in: Introni Regioni leader (a monte dei geni strutturali) Regioni trailer, trascritte ma non tradotte Sequenze che sono adiacenti alle terminazioni 5’ e 3’

Ogni regione tende ad accumulare cambiamenti a frequenze diverse, generalmente correlate a quanto i relativi nucleotidi sono funzionalmente vincolati Inoltre, è logico aspettarsi che altri geni accumulino sostituzioni a frequenze differenti, così come che i geni per le globine sottostiano a livelli diversi di vincoli funzionali per specie distinte Tuttavia… in generale: I cambiamenti si accumulano più rapidamente negli introni e nelle sequenze di tipo flanking… …quindi nelle regioni che sono trascritte ma non tradotte… (con l’eccezione della sequenza alla terminazione 5’ del gene, che è funzionalmente importante per la successiva fase di traduzione) …meno rapidamente all’interno di sequenze codificanti

I dati provenienti dai geni per le globine forniscono una stima della scansione temporale di accumulo dei cambiamenti nucleotidici Mentre per una sequenza nucleotidica, un cambiamento dello 0.35% ogni milione di anni (frequenza approssimativa per introni e sequenze flanking) può sembrare estremamente lento da una prospettiva umana, si rivela relativamente veloce dal punto di vista dell’evoluzione molecolare

Vincoli funzionali  7 Dal punto di vista strutturale:
La maggior parte delle mutazioni avviene sulla superficie della proteina, mentre gli aminoacidi del core sono maggiormente conservati, in modo da consentire lo stes-so folding Nell’evoluzione, la similarità di sequenza è meno preser-vata rispetto alla struttura terziaria

Sostituzioni sinonime e non  1
18 dei 20 aminoacidi sono codificati da più di un codone Per esempio, GGG, GGA, GGU, GGC codificano tutti per l’aminoacido glicina Ogni cambiamento nella terza posizione di un codone per la glicina porta ad un codone che i ribosomi interpretano equi-valentemente per la costruzione della struttura primaria della proteina Cambiamenti a livello nucleotidico di sequenze codificanti che non variano la sequenza aminoacidica della proteina sono detti sostituzioni sinonime Viceversa, cambiamenti nella seconda posizione dei codoni della glicina possono causare cambiamenti nella sequenza aminoacidica risultante (per esempio, GCG codifica per l’alanina) e rappresentano sostituzioni non sinonime

Se è vero che la selezione naturale esegue una netta distinzione fra proteine funzionali e malfunzionanti, le sostituzioni sinonime dovrebbero osservarsi più fre-quentemente di quelle non sinonime (nelle sequenze codificanti) Inoltre, non tutte le posizioni all’interno della tripletta di nucleotidi di un codone danno luogo in modo equivalente a sostituzioni non sinonime

I nucleotidi della tripletta appartengono a tre categorie Siti non degeneri: posizioni del codone in cui le mutazioni portano sempre a sostituzioni aminoacidiche (es.: UUU codifica per la fenilalanina, CUU per la leucina, AUU per l’isoleucina, GUU per la valina) Siti doppiamente degeneri: posizioni del codone i cui due diversi nucleotidi portano alla traduzione dello stesso aminoacido, mentre gli altri due codificano per un amino-acido differente (es.: GAU e GAC codificano per l’acido aspartico, GAA e GAG per l’acido glutammico) Siti quattro volte degeneri: posizioni del codone in cui il cambiamento di un nucleotide con ciascuna delle altre tre alternative non ha effetti sull’aminoacido che i ribosomi inseriscono nella proteina (es.: terza posizione del codo-ne della glicina)

Sostituzioni sinomine e non  4
La selezione naturale ”contrasta” primariamente le mutazio-ni che alterano la funzione della proteina I cambiamenti nucleotidici si accumulano più rapidamente nei siti quattro volte degeneri e meno velocemente nei siti non degeneri La situazione descritta si osserva normalmente in natura Le sostituzioni che si sono accumulate nelle sequenze codifi-canti dei geni per le globine dell’uomo e del coniglio si rilevano soprattutto in corrispondenza dei siti quattro volte degeneri (le frequenze di sostituzione sono molto simili a quella delle sequenze 3’flanking e delle altre regioni libere da vincoli selettivi) Regione No. di siti No. di cambiamenti Frequenza di sostituzione Non degenere 302 17 0.56 2degenere 60 10 1.67 4degenere 85 20 2.35

Indel e pseudogeni  1 Nel caso di geni di trascrizione attivi esiste, in natura, una forte propensione a contrastare eventi di inserzione e delezione, a causa della loro tendenza ad alterare la finestra di lettura usata dai ribosomi Questa tendenza contraria alle mutazioni della finestra di scorrimento nelle regioni codificanti è così forte che gli enzimi coinvolti nella replicazione e riparazione del DNA sembrano essersi evoluti in modo da rendere gli indel in ogni regione del genoma circa dieci volte meno probabili rispetto a agli eventi di sostituzione Nel caso, invece, del fenomeno di duplicazione genica, può accadere che geni, che erano originariamente sottoposti a vincoli selettivi, siano diventati trascrizionalmente inattivi

Indel e pseudogeni  2 I geni con nuove funzioni, comunemente, derivano da geni con funzioni esistenti e utili La duplicazione di un intero gene permette a una copia di essere provvista della funzione dell’originale e all’altra di svincolarsi dal vincolo selettivo e accumulare mutazioni (nella regione codificante o nel promotore) Talvolta, la copia in evoluzione del gene è soggetta a cambiamenti che le permettono di acquisire una nuova funzione fondamentale per la salute dell’organismo Più spesso, tuttavia, una copia diventa uno pseudogene, cioè non funzionale e trascrizionalmente inattivo I genomi dei mammiferi sono ricchi di pseudogeni, e le loro sequenze tendono ad accumulare sostituzioni ad una frequenza molto alta, con una media di 4 sostituzioni per sito ogni 100 milioni di anni

Sostituzioni e mutazioni
La selezione naturale ha un effetto insidioso sui dati disponibili per le analisi Con rarissime eccezioni, infatti, nelle popolazioni di orga-nismi presenti in natura, gli unici alleli (varianti di sequenza di un gene) disponibili sono quelli che non hanno avuto un effetto dannoso sulla salute dell’organismo I cambiamenti nella sequenza nucleotidica di un gene sono tutti possibili, ma non tutti sono invece “osservabili” Differenza fra i concetti di mutazione e sostituzione Le mutazioni sono cambiamenti nella sequenza nucleotidica che avvengono per errore durante i processi di replicazione/riparazione del DNA Le sostituzioni sono mutazioni che hanno “passato il filtro” della selezione naturale Il numero di sostituzioni è “facile” da stimare, difficile invece ottenere una stima attendibile della frequenza di mutazione

Deriva genetica e fissazione  1
La maggior parte delle popolazioni di organismi presenti in natura posseggono un numero consistente di variazioni genetiche Gli esseri umani, per esempio, differiscono tra loro in media per una coppia di basi ogni 200 Versioni diverse di un gene all’interno di un organismo di una data specie sono chiamate alleli Le differenze fra gli alleli possono… …essere relativamente innocue (un’unica differenza in un nu-cleotide in una sequenza 3’flanking) …avere conseguenze drammatiche (per esempio, la presenza di un codone di stop prematuro che causa la produzione di una proteina troncata e non funzionante) Il cambiamento nelle frequenze relative dei diversi alleli rappresenta l’essenza dell’evoluzione

Ad eccezione di quelli introdotti tramite migrazione o trasferimento tra specie (trasporto orizzontale del DNA, cioè sovrapposizione non dovuta ad ereditarietà), i nuovi alleli provengono da sostituzioni che si presentano in un allele esistente all’interno di un singolo membro di una popo-lazione Le nuove versioni dei geni si presentano inizialmente con frequenza molto bassa q1(2N ) con N numero di organismi diploidi attivamente riproduttivi all’interno della popolazione Un allele neutrale appena sorto per sostituzione in una popolazione di N individui ha una probabilità 1/(2N ) di essere fissato e (2N1)/(2N ) di essere eliminato

Dal momento che le frequenze di sostituzione sono general-mente basse e che i cambiamenti cruciali per la salute di un individuo raggiungono rapidamente una frequenza pari a 0 o 1, come si spiegano i livelli relativamente alti di variazione riscontrati all’interno delle popolazioni di organismi? La maggior parte delle variazioni osservate tra gli individui ha effetti trascurabili (favorevoli o dannosi), tende ad essere cioè selettivamente neutrale Di fatto, la deriva genetica può portare alla fissazione di alleli neutrali comparsi per mutazione

La probabilità P che ogni variante neutrale di un gene venga alla fine perduta da una popolazione dipende dal caso ed è pari a 1q, dove q è la frequenza relativa dell’allele nella popolazione Per lo stesso principio, la probabilità che un particolare allele neutrale sia fissato (si presenti nella popolazione con frequenza 1) è uguale a q, la frequenza corrente del gene nella popolazione

Le analisi comparative fra sequenze permettono ai biologi molecolari di evitare il lungo e faticoso processo di mutage-nesi a saturazione, attraverso il quale si producevano tutte le possibili variazioni della sequenza nucleotidica di un gene per determinare quelle in grado di alterarne la funzione Infatti, la Natura di per sé esegue un esperimento di mutagenesi a saturazione perpetuo e la maggior parte delle variazioni osservabili corrispondono a cambiamenti che non alterano la funzione dei geni in modo significativo

Stima del numero di sostituzioni  1
Il numero di sostituzioni K in un allineamento tra due se-quenze è la variabile più importante per le analisi di evoluzione molecolare Se esiste un allineamento “ottimale” che suggerisce che tra due sequenze si sono verificate relativamente poche sostituzioni, il conteggio diretto delle sostituzioni osservabili p è una buona stima di K In generale, il computo diretto è però una sottostima, a causa delle sostituzioni multiple che possono verificarsi relativamente allo stesso nucleotide nel percorso evolutivo dall’ultimo antenato comune

Stima del numero di sostituzioni  2
Sottostima del numero di sostituzioni  a causa delle sostituzioni multiple, le distanze osservate possono sottostimare il reale ammontare del cambiamento evolutivo

Modello di Jukes-Cantor  1
Dove le sostituzioni sono comuni, non vi sono garanzie che un particolare sito non sia stato sottoposto a cambiamenti multipli C T Tempo 1 Tempo 0 Tempo 2 Per considerare questa possibilità, T. Jukes e C. Cantor (1969) as-sunsero che ogni nucleotide aves-se la stessa probabilità di essere sostituito da un qualsiasi altro Utilizzando questa ipotesi, crearo-no un modello matematico in cui, se la frequenza di mutazione di un nucleotide in ognuno degli altri tre è , la frequenza complessiva di sostituzione di un dato nucleotide è 3

In questo modello, se un sito all’interno di un gene è occupato da una C al tempo 0, allora la probabilità PC(1), che in quel sito rimanga lo stesso nucleotide al tempo 1 è PC(1)13 Poiché, se la C originale mutasse in un altro nucleotide in quel primo lasso di tempo, potrebbe verificarsi una rever-sione (retromutazione) a C, al tempo 2, la probabilità PC(2) sarebbe (13)PC(1)  (1 PC(1)) Si può dimostrare che, a un dato tempo t, nel futuro, vale PC(t)  14  (34)e4t

Infatti, utilizzando una formalizzazione del metodo mediante la matrice di probabilità di sostituzione puntuale si ha: con rij che rappresenta il tasso di sostituzione del nucleo-tide j con il nucleotide i Sia P la matrice evolutiva, dove gli elementi pij sono le probabilità di avere, in un certo sito, il nucleotide i al tempo t, dato j al tempo t0

La matrice evolutiva P è la soluzione dell’equazione differenziale dP(t)/dt P(t)R ovvero dpij(t)/dt   pik(t)rkj da cui P(t)  exp{Rt} Pertanto, gli elementi della matrice P sono complessi-vamente definiti da 14  (14)e4t se i  j pij(t)  14  (34)e4t se i  j 4 k1 {

I dati di sequenze nucleotidiche divennero disponibili, per la prima volta, dieci anni dopo la formulazione del modello di Jukes e Cantor e fu subito evidente che l’assunzione di uniformità globale, nei pattern di sostituzione, costituiva una semplificazione grossolana Tuttavia, il loro modello continua a fornire un utile strumento per valutare il numero K di sostituzioni per sito, quando sono possibili sostituzioni multiple

Il modello JC può essere formalizzato anche attraverso la relazione K  34 ln[1(43)p] dove p è la frazione di nucleotidi che un semplice conteggio rivela essere differenti fra le due sequenze L’equazione è coerente con l’idea che, quando due sequenze hanno pochi siti di noncorrispondenza, p sia piccolo, così come è bassa la probabilità che siano avvenute sostituzioni multiple in un dato sito Viceversa, quando si osserva un numero significativo di noncorrispondenze, il numero reale di sostituzioni per sito sarà molto maggiore del computo diretto I termini 34 e 43 danno atto della presenza di quattro nucleotidi che possono essere sostituiti in tre modi diversi, tutti equiprobabili (sequenze non affini dovrebbero corrispondere al 25% solo per effetto del caso)

Esempio Se due sequenze sono identiche per il 95%, sono diverse per il 5%, ovvero p0.05, perciò: K  34 ln(1(43)0.05)  Da notare che la dissimilarità osservata di 0.05 aumenta soltanto leggermente, essendo la distanza stimata pari a  ciò ha un senso perché in due sequenze molto simili ci si aspettano pochi cambiamenti multipli nello stesso sito, dato il breve tempo di divergenza Tuttavia, se due sequenze sono identiche soltanto per il 50%, sono diverse per il 50%, ovvero p0.50, perciò K  34 ln(1(43)0.5)  0.824

Stima del numero di sostituzioni (cont.)
Per aumentare il realismo dei modelli metrici si posso-no considerare ulteriori parametri È meglio usare un modello che sia conforme ai dati piuttosto che imporre, alla cieca, un modello sui dati I parametri più comuni che vengono aggiunti sono: Una correzione per la proporzione di siti invarianti Una correzione per i tassi di variazione per i siti variabili Una correzione che permetta tassi di sostituzione differente per ogni tipo di cambiamento nucleotidico

Modello di Kimura  1 Nel 1980, M. Kimura sviluppò un modello a due parametri per tenere in considerazione le differenze di frequenza di transizioni e transversioni Si assume che le transizioni avven-gano con una frequenza costante  e le transversioni con una frequen-za costante  In natura, 3 Se un sito all’interno di un gene è occupato da una C al tempo 0, la probabilità che in quel sito rimanga lo stesso nucleotide al tempo 1 risulterebbe essere PCC(1)  12

PCC(2)  (12)PCC(1)  PGC(1)  PAC(1)  PTC(1)
Modello di Kimura  2 Retromutazioni potrebbero verificarsi tra il tempo 1 ed il tempo 2, e la probabilità che il sito contenga ancora una C al tempo 2, PCC(2), è la somma delle probabilità associate alle quattro diverse situazioni e cioè: PCC(2)  (12)PCC(1)  PGC(1)  PAC(1)  PTC(1) C T Tempo 1 A Tempo 0 Tempo 2 G

PCC(t)  14  (14)e4t  (12)e2()t
Modello di Kimura  3 Come nel modello JC, continuando ad espandere la formula di ricorrenza per il calcolo della probabilità di invarianza nel tempo di un dato nucleotide, si ottiene PCC(t)  14  (14)e4t  (12)e2()t Utilizzando la matrice di probabilità, il modello di Kimura sarà descritto da:

K  12 ln[1(1  2P  Q)]  14 ln[1(1  2Q)]
Modello di Kimura  4 La simmetria dello schema di sostituzione fa sì che tutti i nucleotidi abbiano la stessa probabilità di rimanere in situ tra il tempo 0 e qualsiasi istante t nel futuro (PGG(t)  PAA(t)  PTT(t)  PCC(t)) Si deriva la stima per K K  12 ln[1(1  2P  Q)]  14 ln[1(1  2Q)] con P frazione di nucleotidi che un semplice conteggio rivela essere transizioni e Q frazione di transversioni Se non viene fatta distinzione fra transizioni e trans-versioni, ponendo p  P  Q, si ottiene nuovamente la stima prodotta dal metodo di JukesCantor

Modelli a molti parametri  1
La grande quantità di dati di sequenza generati a partire dagli anni ‘80, ha rivelato che anche l’assun-zione di Kimura, che assegna probabilità distinte per transizioni e transversioni, è ancora significativamente distante da quanto avviene in natura Poiché ogni nucleotide può di fatto essere sostituito da uno qualunque degli altri tre, sono possibili 12 diffe-renti tipi di sostituzione, AC AG AT CA CG CT GA GC GT TA TC TG a ciascuno dei quali può essere assegnata una diversa probabilità, andando a costituire un modello a 12 parametri

Un esempio di matrice di punteggio (per le frequenze relative di sostituzione nucleotidica nella sequenza di AluY del genoma umano) è data da: Un tredicesimo ulteriore parametro potrebbe essere impie-gato per compensare le differenze tra quanto descritto dalla matrice di punteggio e la tendenza (osservabile) alla sosti-tuzione associata del contesto genomico regionale GC A T C G  4.0 4.6 9.8 3.3 10.4 2.7 7.2 17.0 6.2 23.6 6.0

Tuttavia… gli studi di simulazione indicano che i mo-delli più semplici (ad uno o due parametri) forniscono spesso risultati più attendibili rispetto ai modelli a più parametri, perché… …non necessitano di grosse quantità di dati per stimare le frequenze relative di sostituzione (senza l’introduzione di errori di campionamento) …sono, di fatto, virtualmente indistinguibili quando le sequenze in esame sono strettamente correlate

Sostituzioni tra sequenze proteiche  1
La proporzione p degli aminoacidi diversi tra due sequenze proteiche può essere “osservata” come per le sequenze nucleotidiche (e valutata come il rapporto fra i siti di non corrispondenza e la lunghezza delle sequenze) Tuttavia, stabilire con esattezza il numero di sostitu-zioni verificatesi nel percorso evolutivo di due o più proteine è generalmente più complesso dell’opera-zione equivalente sulle sequenze di DNA (una sosti-tuzione aminoacidica corrisponde ad un numero varia-bile di sostituzioni nella sequenza nucleotidica codi-ficante) Così come per le sequenze nucleotidiche, le sostitu-zioni osservate rappresentano una sottostima del nu-mero di sostituzioni occorse nel percorso evolutivo

Sostituzioni tra sequenze proteiche  2
Inoltre: Alcune sostituzioni si verificano più frequentemente di altre Il percorso che porta alla sostituzione di un aminoacido con un altro non ha sempre la stessa lunghezza Esempio: il codone CCC per la prolina può essere convertito nel codone CUC per la leucina con una sola sostituzione, ma non è possibile convertirlo in un codone AUC per l’isoleu-cina, se non utilizzando due sostituzioni Le sostituzioni aminoacidiche non hanno tutte un effetto equivalente sulla funzione proteica e gli effetti differi-scono per contesti distinti Pesare ogni sostituzione aminoacidica in modo diverso, in base a stime su dati empirici, utilizzando una matrice tipo PAM

Variazioni nella velocità evolutiva  1
Variazioni nelle velocità evolutive sono visibilmente riconoscibili nel confronto fra differenti regioni all’inter-no dello stesso gene, così come si osservano differen-ze rilevanti nella velocità di evoluzione fra geni diversi Se non si considerano le possibili fluttuazioni dovute ad errori di campionamento su piccole popolazioni, la differenza di velocità evolutiva è attribuibile a due fattori principali: Differenze nella frequenza di sostituzione Effetto, in termini quantitativi, della selezione naturale sul locus Esempi specifici di due classi di geni, che codificano per istoni e apolipoproteine, illustrano gli effetti dei di-versi vincoli funzionali che impattano sulla velocità evolutiva

Esempio 1 Gli istoni sono proteine essenziali cariche positivamente che si legano al DNA e sono presenti in tutti gli eucarioti La quasi totalità degli aminoacidi di un istone interagisce direttamente con specifici residui chimici associati con il DNA carico negativamente Ogni cambiamento nella sequenza aminoacidica dell’istone può influire sulla sua capacità di interazione con il DNA Gli istoni si evolvono molto lentamente È possibile sostituire l’istone H2A di lievito con il suo omo-logo umano senza effetti collaterali, anche se la speciazio-ne ha prodotto milioni di anni di evoluzione indipendente

Esempio 2 Le apolipoproteine accumulano sostituzioni non sinonime ad altissima frequenza Sono responsabili dell’interazione non specifica con una gran varietà di lipidi e del loro trasporto nel sangue dei vertebrati I loro siti di legame con il lipide sono composti princi-palmente da aminoacidi idrofobici Ogni aminoacido idrofobico (leucina, isoleucina e valina) funziona ugualmente bene

Anche se le sostituzioni nucleotidiche in molti geni sono generalmente deleterie, in alcuni casi la selezione naturale favorisce, di fatto, la variabilità Esempio I geni associati con l’antigene (macromolecola capace di rea-gire con i prodotti del sistema immunitario) dei leucociti uma-ni, HLA, sono altamente inclini alla diversificazione evolutiva Nella popolazione umana, circa il 90% degli individui riceve differenti insiemi di geni HLA dai propri genitori e si può stimare che, per un campione di 200 individui, si abbiano dai 15 ai 30 alleli differenti Livelli elevati di diversità, nel caso specifico, sono favoriti dalla selezione naturale, perché il numero di individui vulnerabili ad una data infezione da parte di ogni singolo virus è assai minore rispetto al caso di un unico sistema immunitario

Mentre le popolazioni ospiti sono sottoposte a pressione evolutiva per mantenere diversi i propri sistemi immunitari, i virus sono sottoposti a pressione analoga per evolversi rapidamente Una replicazione che tende all’errore, accoppiata con una selezione naturale diversificatrice, fa sì che la frequenza di sostituzioni nucleotidiche nei geni NS dell’influenza sia ugua-le a 1.9103 sostituzioni per sito per anno, un milione di volte più grande della frequenza di sostituzioni sinonime nei geni rappresentativi dei mammiferi

Orologi molecolari  1 L’idea di datare gli eventi evolutivi attraverso le differenze calibrate fra le proteine fu espressa per la prima volta nel 1965 da E. Zuckerkandl e L. Pauling, che rilevarono come le velocità di evoluzione molecolare per loci con vincoli funzionali simili siano pressoché costanti su lunghi periodi di tempo Da osservazioni fatte su differenti globine, Zuckerkandl e Pauling postularono che la differenza genetica tra due specie diverse, espressa dalla sequenza aminoacidica, è funzione del tempo di divergenza dall’antenato comune La verifica di tale affermazione fu ottenuta confrontando le sequenze proteiche e, quindi, i tassi di sostituzione amino-acidica, di diverse specie, con i tempi di divergenza stimati sulla base di ritrovamenti fossili

Orologi molecolari  2 Le frequenze di sostituzione in proteine omologhe erano così costanti su molte decine di milioni di anni, da suggerire un paragone diretto fra l’accumulo di cambiamenti aminoacidici ed il continuo ticchettio di un orologio molecolare L’orologio molecolare può “battere” a diverse velocità per proteine distinte, ma il numero di battiti tra due proteine omologhe appare linearmente correlato con la quantità di tempo trascorso dal momento in cui la speciazione le ha fatte divergere nel loro percorso evolutivo

Orologi molecolari  3 Secondo l’ipotesi dell’orologio molecolare, quindi, i geni e i prodotti genici evolvono con tassi che sono approssimati-vamente costanti nel tempo e lungo le differenti linee evolutive Perciò, se la divergenza genetica si accumula in modo regolare con il passare del tempo, allora è possibile dedurre i tempi di divergenza anche in assenza di evidenze fossili In pratica, una frequenza costante di variazione faciliterebbe non solo la determinazione delle relazioni filogenetiche fra specie, ma anche dei tempi di divergenza, così come il decadimento radioattivo si utilizza per stimare i tempi geologici

Orologi molecolari  4 La validità dell’ipotesi di un orologio molecolare universale è stata subito molto discussa E. Mayr, nel 1965, affermò: “Evolution is too complex and too variable a process, connected to too many factors, for the time dependence of the evolutionary process at the molecular level to be a simple function”… …mentre gli evoluzionisti classici argomentavano che l’anda-mento irregolare dell’evoluzione morfologica era incompatibile con una velocità costante di cambiamento molecolare Inizialmente ci si riferì ad un orologio molecolare proteico, dal momento che negli anni ‘60, i dati sul DNA erano ancora troppo scarsi, ed intenso fu il dibattito fino agli anni ‘80, che portò fino a mettere in discussione l’essenza stessa dell’idea di Zuckerkandl e Pauling, ovvero la costanza delle velocità evolutive

Orologi molecolari  5 Fin dal 1971 è stato chiaro che proteine diverse evolvono con tassi ampiamente variabili Di conseguenza venne esclusa, da subito, la possibilità di osservare un orologio proteico universale Test statistici condotti da Ohta e Kimura (1971), da Fitch (1976), da Gillespie e Langley (1979) hanno restituito risul-tati contrastanti, suggerendo che l’ipotesi dell’orologio molecolare proteico deve essere rifiutata per la maggior parte delle proteine sia nei confronti fra vertebrati che fra invertebrati

Orologi molecolari  6 La maggior parte delle date di divergenza utilizzate negli studi di evoluzione molecolare provengono dall’interpre-tazione di testimonianze fossili, incomplete e inaccurate Per evitare ogni questione sulle date di speciazione, Sarich e Wilson (1973) proposero un metodo per stimare la fre-quenza complessiva di sostituzione in diverse discendenze, indipendentemente dalla conoscenza dei tempi di diver-genza Esempio Per determinare la frequenza relativa di sostituzione nelle discendenze delle specie 1 e 2, occorre definire una specie 3, meno correlata ma simile, come gruppo esterno Uomo e gorilla  outgroup: babbuino 3 A 1 2

Orologi molecolari  7 Esempio (cont.) d13  dA1  dA3 d12  dA1  dA2
Si assume che il numero di sostituzioni tra due specie qualsiasi sia uguale alla somma del numero di sostituzioni presenti lungo i rami dell’albero filogenetico che le connette d13  dA1  dA3 d23  dA2  dA3 d12  dA1  dA2 dove d13, d23, d12 si “osservano” e misurano rispettivamente le differenze tra le specie 1 e 3, 2 e 3, 1 e 2 Si può ricavare la divergenza occorsa fra le specie 1 e 2, dal momento in cui hanno condiviso l’ultimo antenato dA1  (d12  d13  d23)2 dA2  (d12  d23  d13)2 Per definizione, il momento in cui le due specie hanno cominciato a divergere è lo stesso Hp. Orologio molecolare: i valori dA1 e dA2 coincidono

Orologi molecolari  8 La quantità di dati disponibili per testare l’ipotesi dell’oro-logio molecolare sta crescendo in modo esponenziale Le frequenze di sostituzione nei ratti e nei topi sono risultate molto simili Viceversa, l’evoluzione molecolare dell’uomo e della scimmia antropomorfa (es. gorilla) ha una velocità pari alla metà di quella delle scimmie del vecchio mondo (es. babbuini) dal momento della loro speciazione Infatti, i test di frequenza relativa eseguiti su geni omologhi nel topo e nell’uomo indicano che i roditori hanno accumu-lato un numero di sostituzioni doppio rispetto ai primati, dall’ultimo antenato comune (speciazione dei mammiferi) da 80 a 100 milioni di anni fa Orologio molecolare non costante: l’uso della divergenza molecolare per datare i tempi di esistenza di due specie ha senso solo se le specie “condividono l’orologio”

Orologi molecolari  9 Cause di variazione di frequenza nelle discendenze Diversità dei tempi di generazione (durata del periodo riproduttivo) Efficienza media di riparazione, tasso metabolico Necessità di adattamento a nuove nicchie ecologiche Difficili da quantificare: Conosciamo le differenze attuali Sappiamo che nel momento della divergenza gli organi-smi avevano attributi simili… …ma abbiamo poche informazioni sulle differenze relati-ve durante tutto il corso dell’evoluzione

L’evoluzione negli organelli  1
All’interno della cellula eucariota sono presenti vari organelli od organuli, che svolgono differenti funzioni necessarie alla sua sopravvivenza Gli organelli, assieme al citosol, formano il citoplasma (a) (b) Gli organelli di una cellula vegetale (a) e di una cellula animale (b)

La lunghezza media del DNA mitocondriale (i mitocondri sono organuli, che servono per la produzione di energia, presenti nel citoplasma di tutte le cellule animali a meta-bolismo aerobico) dei mammiferi, abbreviato con mtDNA, è di circa coppie di basi Viceversa, il DNA dei cloroplasti (organuli presenti nelle cellule delle piante e nelle alghe eucariotiche, all’interno dei quali si svolge il processo di fotosintesi) varia in lunghezza tra le e le coppie di basi cloroplasto mitocondrio

I singoli cromosomi di entrambi gli organelli contengono geni codificanti proteine ed RNA che sono essenziali per la loro funzione La dimensione relativamente piccola dei cromosomi presenti sia nei mitocondri che nei cloroplasti ed il pattern inusuale di ereditarietà (nei mammiferi, i mitocondri sono un contributo unicamente materno) li rende interessanti oggetti di studio per l’evoluzione molecolare

L’alta concentrazione di mutageni presenti all’interno dei mitocondri (soprattutto radicali liberi dell’ossigeno) sotto-pone l’mtDNA ad una frequenza di mutazione pari a dieci volte quella del DNA nucleare, con sostituzioni sia sinonime che non Si usa mtDNA per studiare le relazioni evoluzionistiche fra popolazioni di organismi strettamente correlate È invece poco utile per specie che hanno subito una divergenza da più di 10 milioni di anni perché ci si aspetta che siano avvenute sostituzioni multiple (non osservabili) in ogni sito Viceversa, il DNA dei cloroplasti accumula sostituzioni molto lentamente Il numero di sostituzioni sia sinonime che non è circa un quinto delle sostituzioni osservate per i geni nucleari delle stesse specie

Concludendo…  1 Il DNA, come ogni altra molecola, accumula nel tempo danni chimici Quando tali danni, o un errore di replicazione del DNA, determinano un cambiamento del contenuto informa-tivo di una molecola di DNA, si dice che si è verificata una mutazione In altre parole, le mutazioni sono cambiamenti del materiale genetico (DNA e più raramente RNA) di un organismo Possono originarsi spontaneamente o essere indotte da particolari agenti fisici o chimici detti, appunto, mutageni Se non sono riconosciute e riparate correttamente dai sistemi di riparazione del DNA si fissano permanente-mente nel genoma e vengono ereditate dalle generazioni successive

Concludendo…  2 Le mutazioni potranno avere un effetto, sia positivo che (più frequentemente) negativo, oppure essere neutrali Le mutazioni forniscono in pratica il “materiale grezzo” su cui agisce l’evoluzione Creano in una popolazione la necessaria condizione di variabilità genica, su cui operano i processi di ricombi-nazione genetica formando le diverse combinazioni alle-liche di ciascun individuo; queste combinazioni infine possono essere sottoposte a diversi processi evolutivi che alterano la frequenze dei vari alleli La selezione naturale, quindi, causa molte perdite nel pool dei geni e i cambiamenti che vanno soggetti a “fissazione” sono detti sostituzioni

Concludendo…  3 Le frequenze di sostituzione possono essere usate come una misura dell’importanza funzionale di un gene o di una porzione del genoma Le sequenze sono tanto più “stabili” quanto più una sostituzione potrebbe causare perdita di funzionalità della proteina codificata e conseguenze deleterie per la vita dell’organismo Per stimare il numero totale di sostituzioni che hanno portato all’attuale divergenza di due sequenze omolo-ghe (di nucleotidi o aminoacidi) sono stati sviluppati diversi modelli parametrici che considerano la possibi-lità di sostituzioni multiple in un dato sito Modelli con pochi parametri (uno o due, che descrivono le probabilità di transizione/transversione) sono più ro-busti e computazionalmente più semplici

Concludendo…  4 Tuttavia, poiché alcuni geni accumulano sostituzioni più velocemente di altri, i test di frequenza relativa mostrano che gli organismi possono avere caratte-ristiche evolutive diverse, anche quando si considerino geni con vincoli funzionali simili

Pattern di sostituzione

Presentazioni simili

Presentazione sul tema: "Pattern di sostituzione"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Pattern di sostituzione

Presentazioni simili

Presentazione sul tema: "Pattern di sostituzione"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back