Metodi filogenetici basati sulla distanza

Metodi filogenetici basati sulla distanza
“Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.” (C. R. Darwin)

Sommario Storia della filogenetica molecolare
Vantaggi delle filogenie molecolari Alberi filogenetici Metodi basati su matrici di distanza Approcci di massima verosimiglianza Allineamenti multipli di sequenze

Introduzione  1 La classificazione degli organismi in base alle specie è il risultato della ricostruzione filogenetica della loro storia evolutiva, un’analisi che oggi viene condotta principalmente a livello molecolare e si basa sul confronto delle sequenze nucleotidiche e/o aminoaci-diche La filogenesi molecolare, usata anche per lo studio dell’evoluzione di specifiche famiglie di geni e pro-teine, è un metodo di analisi nato nei primi anni `90 e cresciuto velocemente grazie ai progressi della bio-logia molecolare e della bioinformatica

Introduzione  2 I diversi tipi di dati molecolari rappresentano infatti una sorta di documento storico, che contiene in sé le tracce dei passi fondamentali dell’evoluzione di un gene Inoltre, gli eventi caratteristici dell’evoluzione dei geni (sostituzioni, inserzioni, delezioni e riarrangiamenti) possono essere utilizzati per risolvere quesiti sulla storia evolutiva e le relazioni tra intere specie La filogenesi molecolare è un importante strumento per la conservazione della biodiversità, il controllo delle epidemie e l’analisi della struttura delle proteine

Storia della filogenetica molecolare
I tassonomisti hanno iniziato a classificare e raggrup-pare gli organismi molto prima che si sospettasse che il codice della vita e dell’evoluzione fosse scritto nei loro genomi Facendo da sprone agli studi di anatomia e fisiologia, la tassonomia ha prodotto intuizioni notevoli, spe-cialmente dopo che le idee di Darwin (18091882) hanno mostrato che il sistema proposto da Linneo (17071778) per classificare gli organismi rifletteva le relazioni evolutive intercorrenti tra loro

Il sistema tassonomico di Linneo
SPECIE: è la categoria più piccola e comprende organismi che hanno in comune molti caratteri; inoltre, gli organismi di una stessa specie possono accoppiarsi e avere prole feconda GENERE: comprende specie molto simili tra loro, come l’asino e il cavallo o il gatto e la lince; nel caso di accoppiamento possono avere prole, ma non feconda FAMIGLIA: comprende diversi generi che presentano caratteristiche in comune; il gatto, la lince e il leone appartengono ad esempio alla stessa famiglia ORDINE: comprende più famiglie che presentano caratteristiche fisiche comuni, come il tipo di dentatura; per esempio, un cane è molto diverso dal leone, ma entrambi appartengono allo stesso ordine CLASSE: comprende più ordini, con alcune caratteristiche comuni; per esempio, il cane e il cavallo, pur essendo diversi, appartengono alla stessa classe dei mammiferi. PHYLUM: comprende più classi tra loro affini (mammiferi, uccelli, rettili, anfibi e pesci appartengono tutti al phylum dei cordati) REGNO: è il raggruppamento più vasto che comprende phyla molto diversi tra loro Linneo raggruppò tutti gli esseri viventi in 2 regni: il regno animale e quello vegetale genere famiglia phylum classe ordine regno specie

Il sistema tassonomico di Linneo Esempio
Regno: Animalia Phylum: Cordata Classe: Mammalia Ordine: Artiodactyla Famiglia: Giraffidae Genere: Giraffa Specie: Giraffa camelopardalis

Storia della filogenetica molecolare (cont.)
Le intuizioni di Linneo e Darwin permisero importanti applicazioni, quali lo sviluppo di nuove colture agricole e la scoperta di cure contro le malattie infettive, ma soprattutto svilupparono la consapevolezza che tutti gli organismi viventi del pianeta condividono un unico antenato comune La considerazione di similarità e differenze a livello molecolare sembrò un’aggiunta naturale agli strumen-ti comunemente usati dai tassonomisti, dopo che G. H. F. Nuttall dimostrò (19021904) che l’intensità del-la risposta immunitaria generata in un organismo nel quale è stato iniettato il sangue di un altro organismo è direttamente connessa a quanto essi risultano evo-lutivamente correlati

Attraverso tali esperimenti, Nuttall esaminò le rela-zioni esistenti tra centinaia di organismi e concluse, per esempio, che gli uomini e le scimmie antropo-morfe condividono un antenato comune, più recente di quello comune agli altri primati Gli anticorpi e la loro mutevole capacità di interagire con altre molecole sono ancora oggi utilizzati come strumento di screening filogenetico per organismi per i quali sono disponibili pochi dati di sequenze nucleo-tidiche o proteiche Solo dal 1950 i dati molecolari sono stati impiegati in modo estensivo per ricerche filogenetiche

L’elettroforesi proteica permise la separazione ed il confronto di proteine in base a caratteristiche super-ficiali, come dimensione e carica La velocità a cui i genomi denaturati potevano ibridare fornì indicazioni sulla relazione che intercorreva tra organismi filogeneticamente correlati Anche il sequenziamento delle proteine (a partire dagli anni `70) divenne possibile e si potè ottenere la sequenza aminoacidica completa di molte proteine essenziali Grande quantità di parametri molecolari misurabili e possibilità di andare oltre le similitudini morfologiche

Dagli anni `70, allorché l’informazione genomica è divenuta disponibile, prima sottoforma di mappe di restrizione (che descrivono la disposizione relativa dei vari siti riconosciuti dagli enzimi di restrizione sulla sequenza di DNA), quindi come dati di sequenza di DNA, sono stati sviluppati diversi approcci matemati-camente rigorosi e utili ai biologi molecolari Diventava possibile assegnare confidenza statistica ai raggruppamenti filogenetici e relativamente facile formulare ipotesi verificabili sui processi evolutivi

Oggi, i dati di sequenza di DNA sono assai più abbon-danti di qualsiasi altra forma di informazione mole-colare Gli approcci tassonomici tradizionali, basati sulle carat-teristiche morfologiche, continuano a fornire dati com-plementari agli studi evolutivi, così come le informazioni paleontologiche offrono indizi sulla reale scansione temporale con cui gli organismi si differenziano e si evolvono Tecniche come la PCR, però, costituiscono la vera frontiera della ricerca, per rispondere alle domande più salienti riguardo alla storia ed alle relazioni delle forme di vita sul pianeta

Vantaggi delle filogenie molecolari  1
Dato che l’evoluzione corrisponde ad un cambiamento genetico, le relazioni genetiche sono di primaria im-portanza nella decifrazione delle relazioni evolutive Hp.: organismi con un elevato grado di similarità mole-colare sono filogeneticamente più vicini rispetto a quelli dissimili Prima che gli strumenti della biologia molecolare fos-sero in grado di fornire dati molecolari utili per analisi filogenetiche, i tassonomisti erano costretti a fidarsi della comparazione dei fenotipi (l’aspetto esteriore di un organismo) per dedurre i loro genotipi (i geni che lo codificano) Fenotipi simili  geni simili che codificano per il dato fenotipo Fenotipi diversi  diverso codice genetico

Originariamente, nell’esame dei fenotipi si consideravano le caratteristiche anatomiche più evidenti; successivamente, sono state prese in considerazione anche le caratteristiche comportamentali, ultrastrutturali e biochimiche Costruzione di alberi evolutivi ancora in uso per piante ed animali Limitazioni Fenotipi simili possono svilupparsi in organismi filogeneti-camente distanti, per evoluzione convergente, quando due o più specie, legate allo stesso tipo di ambiente, sviluppano caratteri morfologici adeguati all’habitat (nello stesso momen-to, o anche con intervalli di tempo molto lunghi) Difficoltà nello studio di caratteristiche fenotipiche utilizzabili per comparazione Difficoltà nella selezione di caratteristiche fenotipiche infor-mative

Esempi La forma idrodinamica del corpo, con arti a paletta e estremità posteriore bilobata si è evoluta almeno quattro volte nel corso della storia della terra: nei pesci, negli ittiosauri (rettili), nei delfini (mammiferi) e nei pinguini (uccelli) I batteri hanno poche caratteristiche facilmente osservabili, anche con analisi al microscopio Quali caratteristiche fenotipiche selezionare per mettere a confronto batteri, vermi e mammiferi, così dissimili fra loro?

Le analisi che si basano sulle sequenze nucleotidiche o proteiche non presentano tali limitazioni, perché molte mo-lecole omologhe sono essenziali per tutti gli organismi viventi Anche se la velocità relativa di evoluzione molecolare può variare da una discendenza all’altra (e i tempi di divergenza dedotti da analisi molecolari devono pertanto essere trattati con cautela), gli approcci molecolari per generare filogenie sono estremamente affidabili Probabilmente i più affidabili, anche in presenza di dati alter-nativi (es., morfologici), perché i dati di sequenza sono meno sensibili alla selezione naturale Nei casi in cui si rilevano differenze tra filogenie molecolari e morfologiche, si possono osservare gli effetti della selezione naturale sulle differenze fenotipiche

Alberi filogenetici  1 Albero filogenetico: rappresentazione grafica delle relazioni evolutive tra tre o più geni od organismi Tramite albero filogenetico è pos-sibile non solo esprimere le rela-zioni parentali all’interno di un insieme di dati, ma anche il loro tempo di divergenza e la natura dei loro antenati comuni

Alberi filogenetici  2 Noti anche come dendrogrammi, negli alberi filogene-tici, ogni nodo rappresenta una distinta unità tasso-nomica I nodi terminali corrispondono ad un gene o ad un organismo per cui esistono dati empirici, mentre i nodi interni rappresentano un antenato comune ipotizzato o dedotto, che dà origine a due discendenze indi-pendenti in qualche punto nel passato

Alberi filogenetici  3 Esempio
I nodi I, II, III, IV e V sono nodi terminali che rap-presentano organismi di cui sono disponibili le sequenze I nodi interni A, B, C e D rappresentano gli antenati dedotti, per cui non sono più disponibili dati empirici Una notazione alternativa è il formato di Newick: (((I, II), (III, IV)), V) D V C A IV III II I B

Alberi filogenetici  4 Quasi tutti i nodi interni hanno solo due discendenze, vengono detti pertanto biforcati Sono possibili però anche discendenze multiple, che danno luogo a multiforcazioni I nodi multiforcati possono essere interpretati in due modi Una popolazione ancestrale dà origine simultaneamente a tre o più discendenze indipendenti Esistono due o più biforcazioni “quasi” nello stesso punto del passato, ma il numero limitato di dati a dispo-sizione rende impossibile distinguere l’ordine in cui sono avvenute

Alberi filogenetici  5 Se le ramificazioni di un albero filogenetico possono essere utilizzate per trasmettere informazioni sulla sequenza con cui sono avvenuti gli eventi evolutivi, la lunghezza dei rami può essere utilizzata per indicare di quanto divergono differenti insiemi di dati Alberi in scala, in cui la lunghezza degli archi è proporzionale alla differenza fra coppie di nodi adiacenti Alberi additivi: la somma delle lunghezze dei rami, che connettono due nodi qualsiasi, è una rappresentazione delle differenze tra loro accumulate Alberi non in scala: tutti i nodi terminali sullo stesso livello, si deducono solo le parentele, ma non si “quantifica” la distanza

Alberi filogenetici  6 Un’altra importante distinzione nella filogenetica si ha tra gli alberi che deducono un antenato comune e la direzione dell’evoluzione e quelli che non lo fanno Negli alberi con radice, un singolo nodo viene definito come antenato comune e un unico percorso evolutivo conduce da esso a qualsiasi altro nodo dell’albero Gli alberi senza radice specificano solo l’esistenza di relazio-ni fra nodi adiacenti, ma non forniscono alcuna informa-zione circa la direzione in cui avviene l’evoluzione La radice può essere assegnata ad alberi senza radice utilizzando un gruppo esterno, cioè una specie che si è separata prima dalle altre specie oggetto di studio Esempio: nel caso di uomini e gorilla, quando i babbuini si utilizzano come gruppo esterno, la radice dell’albero può essere posta da qualche parte lungo il ramo che connette i babbuini all’antenato comune di uomini e gorilla

Alberi filogenetici  7 Alberi filogenetici con e senza radice

Alberi filogenetici  8 In una situazione in cui vengono considerate solo tre specie, è possibile disegnare tre alberi con radice, ma solo uno senza radice

Alberi filogenetici  9 Più in generale, per ogni albero senza radice, ci sono 2s3 alberi con radice, dove s è il numero di unità tassonomiche (se si considerano solo alberi dicotomici) 2s3 corrisponde al numero di rami nell’albero senza radice

Alberi filogenetici  10 Generalizzando al caso di alberi con multiforcazioni: NR  (2s3)![2s2(s2)!] NU  (2s5)![2s3(s3)!] Numero specie Numero alberi con radice Numero alberi senza radice 2 1 3 4 15 5 105 10 20

Alberi filogenetici  11 Neppure il più veloce dei computer può far fronte ad una tale esplosione computazionale per riuscire a valutare la qualità relativa di tutti gli alberi possibili, per più di poche decine di sequenze o di specie Impossibile la ricerca esaustiva Occorre tentare di focalizzare l’attenzione solo su quegli alberi che più probabilmente riflettono le reali relazioni che intercorrono tra i vari insiemi di dati D’altra parte, solo uno di questi rappresenta il “vero” percorso evolutivo fra i geni o le specie considerate

Alberi di geni vs alberi di specie  1
Gli alberi filogenetici basati sulla divergenza osservata fra geni omologhi si chiamano alberi genetici (da distinguersi dagli alberi di specie) Possono rappresentare la storia evolutiva di un gene, ma non necessariamente quella della specie in cui si trova Gli alberi di specie si ottengono dall’analisi dei dati provenienti da molteplici geni Esempio: in uno studio recente sull’evoluzione delle specie vegetali sono stati utilizzati circa cento geni diversi per generare un albero filogenetico di specie per le piante

Le divergenze a livello di geni tipicamente si verificano prima che una popolazione si divida, il che avviene quando si creano nuove specie La differenza tra alberi di geni e di specie tende a diventare particolarmente importante quando si consi-derano loci la cui diversità all’interno delle popolazioni è vantaggiosa, come il locus dell’antigene leucocitario umano HLA Se si utilizzassero solo gli alleli HLA per determinare alberi di specie, molti uomini verrebbero raggruppati con i gorilla, perché l’origine del loro polimorfismo è antecedente alla speciazione

HLA Albero filogenetico delle piante Albero filogenetico dei primati e divergenza del gene HLA

Vantaggi nell’utilizzo di alberi di geni Descrizione dei dati non ambigua Nessuna interferenza con somiglianze dovute a effetti ambientali non genetici (l’evoluzione convergente impli-ca spesso fenotipi simili ma genotipi differenti) Maggiore facilità di stima dei tempi di divergenza (cioè della lunghezza dei rami) Modelli statistici rigorosi Si possono analizzare sequenze di DNA non codificante Tutti gli individui hanno il DNA!

Svantaggi nell’utilizzo di alberi di geni L’omoplasia (che consiste in una semplice somiglianza con un antenato il quale, pur possedendo lo stesso tratto, non l’ha trasmesso ereditariamente al soggetto in esame) può essere frequente Mutazioni ricorrenti modificano la relazione tra distanza genetica e distanza temporale Duplicazioni e trasferimento orizzontale di geni possono essere identificati, ma possono creare problemi nella ricostruzione filogenetica Omologia (cioè la somiglianza dovuta a eredità da un antenato che possiede quel determinato carattere) e omoplasia non possono essere distinte attraverso una analisi dettagliata come per i caratteri fenotipici

La relazione tra distanza genetica e tempo di divergenza non è lineare perché lo stesso sito può aver subito più sostituzioni nel corso dell’evoluzione

Dati di carattere e di distanza  1
I dati molecolari, utilizzati per generare alberi filoge-netici, appartengono a due categorie Caratteri (caratteristiche ben definite che si presentano in un numero limitato di istanze diverse) Distanze (misura della differenza tra due insiemi di dati) Sia le sequenze nucleotidiche, sia quelle aminoacidi-che sono esempi di dati che descrivono un insieme di istanze discrete di caratteri Altri insiemi di dati di tipo carattere sono quelli che si incontrano nella tassonomia basata su caratteristiche anatomiche o comportamentali, quali il colore di un organismo o la quantità di tempo necessaria per rea-gire ad un particolare stimolo

I dati di carattere possono essere facilmente convertiti in dati di distanza, una volta stabiliti criteri opportuni per determinare la similarità fra tutti i possibili stati caratteriali Per esempio, un valore di distanza D fra due geni è dato da Dnl, dove n è il numero di non corrisponden-ze osservate nell’allineamento mentre l ne rappresen-ta la lunghezza Aggiustamenti per tener conto delle diverse frequenze di transizione e transversione Aggiustamenti per tenere conto di sostituzioni multiple Normalizzazione per ottenere “il numero di cambiamenti per 100 nucleotidi”

La distanza fra proteine può essere calcolata in modo analogo, allineando le sequenze aminoacidiche Perdita di informazione potenzialmente utile Maggior difficoltà nel confronto fra sequenze proteiche: non solo è più probabile che alcuni aminoacidi siano sostituiti con altri in base all’attività chimica simile dei loro gruppi funzionali, ma può variare anche il numero di sostituzioni a livello di DNA per ottenere una sosti-tuzione aminoacidica

Gli approcci matematici utilizzati per la costruzione di alberi filogenetici generalmente trascurano l’importan-za di certe sottigliezze biologiche presenti negli in-siemi di dati L’approccio fenetistico, proposto da R. Sokal e P. Sneath nel 1963, cerca di superare la soggettività im-plicita nell’interpretazione del record fossile e dell’im-portanza evolutiva dei caratteri degli esseri viventi I fenetisti non danno pesi diversi ai vari caratteri: a ciascuno di essi assegnano un valore (0 l’assenza, 1 la presenza); sono più vicine, quindi, le specie che con-dividono un maggior numero di caratteri e più lontane quelle che ne condividono numericamente meno La precisione del metodo migliora all’aumentare del numero di caratteri selezionati per l’analisi

Il problema principale dell’approccio fenetistico consiste nell’aggregare un notevole numero di dati in una singola misura di somiglianza una specie entra a far parte del gruppo in cui è presente la specie più simile ad essa, oppure… …del gruppo in cui la media (numerica) degli individui è più vicina a quella della specie da classificare Ciò che la tassonomia numerica ricostruisce con questo metodo non sono specie naturali ma unità tassonomiche operative (OTU), individuate cioè dal naturalista e non rappresentanti necessariamente una divisione realmente presente in natura

I cladisti, viceversa, sono generalmente più interessati ai cammini ed ai pattern evolutivi che non alle rela-zioni tra gli insiemi di dati, preferendo approcci più “biologici” per la costruzione degli alberi filogenetici Obiettivo principale della cladistica è infatti classificare gli esseri viventi seguendo la gerarchia filogenetica derivante dalla storia della vita sulla Terra Poiché questa è stata unica, fornisce l’oggettività assoluta a questo tipo di classificazione Padre della scuola cladistica viene considerato l’entomo-logo tedesco W. Hennig (le cui idee sono racchiuse nell’opera Grundzüge einer Theorie der Phylogene-tischen Systematik, 1950) In realtà Hennig non parlò mai di cladistica, ma di sistematica filogenetica

L’idea di Hennig fu quella di suddividere gli esseri viventi in “cladi”: poiché, generalmente, quando una specie in natura si divide dà origine a due specie discendenti (specie sorelle), si può considerare gruppo tassonomico l’insieme delle due specie discendenti e del loro antenato comune In questo modo si formerà una classificazione naturale che può teoricamente risalire fino al primo essere vivente comparso sulla Terra

Metodi basati su matrici di distanza  1
Fra tutti gli alberi possibili, distinguere quale sia quello che descrive l’evoluzione di un gruppo di geni o organismi è un compito computazionalmente difficile Le matrici di distanza a coppie  riassunti tabulari delle differenze fra tutti gli insiemi di dati da analiz-zare  costituiscono l’input tipico per i più diffusi algoritmi per il calcolo degli alberi filogenetici UPGMA(UnweightedPairGroup Method with Arith-metic Mean) è il più datato fra i metodi basati sul-l’utilizzo delle matrici di distanza, ed il più semplice Si devono possedere informazioni sulla distanza gene-tica fra tutti i taxa (singolare taxon, le unità tassono-miche) considerati, che vanno a costituire una matrice triangolare (inferiore)

Si assuma che le distanze fra ogni coppia di taxa siano fornite dalla seguente matrice: dAB rappresenta la distanza tra le specie A e B (il numero di nucleotidi non corrispondenti, diviso la lun-ghezza delle sequenze allineate, ad esempio) dAC è la distanza tra i taxa A e C … Specie A B C dAB  dAC dBC D dAD dBD dCD

Nella prima fase dell’algoritmo UPGMA si individuano le due specie separate dalla minor distanza, inseren-dole nello stesso gruppo composito Supponendo che il valore più piccolo nella matrice corrisponda a dAB, le specie A e B sono le prime ad essere raggruppate (A,B) Dopo il primo raggruppamento, viene calcolata una nuova matrice delle distanze, in cui le distanze tra il nuovo gruppo (A,B) e le specie C e D vengono calcolate come medie aritmetiche delle distanze originali delle due specie costituenti il gruppo d(AB)C  12(dAC  dBC) d(AB)D  12(dAD  dBD)

In questa nuova matrice, verranno nuovamente indivi-duate le specie separate dalla minore distanza, che saranno raggruppate a formare una nuova specie composita Il processo viene reiterato fino ad ottenere un unico raggruppamento che include tutte le specie originaria-mente analizzate Se per rappresentare la distanza evolutiva tra le specie si usa un albero in scala, dai punti di dirama-zione si avranno archi uscenti di ugual lunghezza (pari alla metà della distanza originale fra le specie raggruppate)

Esempio Si consideri l’allineamento fra le cinque sequenze di DNA A: GTGCTGCACG GCTGAGTATA GCATTTACCC TTCCATCTTC AGATCCTGAA B: ACGCTGCACG GCTCAGTGTG GTGTTTACCC TCCCATCTTC AGATCCTGAA C: GTGCTGCACG GCTCGGCGCA GCATTTACCC TCCCATCTTC AGATCCTATC D: GTATCACACG ACTCAGCGCA GCATTTGCCC TCCCGTCTTC AGATCCTAAA E: GTATCACATA GCTCGCGGCA GCATTTGCCC TCCCGTCTTC AGATCTAAAA Il confronto a coppie porta alla costruzione della matrice Dato che tutte le sequenze hanno la stessa lunghezza e non presentano gap, le distanze sono calcolate come il numero di nucleotidi non corrispondenti in ogni confronto a coppie Specie A B C D 9  8 11 12 15 10 E 18 13 5

Esempio (cont.) La distanza minore tra due sequenze per l’allineamento multiplo in analisi corrisponde a dDE, quindi le specie D ed E vengono raggruppate e la nuova matrice delle distanze viene calcolata considerando il gruppo composito (D,E) al posto di D ed E E (D,E) D Le distanze tra le specie rimanenti ed il nuovo gruppo vengono deter-minate considerando la distanza media tra i suoi due membri (D ed E) e tutte le altre specie Specie A B C 9  8 11 DE 13,5 16,5 11,5

Esempio (cont.) La minor distanza di separazione tra due specie in questa nuova matrice è quella tra A e C, quindi si forma il nuovo gruppo (A,C) e si ricalcola la matrice delle distanze come E ((A,C),(D,E)) D C (A,C) A (D,E) Specie B AC 10  DE 16,5 12,5

Esempio (cont.) In quest’ultima matrice la distanza minore è tra le specie (A,C) e B (d(AC)B10), che quindi vengono raggruppate L’albero filogenetico completo risulta pertanto: (((A,C),B),(D,E)) C A E B D

La generazione successiva della matrice delle distan-ze, utilizzata dal metodo UPGMA, è l’operazione com-putazionalmente più importante del processo che porta alla costruzione dell’albero filogenetico Mentre piccoli insiemi di dati possono essere facilmen-te analizzati “a mano”, tramite UPGMA, il problema diventa rapidamente oneroso (ma comunque di com-plessità polinomiale) per insiemi di dati grandi (sia in numero sia relativamente alla lunghezza delle se-quenze analizzate)

Stima della lunghezza dei rami  1
Oltre a descrivere la relazione evolutiva fra sequenze, la topologia degli alberi filogenetici può fornire infor-mazioni sul loro grado di divergenza Cladogrammi, in cui la lunghezza degli archi è propor-zionale al numero di cambiamenti accumulati (o, utiliz-zando l’orologio molecolare, al tempo dalla speciazione) Lunghezza dei rami calcolata in base al contenuto della matrice di distanza Se si assume che la velocità di evoluzione sia costante lungo tutte le discendenze  nodi interni biforcati a ugual distanza da ciascuna delle specie a cui danno origine

Esempio Specie A B C D 9  8 11 12 15 10 E 18 13 5 E D B A 2.5 4 6.25 5 C  Specie A B C 9  8 11 DE 13,5 16,5 11,5 Specie B AC 10  DE 16,5 12,5

La determinazione della lunghezza dei rami in alberi in scala si complica quando non si può assumere che la velocità di evoluzione sia la stessa per tutte le discendenze Si consideri l’albero senza radice: dAC  x  y dAB  x  z dBC  z  y da cui, con una semplice manipolazione si ottiene x  (dAB  dAC  dBC)2 y  (dAC  dBC  dAB)2 z  (dAB  dBC  dAC)2 A y B C x z

Le lunghezze dei rami per alberi più complicati, che presentano più di un punto di ramificazione, possono essere stimate considerando comunque solo tre rami alla volta I rami da considerare sono: i due rami che connettono le due specie filogenetica-mente più vicine in base alla matrice di distanze il ramo che connette l’antenato comune alle due specie filogeneticamente più vicine con l’antenato di tutte le altre specie

Metodo delle distanze trasformate  1
Il punto di forza degli approcci basati su matrici di distanza sta nel fatto che, scelta opportunamente una metrica, essi lavorano ugualmente bene con dati molecolari, morfologici o con una combinazione di entrambi Viceversa, la debolezza di UPGMA sta nell’assunzione di una velocità di evoluzione costante lungo tutte le discendenze Variazioni nelle frequenze di sostituzione possono cau-sare la costruzione di alberi topologicamente scorretti

Esempio: per l’insieme di sequenze A: GTGCTGCACG GCTGAGTATA GCATTTACCC TTCCATCTTC AGATCCTGAA B: ACGCTGCACG GCTCAGTGTG GTGTTTACCC TCCCATCTTC AGATCCTGAA C: GTGCTGCACG GCTCGGCGCA GCATTTACCC TCCCATCTTC AGATCCTATC D: GTATCACACG ACTCAGCGCA GCATTTGCCC TCCCGTCTTC AGATCCTAAA E: GTATCACATA GCTCGCGGCA GCATTTGCCC TCCCGTCTTC AGATCTAAAA un’indicazione che la velocità di evoluzione non è costante è data dalle lunghezze dei rami del cladogramma, che non sono additive dAE  4  6.25  6.25  2.5  19 mentre per la matrice di distanze è dAE  15 E D C A 2.5 4 6.25

Alcuni approcci alternativi a UPGMA basati su matrici delle distanze considerano la possibilità di velocità evolutive differenti in discendenze distinte Il metodo delle distanze trasformate, proposto da J. Farris nel 1997, sfrutta l’introduzione di un gruppo esterno, una specie che ha subito divergenza prima di tutte le altre dall’antenato comune di tutte le specie rappresentate nella matrice (dette gruppi interni)

Esempio: utilizzando le sequenze A: GTGCTGCACG GCTGAGTATA GCATTTACCC TTCCATCTTC AGATCCTGAA B: ACGCTGCACG GCTCAGTGTG GTGTTTACCC TCCCATCTTC AGATCCTGAA C: GTGCTGCACG GCTCGGCGCA GCATTTACCC TCCCATCTTC AGATCCTATC D: GTATCACACG ACTCAGCGCA GCATTTGCCC TCCCGTCTTC AGATCCTAAA assumiamo che la specie D sia un gruppo esterno rispetto alle specie A, B e C e che le vere relazioni fra le specie siano rappresentate da (((A,B),C),D) nel formato di Newick o dall’albero filogenetico C D B A 6 1 3 2 Il numero accanto ad ogni arco corrisponde al numero di muta-zioni nelle 50 coppie di basi che si sono accumulate lungo ciascu-na discendenza durante ogni sta-dio dell’evoluzione

Esempio (cont.) In questa situazione, D può essere usato come gruppo esterno per trasformare le distanze che separano le altre specie attraverso l’equazione (dij)’  (dij  diD  djD)2  dD dove (dij)’ è la distanza trasformata tra le specie i e j e dD è la distanza media tra il gruppo esterno e tutti i gruppi interni (in questo caso pari a 373) Il termine additivo che fornisce la distanza media dal gruppo esterno è stato introdotto per garantire la positività della distanza trasformata (valori negativi non hanno senso in una prospettiva evolutiva)

Esempio (cont.) Può essere di conseguenza calcolata la matrice delle distanze trasformate per le specie A, B e C L’approccio classico UPGMA può quindi essere utilizzato con la nuova matrice e produce l’albero filogenetico con la topologia attesa Specie A B 103  C 163

La potenza dell’approccio delle matrici di distanze trasformate deriva da una semplice osservazione: i gruppi interni evolvono separatamente solo dopo la loro divergenza e qualsiasi differenza nel numero di sostituzioni accumulate deve essersi verificata solo dopo la speciazione I gruppi esterni forniscono un sistema di riferimento oggettivo per confrontare le frequenze di sostituzione Il metodo delle matrici di distanze trasformate può essere applicato anche quando non è possibile deter-minare un gruppo esterno Anche un gruppo interno può fare da riferimento per il ricalcolo delle distanze; tuttavia, solo i gruppi esterni permettono l’aggiunta della radice in un albero filoge-netico

Metodo delle relazioni di vicinanza  1
Una diversa variante del metodo UPGMA enfatizza l’accoppiamento delle specie in modo tale da costruire alberi con lunghezze di archi complessive che siano le minori possibili In un qualsiasi albero senza radice, le coppie di specie che sono separate tra loro da un solo nodo interno sono definite vicine Dalla topologia dell’albero si possono normalmente trarre utili relazioni algebriche tra vicini

Esempio Per un albero con lunghezze degli archi additive si ha dAC  dBD  dAD  dBC  a  b  c  d  2e  dAB  dCD  2e dove a, b, c e d sono le lunghezze dei rami terminali ed e è la lunghezza del ramo centrale Le seguenti condizioni, note come condizioni dei quattro punti, saranno altresì vere dAB  dCD  dAC  dBD dAB  dCD  dAD  dBC e D C c d A B a b

Si determina, fra tutti i possibili arrangiamenti a coppie tra le quattro specie, quelli che soddisfano la condizione dei quattro punti e si procede al raggrup-pamento dei relativi elementi Si è assunto fin qui che gli alberi siano additivi: il metodo non è particolarmente sensibile alla deviazione da questa assunzione, che può tuttavia causare la costruzione di un albero topologicamente scorretto

Nel 1977, S. Sattah e A. Tversky suggerirono un modo per utilizzare l’approccio di vicinanza per alberi filogenetici relativi a più di quattro specie Si genera una matrice di distanze Si utilizzano gli elementi della matrice per generare, per quattro specie, dAB  dCD, dAC  dBD, dAD  dBC Si assegna un punteggio pari ad 1 alla coppia che produce il valore minimo, 0 alle altre Si ripete il procedimento relativamente a tutti gli insiemi di quattro specie che si possono formare a partire dai dati iniziali La coppia di specie con il punteggio più alto al termine dell’analisi viene raggruppata Si ricalcola la matrice delle distanze e si ripete il procedimento dal passo 2) fino a quando rimangono tre sole specie e la topologia dell’albero è determinata univocamente Computazionalmente oneroso per più di cinque o sei specie!

Metodi neighbor-joining  1
Sono possibili altri approcci basati sulla vicinanza, fra cui diverse varianti chiamate metodi neighborjoining Si inizia con la creazione di un albero a stella dove tutte le specie, a prescindere dal loro numero, discendono da un singolo nodo centrale Si cercano, in maniera sequenziale, i vicini che mini-mizzano la lunghezza totale dei rami dell’albero La principale differenza tra i diversi metodi di neighbor joining è il modo in cui si determina la somma delle lunghezze degli archi in ogni reiterazione del processo

N. Saitou e M. Nei (1987) S12  (1(2(N2)) (d1k d2k)  12d12  (1N2)(dij) dove ogni coppia di specie assume la posizione 1 e 2 nell’albero, N è il numero delle specie rappresentate nella matrice delle distanze, k è 1 un gruppo esterno e dij è la distanza tra le le specie i e j J. Studier e K. Keppler (1988) Q12  (N2)d12  d1i  d2i i 2 j N

In ogni iterazione del processo vengono considerate tutte le possibili coppie di specie e la coppia che pro-duce un albero con il valore minimo della lunghezza totale degli archi (S o Q) viene raggruppata, per poi generare una nuova matrice delle distanze È stato dimostrato che le due relazioni per S e Q sono teoricamente equivalenti, così come anche i metodi neighborjoining e quello delle relazioni di vicinanza, dato che entrambi dipendono dalle condizioni dei quattro punti e dall’assunzione di additività Si generano alberi con topologie molto simili, se non identiche

Approcci di massima verosimiglianza  1
Il metodo della massima verosimiglianza non utilizza la matrice delle distanze ma direttamente le sequenze Si cerca di quantificare quale sia la probabilità che ad una certa ipotesi H, nel nostro caso un albero filogenetico, corrisponda un certo insieme di dati D, nella fattispecie un allineamento multiplo Pr(D|H) L’albero che ottiene il massimo valore di probabilità rappresenta la stima di massima verosimiglianza della filogenesi tra le sequenze considerate L’albero di massima verosimiglianza è quindi quello che meglio giustifica il set di dati in esame, ovvero il multiallineamento

Approcci di massima verosimiglianza  2
La probabilità viene calcolata come prodotto della proba-bilità che ha ciascun sito del multiallineamento di presen-tare un certo carattere se ha avuto luogo un particolare processo evolutivo (rappresentato dall’albero ﬁlogenetico in questione) Difficoltà dovute alla: mancanza di conoscenza della sequenza nucleotidica degli antenati possibilità di sostituzioni multiple in uno o più siti possibile interdipendenza fra siti Tutte le variabili del modello, come, per esempio, tassi di sostituzione, topologia dell’albero, lunghezza dei rami, vengono calibrate per massimizzare il valore di verosimi-glianza Principale limitazione: elevata complessità computazionale

Allineamenti multipli di sequenze  1
Gli allineamenti di sequenze sono facilitati per se-quenze simili, all’interno delle quali si siano verificati pochi eventi indel L’allineamento simultaneo di più di due sequenze è un’estensione naturale dell’allineamento a coppie L’ordine in cui le sequenze vengono aggiunte ad un allineamento multiplo può modificare significativamente il risultato Dato che sequenze simili possono essere allineate molto facilmente e con una maggior confidenza, gli allineamenti multipli devono considerare l’ordine filo-genetico delle sequenze

Se si conosce l’origine filogenetica delle sequenze pri-ma che venga effettuato l’allineamento, le sequenze vengono aggiunte una alla volta secondo tale ordine Per prime le sequenze più strettamente correlate e per ultime le sequenze più lontane dal punto di vista evolutivo Tuttavia, gli allineamenti multipli servono spesso proprio a determinare le relazioni filogenetiche fra sequenze Serve un approccio integrato ed unificato che simulta-neamente genera allineamento e filogenia Richiede molti cicli di analisi filogenetica e di allinea-mento e può risultare molto oneroso

Algoritmo Generare una matrice delle distanze a coppie, basata su tutti i possibili allineamenti a coppie tra le sequenze considerate Utilizzare un approccio statistico, tipo UPGMA per co-struire un albero iniziale Riallineare progressivamente le sequenze seguendo l’ordine stabilito dall’albero dedotto Costruire un nuovo albero dalle distanze a coppie ottenute dal nuovo allineamento multiplo Ripetere il processo se il nuovo albero non è uguale al precedente

Concludendo…  1 È molto difficile definire la vera relazione che intercor-re tra sequenze omologhe, se non si utilizzano tecni-che automatiche Il numero di possibili alberi filogenetici è molto elevato anche per un numero di sequenze relativamente piccolo Grande varietà di approcci atti a dedurre le relazioni filogenetiche più probabili tra i geni o le specie, utilizzando le informazioni codificate nelle sequenze nucleotidiche o aminoacidiche

Concludendo…  2 Gli approcci basati sulle distanze:
Restringono il campo a poche filogenie (alberi) plausibili Considerano le similarità complessive tra le sequenze disponibili e raggruppano progressivamente quelle più simili Gli approcci di massima verosimiglianza sono compu-tazionalmente onerosi, ma focalizzano l’attenzione sulle relazioni filogenetiche che statisticamente è più probabile rappresentino la reale storia evolutiva di geni/specie

Metodi filogenetici basati sulla distanza

Presentazioni simili

Presentazione sul tema: "Metodi filogenetici basati sulla distanza"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Metodi filogenetici basati sulla distanza

Presentazioni simili

Presentazione sul tema: "Metodi filogenetici basati sulla distanza"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back