La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti.

Presentazioni simili


Presentazione sul tema: "Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti."— Transcript della presentazione:

1 Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti. ( C. R. Darwin )

2 Sommario Storia della filogenetica molecolare Vantaggi delle filogenie molecolari Alberi filogenetici Metodi basati su matrici di distanza Approcci di massima verosimiglianza Allineamenti multipli di sequenze 2

3 Introduzione 1 ricostruzione filogenetica La classificazione degli organismi in base alle specie è il risultato della ricostruzione filogenetica della loro storia evolutiva, unanalisi che oggi viene condotta principalmente a livello molecolare e si basa sul confronto delle sequenze nucleotidiche e/o aminoaci- diche filogenesi molecolare La filogenesi molecolare, usata anche per lo studio dellevoluzione di specifiche famiglie di geni e pro- teine, è un metodo di analisi nato nei primi anni `90 e cresciuto velocemente grazie ai progressi della bio- logia molecolare e della bioinformatica 3

4 Introduzione 2 I diversi tipi di dati molecolari rappresentano infatti una sorta di documento storico, che contiene in sé le tracce dei passi fondamentali dellevoluzione di un gene Inoltre, gli eventi caratteristici dellevoluzione dei geni (sostituzioni, inserzioni, delezioni e riarrangiamenti) possono essere utilizzati per risolvere quesiti sulla storia evolutiva e le relazioni tra intere specie La filogenesi molecolare è un importante strumento per la conservazione della biodiversità, il controllo delle epidemie e lanalisi della struttura delle proteine 4

5 Storia della filogenetica molecolare tassonomisti I tassonomisti hanno iniziato a classificare e raggrup- pare gli organismi molto prima che si sospettasse che il codice della vita e dellevoluzione fosse scritto nei loro genomi Darwin Linneo Facendo da sprone agli studi di anatomia e fisiologia, la tassonomia ha prodotto intuizioni notevoli, spe- cialmente dopo che le idee di Darwin ( ) hanno mostrato che il sistema proposto da Linneo ( ) per classificare gli organismi rifletteva le relazioni evolutive intercorrenti tra loro 5

6 Il sistema tassonomico di Linneo Il sistema tassonomico di Linneo SPECIE SPECIE: è la categoria più piccola e comprende organismi che hanno in comune molti caratteri; inoltre, gli organismi di una stessa specie possono accoppiarsi e avere prole feconda GENERE GENERE: comprende specie molto simili tra loro, come lasino e il cavallo o il gatto e la lince; nel caso di accoppiamento possono avere prole, ma non feconda FAMIGLIA FAMIGLIA: comprende diversi generi che presentano caratteristiche in comune; il gatto, la lince e il leone appartengono ad esempio alla stessa famiglia ORDINE ORDINE: comprende più famiglie che presentano caratteristiche fisiche comuni, come il tipo di dentatura; per esempio, un cane è molto diverso dal leone, ma entrambi appartengono allo stesso ordine CLASSE CLASSE: comprende più ordini, con alcune caratteristiche comuni; per esempio, il cane e il cavallo, pur essendo diversi, appartengono alla stessa classe dei mammiferi. PHYLUM PHYLUM: comprende più classi tra loro affini (mammiferi, uccelli, rettili, anfibi e pesci appartengono tutti al phylum dei cordati) REGNO REGNO: è il raggruppamento più vasto che comprende phyla molto diversi tra loro 2 regniregno animale vegetale Linneo raggruppò tutti gli esseri viventi in 2 regni: il regno animale e quello vegetale 6 generefamiglia phylum classe ordine regno specie

7 Il sistema tassonomico di Linneo Esempio Il sistema tassonomico di Linneo Esempio Regno Regno: Animalia Phylum Phylum: Cordata Classe Classe: Mammalia Ordine Ordine: Artiodactyla Famiglia Famiglia: Giraffidae Genere Genere: Giraffa Specie Specie: Giraffa camelopardalis 7

8 Storia della filogenetica molecolare (cont.) Le intuizioni di Linneo e Darwin permisero importanti applicazioni, quali lo sviluppo di nuove colture agricole e la scoperta di cure contro le malattie infettive, ma soprattutto svilupparono la consapevolezza che tutti gli organismi viventi del pianeta condividono un unico antenato comune La considerazione di similarità e differenze a livello molecolare sembrò unaggiunta naturale agli strumen- ti comunemente usati dai tassonomisti, dopo che G. H. F. Nuttall dimostrò ( ) che lintensità del- la risposta immunitaria generata in un organismo nel quale è stato iniettato il sangue di un altro organismo è direttamente connessa a quanto essi risultano evo- lutivamente correlati 8

9 Storia della filogenetica molecolare (cont.) Attraverso tali esperimenti, Nuttall esaminò le rela- zioni esistenti tra centinaia di organismi e concluse, per esempio, che gli uomini e le scimmie antropo- morfe condividono un antenato comune, più recente di quello comune agli altri primati Gli anticorpi e la loro mutevole capacità di interagire con altre molecole sono ancora oggi utilizzati come strumento di screening filogenetico per organismi per i quali sono disponibili pochi dati di sequenze nucleo- tidiche o proteiche Solo dal 1950 i dati molecolari sono stati impiegati in modo estensivo per ricerche filogenetiche 9

10 Storia della filogenetica molecolare (cont.) Lelettroforesi proteica permise la separazione ed il confronto di proteine in base a caratteristiche super- ficiali, come dimensione e carica La velocità a cui i genomi denaturati potevano ibridare fornì indicazioni sulla relazione che intercorreva tra organismi filogeneticamente correlati Anche il sequenziamento delle proteine (a partire dagli anni `70) divenne possibile e si potè ottenere la sequenza aminoacidica completa di molte proteine essenziali Grande quantità di parametri molecolari misurabili e possibilità di andare oltre le similitudini morfologiche 10

11 Storia della filogenetica molecolare (cont.) mappe di restrizione Dagli anni `70, allorché linformazione genomica è divenuta disponibile, prima sottoforma di mappe di restrizione (che descrivono la disposizione relativa dei vari siti riconosciuti dagli enzimi di restrizione sulla sequenza di DNA), quindi come dati di sequenza di DNA, sono stati sviluppati diversi approcci matemati- camente rigorosi e utili ai biologi molecolari Diventava possibile assegnare confidenza statistica ai raggruppamenti filogenetici e relativamente facile formulare ipotesi verificabili sui processi evolutivi 11

12 Storia della filogenetica molecolare (cont.) Oggi, i dati di sequenza di DNA sono assai più abbon- danti di qualsiasi altra forma di informazione mole- colare Gli approcci tassonomici tradizionali, basati sulle carat- teristiche morfologiche, continuano a fornire dati com- plementari agli studi evolutivi, così come le informazioni paleontologiche offrono indizi sulla reale scansione temporale con cui gli organismi si differenziano e si evolvono Tecniche come la PCR, però, costituiscono la vera frontiera della ricerca, per rispondere alle domande più salienti riguardo alla storia ed alle relazioni delle forme di vita sul pianeta 12

13 Vantaggi delle filogenie molecolari 1 Dato che levoluzione corrisponde ad un cambiamento genetico, le relazioni genetiche sono di primaria im- portanza nella decifrazione delle relazioni evolutive Hp.: organismi con un elevato grado di similarità mole- colare sono filogeneticamente più vicini rispetto a quelli dissimili fenotipi genotipi Prima che gli strumenti della biologia molecolare fos- sero in grado di fornire dati molecolari utili per analisi filogenetiche, i tassonomisti erano costretti a fidarsi della comparazione dei fenotipi (laspetto esteriore di un organismo) per dedurre i loro genotipi (i geni che lo codificano) Fenotipi simili geni simili che codificano per il dato fenotipo Fenotipi diversi diverso codice genetico 13

14 Vantaggi delle filogenie molecolari 2 Originariamente, nellesame dei fenotipi si consideravano le caratteristiche anatomiche più evidenti; successivamente, sono state prese in considerazione anche le caratteristiche comportamentali, ultrastrutturali e biochimiche Costruzione di alberi evolutivi ancora in uso per piante ed animaliLimitazioni evoluzione convergente Fenotipi simili possono svilupparsi in organismi filogeneti- camente distanti, per evoluzione convergente, quando due o più specie, legate allo stesso tipo di ambiente, sviluppano caratteri morfologici adeguati allhabitat (nello stesso momen- to, o anche con intervalli di tempo molto lunghi) Difficoltà nello studio di caratteristiche fenotipiche utilizzabili per comparazione Difficoltà nella selezione di caratteristiche fenotipiche infor- mative 14

15 Vantaggi delle filogenie molecolari 3 Esempi La forma idrodinamica del corpo, con arti a paletta e estremità posteriore bilobata si è evoluta almeno quattro volte nel corso della storia della terra: nei pesci, negli ittiosauri (rettili), nei delfini (mammiferi) e nei pinguini (uccelli) I batteri hanno poche caratteristiche facilmente osservabili, anche con analisi al microscopio Quali caratteristiche fenotipiche selezionare per mettere a confronto batteri, vermi e mammiferi, così dissimili fra loro? 15

16 Vantaggi delle filogenie molecolari 4 Le analisi che si basano sulle sequenze nucleotidiche o proteiche non presentano tali limitazioni, perché molte mo- lecole omologhe sono essenziali per tutti gli organismi viventi Anche se la velocità relativa di evoluzione molecolare può variare da una discendenza allaltra (e i tempi di divergenza dedotti da analisi molecolari devono pertanto essere trattati con cautela), gli approcci molecolari per generare filogenie sono estremamente affidabili Probabilmente i più affidabili, anche in presenza di dati alter- nativi (es., morfologici), perché i dati di sequenza sono meno sensibili alla selezione naturale Nei casi in cui si rilevano differenze tra filogenie molecolari e morfologiche, si possono osservare gli effetti della selezione naturale sulle differenze fenotipiche 16

17 Alberi filogenetici 1 Tramite albero filogenetico è pos- sibile non solo esprimere le rela- zioni parentali allinterno di un insieme di dati, ma anche il loro tempo di divergenza e la natura dei loro antenati comuni 17 Albero filogenetico Albero filogenetico: rappresentazione grafica delle relazioni evolutive tra tre o più geni od organismi

18 Alberi filogenetici 2 18 dendrogrammi Noti anche come dendrogrammi, negli alberi filogene- tici, ogni nodo rappresenta una distinta unità tasso- nomica nodi terminali nodi interni I nodi terminali corrispondono ad un gene o ad un organismo per cui esistono dati empirici, mentre i nodi interni rappresentano un antenato comune ipotizzato o dedotto, che dà origine a due discendenze indi- pendenti in qualche punto nel passato

19 Alberi filogenetici 3 (((I, II), (III, IV)), V) 19 D V C A IV III II I B Esempio I nodi I, II, III, IV e V sono nodi terminali che rap- presentano organismi di cui sono disponibili le sequenze I nodi interni A, B, C e D rappresentano gli antenati dedotti, per cui non sono più disponibili dati empirici formato di Newick Una notazione alternativa è il formato di Newick:

20 Alberi filogenetici 4 20 biforcati Quasi tutti i nodi interni hanno solo due discendenze, vengono detti pertanto biforcati multiforcazioni Sono possibili però anche discendenze multiple, che danno luogo a multiforcazioni I nodi multiforcati possono essere interpretati in due modi Una popolazione ancestrale dà origine simultaneamente a tre o più discendenze indipendenti Esistono due o più biforcazioni quasi nello stesso punto del passato, ma il numero limitato di dati a dispo- sizione rende impossibile distinguere lordine in cui sono avvenute

21 Alberi filogenetici 5 21 Se le ramificazioni di un albero filogenetico possono essere utilizzate per trasmettere informazioni sulla sequenza con cui sono avvenuti gli eventi evolutivi, la lunghezza dei rami può essere utilizzata per indicare di quanto divergono differenti insiemi di dati Alberi in scala Alberi in scala, in cui la lunghezza degli archi è proporzionale alla differenza fra coppie di nodi adiacenti Alberi additivi Alberi additivi: la somma delle lunghezze dei rami, che connettono due nodi qualsiasi, è una rappresentazione delle differenze tra loro accumulate Alberi non in scala Alberi non in scala: tutti i nodi terminali sullo stesso livello, si deducono solo le parentele, ma non si quantifica la distanza

22 Alberi filogenetici 6 22 Unaltra importante distinzione nella filogenetica si ha tra gli alberi che deducono un antenato comune e la direzione dellevoluzione e quelli che non lo fanno alberi con radice Negli alberi con radice, un singolo nodo viene definito come antenato comune e un unico percorso evolutivo conduce da esso a qualsiasi altro nodo dellalbero alberi senza radice Gli alberi senza radice specificano solo lesistenza di relazio- ni fra nodi adiacenti, ma non forniscono alcuna informa- zione circa la direzione in cui avviene levoluzione gruppo esterno La radice può essere assegnata ad alberi senza radice utilizzando un gruppo esterno, cioè una specie che si è separata prima dalle altre specie oggetto di studio Esempio Esempio: nel caso di uomini e gorilla, quando i babbuini si utilizzano come gruppo esterno, la radice dellalbero può essere posta da qualche parte lungo il ramo che connette i babbuini allantenato comune di uomini e gorilla

23 Alberi filogenetici 7 23 Alberi filogenetici con e senza radice

24 Alberi filogenetici 8 24 In una situazione in cui vengono considerate solo tre specie, è possibile disegnare tre alberi con radice, ma solo uno senza radice

25 Alberi filogenetici 9 25 Più in generale, per ogni albero senza radice, ci sono 2 s3 alberi con radice, dove s è il numero di unità tassonomiche (se si considerano solo alberi dicotomici) 2 s3 corrisponde al numero di rami nellalbero senza radice

26 Alberi filogenetici Generalizzando al caso di alberi con multiforcazioni: N R (2 s3)![2 s2 ( s2)!] N U (2 s5)![2 s3 ( s3)!] Numero specie Numero alberi con radice Numero alberi senza radice

27 Alberi filogenetici Neppure il più veloce dei computer può far fronte ad una tale esplosione computazionale per riuscire a valutare la qualità relativa di tutti gli alberi possibili, per più di poche decine di sequenze o di specie Impossibile la ricerca esaustiva Occorre tentare di focalizzare lattenzione solo su quegli alberi che più probabilmente riflettono le reali relazioni che intercorrono tra i vari insiemi di dati Daltra parte, solo uno di questi rappresenta il vero percorso evolutivo fra i geni o le specie considerate

28 Alberi di geni vs alberi di specie 1 28 alberi genetici alberi di specie Gli alberi filogenetici basati sulla divergenza osservata fra geni omologhi si chiamano alberi genetici (da distinguersi dagli alberi di specie) Possono rappresentare la storia evolutiva di un gene, ma non necessariamente quella della specie in cui si trova alberi di specie Gli alberi di specie si ottengono dallanalisi dei dati provenienti da molteplici geni Esempio Esempio: in uno studio recente sullevoluzione delle specie vegetali sono stati utilizzati circa cento geni diversi per generare un albero filogenetico di specie per le piante

29 Alberi di geni vs alberi di specie 2 29 Le divergenze a livello di geni tipicamente si verificano prima che una popolazione si divida, il che avviene quando si creano nuove specie La differenza tra alberi di geni e di specie tende a diventare particolarmente importante quando si consi- derano loci la cui diversità allinterno delle popolazioni è vantaggiosa, come il locus dellantigene leucocitario umano HLA Se si utilizzassero solo gli alleli HLA per determinare alberi di specie, molti uomini verrebbero raggruppati con i gorilla, perché lorigine del loro polimorfismo è antecedente alla speciazione

30 Alberi di geni vs alberi di specie 3 30 HLA Albero filogenetico dei primati e divergenza del gene HLA Albero filogenetico delle piante

31 Alberi di geni vs alberi di specie 4 31 Vantaggi nellutilizzo di alberi di geni Descrizione dei dati non ambigua Nessuna interferenza con somiglianze dovute a effetti ambientali non genetici (levoluzione convergente impli- ca spesso fenotipi simili ma genotipi differenti) Maggiore facilità di stima dei tempi di divergenza (cioè della lunghezza dei rami) Modelli statistici rigorosi Si possono analizzare sequenze di DNA non codificante Tutti gli individui hanno il DNA!

32 Alberi di geni vs alberi di specie 5 32 Svantaggi nellutilizzo di alberi di geni omoplasia Lomoplasia (che consiste in una semplice somiglianza con un antenato il quale, pur possedendo lo stesso tratto, non lha trasmesso ereditariamente al soggetto in esame) può essere frequente Mutazioni ricorrenti modificano la relazione tra distanza genetica e distanza temporale Duplicazioni e trasferimento orizzontale di geni possono essere identificati, ma possono creare problemi nella ricostruzione filogenetica Omologia (cioè la somiglianza dovuta a eredità da un antenato che possiede quel determinato carattere) e omoplasia non possono essere distinte attraverso una analisi dettagliata come per i caratteri fenotipici

33 Alberi di geni vs alberi di specie 5 33 La relazione tra distanza genetica e tempo di divergenza non è lineare perché lo stesso sito può aver subito più sostituzioni nel corso dellevoluzione

34 Dati di carattere e di distanza 1 34 I dati molecolari, utilizzati per generare alberi filoge- netici, appartengono a due categorie Caratteri (caratteristiche ben definite che si presentano in un numero limitato di istanze diverse) Distanze (misura della differenza tra due insiemi di dati) Sia le sequenze nucleotidiche, sia quelle aminoacidi- che sono esempi di dati che descrivono un insieme di istanze discrete di caratteri Altri insiemi di dati di tipo carattere sono quelli che si incontrano nella tassonomia basata su caratteristiche anatomiche o comportamentali, quali il colore di un organismo o la quantità di tempo necessaria per rea- gire ad un particolare stimolo

35 Dati di carattere e di distanza 2 35

36 Dati di carattere e di distanza 3 36 I dati di carattere possono essere facilmente convertiti in dati di distanza, una volta stabiliti criteri opportuni per determinare la similarità fra tutti i possibili stati caratteriali Per esempio, un valore di distanza D fra due geni è dato da D n l, dove n è il numero di non corrisponden- ze osservate nellallineamento mentre l ne rappresen- ta la lunghezza Aggiustamenti per tener conto delle diverse frequenze di transizione e transversione Aggiustamenti per tenere conto di sostituzioni multiple Normalizzazione per ottenere il numero di cambiamenti per 100 nucleotidi

37 Dati di carattere e di distanza 4 37 La distanza fra proteine può essere calcolata in modo analogo, allineando le sequenze aminoacidiche Perdita di informazione potenzialmente utile Maggior difficoltà nel confronto fra sequenze proteiche: non solo è più probabile che alcuni aminoacidi siano sostituiti con altri in base allattività chimica simile dei loro gruppi funzionali, ma può variare anche il numero di sostituzioni a livello di DNA per ottenere una sosti- tuzione aminoacidica

38 Dati di carattere e di distanza 5 38 Gli approcci matematici utilizzati per la costruzione di alberi filogenetici generalmente trascurano limportan- za di certe sottigliezze biologiche presenti negli in- siemi di dati fenetistico Lapproccio fenetistico, proposto da R. Sokal e P. Sneath nel 1963, cerca di superare la soggettività im- plicita nellinterpretazione del record fossile e dellim- portanza evolutiva dei caratteri degli esseri viventi I fenetisti non danno pesi diversi ai vari caratteri: a ciascuno di essi assegnano un valore (0 lassenza, 1 la presenza); sono più vicine, quindi, le specie che con- dividono un maggior numero di caratteri e più lontane quelle che ne condividono numericamente meno La precisione del metodo migliora allaumentare del numero di caratteri selezionati per lanalisi

39 Dati di carattere e di distanza 6 39 Il problema principale dellapproccio fenetistico consiste nellaggregare un notevole numero di dati in una singola misura di somiglianza una specie entra a far parte del gruppo in cui è presente la specie più simile ad essa, oppure… …del gruppo in cui la media (numerica) degli individui è più vicina a quella della specie da classificare unità tassonomiche operative Ciò che la tassonomia numerica ricostruisce con questo metodo non sono specie naturali ma unità tassonomiche operative (OTU), individuate cioè dal naturalista e non rappresentanti necessariamente una divisione realmente presente in natura

40 Dati di carattere e di distanza 7 40 cladisti I cladisti, viceversa, sono generalmente più interessati ai cammini ed ai pattern evolutivi che non alle rela- zioni tra gli insiemi di dati, preferendo approcci più biologici per la costruzione degli alberi filogenetici Obiettivo principale della cladistica è infatti classificare gli esseri viventi seguendo la gerarchia filogenetica derivante dalla storia della vita sulla Terra Poiché questa è stata unica, fornisce loggettività assoluta a questo tipo di classificazione Padre della scuola cladistica viene considerato lentomo- logo tedesco W. Hennig (le cui idee sono racchiuse nellopera Grundzüge einer Theorie der Phylogene- tischen Systematik, 1950) sistematica filogenetica In realtà Hennig non parlò mai di cladistica, ma di sistematica filogenetica

41 Dati di carattere e di distanza 8 41 Lidea di Hennig fu quella di suddividere gli esseri viventi in cladi: poiché, generalmente, quando una specie in natura si divide dà origine a due specie discendenti (specie sorelle), si può considerare gruppo tassonomico linsieme delle due specie discendenti e del loro antenato comune In questo modo si formerà una classificazione naturale che può teoricamente risalire fino al primo essere vivente comparso sulla Terra

42 Metodi basati su matrici di distanza 1 42 Fra tutti gli alberi possibili, distinguere quale sia quello che descrive levoluzione di un gruppo di geni o organismi è un compito computazionalmente difficile Le matrici di distanza a coppie riassunti tabulari delle differenze fra tutti gli insiemi di dati da analiz- zare costituiscono linput tipico per i più diffusi algoritmi per il calcolo degli alberi filogenetici UPGMAUnweightedPairGroup Method with Arith- metic Mean UPGMA(UnweightedPairGroup Method with Arith- metic Mean) è il più datato fra i metodi basati sul- lutilizzo delle matrici di distanza, ed il più semplice Si devono possedere informazioni sulla distanza gene- tica fra tutti i taxa (singolare taxon, le unità tassono- miche) considerati, che vanno a costituire una matrice triangolare (inferiore)

43 Metodi basati su matrici di distanza 2 43 Si assuma che le distanze fra ogni coppia di taxa siano fornite dalla seguente matrice: d AB rappresenta la distanza tra le specie A e B (il numero di nucleotidi non corrispondenti, diviso la lun- ghezza delle sequenze allineate, ad esempio) d AC è la distanza tra i taxa A e C … SpecieABC B d AB C d AC d BC D d AD d BD d CD

44 Metodi basati su matrici di distanza 3 44 Nella prima fase dellalgoritmo UPGMA si individuano le due specie separate dalla minor distanza, inseren- dole nello stesso gruppo composito Supponendo che il valore più piccolo nella matrice corrisponda a d AB, le specie A e B sono le prime ad essere raggruppate (A,B) Dopo il primo raggruppamento, viene calcolata una nuova matrice delle distanze, in cui le distanze tra il nuovo gruppo (A,B) e le specie C e D vengono calcolate come medie aritmetiche delle distanze originali delle due specie costituenti il gruppo d (AB)C 12( d AC d BC ) d (AB)D 12( d AD d BD )

45 Metodi basati su matrici di distanza 4 45 In questa nuova matrice, verranno nuovamente indivi- duate le specie separate dalla minore distanza, che saranno raggruppate a formare una nuova specie composita Il processo viene reiterato fino ad ottenere un unico raggruppamento che include tutte le specie originaria- mente analizzate Se per rappresentare la distanza evolutiva tra le specie si usa un albero in scala, dai punti di dirama- zione si avranno archi uscenti di ugual lunghezza (pari alla metà della distanza originale fra le specie raggruppate)

46 Metodi basati su matrici di distanza 5 46 Esempio Si consideri lallineamento fra le cinque sequenze di DNA A: GTGCTGCACG GCTGAGTATA GCATTTACCC TTCCATCTTC AGATCCTGAA B: ACGCTGCACG GCTCAGTGTG GTGTTTACCC TCCCATCTTC AGATCCTGAA C: GTGCTGCACG GCTCGGCGCA GCATTTACCC TCCCATCTTC AGATCCTATC D: GTATCACACG ACTCAGCGCA GCATTTGCCC TCCCGTCTTC AGATCCTAAA E: GTATCACATA GCTCGCGGCA GCATTTGCCC TCCCGTCTTC AGATCTAAAA Il confronto a coppie porta alla costruzione della matrice Dato che tutte le sequenze hanno la stessa lunghezza e non presentano gap, le distanze sono calcolate come il numero di nucleotidi non corrispondenti in ogni confronto a coppie SpecieABCD B9 C811 D E

47 Metodi basati su matrici di distanza 6 47 Esempio (cont.) La distanza minore tra due sequenze per lallineamento multiplo in analisi corrisponde a d DE, quindi le specie D ed E vengono raggruppate e la nuova matrice delle distanze viene calcolata considerando il gruppo composito (D,E) al posto di D ed E E (D,E) D SpecieABC B9 C811 DE13,516,511,5 Le distanze tra le specie rimanenti ed il nuovo gruppo vengono deter- minate considerando la distanza media tra i suoi due membri (D ed E) e tutte le altre specie

48 Metodi basati su matrici di distanza 7 48 Esempio (cont.) La minor distanza di separazione tra due specie in questa nuova matrice è quella tra A e C, quindi si forma il nuovo gruppo (A,C) e si ricalcola la matrice delle distanze come SpecieBAC 10 DE16,512,5 E ((A,C),(D,E)) D C (A,C) A (D,E)

49 Metodi basati su matrici di distanza 8 49 Esempio (cont.) In questultima matrice la distanza minore è tra le specie (A,C) e B ( d (AC)B10), che quindi vengono raggruppate Lalbero filogenetico completo risulta pertanto: (((A,C),B),(D,E)) C A E B D

50 Metodi basati su matrici di distanza 9 50 La generazione successiva della matrice delle distan- ze, utilizzata dal metodo UPGMA, è loperazione com- putazionalmente più importante del processo che porta alla costruzione dellalbero filogenetico Mentre piccoli insiemi di dati possono essere facilmen- te analizzati a mano, tramite UPGMA, il problema diventa rapidamente oneroso (ma comunque di com- plessità polinomiale) per insiemi di dati grandi (sia in numero sia relativamente alla lunghezza delle se- quenze analizzate)

51 Stima della lunghezza dei rami 1 51 Oltre a descrivere la relazione evolutiva fra sequenze, la topologia degli alberi filogenetici può fornire infor- mazioni sul loro grado di divergenza Cladogrammi Cladogrammi, in cui la lunghezza degli archi è propor- zionale al numero di cambiamenti accumulati (o, utiliz- zando lorologio molecolare, al tempo dalla speciazione) Lunghezza dei rami calcolata in base al contenuto della matrice di distanza Se si assume che la velocità di evoluzione sia costante lungo tutte le discendenze nodi interni biforcati a ugual distanza da ciascuna delle specie a cui danno origine

52 Stima della lunghezza dei rami 2 52 Esempio SpecieABCD B9 C811 D E SpecieBAC 10 DE16,512,5 SpecieABC B9 C811 DE13,516,511,5 E D B A C 5

53 Stima della lunghezza dei rami 3 53 La determinazione della lunghezza dei rami in alberi in scala si complica quando non si può assumere che la velocità di evoluzione sia la stessa per tutte le discendenze Si consideri lalbero senza radice: d AC x y d AB x z d BC z y da cui, con una semplice manipolazione si ottiene x ( d AB d AC d BC )2 y ( d AC d BC d AB )2 z ( d AB d BC d AC )2 A y B C x z

54 Stima della lunghezza dei rami 4 54 Le lunghezze dei rami per alberi più complicati, che presentano più di un punto di ramificazione, possono essere stimate considerando comunque solo tre rami alla volta I rami da considerare sono: i due rami che connettono le due specie filogenetica- mente più vicine in base alla matrice di distanze il ramo che connette lantenato comune alle due specie filogeneticamente più vicine con lantenato di tutte le altre specie

55 Metodo delle distanze trasformate 1 55 Il punto di forza degli approcci basati su matrici di distanza sta nel fatto che, scelta opportunamente una metrica, essi lavorano ugualmente bene con dati molecolari, morfologici o con una combinazione di entrambi Viceversa, la debolezza di UPGMA sta nellassunzione di una velocità di evoluzione costante lungo tutte le discendenze Variazioni nelle frequenze di sostituzione possono cau- sare la costruzione di alberi topologicamente scorretti

56 Metodo delle distanze trasformate 2 56 Esempio Esempio: per linsieme di sequenze A: GTGCTGCACG GCTGAGTATA GCATTTACCC TTCCATCTTC AGATCCTGAA B: ACGCTGCACG GCTCAGTGTG GTGTTTACCC TCCCATCTTC AGATCCTGAA C: GTGCTGCACG GCTCGGCGCA GCATTTACCC TCCCATCTTC AGATCCTATC D: GTATCACACG ACTCAGCGCA GCATTTGCCC TCCCGTCTTC AGATCCTAAA E: GTATCACATA GCTCGCGGCA GCATTTGCCC TCCCGTCTTC AGATCTAAAA unindicazione che la velocità di evoluzione non è costante è data dalle lunghezze dei rami del cladogramma, che non sono additive d AE mentre per la matrice di distanze è d AE 15 E D C A

57 Metodo delle distanze trasformate 3 57 Alcuni approcci alternativi a UPGMA basati su matrici delle distanze considerano la possibilità di velocità evolutive differenti in discendenze distinte metodo delle distanze trasformate gruppo esterno gruppi interni Il metodo delle distanze trasformate, proposto da J. Farris nel 1997, sfrutta lintroduzione di un gruppo esterno, una specie che ha subito divergenza prima di tutte le altre dallantenato comune di tutte le specie rappresentate nella matrice (dette gruppi interni)

58 Metodo delle distanze trasformate 4 58 Esempio Esempio: utilizzando le sequenze A: GTGCTGCACG GCTGAGTATA GCATTTACCC TTCCATCTTC AGATCCTGAA B: ACGCTGCACG GCTCAGTGTG GTGTTTACCC TCCCATCTTC AGATCCTGAA C: GTGCTGCACG GCTCGGCGCA GCATTTACCC TCCCATCTTC AGATCCTATC D: GTATCACACG ACTCAGCGCA GCATTTGCCC TCCCGTCTTC AGATCCTAAA assumiamo che la specie D sia un gruppo esterno rispetto alle specie A, B e C e che le vere relazioni fra le specie siano rappresentate da (((A,B),C),D) nel formato di Newick o dallalbero filogenetico C D B A Il numero accanto ad ogni arco corrisponde al numero di muta- zioni nelle 50 coppie di basi che si sono accumulate lungo ciascu- na discendenza durante ogni sta- dio dellevoluzione

59 Metodo delle distanze trasformate 5 59 Esempio (cont.) In questa situazione, D può essere usato come gruppo esterno per trasformare le distanze che separano le altre specie attraverso lequazione ( d ij ) ( d ij d i D d j D )2 d D dove ( d ij ) è la distanza trasformata tra le specie i e j e d D è la distanza media tra il gruppo esterno e tutti i gruppi interni (in questo caso pari a 373) Il termine additivo che fornisce la distanza media dal gruppo esterno è stato introdotto per garantire la positività della distanza trasformata (valori negativi non hanno senso in una prospettiva evolutiva)

60 Metodo delle distanze trasformate 6 60 Esempio (cont.) Può essere di conseguenza calcolata la matrice delle distanze trasformate per le specie A, B e C Lapproccio classico UPGMA può quindi essere utilizzato con la nuova matrice e produce lalbero filogenetico con la topologia attesa SpecieAB B 103 C 163

61 Metodo delle distanze trasformate 7 61 La potenza dellapproccio delle matrici di distanze trasformate deriva da una semplice osservazione: i gruppi interni evolvono separatamente solo dopo la loro divergenza e qualsiasi differenza nel numero di sostituzioni accumulate deve essersi verificata solo dopo la speciazione I gruppi esterni forniscono un sistema di riferimento oggettivo per confrontare le frequenze di sostituzione Il metodo delle matrici di distanze trasformate può essere applicato anche quando non è possibile deter- minare un gruppo esterno Anche un gruppo interno può fare da riferimento per il ricalcolo delle distanze; tuttavia, solo i gruppi esterni permettono laggiunta della radice in un albero filoge- netico

62 Metodo delle relazioni di vicinanza 1 62 Una diversa variante del metodo UPGMA enfatizza laccoppiamento delle specie in modo tale da costruire alberi con lunghezze di archi complessive che siano le minori possibili vicine In un qualsiasi albero senza radice, le coppie di specie che sono separate tra loro da un solo nodo interno sono definite vicine Dalla topologia dellalbero si possono normalmente trarre utili relazioni algebriche tra vicini

63 Metodo delle relazioni di vicinanza 2 63 Esempio Per un albero con lunghezze degli archi additive si ha d AC d BD d AD d BC a b c d 2 e d AB d CD 2 e dove a, b, c e d sono le lunghezze dei rami terminali ed e è la lunghezza del ramo centrale condizioni dei quattro punti Le seguenti condizioni, note come condizioni dei quattro punti, saranno altresì vere d AB d CD d AC d BD d AB d CD d AD d BC e D C c d A B a b

64 Metodo delle relazioni di vicinanza 3 64 Si determina, fra tutti i possibili arrangiamenti a coppie tra le quattro specie, quelli che soddisfano la condizione dei quattro punti e si procede al raggrup- pamento dei relativi elementi Si è assunto fin qui che gli alberi siano additivi: il metodo non è particolarmente sensibile alla deviazione da questa assunzione, che può tuttavia causare la costruzione di un albero topologicamente scorretto

65 Metodo delle relazioni di vicinanza 4 65 Nel 1977, S. Sattah e A. Tversky suggerirono un modo per utilizzare lapproccio di vicinanza per alberi filogenetici relativi a più di quattro specie 1) Si genera una matrice di distanze 2) Si utilizzano gli elementi della matrice per generare, per quattro specie, d AB d CD, d AC d BD, d AD d BC 3) Si assegna un punteggio pari ad 1 alla coppia che produce il valore minimo, 0 alle altre 4) Si ripete il procedimento relativamente a tutti gli insiemi di quattro specie che si possono formare a partire dai dati iniziali 5) La coppia di specie con il punteggio più alto al termine dellanalisi viene raggruppata 6) Si ricalcola la matrice delle distanze e si ripete il procedimento dal passo 2) fino a quando rimangono tre sole specie e la topologia dellalbero è determinata univocamente Computazionalmente oneroso per più di cinque o sei specie!

66 Metodi neighbor-joining 1 66 neighborjoining Sono possibili altri approcci basati sulla vicinanza, fra cui diverse varianti chiamate metodi neighborjoining Si inizia con la creazione di un albero a stella dove tutte le specie, a prescindere dal loro numero, discendono da un singolo nodo centrale Si cercano, in maniera sequenziale, i vicini che mini- mizzano la lunghezza totale dei rami dellalbero La principale differenza tra i diversi metodi di neighbor joining è il modo in cui si determina la somma delle lunghezze degli archi in ogni reiterazione del processo

67 Metodi neighbor-joining 2 67 I

68 Metodi neighbor-joining 3 68 un gruppo esterno e d ij è la distanza tra le le specie i e j J. Studier e K. Keppler (1988) Q 12 ( N2) d 12 d 1 i d 2 i 1 2 i j N N. Saitou e M. Nei (1987) S 12 (1(2( N2)) ( d 1 k d 2 k ) 12 d 12 (1 N2)( d ij ) dove ogni coppia di specie assume la posizione 1 e 2 nellalbero, N è il numero delle specie rappresentate nella matrice delle distanze, k è

69 Metodi neighbor-joining 4 69 In ogni iterazione del processo vengono considerate tutte le possibili coppie di specie e la coppia che pro- duce un albero con il valore minimo della lunghezza totale degli archi ( S o Q ) viene raggruppata, per poi generare una nuova matrice delle distanze È stato dimostrato che le due relazioni per S e Q sono teoricamente equivalenti, così come anche i metodi neighborjoining e quello delle relazioni di vicinanza, dato che entrambi dipendono dalle condizioni dei quattro punti e dallassunzione di additività Si generano alberi con topologie molto simili, se non identiche

70 Approcci di massima verosimiglianza 1 70 Il metodo della massima verosimiglianza non utilizza la matrice delle distanze ma direttamente le sequenze Si cerca di quanticare quale sia la probabilità che ad una certa ipotesi H, nel nostro caso un albero logenetico, corrisponda un certo insieme di dati D, nella fattispecie un allineamento multiplo Pr ( D | H ) Lalbero che ottiene il massimo valore di probabilità rappresenta la stima di massima verosimiglianza della logenesi tra le sequenze considerate Lalbero di massima verosimiglianza è quindi quello che meglio giustifica il set di dati in esame, ovvero il multiallineamento

71 Approcci di massima verosimiglianza 2 71 La probabilità viene calcolata come prodotto della proba- bilità che ha ciascun sito del multiallineamento di presen- tare un certo carattere se ha avuto luogo un particolare processo evolutivo (rappresentato dallalbero logenetico in questione) Difficoltà dovute alla: mancanza di conoscenza della sequenza nucleotidica degli antenati possibilità di sostituzioni multiple in uno o più siti possibile interdipendenza fra siti Tutte le variabili del modello, come, per esempio, tassi di sostituzione, topologia dellalbero, lunghezza dei rami, vengono calibrate per massimizzare il valore di verosimi- glianza Principale limitazione: elevata complessità computazionale

72 Allineamenti multipli di sequenze 1 72 Gli allineamenti di sequenze sono facilitati per se- quenze simili, allinterno delle quali si siano verificati pochi eventi indel Lallineamento simultaneo di più di due sequenze è unestensione naturale dellallineamento a coppie Lordine in cui le sequenze vengono aggiunte ad un allineamento multiplo può modificare significativamente il risultato Dato che sequenze simili possono essere allineate molto facilmente e con una maggior confidenza, gli allineamenti multipli devono considerare lordine filo- genetico delle sequenze

73 Allineamenti multipli di sequenze 2 73 Se si conosce lorigine filogenetica delle sequenze pri- ma che venga effettuato lallineamento, le sequenze vengono aggiunte una alla volta secondo tale ordine Per prime le sequenze più strettamente correlate e per ultime le sequenze più lontane dal punto di vista evolutivo Tuttavia, gli allineamenti multipli servono spesso proprio a determinare le relazioni filogenetiche fra sequenze Serve un approccio integrato ed unificato che simulta- neamente genera allineamento e filogenia Richiede molti cicli di analisi filogenetica e di allinea- mento e può risultare molto oneroso

74 Allineamenti multipli di sequenze 3 74 Algoritmo 1) Generare una matrice delle distanze a coppie, basata su tutti i possibili allineamenti a coppie tra le sequenze considerate 2) Utilizzare un approccio statistico, tipo UPGMA per co- struire un albero iniziale 3) Riallineare progressivamente le sequenze seguendo lordine stabilito dallalbero dedotto 4) Costruire un nuovo albero dalle distanze a coppie ottenute dal nuovo allineamento multiplo 5) Ripetere il processo se il nuovo albero non è uguale al precedente

75 Concludendo… 1 75 È molto difficile definire la vera relazione che intercor- re tra sequenze omologhe, se non si utilizzano tecni- che automatiche Il numero di possibili alberi filogenetici è molto elevato anche per un numero di sequenze relativamente piccolo Grande varietà di approcci atti a dedurre le relazioni filogenetiche più probabili tra i geni o le specie, utilizzando le informazioni codificate nelle sequenze nucleotidiche o aminoacidiche

76 Concludendo… 2 76 Gli approcci basati sulle distanze: Restringono il campo a poche filogenie (alberi) plausibili Considerano le similarità complessive tra le sequenze disponibili e raggruppano progressivamente quelle più simili Gli approcci di massima verosimiglianza sono compu- tazionalmente onerosi, ma focalizzano lattenzione sulle relazioni filogenetiche che statisticamente è più probabile rappresentino la reale storia evolutiva di geni/specie


Scaricare ppt "Metodi filogenetici basati sulla distanza 1 Non è la più forte delle specie che sopravvive, né la più intelligente, ma quella più reattiva ai cambiamenti."

Presentazioni simili


Annunci Google