La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Metodi filogenetici basati sul carattere 1 Questa nostra terra, che un tempo ci sembrava infinitamente grande, deve essere considerata nella sua piccolezza.

Presentazioni simili


Presentazione sul tema: "Metodi filogenetici basati sul carattere 1 Questa nostra terra, che un tempo ci sembrava infinitamente grande, deve essere considerata nella sua piccolezza."— Transcript della presentazione:

1 Metodi filogenetici basati sul carattere 1 Questa nostra terra, che un tempo ci sembrava infinitamente grande, deve essere considerata nella sua piccolezza. Viviamo in un sistema chiuso, dipendenti gli uni dagli altri e dipendenti tutti dalla terra stessa. Tutto ciò che ci divide è infinitamente meno importante del pericolo che ci unisce. ( C. R. Darwin )

2 Sommario Parsimonia e filogenesi Sequenze ancestrali dedotte Strategie di ricerca veloce Alberi consenso Confidenza di un albero Confronto di metodi filogenetici Filogenie molecolari 2

3 Introduzione inferenza filogenetica Lanalisi filogenetica ha lo scopo di risalire alle rela- zioni evolutive tra entità diverse, dette unità tassono- miche, rappresentate da sequenze di acidi nucleici, ricostruendone quindi la più probabile storia evolutiva inferenza filogenetica Dal punto di vista genetico, levoluzione consiste nel- laccumulo di mutazioni: perciò è possibile ricostruire le relazioni evolutive fra acidi nucleici semplicemente sulla base del grado di somiglianza/diversità della sequenza nucleotidica Scopo ultimo, quindi, dellanalisi filogenetica è quello di costruire un albero filogenetico che descriva le più probabili relazioni evolutive tra le specie (sequenze) da analizzare 3

4 Parsimonia parsimonia Il concetto di parsimonia (dal latino parcere, rispar- miare) è centrale nei metodi di ricostruzione filogene- tica basati sul carattere In senso biologico, il termine è utilizzato per descri- vere il processo che porta a preferire un particolare percorso evolutivo sulla base del minor numero di eventi mutazionali Le due premesse che stanno alla base del concetto di parsimonia biologica si possono riassumere come: le mutazioni sono eventi estremamente rari più un modello postula eventi poco probabili, meno è probabile che il modello sia corretto La relazione che richiede il minor numero di mutazioni per spiegare lo stato corrente delle sequenze conside- rate è quella più probabilmente corretta 4

5 Parsimonia, perché? 1 tra diverse spiegazioni, la più semplice è da preferire Principio filosofico enunciato nel XIV sec. da William di Ockham: tra diverse spiegazioni, la più semplice è da preferire; inutile ricorrere a molte assunzioni se lo stesso evento può essere spiegato con poche Entia non sunt multiplicanda praeter necessitatem Dio ha creato tutto, e Dio non avrebbe creato nulla di complesso se poteva fare la stessa cosa in maniera semplice Rasoio di Ockham Rasoio di Ockham: principio alla base del pensiero scientifico moderno; nella sua forma più immediata suggerisce linutilità di formulare più teorie di quelle che siano strettamente necessarie per spiegare un dato fenomeno 5

6 Parsimonia, perché? 2 La selezione naturale favorisce gli adattamenti rapidi, ossia ottenuti attraverso il numero minore possibile di passi evolutivi Statisticamente, i cambiamenti evolutivi sono rari, quindi è improbabile che avvengano molte volte siti informativi non informativi Importante la distinzione fra siti informativi e non informativi 6

7 Siti informativi e non informativi 1 Quali siti allinterno di un allineamento multiplo di sequenza hanno un contenuto informativo utile per un approccio parsimonioso? Esempio 1 7 Sequenzaabcdef 1 GGGGGG 2 GGGAGT 3 GGATAG 4 GATCAT

8 Siti informativi e non informativi 2 Esempio 1 (cont.) La relazione tra quattro sequenze può essere definita da tre alberi senza radice diversi ( N U (2 s5)![2 s3 ( s3)!]) ed i siti informativi sono quelli che permettono di distinguere uno dei tre alberi sulla base del numero di mutazioni da essi postulate

9 Siti informativi e non informativi 3 Esempio 1 (cont.) invariante Nella prima posizione dellallineamento, tutte le quattro sequenze hanno lo stesso carattere ( G ) e la posizione è detta invariante 9 G 2 G 1 G 4 G G G 3 G 1 G 2 G G G 4 G 2 G 1 G 3 G G G 4

10 Siti informativi e non informativi 4 Esempio 1 (cont.) non informativi I siti invarianti sono ovviamente non informativi, perché ognuno dei tre possibili alberi che descrivono la rela- zione tra le quattro sequenze postula esattamente lo stesso numero di mutazioni (0) Allo stesso modo, la posizione b è non informativa da una prospettiva di parsimonia, perché si verifica una mutazione in ognuno degli alberi possibili 10

11 Siti informativi e non informativi 5 Esempio 1 (cont.) 11 G 2 G 1 G 4 A G G 3 G 1 G 2 G G A 4 G 2 G 1 G 3 G G A 4

12 Siti informativi e non informativi 6 Esempio 1 (cont.) Similmente la posizione c è non informativa perché tutti e tre gli alberi richiedono due mutazioni 12 G 2 G 1 G 4 T G A 3 A 1 G 2 G G T 4 G 2 G 1 G 3 A G T 4

13 Siti informativi e non informativi 7 Esempio 1 (cont.) …così come la posizione d, in cui tutti gli alberi impongono tre mutazioni 13 A 2 A 1 G 4 C G T 3 T 1 G 2 A G C 4 A 2 A 1 G 3 T G C 4

14 Siti informativi e non informativi 8 Esempio 1 (cont.) Al contrario, le posizioni e ed f sono entrambe informative, perché, nei due casi, uno dei tre alberi postula solo una mutazione, mentre gli altri ne richiedono due 14 G 2 G 1 G 4 A G A 3 A 1 G 2 G G A 4 G 2 G 1 G 3 A G A 4

15 Siti informativi e non informativi 9 Esempio 1 (cont.) 15 T 2 T 1 G 4 T G G 3 G 1 G 2 T G T 4 T 2 T 1 G 3 G G T 4

16 Siti informativi e non informativi 10 In generale, affinché una posizione sia informativa, a prescindere da quante sono le sequenze da allineare, deve avere almeno due nucleotidi differenti, ognuno dei quali deve essere presente almeno due volte Le posizioni non informative vengono semplicemente scartate e non considerate nelle successive analisi di parsimonia Viceversa, le posizioni non informative contribuireb- bero ai punteggi di similarità a coppie usati negli approcci basati sulla distanza Si possono trarre conclusioni molto diverse in base al tipo di metodo utilizzato (basato sulla distanza o sul carattere) 16

17 Parsimonia non pesata 1 Una volta individuati e scartati i siti non informativi, lapproccio di parsimonia può essere implementato nella sua forma più semplice Per ogni sito informativo, si considerano i tre possibili alberi Per ciascun albero viene mantenuto un punteggio che tiene traccia del minimo numero di sostituzioni richieste per ogni posizione Dopo aver considerato tutti i siti informativi, lalbero (o gli alberi) che postula il minor numero di sostituzioni è, per definizione, il più parsimonioso Esempio 2 Esempio 2: In unanalisi che coinvolge solo quattro se- quenze ogni sito informativo può favorire uno solo dei tre alberi alternativi e lalbero supportato dal più alto numero di siti informativi è anche il più parsimonioso 17

18 Parsimonia non pesata 2 La valutazione di allineamenti di cinque o più se- quenze è decisamente più complicata Il numero di alberi senza radice alternativi cresce espo- nenzialmente con il numero di sequenze da allineare Anche avendo individuato un piccolo numero di siti informativi, lapproccio a mano è inapplicabile per più di sette/otto sequenze I siti individuali possono supportare più di un albero alternativo e lalbero di massima parsimonia non coin- cide necessariamente con quello supportato dal maggior numero di siti informativi Calcolare il numero di sostituzioni postulate da ogni albero alternativo è un problema difficile già per sole cinque sequenze (15 alberi) 18

19 Parsimonia non pesata 3 Esempio T5T 7 2G2G 3A3A 4A4A A G1G G (GAT) (GA) 5A5A 7 2T2T 3G3G 4A4A A G1G G G 5A5A 7 2G2G 3T3T 4A4A A G1G G (GTA) (GT)

20 Parsimonia non pesata 4 Esempio 3 (cont.) Determinare il numero di sostituzioni postulate da ogni albero richiede di dedurre il nucleotide più probabile in ciascuno dei quattro nodi interni a partire dai nucleotidi presenti in ognuno dei cinque nodi terminali La regola di parsimonia rende semplice determinare il nu- cleotide in posizione 6 (relativamente ai primi due alberi): il nucleotide ancestrale deve essere una G, o si sarebbe dovuta verificare una sostituzione sia lungo la discendenza che porta al nodo terminale 1, sia al 2 Ugualmente dicasi per lassegnazione di A in posizione 7 Il nucleotide ancestrale nel nodo 8, invece, non può essere determinato in modo non ambiguo, ma per la regola di parsimonia deve essere A o G, nel primo albero, e G o T, nel secondo Al nodo 9, la terna G, A, T contiene sicuramente i nucleotidi più parsimoniosi 20

21 Parsimonia non pesata 5 Esempio 3 (cont.) Per quanto riguarda invece lultimo albero… I nodi 1 e 2 suggeriscono che il nucleotide ancestrale nel nodo 6 sia G o T Tuttavia, anche il nodo 3 indica G come nucleotide candidato Assegnando G come nucleotide ancestrale per i nodi 6 e 8, per questa porzione dellalbero deve essere postulata solo una sostituzione (lungo la discendenza che porta dal nodo 6 al nodo 2) Tutte e tre le alternative (assegnare una T al nodo 6, una T al nodo 8 o una T ai nodi 6 e 8) richiederebbero almeno due sostituzioni 21

22 Parsimonia non pesata 6 Da un punto di vista metodologico, la regola per assegnare le posizioni ancestrali è la seguente Linsieme dei nucleotidi che più probabilmente sono candidati ad un nodo interno è rappresentato dallin- tersezione dei due insiemi corrispondenti ai nodi suoi immediati discendenti, se lintersezione non è vuota Altrimenti è rappresentato dallunione degli insiemi corrispondenti ai nodi discendenti Quando è richiesta ununione per formare un insieme di nodi, deve essersi verificata una sostituzione di nucleo- tide ad un certo punto della discendenza che porta a quella posizione Il numero di unioni è quindi anche il numero minimo di sostituzioni richieste per arrivare ai nucleotidi dei nodi terminali, poiché essi hanno condiviso un antenato comune 22

23 Parsimonia non pesata 7 Il metodo descritto si applica solo ai siti informativi Il numero minimo di sostituzioni per un sito non informativo è invece il numero di nucleotidi differenti presenti nei nodi terminali meno uno Esempio 4 Esempio 4: Se i nucleotidi presenti in una particolare posizione in un allineamento a cinque sequenze sono G, G, A, G, T, allora il numero minimo di sostituzioni è 312, a prescindere dalla topologia dellalbero I siti non informativi contribuiscono con un numero uguale di sostituzioni a tutti gli alberi alternativi e vengono esclusi dalle analisi di parsimonia lunghezza Tuttavia, è il numero totale di sostituzioni che defini- sce la lunghezza dellalbero 23

24 Parsimonia pesata 1 Pur avendo stabilito il principio generale che le mutazioni sono eventi rari, dedurre da ciò che tutte le mutazioni siano equivalenti è una semplificazione eccessiva (es.: sostituzioni vs eventi indel, lunghezza indel, transizioni vs transversioni, etc.) Se alla probabilità relativa dei diversi tipi di mutazione si potesse associare un valore, tali valori sarebbero traducibili in pesi e utilizzabili dagli algoritmi di parsimonia Difficoltà nel definire un insieme unico di pesi con validità universale o comunque utilizzabile da molti insiemi di dati diversi, perché… alcune sequenze (ad esempio, sequenze non codificanti con ripetizioni in tandem) sono più predisposte a eventi indel di altre limportanza funzionale differisce notevolmente da gene a gene e da specie a specie anche per geni omologhi la predisposizione a leggere sostituzioni (ad esempio GC con AT o fra codoni che codificano per lo stesso aminoacido) di solito varia da gene a gene e da specie a specie 24

25 Parsimonia pesata 2 La miglior scelta di pesi è legata ad un particolare insieme di dati empirici Esempio 5 Esempio 5: Se per un particolare allineamento multi- plo di sequenze i confronti fra ogni singola sequenza ed una sequenza consenso indicano che le transizioni sono tre volte più comuni delle transversioni, allora: Associare un valore pari ad 1 alle transversioni e pari a 0.33 alle transizioni Lalbero con il punteggio più basso, alla fine dellanalisi, è il più parsimonioso 25

26 Sequenze ancestrali dedotte 1 Un risultato notevole prodotto dallanalisi di parsimo- nia è la deduzione di sequenze ancestrali generate durante il corso dellanalisi In particolare, quando la struttura e la funzione di una proteina sono particolarmente ben conosciute, le so- stituzioni aminoacidiche possono fornire indizi sbalor- ditivi sulla fisiologia e sullambiente di organismi estremamente antichi Grazie agli antenati dedotti generati dalle analisi di parsimonia, lo studio dellevoluzione molecolare non presenta collegamenti mancanti e gli stati intermedi possono essere dedotti oggettivamente dalle sequen- ze dei discendenti ancora in vita 26

27 Sequenze ancestrali dedotte 2 sinapomorfie I siti informativi che supportano i rami interni del- lalbero dedotto sono detti sinapomorfie sinapomorfia La sinapomorfia è, infatti, un carattere derivato, cioè un carattere nuovo, condiviso, utile per ricostruire gli alberi filogenetici Ogni ipotetica sinapomorfia viene sottoposta ad un test di congruenza, cioè ne viene studiato lo schema di distri- buzione tra i vari taxa mettendolo a confronto con altri caratteri omoplasie Tutti gli altri siti informativi sono considerati omoplasie (caratteri simili che si sono presentati in diversi taxa in modo indipendente, attraverso conver- genza, parallelismo e inversioni, piuttosto che eredi- tati da un antenato comune) 27

28 Sequenze ancestrali dedotte 3 28 Plesiomorfia Plesiomorfia: presenza, in organismi appartenenti a specie diverse, di un carattere ancestrale che rappresenta una evoluzio- ne innovativa in comune; per esempio, la colonna vertebrale è un carattere plesiomorfo per tutto il subphylum dei Vertebrata Autapomorfia Autapomorfia: è un tratto derivato che è unico per ogni gruppo; un carattere autapomorfo non è presente nei parenti più vicini del gruppo terminale e non è presente nei progenitori ancestrali comuni

29 Strategie di ricerca veloce Il principio e le regole alla base della parsimonia rimangono gli stessi sia per i casi più semplici di alli- neamento a quattro sequenze che per i casi più complessi di allineamenti multipli Inoltre, utilizzando un approccio di parsimonia non modificato, diviene rapidamente impossibile eseguire a mano anche allineamenti di poche decine di sequen- ze, seppure contenenti pochi siti informativi Per analizzare 10 sequenze, occorre considerare oltre 2 milioni di alberi e la ricerca esaustiva diviene un proble- ma di approccio proibitivo già per 12 sequenze Viceversa, nella realtà, gli insiemi di dati da trattare sono decine/centinaia di volte più grandi di quanto consentano queste limitazioni Algoritmi efficienti di ricerca 29

30 Branch and bound 1 branch and bound Proposto da Hardy e Penny nel 1982, il metodo branch and bound consiste di due passi: 1) Determinare un limite massimo L, per la lunghezza dellalbero più parsimonioso per un certo insieme di dati; il valore L può essere stimato scegliendo, in maniera casuale, un albero che descriva le relazioni tra tutte le sequenze in esame costruendo una ragionevole approssimazione dellalbero più parsimonioso (per esempio, tramite UPGMA) 2) Costruzione di ogni albero, aggiungendo un ramo alla volta, fino ad includere tutte le sequenze da analizzare, terminando il procedimento quando lalbero ottenuto raggiunge la lunghezza L 30

31 Branch and bound 2 Ciò che rende il metodo efficace è il fatto che ogni albero, costituito da un sottoinsieme dei dati, che ri- chieda più di L sostituzioni, deve forzatamente diven- tare più lungo allaggiunta di nuove sequenze Non può essere lalbero più parsimonioso Se durante lanalisi, si costruiscono alberi con lun- ghezza minore di L, L può essere aggiornato di conse- guenza, rendendo il metodo ancora più efficiente 31

32 Branch and bound 3 32 C3.5 C3.1 C3.2 C3.3 C3.4 C2.5 C2.1 C2.2 C2.3 C2.4 C1.4 C1.1 C1.2 C1.5C1.3

33 Branch and bound 4 33

34 Branch and bound 5 branch and bound Come la ricerca esaustiva, il metodo branch and bound garantisce che, al termine dellanalisi, non sia stato tralasciato nessun albero ottimo secondo il criterio della massima parsimonia Branch and bound Branch and bound è di diversi ordini di grandezza più veloce della ricerca esaustiva Tuttavia… è utile per lallineamento di al più venti sequenze, mentre è computazionalmente insostenibile per allineamenti multipli che coinvolgano lanalisi di più di alberi senza radice 34

35 Ricerche euristiche 1 La quantità di informazioni di sequenza è in continuo aumento ed è piuttosto comune che gli allineamenti multipli implichino più di venti sequenze Utilizzo di algoritmi che non garantiscono lottimo globale Ipotesi alla base di tutti i metodi euristici: Gli alberi alternativi non sono indipendenti luno dal- laltro Poiché gli alberi più parsimoniosi dovrebbero avere topo- logie molto simili ad alberi che sono di poco meno parsimoniosi, tutte le ricerche euristiche cominciano con il costruire un albero iniziale che viene utilizzato come punto di partenza per la ricerca di alberi più corti 35

36 Ricerche euristiche 2 Anche le ricerche euristiche funzionano meglio se lalbero di partenza è una buona approssimazione dellalbero più parsimonioso Tuttavia, invece di costruire gli alberi alternativi ramo per ramo, le ricerche euristiche generano alberi com- pleti con topologie simili allalbero di partenza, ese- guendo scambi di rami nei sottoalberi e innestandoli su altre porzioni dellalbero migliore trovato fino a quel punto dellanalisi Nearest Neighbor Interchange Subtree Pruning and Regrafting Tree Bisection and Reconnection 36

37 Ricerche euristiche 3 37 Nearest Neighbor Interchange

38 Ricerche euristiche 4 38 Subtree Pruning and Regrafting

39 Ricerche euristiche 5 39 Tree Bisection and Reconnection

40 Ricerche euristiche 6 In tutti i casi, si accetta un riarrangiamento se produce un albero migliore del precedente Il processo viene ripetuto finché un ciclo di scambio dei rami non riesce a produrre un albero che sia uguale o più corto di quello generato nel ciclo precedente di potatura ed innesto 40

41 Ricerche euristiche 7 Gli algoritmi euristici tengono conto dellimpossibilità di esaminare anche solo una piccola frazione del- lenorme numero di alberi senza radice alternativi per allineamenti multipli complessi, enfatizzando lo scam- bio di rami su alberi sempre più parsimoniosi Il processo può dare origine allo stallo dellalgoritmo su topologie di alberi che non necessariamente presentano il minor numero di sostituzioni In altre parole, se lalbero più parsimonioso non è simile allalbero utilizzato come punto di partenza del processo di scambio di rami, potrebbe non essere possibile arrivare ad esso senza eseguire qualche arrangiamento che, dapprima, incrementi il numero di sostituzioni 41

42 Ricerche euristiche 8 Esplorare occasionalmente cammini che aumentino la lunghezza degli alberi, nella speranza di andare oltre i minimi locali, ha comunque un costo computazionale molto elevato Poiché è la quantità degli allineamenti, e non la loro lunghezza, a creare i maggiori problemi computazio- nali, unalternativa plausibile è quella di dividere alli- neamenti numerosi in tanti gruppi meno numerosi 42

43 Ricerche euristiche 9 Esempio Lallineamento tra un gran numero di sequenze omo- loghe di mammiferi, può essere realizzato dividendo/ raggruppando: I primati, per accertare le relazioni alla cima del tronco dellalbero dei primati I roditori, per determinare le relazioni alla cima del tronco dellalbero dei roditori Gli artiodattili (mucche), i lagomorfi (conigli), i primati e i roditori, per esaminare le divergenze più antiche e più recenti (mammiferiroditori) 43

44 Ricerche euristiche 10 Quando si adotta una tale strategia, la conoscenza a priori delle relazioni generali tra le sequenze (es.: tutti i primati sono strettamente correlati tra loro, più di quanto non lo siano ad ogni altro mammifero) è fondamentale …ma non essenziale, poiché ad un algoritmo euristico potrebbe anche essere richiesto di considerare sepa- ratamente ogni raggruppamento di sequenze che supera una particolare soglia di similarità a coppie 44

45 Alberi consenso 1 Gli approcci di parsimonia, normalmente, producono più (ed anche molti) alberi ugualmente parsimoniosi, troppi per essere utilizzati come riassunto dellinfor- mazione filogenetica sottesa albero consenso Creazione di un albero consenso, che riassume tutti gli alberi più parsimoniosi I punti di diramazione dove tutti gli alberi riassunti sono in accordo vengono rappresentati negli alberi consenso come biforcazioni I punti di disaccordo tra gli alberi vengono fusi insieme in nodi interni che connettono tre o più rami discendenti 45

46 Alberi consenso 2 46

47 Alberi consenso 3 albero consenso rigoroso In un albero consenso rigoroso, tutti i punti di disac- cordo sono trattati in maniera omogenea, anche quando un solo albero alternativo non sia coerente con centinaia di altri che sono in accordo riguardo ad un particolare punto di ramificazione regola di più del 50% di consenso In alternativa, si utilizza la regola di più del 50% di consenso, dove ogni nodo interno che sia presente in almeno la metà degli alberi riassunti è rappresentato come semplice biforcazione, mentre i nodi su cui meno della metà degli alberi sono in accordo, si rappresentano come multiforcazioni 47

48 Alberi consenso 4 48

49 Confidenza di un albero Tutti gli alberi filogenetici rappresentano unipotesi circa la storia evolutiva delle sequenze che costitui- scono un insieme di dati È quindi opportuno porsi le seguenti domande Che confidenza può essere associata allalbero nel suo complesso ed alle sue parti costituenti (sottoalberi/ archi)?Bootstrapping Che probabilità ha un albero di essere corretto rispetto ad un albero alternativo particolare o scelto a caso? Confronto parametrico 49

50 Bootstrapping 1 50 È possibile che porzioni diverse di alberi dedotti siano determinate con diversi gradi di confidenza I test di bootstrap permettono una rozza quantifica- zione di tali livelli di confidenzaBootstrap Viene estratto (con permutazione) un sottoinsieme dei dati originali e dedotto un nuovo albero a partire da tale sottoinsieme Il processo di creazione di nuovi sottoinsiemi viene ripetuto per creare centinaia/migliaia di insiemi di dati ricampionati Le porzioni degli alberi dedotti che sono maggiormente riprodotte nellalbero consenso complessivo sono quelle particolarmente ben supportate dallinsieme di dati originario

51 Bootstrapping 2 51 … I numeri che corrispondono alla frazione di alberi di boostrap che riproducono uno stesso nodo sono posizionati vicino al corrispondente nodo dellalbero consenso, per fornire indica- zioni sulla confidenza relativa di ogni parte dellalbero

52 Bootstrapping 3 52 bootstrap proportion La frequenza con cui i diversi gruppi si ritrovano nellalbero di consenso così costruito (le bootstrap proportion) sono una misura del supporto statistico per quel gruppo Valori superiori all80% indicano un supporto molto forte Anche valori superiori al 50% indicano comunque che un gruppo è presente frequentemente negli pseudo data set Un basso supporto statistico non necessariamente implica un clade sbagliato

53 Bootstrapping 4 53 Nonostante lutilizzo frequente nella letteratura scien- tifica, i risultati di bootstrap devono essere trattati con qualche cautela Quando si basano su poche iterazioni, cioè cicli di ricampionamento e generazione dellalbero, sono vero- similmente poco affidabili, specialmente quando è coin- volto un gran numero di sequenze Si tende a sottostimare la confidenza a livelli alti e a sovrastimarla a livelli bassi Fallacy of multiple tests Fallacy of multiple tests: semplici fluttuazioni sembrano avere significatività statistica Malgrado i problemi evidenziati… si ottengono, in ge- nerale, alberi che sono rappresentazioni più accurate dellalbero reale rispetto al metodo del singolo albero più parsimonioso

54 Test parametrici 1 54 Poiché gli approcci di parsimonia spesso generano molti alberi che hanno lo stesso numero minimo di sostituzioni, sono generalmente presenti anche altret- tanti alberi alternativi che postulano poche sostituzioni in più Anche in questo caso, il principio sotteso al concetto di parsimonia suggerisce che lalbero che postula il minor numero di sostituzioni è quello che più proba- bilmente descrive la vera relazione tra le sequenze Peraltro non esiste un limite a quante sostituzioni può postulare lalbero più parsimonioso e gli insiemi di dati numerosi e che coinvolgono sequenze dissimili posso- no facilmente postulare molte migliaia di sostituzioni

55 Test parametrici 2 55 In tali casi è ragionevole chiedersi se un albero, che sia già così improbabile da postulare sostitu- zioni, sia significativamente più probabile di un albero alternativo che ne postula Ovvero… quanto è più probabile lalbero più parsimo- nioso rispetto ad un particolare albero alternativo precedentemente proposto per descrivere la relazione tra un dato insieme di taxa? test parametrico A questa domanda è possibile fornire una risposta, per quanto parziale, utilizzando un test parametrico

56 Test parametrici 3 56 test parametrico Si definisce test parametrico un test statistico che si può applicare in presenza di una distribuzione (normale) di dati Ciò avviene effettuando un controllo delle ipotesi sul valore di un parametro, la deviazione standard, luguaglianza tra due medie… In ambito filogenetico, il test parametrico più utilizzato è dovuto a H. Kishino e M. Hasegawa (1989) Si assume che i siti informativi allinterno di un allineamento siano indipendenti ed equivalenti e si usa la differenza del minimo numero di sostituzioni postulate da due alberi come test statistico (calcolandone la varianza) Test parametrici alternativi sono disponibili non solo per le analisi di parsimonia, ma anche per le matrici delle distanze e gli alberi a massima verosimiglianza

57 Confronto di metodi filogenetici 57 Né i metodi di ricostruzione filogenetica basati sulla distanza, né quelli basati sul carattere possono garantire di riuscire a descrivere il vero albero che traccia la storia evolutiva di un insieme di sequenze allineate Tuttavia… Gli insiemi di dati che permettono ad un metodo di dedurre la corretta relazione filogenetica, generalmente, portano a buoni risultati con tutti i metodi comunemente usati Se negli insiemi di dati si sono verificati molti cambiamenti o se le frequenze di cambiamento variano da ramo a ramo, nessun metodo funziona in maniera davvero affidabile Se un insieme di dati analizzato secondo metodi fondamen- talmente diversi, porta sempre ad uno stesso albero, quellalbero può essere considerato affidabile

58 Filogenie molecolari 58 Nellultimo trentennio sono stati accumulati innumerevoli esempi interessanti di relazioni evolutive decifrate mediante lanalisi di sequenza Tali studi hanno avuto notevoli implicazioni nella medicina, in agricoltura, nella conservazione delle specie È probabile che un farmaco efficace contro un certo tipo di infezione sia efficace anche su infezioni provocate da orga- nismi correlati Facilità nel trasferimento di fattori di resistenza a una malattia tra specie vegetali strettamente correlate Possibilità di stabilire se una data popolazione di organismi si distingue sufficientemente da essere qualificata come specie separata per, eventualmente, meritare una protezione spe- ciale

59 Lalbero della vita 1 59 Uno dei casi più impressionanti in cui lanalisi di sequenza ha fornito nuove informazioni sulle relazioni evolutive è quello legato alla comprensione delle suddivisioni fondamentali delle forme di vita Originariamente, i biologi divisero tutte le forme di vita in due gruppi principali, le piante e gli animali …ma, con le successive scoperte di nuovi organismi e lo studio delle loro caratteristiche, questa semplice dicotomia non funzionò più Fu più tardi riconosciuto che gli organismi potevano essere divisi in procarioti ed eucarioti sulla base della loro struttura cellulare

60 Lalbero della vita 2 60 Più recentemente, sono state accettate diverse divi- sioni fondamentali delle forme di vita, quale ad esem- pio i cinque regni proposti da Whittaker: procarioti, protisti, piante, funghi e animali Tuttavia, una prova in negativo ossia lassenza di membrane interne che contraddistingue i procarioti è stata universalmente riconosciuta come inadeguata a raggruppare tassonomicamente gli organismi A partire dalla fine degli anni 70, le sequenze di RNA e DNA furono utilizzate per scoprire per la prima volta le linee fondamentali della storia evolutiva di tutti gli organismi

61 Lalbero della vita 3 61 In un famoso studio, Carl Woese et al. costruirono un albero evolutivo delle forme di vita basato sulle se- quenze nucleotidiche del 16s rRNA, che possiedono tutti gli organismi LrRNA è il componente più conservato delle cellule I geni che codificano per lrRNA vengono sequenziati per identificare il gruppo tassonomico di un organismo, per riconoscere i gruppi correlati e stimare il tasso di divergenza tra le varie specie Lalbero evolutivo rivela tre gruppi principali Bacteria Bacteria i tradizionali procarioti Eucarya Eucarya organismi eucarioti, quali piante, animali e funghi Archea Archea batteri termofili ed organismi poco noti, per lo più conosciuti solo tramite le loro sequenze di rRNA

62 Lalbero della vita 4 62

63 Lalbero della vita 5 63 ArcheaBacteria Bacteria Eucarya Si scoprì che gli Archea ed i Bacteria, sebbene entrambi procarioti, poiché privi di membrane interne, erano tanto differenti geneticamente quanto i Bacteria e gli Eucarya ArcheaBacteria Le profonde differenze evolutive fra Archea e Bacteria non erano ovvie sulla base del fenotipo, e la testi- monianza fossile era completamente silente su questo argomento Le differenze divennero chiare solo dopo che furono confrontate le loro sequenze nucleotidiche Sequenze di geni, quali 5s rRNA e geni codificanti per alcune proteine fondamentali, supportano la loro appar- tenenza a due diversi gruppi evolutivi

64 Le origini delluomo 1 64 Dominio Dominio: Eukaryota Regno Regno: Animalia Sottoregno Sottoregno: Eumetazoa Phylum Phylum: Chordata Subphylum Subphylum: Vertebrata Classe Classe: Mammalia Sottoclasse Sottoclasse: Eutheria Ordine Ordine: Primates Superfamiglia Superfamiglia: Hominoidea Famiglia Famiglia: Hominidae Genere Genere: Homo Specie Specie: Homo sapiens Sottospecie Sottospecie: Homo sapiens sapiens

65 Le origini delluomo 2 65 In contrasto con la grande variabilità che si osserva nella dimensione, nella forma del corpo, nei linea- menti del viso, nel colore della pelle, etc., le differen- ze genetiche tra le popolazioni umane sono relativa- mente piccole Lanalisi delle sequenze di mtDNA rileva che la diffe- renza media nella sequenza tra due popolazioni umane è circa dello 0.33% Altri primati mostrano differenze molto maggiori: le due sottospecie dellorangotango differiscono del 5% I gruppi umani sono strettamente correlati anche se presentano alcune differenze genetiche

66 Le origini delluomo 3 66 Sorprendentemente, le maggiori differenze non si riscontrano tra popolazioni dislocate in continenti di- versi, ma tra le popolazioni residenti in Africa Tutte le altre popolazioni umane presentano differen- ze minori di quelle rilevabili fra le popolazioni africane Luomo ebbe origine e subì la prima divergenza evolu- tiva in Africa Dopo levoluzione in Africa di un certo numero di popo- lazioni geneticamente differenziate, un piccolo gruppo di esseri umani potrebbe essere migrato fuori dallAfrica ed aver dato inizio a tutte le altre popolazioni umane Teoria fuoridallAfrica Teoria fuoridallAfrica: dati di analisi sia del DNA mitocondriale che del cromosoma Y del nucleo sono coerenti con questa ipotesi

67 Le origini delluomo 4 67 Unulteriore interpretazione dei dati suggerisce che tutti gli umani attualmente viventi hanno mitocondri che derivano da una Eva mitocondriale e che il cromosoma Y di tutti gli uomini deriva da un cromosoma Y Adamo di circa anni fa

68 Una curiosità… 1 68 Beleza et al., Molecular Biology and Evolution, Gennaio 2013 Studio su diversi geni che influiscono sul colore della pelle per comprendere quando le varianti di questi geni si siano diffuse I risultati hanno mostrato che la diffusione della variante di un gene condivisa sia da europei che asiatici, risale a circa anni fa, successivamente alla migrazione dallAfrica, avvenuta anni fa Viceversa, varianti degli altri geni, tipicamente europee, sarebbero molto più recenti, risalenti a anni fa Ma quali sono stati i fattori che hanno influenzato la selezione delle varianti geniche che codificano per un colore più chiaro della pelle?

69 Una curiosità… 2 69 Il periodo compreso tra e anni fa corrisponde al picco dellultima glaciazione ed è ragionevole ritenere che gli essere umani, per proteggersi dal freddo, si siano coperti di più e abbiano cercato rifugi per ripararsi dalle intemperie limitando ulteriormente lesposizione ai raggi UV È probabile che questi cambiamenti abbiano favorito la diffusione degli alleli per la pelle chiara, in modo da garantire unadeguata produzione di vitamina D, utile per fissare il calcio nelle ossa La selezione di geni codificanti per la carnagione più chiara negli europei è avvenuta relativamente di recente e la pressione selettiva ha favorito le condizioni cutanee per una sintesi adeguata di vitamina D In situazioni con più scarsa esposizione solare, una pelle meno ricca di melanina è più efficiente nel produrre vitamina D e ridurre il rischio di carenza e le conseguenze che da essa derivano

70 Concludendo… 1 70 I metodi di ricostruzione filogenetica basati sul carattere sono incentrati principalmente sul principio di parsimonia le sostituzioni sono eventi rari e la filogenia che invoca il minor numero di sostituzioni è quella che più probabilmente riflette la vera relazione tra le sequenze considerate Oltre a fornire informazioni sulle relazioni tra le sequenze, gli approcci di parsimonia possono fornire deduzioni potenzialmente utili riguardo alle sequenze di antenati degli organismi viventi, estinti da lungo tempo Tuttavia, le analisi di parsimonia possono essere com- putazionalmente pesanti, in particolare se si conside- rano allineamenti multipli di venti o più sequenze

71 Concludendo… 2 71 Gli insiemi di dati portano spesso a diversi alberi che sono ugualmente parsimoniosi e, per riassumerli, possono essere utilizzati gli alberi consenso Sono disponibili diversi metodi per determinare la robustezza degli alberi di parsimonia, inclusi bootstrap e test parametrici, sebbene non si possa garantire che un albero dedotto sia con approcci basati sui carat- teri che sulla distanza rappresenti la vera relazione evolutiva tra le sequenze considerate


Scaricare ppt "Metodi filogenetici basati sul carattere 1 Questa nostra terra, che un tempo ci sembrava infinitamente grande, deve essere considerata nella sua piccolezza."

Presentazioni simili


Annunci Google