La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Metodi filogenetici basati sul carattere

Presentazioni simili


Presentazione sul tema: "Metodi filogenetici basati sul carattere"— Transcript della presentazione:

1 Metodi filogenetici basati sul carattere
“Questa nostra terra, che un tempo ci sembrava infinitamente grande, deve essere considerata nella sua piccolezza. Viviamo in un sistema chiuso, dipendenti gli uni dagli altri e dipendenti tutti dalla terra stessa. Tutto ciò che ci divide è infinitamente meno importante del pericolo che ci unisce.” (C. R. Darwin)

2 Sommario Parsimonia e filogenesi Sequenze ancestrali dedotte
Strategie di ricerca veloce Alberi consenso Confidenza di un albero Confronto di metodi filogenetici Filogenie molecolari

3 Introduzione L’analisi filogenetica ha lo scopo di risalire alle rela-zioni evolutive tra entità diverse, dette unità tassono-miche, rappresentate da sequenze di acidi nucleici, ricostruendone quindi la più probabile storia evolutiva  inferenza filogenetica Dal punto di vista genetico, l’evoluzione consiste nel-l’accumulo di mutazioni: perciò è possibile ricostruire le relazioni evolutive fra acidi nucleici semplicemente sulla base del grado di somiglianza/diversità della sequenza nucleotidica Scopo ultimo, quindi, dell’analisi filogenetica è quello di costruire un albero filogenetico che descriva le più probabili relazioni evolutive tra le specie (sequenze) da analizzare

4 Parsimonia Il concetto di parsimonia (dal latino parcere, rispar-miare) è centrale nei metodi di ricostruzione filogene-tica basati sul carattere In senso biologico, il termine è utilizzato per descri-vere il processo che porta a preferire un particolare percorso evolutivo sulla base del minor numero di eventi mutazionali Le due premesse che stanno alla base del concetto di parsimonia biologica si possono riassumere come: le mutazioni sono eventi estremamente rari più un modello postula eventi poco probabili, meno è probabile che il modello sia corretto La relazione che richiede il minor numero di mutazioni per spiegare lo stato corrente delle sequenze conside-rate è quella più probabilmente corretta

5 Entia non sunt multiplicanda praeter necessitatem
Parsimonia, perché?  1 Principio filosofico enunciato nel XIV sec. da William di Ockham: tra diverse spiegazioni, la più semplice è da preferire; inutile ricorrere a molte assunzioni se lo stesso evento può essere spiegato con poche Entia non sunt multiplicanda praeter necessitatem Dio ha creato tutto, e Dio non avrebbe creato nulla di complesso se poteva fare la stessa cosa in maniera semplice Rasoio di Ockham: principio alla base del pensiero scientifico moderno; nella sua forma più immediata suggerisce l’inutilità di formulare più teorie di quelle che siano strettamente necessarie per spiegare un dato fenomeno

6 Parsimonia, perché?  2 La selezione naturale favorisce gli adattamenti rapidi, ossia ottenuti attraverso il numero minore possibile di passi evolutivi Statisticamente, i cambiamenti evolutivi sono rari, quindi è improbabile che avvengano molte volte Importante la distinzione fra siti informativi e non informativi

7 Siti informativi e non informativi  1
Quali siti all’interno di un allineamento multiplo di sequenza hanno un contenuto informativo utile per un approccio parsimonioso? Esempio 1 Sequenza a b c d e f 1 G 2 A T 3 4 C

8 Siti informativi e non informativi  2
Esempio 1 (cont.) La relazione tra quattro sequenze può essere definita da tre alberi senza radice diversi (NU  (2s5)![2s3(s3)!]) ed i siti informativi sono quelli che permettono di distinguere uno dei tre alberi sulla base del numero di mutazioni da essi postulate 3 1 2 4 2 1 3 4 2 1 4 3

9 Siti informativi e non informativi  3
Esempio 1 (cont.) Nella prima posizione dell’allineamento, tutte le quattro sequenze hanno lo stesso carattere (G) e la posizione è detta invariante G3 G 1G 2G G4 G2 G 1G 3G G4 G2 G 1G 4G G3

10 Siti informativi e non informativi  4
Esempio 1 (cont.) I siti invarianti sono ovviamente non informativi, perché ognuno dei tre possibili alberi che descrivono la rela-zione tra le quattro sequenze postula esattamente lo stesso numero di mutazioni (0) Allo stesso modo, la posizione b è non informativa da una prospettiva di parsimonia, perché si verifica una mutazione in ognuno degli alberi possibili

11 Siti informativi e non informativi  5
Esempio 1 (cont.) G3 G 1G 2G A4 G2 G 1G 3G A4 G2 G 1G 4A G3

12 Siti informativi e non informativi  6
Esempio 1 (cont.) Similmente la posizione c è non informativa perché tutti e tre gli alberi richiedono due mutazioni A3 A 1G 2G G T4 G2 G 1G 3A T4 G2 G 1G 4T A3

13 Siti informativi e non informativi  7
Esempio 1 (cont.) …così come la posizione d, in cui tutti gli alberi impongono tre mutazioni T3 T 1G 2A G C4 A2 A 1G 3T G C4 A2 A 1G 4C G T3

14 Siti informativi e non informativi  8
Esempio 1 (cont.) Al contrario, le posizioni e ed f sono entrambe informative, perché, nei due casi, uno dei tre alberi postula solo una mutazione, mentre gli altri ne richiedono due A3 A 1G 2G G A4 G2 G 1G 3A A4 G2 G 1G 4A A3

15 Siti informativi e non informativi  9
Esempio 1 (cont.) G3 G 1G 2T T4 T2 T 1G 3G G T4 T2 T 1G 4T G G3

16 Siti informativi e non informativi  10
In generale, affinché una posizione sia informativa, a prescindere da quante sono le sequenze da allineare, deve avere almeno due nucleotidi differenti, ognuno dei quali deve essere presente almeno due volte Le posizioni non informative vengono semplicemente scartate e non considerate nelle successive analisi di parsimonia Viceversa, le posizioni non informative contribuireb-bero ai punteggi di similarità a coppie usati negli approcci basati sulla distanza Si possono trarre conclusioni molto diverse in base al tipo di metodo utilizzato (basato sulla distanza o sul carattere)

17 Parsimonia non pesata  1
Una volta individuati e scartati i siti non informativi, l’approccio di parsimonia può essere implementato nella sua forma più semplice Per ogni sito informativo, si considerano i tre possibili alberi Per ciascun albero viene mantenuto un punteggio che tiene traccia del minimo numero di sostituzioni richieste per ogni posizione Dopo aver considerato tutti i siti informativi, l’albero (o gli alberi) che postula il minor numero di sostituzioni è, per definizione, il più parsimonioso Esempio 2: In un’analisi che coinvolge solo quattro se-quenze ogni sito informativo può favorire uno solo dei tre alberi alternativi e l’albero supportato dal più alto numero di siti informativi è anche il più parsimonioso

18 Parsimonia non pesata  2
La valutazione di allineamenti di cinque o più se-quenze è decisamente più complicata Il numero di alberi senza radice alternativi cresce espo-nenzialmente con il numero di sequenze da allineare Anche avendo individuato un piccolo numero di siti informativi, l’approccio “a mano” è inapplicabile per più di sette/otto sequenze I siti individuali possono supportare più di un albero alternativo e l’albero di massima parsimonia non coin-cide necessariamente con quello supportato dal maggior numero di siti informativi Calcolare il numero di sostituzioni postulate da ogni albero alternativo è un problema difficile già per sole cinque sequenze (15 alberi)

19 Parsimonia non pesata  3
Esempio 3 5 T 7 2 G 3 A 4 9 6 8 1 (GAT) (GA) 5 A 7 2 G 3 T 4 9 6 8 1 (GTA) (GT) 5 A 7 2 T 3 G 4 9 6 8 1 (GA)

20 Parsimonia non pesata  4
Esempio 3 (cont.) Determinare il numero di sostituzioni postulate da ogni albero richiede di dedurre il nucleotide più probabile in ciascuno dei quattro nodi interni a partire dai nucleotidi presenti in ognuno dei cinque nodi terminali La regola di parsimonia rende semplice determinare il nu-cleotide in posizione 6 (relativamente ai primi due alberi): il nucleotide ancestrale deve essere una G, o si sarebbe dovuta verificare una sostituzione sia lungo la discendenza che porta al nodo terminale 1, sia al 2 Ugualmente dicasi per l’assegnazione di A in posizione 7 Il nucleotide ancestrale nel nodo 8, invece, non può essere determinato in modo non ambiguo, ma per la regola di parsimonia deve essere A o G, nel primo albero, e G o T, nel secondo Al nodo 9, la terna G, A, T contiene sicuramente i nucleotidi più parsimoniosi

21 Parsimonia non pesata  5
Esempio 3 (cont.) Per quanto riguarda invece l’ultimo albero… I nodi 1 e 2 suggeriscono che il nucleotide ancestrale nel nodo 6 sia G o T Tuttavia, anche il nodo 3 indica G come nucleotide candidato Assegnando G come nucleotide ancestrale per i nodi 6 e 8, per questa porzione dell’albero deve essere postulata solo una sostituzione (lungo la discendenza che porta dal nodo 6 al nodo 2) Tutte e tre le alternative (assegnare una T al nodo 6, una T al nodo 8 o una T ai nodi 6 e 8) richiederebbero almeno due sostituzioni

22 Parsimonia non pesata  6
Da un punto di vista metodologico, la regola per assegnare le posizioni ancestrali è la seguente L’insieme dei nucleotidi che più probabilmente sono candidati ad un nodo interno è rappresentato dall’in-tersezione dei due insiemi corrispondenti ai nodi suoi immediati discendenti, se l’intersezione non è vuota Altrimenti è rappresentato dall’unione degli insiemi corrispondenti ai nodi discendenti Quando è richiesta un’unione per formare un insieme di nodi, deve essersi verificata una sostituzione di nucleo-tide ad un certo punto della discendenza che porta a quella posizione Il numero di unioni è quindi anche il numero minimo di sostituzioni richieste per arrivare ai nucleotidi dei nodi terminali, poiché essi hanno condiviso un antenato comune

23 Parsimonia non pesata  7
Il metodo descritto si applica solo ai siti informativi Il numero minimo di sostituzioni per un sito non informativo è invece il numero di nucleotidi differenti presenti nei nodi terminali meno uno Esempio 4: Se i nucleotidi presenti in una particolare posizione in un allineamento a cinque sequenze sono G, G, A, G, T, allora il numero minimo di sostituzioni è 312, a prescindere dalla topologia dell’albero I siti non informativi contribuiscono con un numero uguale di sostituzioni a tutti gli alberi alternativi e vengono esclusi dalle analisi di parsimonia Tuttavia, è il numero totale di sostituzioni che defini-sce la lunghezza dell’albero

24 Parsimonia pesata  1 Pur avendo stabilito il principio generale che “le mutazioni sono eventi rari”, dedurre da ciò che tutte le mutazioni siano equivalenti è una semplificazione eccessiva (es.: sostituzioni vs eventi indel, lunghezza indel, transizioni vs transversioni, etc.) Se alla probabilità relativa dei diversi tipi di mutazione si potesse associare un valore, tali valori sarebbero traducibili in pesi e utilizzabili dagli algoritmi di parsimonia Difficoltà nel definire un insieme unico di pesi con validità universale o comunque utilizzabile da molti insiemi di dati diversi, perché… alcune sequenze (ad esempio, sequenze non codificanti con ripetizioni in tandem) sono più predisposte a eventi indel di altre l’importanza funzionale differisce notevolmente da gene a gene e da specie a specie anche per geni omologhi la predisposizione a leggere sostituzioni (ad esempio GC con AT o fra codoni che codificano per lo stesso aminoacido) di solito varia da gene a gene e da specie a specie

25 Parsimonia pesata  2 La miglior scelta di pesi è legata ad un particolare insieme di dati empirici Esempio 5: Se per un particolare allineamento multi-plo di sequenze i confronti fra ogni singola sequenza ed una sequenza consenso indicano che le transizioni sono tre volte più comuni delle transversioni, allora: Associare un valore pari ad 1 alle transversioni e pari a 0.33 alle transizioni L’albero con il punteggio più basso, alla fine dell’analisi, è il più parsimonioso

26 Sequenze ancestrali dedotte  1
Un risultato notevole prodotto dall’analisi di parsimo-nia è la deduzione di sequenze ancestrali generate durante il corso dell’analisi In particolare, quando la struttura e la funzione di una proteina sono particolarmente ben conosciute, le so-stituzioni aminoacidiche possono fornire indizi sbalor-ditivi sulla fisiologia e sull’ambiente di organismi estremamente antichi Grazie agli antenati dedotti generati dalle analisi di parsimonia, lo studio dell’evoluzione molecolare non presenta collegamenti mancanti e gli stati intermedi possono essere dedotti oggettivamente dalle sequen-ze dei discendenti ancora in vita

27 Sequenze ancestrali dedotte  2
I siti informativi che supportano i rami interni del-l’albero dedotto sono detti sinapomorfie La sinapomorfia è, infatti, un carattere derivato, cioè un carattere nuovo, condiviso, utile per ricostruire gli alberi filogenetici Ogni ipotetica sinapomorfia viene sottoposta ad un test di congruenza, cioè ne viene studiato lo schema di distri-buzione tra i vari taxa mettendolo a confronto con altri caratteri Tutti gli altri siti informativi sono considerati omoplasie (caratteri simili che si sono presentati in diversi taxa in modo indipendente, attraverso conver-genza, parallelismo e inversioni, piuttosto che eredi-tati da un antenato comune)

28 Sequenze ancestrali dedotte  3
Plesiomorfia: presenza, in organismi appartenenti a specie diverse, di un carattere ancestrale che rappresenta una evoluzio-ne innovativa in comune; per esempio, la colonna vertebrale è un carattere plesiomorfo per tutto il subphylum dei Vertebrata Autapomorfia: è un tratto derivato che è unico per ogni gruppo; un carattere autapomorfo non è presente nei parenti più vicini del gruppo terminale e non è presente nei progenitori ancestrali comuni

29 Strategie di ricerca veloce
Il principio e le regole alla base della parsimonia rimangono gli stessi sia per i casi più semplici di alli-neamento a quattro sequenze che per i casi più complessi di allineamenti multipli Inoltre, utilizzando un approccio di parsimonia non modificato, diviene rapidamente impossibile eseguire a mano anche allineamenti di poche decine di sequen-ze, seppure contenenti pochi siti informativi Per analizzare 10 sequenze, occorre considerare oltre 2 milioni di alberi e la ricerca esaustiva diviene un proble-ma di approccio proibitivo già per 12 sequenze Viceversa, nella realtà, gli insiemi di dati da trattare sono decine/centinaia di volte più grandi di quanto consentano queste limitazioni Algoritmi efficienti di ricerca

30 Branch and bound  1 Proposto da Hardy e Penny nel 1982, il metodo branch and bound consiste di due passi: Determinare un limite massimo L, per la lunghezza dell’albero più parsimonioso per un certo insieme di dati; il valore L può essere stimato scegliendo, in maniera casuale, un albero che descriva le relazioni tra tutte le sequenze in esame costruendo una ragionevole approssimazione dell’albero più parsimonioso (per esempio, tramite UPGMA) Costruzione di ogni albero, aggiungendo un ramo alla volta, fino ad includere tutte le sequenze da analizzare, terminando il procedimento quando l’albero ottenuto raggiunge la lunghezza L

31 Branch and bound  2 Ciò che rende il metodo efficace è il fatto che ogni albero, costituito da un sottoinsieme dei dati, che ri-chieda più di L sostituzioni, deve forzatamente diven-tare più lungo all’aggiunta di nuove sequenze Non può essere l’albero più parsimonioso Se durante l’analisi, si costruiscono alberi con lun-ghezza minore di L, L può essere aggiornato di conse-guenza, rendendo il metodo ancora più efficiente

32 Branch and bound  3 C2.5 C2.1 C2.2 C2.3 C2.4 C3.5 C3.1 C3.2 C3.3 C3.4

33 Branch and bound  4

34 Branch and bound  5 Come la ricerca esaustiva, il metodo branch and bound garantisce che, al termine dell’analisi, non sia stato tralasciato nessun albero “ottimo” secondo il criterio della massima parsimonia Branch and bound è di diversi ordini di grandezza più veloce della ricerca esaustiva Tuttavia… è utile per l’allineamento di al più venti sequenze, mentre è computazionalmente insostenibile per allineamenti multipli che coinvolgano l’analisi di più di 1021 alberi senza radice

35 Ricerche euristiche  1 La quantità di informazioni di sequenza è in continuo aumento ed è piuttosto comune che gli allineamenti multipli implichino più di venti sequenze Utilizzo di algoritmi che non garantiscono l’ottimo globale Ipotesi alla base di tutti i metodi euristici: Gli alberi “alternativi” non sono indipendenti l’uno dal-l’altro Poiché gli alberi più parsimoniosi dovrebbero avere topo-logie molto simili ad alberi che sono di poco meno parsimoniosi, tutte le ricerche euristiche cominciano con il costruire un albero iniziale che viene utilizzato come punto di partenza per la ricerca di alberi più corti

36 Ricerche euristiche  2 Anche le ricerche euristiche funzionano meglio se l’albero di partenza è una buona approssimazione dell’albero più parsimonioso Tuttavia, invece di costruire gli alberi alternativi ramo per ramo, le ricerche euristiche generano alberi com-pleti con topologie simili all’albero di partenza, ese-guendo scambi di rami nei sottoalberi e innestandoli su altre porzioni dell’albero migliore trovato fino a quel punto dell’analisi Nearest Neighbor Interchange Subtree Pruning and Regrafting Tree Bisection and Reconnection

37 Ricerche euristiche  3 Nearest Neighbor Interchange

38 Ricerche euristiche  4 Subtree Pruning and Regrafting

39 Ricerche euristiche  5 Tree Bisection and Reconnection

40 Ricerche euristiche  6 In tutti i casi, si accetta un riarrangiamento se produce un albero migliore del precedente Il processo viene ripetuto finché un ciclo di scambio dei rami non riesce a produrre un albero che sia uguale o più corto di quello generato nel ciclo precedente di potatura ed innesto

41 Ricerche euristiche  7 Gli algoritmi euristici tengono conto dell’impossibilità di esaminare anche solo una piccola frazione del-l’enorme numero di alberi senza radice alternativi per allineamenti multipli complessi, enfatizzando lo scam-bio di rami su alberi sempre più parsimoniosi Il processo può dare origine allo stallo dell’algoritmo su topologie di alberi che non necessariamente presentano il minor numero di sostituzioni In altre parole, se l’albero più parsimonioso non è simile all’albero utilizzato come punto di partenza del processo di scambio di rami, potrebbe non essere possibile arrivare ad esso senza eseguire qualche arrangiamento che, dapprima, incrementi il numero di sostituzioni

42 Ricerche euristiche  8 Esplorare occasionalmente cammini che aumentino la lunghezza degli alberi, nella speranza di andare oltre i “minimi locali”, ha comunque un costo computazionale molto elevato Poiché è la quantità degli allineamenti, e non la loro lunghezza, a creare i maggiori problemi computazio-nali, un’alternativa plausibile è quella di dividere alli-neamenti numerosi in tanti gruppi meno numerosi

43 Ricerche euristiche  9 Esempio
L’allineamento tra un gran numero di sequenze omo-loghe di mammiferi, può essere realizzato dividendo/ raggruppando: I primati, per accertare le relazioni alla cima del tronco dell’albero dei primati I roditori, per determinare le relazioni alla cima del tronco dell’albero dei roditori Gli artiodattili (mucche), i lagomorfi (conigli), i primati e i roditori, per esaminare le divergenze più antiche e più recenti (mammiferiroditori)

44 Ricerche euristiche  10 Quando si adotta una tale strategia, la conoscenza a priori delle relazioni generali tra le sequenze (es.: tutti i primati sono strettamente correlati tra loro, più di quanto non lo siano ad ogni altro mammifero) è fondamentale …ma non essenziale, poiché ad un algoritmo euristico potrebbe anche essere richiesto di considerare sepa-ratamente ogni raggruppamento di sequenze che supera una particolare soglia di similarità a coppie

45 Alberi consenso  1 Gli approcci di parsimonia, normalmente, producono più (ed anche molti) alberi ugualmente parsimoniosi, troppi per essere utilizzati come riassunto dell’infor-mazione filogenetica sottesa Creazione di un albero consenso, che riassume tutti gli alberi più parsimoniosi I punti di diramazione dove tutti gli alberi riassunti sono in accordo vengono rappresentati negli alberi consenso come biforcazioni I punti di disaccordo tra gli alberi vengono fusi insieme in nodi interni che connettono tre o più rami discendenti

46 Alberi consenso  2

47 Alberi consenso  3 In un albero consenso rigoroso, tutti i punti di disac-cordo sono trattati in maniera omogenea, anche quando un solo albero alternativo non sia coerente con centinaia di altri che sono in accordo riguardo ad un particolare punto di ramificazione In alternativa, si utilizza la regola di più del 50% di consenso, dove ogni nodo interno che sia presente in almeno la metà degli alberi riassunti è rappresentato come semplice biforcazione, mentre i nodi su cui meno della metà degli alberi sono in accordo, si rappresentano come multiforcazioni

48 Alberi consenso  4

49 Confidenza di un albero
Tutti gli alberi filogenetici rappresentano un’ipotesi circa la storia evolutiva delle sequenze che costitui-scono un insieme di dati È quindi opportuno porsi le seguenti domande Che confidenza può essere associata all’albero nel suo complesso ed alle sue parti costituenti (sottoalberi/ archi)? Bootstrapping Che probabilità ha un albero di essere corretto rispetto ad un albero alternativo particolare o scelto a caso? Confronto parametrico

50 Bootstrapping  1 È possibile che porzioni diverse di alberi dedotti siano determinate con diversi gradi di confidenza I test di bootstrap permettono una rozza quantifica-zione di tali livelli di confidenza Bootstrap Viene estratto (con permutazione) un sottoinsieme dei dati originali e dedotto un nuovo albero a partire da tale sottoinsieme Il processo di creazione di nuovi sottoinsiemi viene ripetuto per creare centinaia/migliaia di insiemi di dati ricampionati Le porzioni degli alberi dedotti che sono maggiormente riprodotte nell’albero consenso complessivo sono quelle particolarmente ben supportate dall’insieme di dati originario

51 Bootstrapping  2 I numeri che corrispondono alla frazione di alberi di boostrap che riproducono uno stesso nodo sono posizionati vicino al corrispondente nodo dell’albero consenso, per fornire indica-zioni sulla confidenza relativa di ogni parte dell’albero

52 Bootstrapping  3 La frequenza con cui i diversi gruppi si ritrovano nell’albero di consenso così costruito (le bootstrap proportion) sono una misura del supporto statistico per quel gruppo Valori superiori all’80% indicano un supporto molto forte Anche valori superiori al 50% indicano comunque che un gruppo è presente frequentemente negli pseudo data set Un basso supporto statistico non necessariamente implica un clade “sbagliato”

53 Bootstrapping  4 Nonostante l’utilizzo frequente nella letteratura scien-tifica, i risultati di bootstrap devono essere trattati con qualche cautela Quando si basano su “poche” iterazioni, cioè cicli di ricampionamento e generazione dell’albero, sono vero-similmente poco affidabili, specialmente quando è coin-volto un gran numero di sequenze Si tende a sottostimare la confidenza a livelli alti e a sovrastimarla a livelli bassi Fallacy of multiple tests: semplici fluttuazioni sembrano avere significatività statistica Malgrado i problemi evidenziati… si ottengono, in ge-nerale, alberi che sono rappresentazioni più accurate dell’albero reale rispetto al metodo del singolo albero più parsimonioso

54 Test parametrici  1 Poiché gli approcci di parsimonia spesso generano molti alberi che hanno lo stesso numero minimo di sostituzioni, sono generalmente presenti anche altret-tanti alberi alternativi che postulano poche sostituzioni in più Anche in questo caso, il principio sotteso al concetto di parsimonia suggerisce che l’albero che postula il minor numero di sostituzioni è quello che più proba-bilmente descrive la vera relazione tra le sequenze Peraltro non esiste un limite a quante sostituzioni può postulare l’albero più parsimonioso e gli insiemi di dati numerosi e che coinvolgono sequenze dissimili posso-no facilmente postulare molte migliaia di sostituzioni

55 Test parametrici  2 In tali casi è ragionevole chiedersi se un albero, che sia già così improbabile da postulare sostitu-zioni, sia significativamente più probabile di un albero alternativo che ne postula 10001 Ovvero… quanto è più probabile l’albero più parsimo-nioso rispetto ad un particolare albero alternativo precedentemente proposto per descrivere la relazione tra un dato insieme di taxa? A questa domanda è possibile fornire una risposta, per quanto parziale, utilizzando un test parametrico

56 Test parametrici  3 Si definisce test parametrico un test statistico che si può applicare in presenza di una distribuzione (normale) di dati Ciò avviene effettuando un controllo delle ipotesi sul valore di un parametro, la deviazione standard, l’uguaglianza tra due medie… In ambito filogenetico, il test parametrico più utilizzato è dovuto a H. Kishino e M. Hasegawa (1989) Si assume che i siti informativi all’interno di un allineamento siano indipendenti ed equivalenti e si usa la differenza del minimo numero di sostituzioni postulate da due alberi come test statistico (calcolandone la varianza) Test parametrici alternativi sono disponibili non solo per le analisi di parsimonia, ma anche per le matrici delle distanze e gli alberi a massima verosimiglianza

57 Confronto di metodi filogenetici
Né i metodi di ricostruzione filogenetica basati sulla distanza, né quelli basati sul carattere possono garantire di riuscire a descrivere il vero albero che traccia la storia evolutiva di un insieme di sequenze allineate Tuttavia… Gli insiemi di dati che permettono ad un metodo di dedurre la corretta relazione filogenetica, generalmente, portano a buoni risultati con tutti i metodi comunemente usati Se negli insiemi di dati si sono verificati molti cambiamenti o se le frequenze di cambiamento variano da ramo a ramo, nessun metodo funziona in maniera davvero affidabile Se un insieme di dati analizzato secondo metodi fondamen-talmente diversi, porta sempre ad uno stesso albero, quell’albero può essere considerato “affidabile”

58 Filogenie molecolari Nell’ultimo trentennio sono stati accumulati innumerevoli esempi interessanti di relazioni evolutive decifrate mediante l’analisi di sequenza Tali studi hanno avuto notevoli implicazioni nella medicina, in agricoltura, nella conservazione delle specie È probabile che un farmaco efficace contro un certo tipo di infezione sia efficace anche su infezioni provocate da orga-nismi correlati Facilità nel trasferimento di fattori di resistenza a una malattia tra specie vegetali strettamente correlate Possibilità di stabilire se una data popolazione di organismi si distingue sufficientemente da essere qualificata come specie separata per, eventualmente, meritare una protezione spe-ciale

59 L’albero della vita  1 Uno dei casi più impressionanti in cui l’analisi di sequenza ha fornito nuove informazioni sulle relazioni evolutive è quello legato alla comprensione delle suddivisioni fondamentali delle forme di vita Originariamente, i biologi divisero tutte le forme di vita in due gruppi principali, le piante e gli animali …ma, con le successive scoperte di nuovi organismi e lo studio delle loro caratteristiche, questa semplice dicotomia non funzionò più Fu più tardi riconosciuto che gli organismi potevano essere divisi in procarioti ed eucarioti sulla base della loro struttura cellulare

60 L’albero della vita  2 Più recentemente, sono state accettate diverse divi-sioni fondamentali delle forme di vita, quale ad esem-pio i cinque regni proposti da Whittaker: procarioti, protisti, piante, funghi e animali Tuttavia, una prova in negativo  ossia l’assenza di membrane interne che contraddistingue i procarioti  è stata universalmente riconosciuta come inadeguata a raggruppare tassonomicamente gli organismi A partire dalla fine degli anni ‘70, le sequenze di RNA e DNA furono utilizzate per scoprire per la prima volta le linee fondamentali della storia evolutiva di tutti gli organismi

61 L’albero della vita  3 In un famoso studio, Carl Woese et al. costruirono un albero evolutivo delle forme di vita basato sulle se-quenze nucleotidiche del 16s rRNA, che possiedono tutti gli organismi L’rRNA è il componente più conservato delle cellule I geni che codificano per l’rRNA vengono sequenziati per identificare il gruppo tassonomico di un organismo, per riconoscere i gruppi correlati e stimare il tasso di divergenza tra le varie specie L’albero evolutivo rivela tre gruppi principali Bacteria  i tradizionali procarioti Eucarya  organismi eucarioti, quali piante, animali e funghi Archea  batteri termofili ed organismi poco noti, per lo più conosciuti solo tramite le loro sequenze di rRNA

62 L’albero della vita  4

63 L’albero della vita  5 Si scoprì che gli Archea ed i Bacteria, sebbene entrambi procarioti, poiché privi di membrane interne, erano tanto differenti geneticamente quanto i Bacteria e gli Eucarya Le profonde differenze evolutive fra Archea e Bacteria non erano ovvie sulla base del fenotipo, e la testi-monianza fossile era completamente silente su questo argomento Le differenze divennero chiare solo dopo che furono confrontate le loro sequenze nucleotidiche Sequenze di geni, quali 5s rRNA e geni codificanti per alcune proteine fondamentali, supportano la loro appar-tenenza a due diversi gruppi evolutivi

64 Le origini dell’uomo  1 Regno: Animalia Sottoregno: Eumetazoa
Dominio: Eukaryota Regno: Animalia Sottoregno: Eumetazoa Phylum: Chordata Subphylum: Vertebrata Classe: Mammalia Sottoclasse: Eutheria Ordine: Primates Superfamiglia: Hominoidea Famiglia: Hominidae Genere: Homo Specie: Homo sapiens Sottospecie: Homo sapiens sapiens

65 Le origini dell’uomo  2 In contrasto con la grande variabilità che si osserva nella dimensione, nella forma del corpo, nei linea-menti del viso, nel colore della pelle, etc., le differen-ze genetiche tra le popolazioni umane sono relativa-mente piccole L’analisi delle sequenze di mtDNA rileva che la diffe-renza media nella sequenza tra due popolazioni umane è circa dello 0.33% Altri primati mostrano differenze molto maggiori: le due sottospecie dell’orangotango differiscono del 5% I gruppi umani sono strettamente correlati anche se presentano alcune differenze genetiche

66 Le origini dell’uomo  3 Sorprendentemente, le maggiori differenze non si riscontrano tra popolazioni dislocate in continenti di-versi, ma tra le popolazioni residenti in Africa Tutte le altre popolazioni umane presentano differen-ze minori di quelle rilevabili fra le popolazioni africane L’uomo ebbe origine e subì la prima divergenza evolu-tiva in Africa Dopo l’evoluzione in Africa di un certo numero di popo-lazioni geneticamente differenziate, un piccolo gruppo di esseri umani potrebbe essere migrato fuori dall’Africa ed aver dato inizio a tutte le altre popolazioni umane Teoria fuoridall’Africa: dati di analisi sia del DNA mitocondriale che del cromosoma Y del nucleo sono coerenti con questa ipotesi

67 Le origini dell’uomo  4 Un’ulteriore interpretazione dei dati suggerisce che tutti gli umani attualmente viventi hanno mitocondri che derivano da una “Eva mitocondriale” e che il cromosoma Y di tutti gli uomini deriva da un “cromosoma Y Adamo” di circa anni fa

68 Una curiosità…  1 Beleza et al., Molecular Biology and Evolution, Gennaio 2013 Studio su diversi geni che influiscono sul colore della pelle per comprendere quando le varianti di questi geni si siano diffuse I risultati hanno mostrato che la diffusione della variante di un gene condivisa sia da europei che asiatici, risale a circa anni fa, successivamente alla migrazione dall’Africa, avvenuta anni fa Viceversa, varianti degli altri geni, tipicamente europee, sarebbero molto più recenti, risalenti a 1100019000 anni fa Ma quali sono stati i fattori che hanno influenzato la selezione delle varianti geniche che codificano per un colore più chiaro della pelle? 

69 Una curiosità…  2 Il periodo compreso tra e anni fa corrisponde al picco dell’ultima glaciazione ed è ragionevole ritenere che gli essere umani, per proteggersi dal freddo, si siano coperti di più e abbiano cercato rifugi per ripararsi dalle intemperie limitando ulteriormente l’esposizione ai raggi UV È probabile che questi cambiamenti abbiano favorito la diffusione degli alleli per la pelle chiara, in modo da garantire un’adeguata produzione di vitamina D, utile per fissare il calcio nelle ossa La selezione di geni codificanti per la carnagione più chiara negli europei è avvenuta relativamente di recente e la pressione selettiva ha favorito le condizioni cutanee per una sintesi adeguata di vitamina D In situazioni con più scarsa esposizione solare, una pelle meno ricca di melanina è più efficiente nel produrre vitamina D e ridurre il rischio di carenza e le conseguenze che da essa derivano

70 Concludendo…  1 I metodi di ricostruzione filogenetica basati sul carattere sono incentrati principalmente sul principio di parsimonia  le sostituzioni sono eventi rari e la filogenia che invoca il minor numero di sostituzioni è quella che più probabilmente riflette la vera relazione tra le sequenze considerate Oltre a fornire informazioni sulle relazioni tra le sequenze, gli approcci di parsimonia possono fornire deduzioni potenzialmente utili riguardo alle sequenze di antenati degli organismi viventi, estinti da lungo tempo Tuttavia, le analisi di parsimonia possono essere com-putazionalmente pesanti, in particolare se si conside-rano allineamenti multipli di venti o più sequenze

71 Concludendo…  2 Gli insiemi di dati portano spesso a diversi alberi che sono ugualmente parsimoniosi e, per riassumerli, possono essere utilizzati gli alberi consenso Sono disponibili diversi metodi per determinare la robustezza degli alberi di parsimonia, inclusi bootstrap e test parametrici, sebbene non si possa garantire che un albero dedotto  sia con approcci basati sui carat-teri che sulla distanza  rappresenti la vera relazione evolutiva tra le sequenze considerate


Scaricare ppt "Metodi filogenetici basati sul carattere"

Presentazioni simili


Annunci Google