Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi
Andrea G. B. Tettamanzi, 2003 Scopi Data una famiglia di sequenze, trovare lalbero di mutazione più parsimonioso ricostruire lalbero filogenetico valutare la significatività di un dato albero filogenetico
Andrea G. B. Tettamanzi, 2003 Memorizzazione efficiente di sequenze 1. AGGATGAATGGGCGAACAGC 2. TGCTCGCGGGTAGAAGAAC 3. TAGATGAATGGTAGAACAAC 4. TGCAGCGTGATAGAACAAC 5. TGGAGAAATGATAGAACAAC 6. TGCACGCGGCATAGAACGAC 7. TGGATAGATGATACCACAAT m. TGGATGAATGATAGAACAAC (majority rule)
Andrea G. B. Tettamanzi, AGGATGAATGGGCGAACAGC 2. TGCTCGCGGG TAGAAGAAC 3. TAGATGAATGGTAGAACAAC 4. TGCAG CGTGATAGAACAAC 5. TGGAGAAATGATAGAACAAC 6. TGCACGCGGCATAGAACGAC 7. TGGATAGATGATACCACAAT m. TGGATGAATGATAGAACAAC (majority rule) Memorizzazione efficiente di sequenze
Andrea G. B. Tettamanzi, A=========GGC=====G= 2. ==CTC=CGG=.=====G=== 3. =A========G========= 4. ==C=G.CG============ 5. ====GA============== 6. ==C=C=CGGC=======G== 7. =====AG======CC====T m. TGGATGAATGATAGAACAAC (majority rule) Memorizzazione efficiente di sequenze
Andrea G. B. Tettamanzi, A=========GGC=====G= 2. ==CTC=CGG=.=====G=== 3. =A========G========= 4. ==C=G.CG============ 5. ====GA============== 6. ==C=C=CGGC=======G== 7. =====AG======CC====T m. TGGATGAATGATAGAACAAC {1, 3, 5, 7, m} m. ==C=C=CGG=========== {2, 4, 6} Memorizzazione efficiente di sequenze
Andrea G. B. Tettamanzi, 2003 m. TGGATGAATGATAGAACAAC 1. A=========GGC=====G= 3. =A========G========= 5. ====GA============== 7. =====AG======CC====T m. ==C=C=CGG=========== 2. ===T======.=====G=== 4. ====G.==T=========== 6. =========C=======G== Memorizzazione efficiente di sequenze m g m a
Andrea G. B. Tettamanzi, 2003 Spazio delle sequenze alfabeto: insieme delle sequenze diventa uno spazio quando è dotato di operazioni, distanza
Andrea G. B. Tettamanzi, 2003 Similarità di sequenze (Ovvero, distanza genetica) Efficiente Plausibile biologicamente Mutazione puntuale distanza di Hamming Cancellazione/inserimento metriche di Hamming con salti Rimescolamento, inversione, ecc.... Considerando diversi tipi di mutazione con probabilità differenti distanze di Hamming pesate = edit distance
Andrea G. B. Tettamanzi, 2003 Edit Distances Edit Operations: (a, a)Match (a, b)Replace (a, _)Delete (_, a)Insert Levenshtein Distance (after В. Левенштейн): operation weight or cost Cost of an alignment: sum of the costs of all edit operations that lead from s to t. Optimal alignment Edit distance: cost of the optimal alignment
Andrea G. B. Tettamanzi, 2003 Costruzione di alberi filogenetici 21 N
Andrea G. B. Tettamanzi, 2003 Algoritmi di linkage funzione di combinazione
Andrea G. B. Tettamanzi, 2003 Assunzione di fondo La distanza genetica tra due sequenze è direttamente proporzionale al tempo che le separa dalla loro sequenza progenitrice comune
Andrea G. B. Tettamanzi, 2003 Minimum linkage
Andrea G. B. Tettamanzi, 2003 Maximum linkage
Andrea G. B. Tettamanzi, 2003 Average linkage
Andrea G. B. Tettamanzi, 2003 Average linkage: esempio
Andrea G. B. Tettamanzi, 2003 {1,2} {3,4} {1,2} {3,4} {1,2} {1,2} {1,2} {1,2} {1,2} {1,2} {1,2} {3,4}{5,6}{7,8} {1,2} {3,4} -7{5,6} -{7,8} {1,2,3,4}{5,6}{7,8} {1,2,3,4} -7{5,6} -{7,8} {1-6}{7,8} {1-6} -{7,8} {1,2} {3,4}56{7,8} {1,2} {3,4} {7,8}
Andrea G. B. Tettamanzi,
Algoritmi di Linkage: discussione Nessuno dei tre algoritmi garantisce di ottenere il vero albero filogenetico delle sequenze prese in esame Se tutti e tre gli algoritmi producono lo stesso albero, è molto plausibile che quello sia il vero albero filogenetico Se un certo raggruppamento/sottoalbero (ingl. clade, da gr. κλάδος, gruppo) compare in tutti e tre gli alberi, è molto plausibile che si tratti di ununità valida filogeneticamente.
Andrea G. B. Tettamanzi, 2003 Trasformata di Farris (1) Tutti e tre gli algoritmi di linkage forniscono sempre il risultato corretto se Idea: usiamo una mappa reale Esempio:
Andrea G. B. Tettamanzi, 2003 Trasformata di Farris (2) similarità distanza aggiustata soddisfa la diseguaglianza ultrametrica:
Andrea G. B. Tettamanzi, 2003 Algoritmo di linkage additivo fissare arbitrariamente una sequenza k N.B.: il risultato è un albero senza radice
Andrea G. B. Tettamanzi, 2003 Neighbor-Joining Method N. Saitou e M. Nei. Molecular Biology and Evolution, 4: , i j N la lunghezza degli archi deve essere una buona approssimazione delle distanze
Andrea G. B. Tettamanzi, 2003 Neighbor-Joining Method Basato sulla ricerca di unità tassonomiche operative (UTO) –che minimizzino la lunghezza totale dei rami dellalbero –e questo ad ogni passo dellalgoritmo di raggruppamento Scopo: ottenere un albero additivo senza radice che approssimi la matrice delle distanze tra le sequenze Si procede in N – 2 cicli, ripetendo i passi seguenti: –raggruppare le due UTO più prossime, creando un arco interno tra quella coppia e le altre UTO, seguendo un criterio di minimizzazione della lunghezza dellabero ottenuto; –calcolare la valutazione intermedia –ricalcolare la matrice delle distanze raggruppando secondo laverage linkage.
Andrea G. B. Tettamanzi, 2003 NJ: Albero iniziale a stella x i j N...
Andrea G. B. Tettamanzi, 2003 NJ: Selezione delle OTU più prossime lunghezza dellalbero per una topologia in cui i e j sono raggruppati insieme i j {i, j}x k h
Andrea G. B. Tettamanzi, 2003 NJ: Lunghezze degli archi ad ogni iterazione, si calcolano solo le lunghezze di questi due nuovi archi.
Andrea G. B. Tettamanzi, 2003 NJ: Ricalcolo della matrice delle distanze
Andrea G. B. Tettamanzi, 2003 PHYLIP Phylogeny Inference Package Una collezione di metodi e algoritmi per la filogenetica molecolare free, public domain e open-source.
Andrea G. B. Tettamanzi, 2003 Massima Verosimigianza Assume un tasso di mutazione costante Tra tutti i possibili alberi, sceglie quello che soddisfa il criterio di massima verosimigianza (probabilità massima). Approccio perfezionato da Felsenstein (1973) e Thompson (1975). Casi particolari sono lalgoritmo di Fitch e Margoliash (1967), minimi errori standard, e di Cavali-Sforza ed Edwards (1967), minimi quadrati. Anche se non esiste allo stato attuale una dimostrazione, si pensa che questo approccio alla costruzione di alberi filogenetici sia NP-difficile (è simile alla costruzione di alberi di Steiner).
Andrea G. B. Tettamanzi, 2003 Algoritmi Evolutivi Numero di alberi possibili di n sequenze: Approcci alla costruzione di alberi filogenetici basata sul criterio di massima verosimiglianza con algoritmi genetici sono stati proposti da Lewis (1998) e Matsuda (1996)
Andrea G. B. Tettamanzi, 2003 Split Decomposition Invece di tentare a tutti i costi di ricostruire un albero, è possibile produrre un grafo più generale che riassume tutti gli alberi filogenetici plausibili sulla base dei dati. SplitsTree
Andrea G. B. Tettamanzi, 2003 Phylogenetic Split (Fissione Filogenetica) è un d-split se e solo se Indice di isolamento di uno split misura quanto una fissione è supportata dai dati, e idealmente coincide con la lunghezza del ramo che unisce i due sottoalberi
Andrea G. B. Tettamanzi, 2003 Split Metric soddisfa distanza residua: definisce una metrica che non ammette ulteriori fissioni con indice di isolamento positivo: è il rumore non scomponibile per fissioni. percentuale scomponibile per fissioni della matrice delle distanze
Andrea G. B. Tettamanzi, 2003 Split Decomposition: Algoritmo Ricorsivamente: posto che tutti i d-split relativi al sottoinsieme {1,…, i – 1} siano già stati determinti; per ogni split S = (A, B) di questo sottoinsieme, verificare se o siano ammissibili come d-split dellinsieme allargato a i. La procedura termina quando i = N. Si può dimostrare che la complessità di questo algoritmo è
Andrea G. B. Tettamanzi, 2003 Metodi Basati sui Caratteri Tutti i metodi visti fin qui utilizzano una matrice di distanze tra sequenze Metodi basati sulle distanze guardano allevoluzione da lontano, ignorando informazioni di dettaglio Metodi basati sui caratteri partono dal dettaglio Cercano di ripercorrere le traiettorie seguite dallevoluzione Ricostruzione filologica delle sequenze dei progenitori comuni Siccome i metodi basati sulle distanze e sui caratteri sono fondamentalmente differenti, una loro concordanza nelle conclusioni è considerata una forte prova a favore di un albero filogenetico
Andrea G. B. Tettamanzi, 2003 Parsimonia Premesse di fondo: –Le mutazioni sono eventi estremamente rari –Più eventi improbabili un modello deve assumere, meno è probabile che il modello sia corretto Allineamento multiplo di sequenze Concetto di sito informativo: per essere informativa, una posizione deve: –contenere almeno due nucleotidi diversi –ciascuno di questi nucleotidi deve comparire almeno due volte Parsimonia pesata
Andrea G. B. Tettamanzi, 2003 Esempio 12345*6* 1.GGGGGG 2. GGGAGT 3. GGATAG 4. GATCAT
Andrea G. B. Tettamanzi, 2003 Ricostruzione TGGAA G G A G~A GGATA G A G~A~T GGTAA G G~T A G~T~A IF S T THEN R = S T ELSE R = S T T S R
Andrea G. B. Tettamanzi, 2003 Strategie di Ricerca La ricerca esaustiva su tutti gli alberi non è proponibile Metodo branch and bound (Hardy e Penny 1982): –Costruzione incrementale dellalbero –Limite superiore della lunghezza di un albero parsimonioso –Non si esplorano strade che portano ad alberi peggiori –Garanzia di trovare lottimo, ma miglioramento solo di scala temporale, non di complessità, che resta esponenziale Metodi euristici, approssimati –Essenzialmente basati su hillclimbing o simulated annealing –Lottimo globale non è garantito
Andrea G. B. Tettamanzi, 2003 Bootstrapping Serve a misurare il grado di confidenza nellalbero ricostruito Creazione di insiemi di sequenze artificiali, ottenuti estraendo a caso le colonne delle sequenze reali con reimbussolamento Costruzione per ciascun insieme artificiale, di un albero Se gli alberi ricostruiti sono sempre uguali o molto simili => buona confidenza Risultati da trattare con molta attenzione: –Necessità di eseguire moltissimi test, altrimenti rumore; –Tende a sottostimare la confidenza a livelli alti, e a sovrastimarla a livelli bassi –Fallacy of multiple tests = semplici fluttuazioni statistiche sembrano avere significatività statistica