Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi.

Slides:



Advertisements
Presentazioni simili
Premessa: si assume di aver risolto (correttamente
Advertisements

Algoritmi e Strutture Dati
Strutture dati per insiemi disgiunti
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Master Bioinformatica 2002: Grafi Problema: cammini minimi da tutti i vertici a tutti i vertici Dato un grafo pesato G =(V,E,w), trovare un cammino minimo.
Politecnico di Torino Tesi di Laurea
Algoritmi e Strutture Dati
Alberi binari di ricerca
Il problema del cammino minimo tra 2 nodi in un grafo con archi privati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Stesso approccio.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Ordinamenti ottimi.
Capitolo 3 Strutture dati elementari Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Stesso approccio.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Strutture dati per.
Algoritmi e Strutture Dati
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Stesso approccio.
Apprendimento Non Supervisionato
Computational Learning Theory and PAC learning
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 19/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
U V U V (a) |cfc|=2 prima e dopo (b) |cfc|=2 prima e |cfc|=1 dopo
Algoritmo di Ford-Fulkerson
Algoritmi e strutture Dati - Lezione 7
Algoritmi e Strutture Dati
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Capitolo 12 Minimo albero ricoprente: Algoritmi di Prim e di Boruvka Algoritmi.
Capitolo 4 Ordinamento: Selection e Insertion Sort Algoritmi e Strutture Dati.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Alberi AVL (Adelson-Velskii.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl Alberi AVL (Adelson-Velskii.
Capitolo 4 Ordinamento: Selection e Insertion Sort Algoritmi e Strutture Dati.
Algoritmi e Strutture Dati
Capitolo 4 Ordinamento: Selection e Insertion Sort Algoritmi e Strutture Dati.
Algoritmi e Strutture Dati Alberi Binari di Ricerca.
Algoritmi e Strutture Dati (Mod. A)
Algoritmi e strutture dati
Algoritmi e Strutture Dati
Biologia computazionale
Intelligenza Artificiale Algoritmi Genetici
Intelligenza Artificiale
(Neighbour-Joining Method)
Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002.
Elementi di Informatica di base
Strutture dati per insiemi disgiunti
Filogenesi molecolare
Passo 3: calcolo del costo minimo
Per valutare la complessità ammortizzata scomponiamo ogni Union: nelle due FindSet e nella Link che la costituiscono e valuteremo la complessità in funzione.
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
Heap Ordinamento e code di priorità Ugo de Liguoro.
Algoritmi e Strutture Dati
La complessità media O(n log n) di Quick-Sort vale soltanto se tutte le permutazioni dell’array in ingresso sono ugualmente probabili. In molte applicazioni.
Euristiche: algoritmi costruttivi e di ricerca locale
Web Communities and their identificaton
Cammini minimi da un sorgente
Ugo de'Liguoro - Informatica 2 a.a. 03/04 Lez. 1 Cicli ed asserzioni Corso di Informatica 2 a.a. 2003/04 Lezione 1.
Didattica e Fondamenti degli Algoritmi e della Calcolabilità Terza giornata: principali classi di complessità computazionale dei problemi Guido Proietti.
Capitolo 13 Cammini minimi: Algoritmo di Floyd e Warshall Algoritmi e Strutture Dati.
Paola Disisto, Erika Griffini, Yris Noriega.  Insieme ordinato di operazioni non ambigue ed effettivamente computabili che, quando eseguito, produce.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Algoritmi e strutture Dati - Lezione 7 1 Algoritmi di ordinamento ottimali L’algoritmo Merge-Sort ha complessità O(n log(n))  Algoritmo di ordinamento.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Il Problema del Commesso Viaggiatore. Traveling Salesman’s Problem (TSP) Un commesso viaggiatore deve visitare un certo numero di città Conosce la distanza.
Intelligenza Artificiale Risoluzione di Problemi
Università degli Studi di Cagliari FACOLTA’ DI INGEGNERIA
Algoritmi e Strutture Dati HeapSort. Select Sort: intuizioni L’algoritmo Select-Sort  scandisce tutti gli elementi dell’array a partire dall’ultimo elemento.
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Algoritmi e Strutture Dati Luciano Gualà
Transcript della presentazione:

Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi

Andrea G. B. Tettamanzi, 2003 Scopi Data una famiglia di sequenze, trovare lalbero di mutazione più parsimonioso ricostruire lalbero filogenetico valutare la significatività di un dato albero filogenetico

Andrea G. B. Tettamanzi, 2003 Memorizzazione efficiente di sequenze 1. AGGATGAATGGGCGAACAGC 2. TGCTCGCGGGTAGAAGAAC 3. TAGATGAATGGTAGAACAAC 4. TGCAGCGTGATAGAACAAC 5. TGGAGAAATGATAGAACAAC 6. TGCACGCGGCATAGAACGAC 7. TGGATAGATGATACCACAAT m. TGGATGAATGATAGAACAAC (majority rule)

Andrea G. B. Tettamanzi, AGGATGAATGGGCGAACAGC 2. TGCTCGCGGG TAGAAGAAC 3. TAGATGAATGGTAGAACAAC 4. TGCAG CGTGATAGAACAAC 5. TGGAGAAATGATAGAACAAC 6. TGCACGCGGCATAGAACGAC 7. TGGATAGATGATACCACAAT m. TGGATGAATGATAGAACAAC (majority rule) Memorizzazione efficiente di sequenze

Andrea G. B. Tettamanzi, A=========GGC=====G= 2. ==CTC=CGG=.=====G=== 3. =A========G========= 4. ==C=G.CG============ 5. ====GA============== 6. ==C=C=CGGC=======G== 7. =====AG======CC====T m. TGGATGAATGATAGAACAAC (majority rule) Memorizzazione efficiente di sequenze

Andrea G. B. Tettamanzi, A=========GGC=====G= 2. ==CTC=CGG=.=====G=== 3. =A========G========= 4. ==C=G.CG============ 5. ====GA============== 6. ==C=C=CGGC=======G== 7. =====AG======CC====T m. TGGATGAATGATAGAACAAC {1, 3, 5, 7, m} m. ==C=C=CGG=========== {2, 4, 6} Memorizzazione efficiente di sequenze

Andrea G. B. Tettamanzi, 2003 m. TGGATGAATGATAGAACAAC 1. A=========GGC=====G= 3. =A========G========= 5. ====GA============== 7. =====AG======CC====T m. ==C=C=CGG=========== 2. ===T======.=====G=== 4. ====G.==T=========== 6. =========C=======G== Memorizzazione efficiente di sequenze m g m a

Andrea G. B. Tettamanzi, 2003 Spazio delle sequenze alfabeto: insieme delle sequenze diventa uno spazio quando è dotato di operazioni, distanza

Andrea G. B. Tettamanzi, 2003 Similarità di sequenze (Ovvero, distanza genetica) Efficiente Plausibile biologicamente Mutazione puntuale distanza di Hamming Cancellazione/inserimento metriche di Hamming con salti Rimescolamento, inversione, ecc.... Considerando diversi tipi di mutazione con probabilità differenti distanze di Hamming pesate = edit distance

Andrea G. B. Tettamanzi, 2003 Edit Distances Edit Operations: (a, a)Match (a, b)Replace (a, _)Delete (_, a)Insert Levenshtein Distance (after В. Левенштейн): operation weight or cost Cost of an alignment: sum of the costs of all edit operations that lead from s to t. Optimal alignment Edit distance: cost of the optimal alignment

Andrea G. B. Tettamanzi, 2003 Costruzione di alberi filogenetici 21 N

Andrea G. B. Tettamanzi, 2003 Algoritmi di linkage funzione di combinazione

Andrea G. B. Tettamanzi, 2003 Assunzione di fondo La distanza genetica tra due sequenze è direttamente proporzionale al tempo che le separa dalla loro sequenza progenitrice comune

Andrea G. B. Tettamanzi, 2003 Minimum linkage

Andrea G. B. Tettamanzi, 2003 Maximum linkage

Andrea G. B. Tettamanzi, 2003 Average linkage

Andrea G. B. Tettamanzi, 2003 Average linkage: esempio

Andrea G. B. Tettamanzi, 2003 {1,2} {3,4} {1,2} {3,4} {1,2} {1,2} {1,2} {1,2} {1,2} {1,2} {1,2} {3,4}{5,6}{7,8} {1,2} {3,4} -7{5,6} -{7,8} {1,2,3,4}{5,6}{7,8} {1,2,3,4} -7{5,6} -{7,8} {1-6}{7,8} {1-6} -{7,8} {1,2} {3,4}56{7,8} {1,2} {3,4} {7,8}

Andrea G. B. Tettamanzi,

Algoritmi di Linkage: discussione Nessuno dei tre algoritmi garantisce di ottenere il vero albero filogenetico delle sequenze prese in esame Se tutti e tre gli algoritmi producono lo stesso albero, è molto plausibile che quello sia il vero albero filogenetico Se un certo raggruppamento/sottoalbero (ingl. clade, da gr. κλάδος, gruppo) compare in tutti e tre gli alberi, è molto plausibile che si tratti di ununità valida filogeneticamente.

Andrea G. B. Tettamanzi, 2003 Trasformata di Farris (1) Tutti e tre gli algoritmi di linkage forniscono sempre il risultato corretto se Idea: usiamo una mappa reale Esempio:

Andrea G. B. Tettamanzi, 2003 Trasformata di Farris (2) similarità distanza aggiustata soddisfa la diseguaglianza ultrametrica:

Andrea G. B. Tettamanzi, 2003 Algoritmo di linkage additivo fissare arbitrariamente una sequenza k N.B.: il risultato è un albero senza radice

Andrea G. B. Tettamanzi, 2003 Neighbor-Joining Method N. Saitou e M. Nei. Molecular Biology and Evolution, 4: , i j N la lunghezza degli archi deve essere una buona approssimazione delle distanze

Andrea G. B. Tettamanzi, 2003 Neighbor-Joining Method Basato sulla ricerca di unità tassonomiche operative (UTO) –che minimizzino la lunghezza totale dei rami dellalbero –e questo ad ogni passo dellalgoritmo di raggruppamento Scopo: ottenere un albero additivo senza radice che approssimi la matrice delle distanze tra le sequenze Si procede in N – 2 cicli, ripetendo i passi seguenti: –raggruppare le due UTO più prossime, creando un arco interno tra quella coppia e le altre UTO, seguendo un criterio di minimizzazione della lunghezza dellabero ottenuto; –calcolare la valutazione intermedia –ricalcolare la matrice delle distanze raggruppando secondo laverage linkage.

Andrea G. B. Tettamanzi, 2003 NJ: Albero iniziale a stella x i j N...

Andrea G. B. Tettamanzi, 2003 NJ: Selezione delle OTU più prossime lunghezza dellalbero per una topologia in cui i e j sono raggruppati insieme i j {i, j}x k h

Andrea G. B. Tettamanzi, 2003 NJ: Lunghezze degli archi ad ogni iterazione, si calcolano solo le lunghezze di questi due nuovi archi.

Andrea G. B. Tettamanzi, 2003 NJ: Ricalcolo della matrice delle distanze

Andrea G. B. Tettamanzi, 2003 PHYLIP Phylogeny Inference Package Una collezione di metodi e algoritmi per la filogenetica molecolare free, public domain e open-source.

Andrea G. B. Tettamanzi, 2003 Massima Verosimigianza Assume un tasso di mutazione costante Tra tutti i possibili alberi, sceglie quello che soddisfa il criterio di massima verosimigianza (probabilità massima). Approccio perfezionato da Felsenstein (1973) e Thompson (1975). Casi particolari sono lalgoritmo di Fitch e Margoliash (1967), minimi errori standard, e di Cavali-Sforza ed Edwards (1967), minimi quadrati. Anche se non esiste allo stato attuale una dimostrazione, si pensa che questo approccio alla costruzione di alberi filogenetici sia NP-difficile (è simile alla costruzione di alberi di Steiner).

Andrea G. B. Tettamanzi, 2003 Algoritmi Evolutivi Numero di alberi possibili di n sequenze: Approcci alla costruzione di alberi filogenetici basata sul criterio di massima verosimiglianza con algoritmi genetici sono stati proposti da Lewis (1998) e Matsuda (1996)

Andrea G. B. Tettamanzi, 2003 Split Decomposition Invece di tentare a tutti i costi di ricostruire un albero, è possibile produrre un grafo più generale che riassume tutti gli alberi filogenetici plausibili sulla base dei dati. SplitsTree

Andrea G. B. Tettamanzi, 2003 Phylogenetic Split (Fissione Filogenetica) è un d-split se e solo se Indice di isolamento di uno split misura quanto una fissione è supportata dai dati, e idealmente coincide con la lunghezza del ramo che unisce i due sottoalberi

Andrea G. B. Tettamanzi, 2003 Split Metric soddisfa distanza residua: definisce una metrica che non ammette ulteriori fissioni con indice di isolamento positivo: è il rumore non scomponibile per fissioni. percentuale scomponibile per fissioni della matrice delle distanze

Andrea G. B. Tettamanzi, 2003 Split Decomposition: Algoritmo Ricorsivamente: posto che tutti i d-split relativi al sottoinsieme {1,…, i – 1} siano già stati determinti; per ogni split S = (A, B) di questo sottoinsieme, verificare se o siano ammissibili come d-split dellinsieme allargato a i. La procedura termina quando i = N. Si può dimostrare che la complessità di questo algoritmo è

Andrea G. B. Tettamanzi, 2003 Metodi Basati sui Caratteri Tutti i metodi visti fin qui utilizzano una matrice di distanze tra sequenze Metodi basati sulle distanze guardano allevoluzione da lontano, ignorando informazioni di dettaglio Metodi basati sui caratteri partono dal dettaglio Cercano di ripercorrere le traiettorie seguite dallevoluzione Ricostruzione filologica delle sequenze dei progenitori comuni Siccome i metodi basati sulle distanze e sui caratteri sono fondamentalmente differenti, una loro concordanza nelle conclusioni è considerata una forte prova a favore di un albero filogenetico

Andrea G. B. Tettamanzi, 2003 Parsimonia Premesse di fondo: –Le mutazioni sono eventi estremamente rari –Più eventi improbabili un modello deve assumere, meno è probabile che il modello sia corretto Allineamento multiplo di sequenze Concetto di sito informativo: per essere informativa, una posizione deve: –contenere almeno due nucleotidi diversi –ciascuno di questi nucleotidi deve comparire almeno due volte Parsimonia pesata

Andrea G. B. Tettamanzi, 2003 Esempio 12345*6* 1.GGGGGG 2. GGGAGT 3. GGATAG 4. GATCAT

Andrea G. B. Tettamanzi, 2003 Ricostruzione TGGAA G G A G~A GGATA G A G~A~T GGTAA G G~T A G~T~A IF S T THEN R = S T ELSE R = S T T S R

Andrea G. B. Tettamanzi, 2003 Strategie di Ricerca La ricerca esaustiva su tutti gli alberi non è proponibile Metodo branch and bound (Hardy e Penny 1982): –Costruzione incrementale dellalbero –Limite superiore della lunghezza di un albero parsimonioso –Non si esplorano strade che portano ad alberi peggiori –Garanzia di trovare lottimo, ma miglioramento solo di scala temporale, non di complessità, che resta esponenziale Metodi euristici, approssimati –Essenzialmente basati su hillclimbing o simulated annealing –Lottimo globale non è garantito

Andrea G. B. Tettamanzi, 2003 Bootstrapping Serve a misurare il grado di confidenza nellalbero ricostruito Creazione di insiemi di sequenze artificiali, ottenuti estraendo a caso le colonne delle sequenze reali con reimbussolamento Costruzione per ciascun insieme artificiale, di un albero Se gli alberi ricostruiti sono sempre uguali o molto simili => buona confidenza Risultati da trattare con molta attenzione: –Necessità di eseguire moltissimi test, altrimenti rumore; –Tende a sottostimare la confidenza a livelli alti, e a sovrastimarla a livelli bassi –Fallacy of multiple tests = semplici fluttuazioni statistiche sembrano avere significatività statistica