UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA

Slides:



Advertisements
Presentazioni simili
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Advertisements

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Master Bioinformatica 2002: Grafi Problema: cammini minimi da tutti i vertici a tutti i vertici Dato un grafo pesato G =(V,E,w), trovare un cammino minimo.
Politecnico di Torino Tesi di Laurea
Autovalori e autovettori
Routing Crediti Parte delle slide seguenti sono adattate dalla versione originale di J.F Kurose and K.W. Ross (© All Rights Reserved)
Alberi binari di ricerca
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Esercitazioni su circuiti combinatori
Il problema del cammino minimo tra 2 nodi in un grafo con archi privati.
Macchine non completamente specificate
Apprendimento Non Supervisionato
Algoritmi Paralleli e Distribuiti a.a. 2008/09 Lezione del 19/05/2009 Prof. ssa ROSSELLA PETRESCHI a cura del Dott. SAVERIO CAMINITI.
U V U V (a) |cfc|=2 prima e dopo (b) |cfc|=2 prima e |cfc|=1 dopo
ANALISI DEI GRUPPI seconda parte
Algoritmi e strutture Dati - Lezione 7
Il problema del dizionario
Il problema del cammino minimo tra 2 nodi in un grafo con archi privati.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Algoritmi e Strutture Dati (Mod. A)
Algoritmi e strutture dati
Seminario su clustering dei dati – Parte II
INGEGNERIA CLINICA E BIOMEDICA
Valutazione della stima: gli intervalli di confidenza
Sistemi Peer To Peer (P2P) Avanzati Gennaro Cordasco Gennaro Cordasco
Modelli probabilistici
Studente Claudia Puzzo
Lezione 5 Domande: Laverage path length di Chord con 2^b identificatori e N=2^b nodi è (giustificare la risposta) Laverage path length di Chord con 2^b.
Biologia computazionale A.A semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re p5p5 UPGMA C.d.l.
Biologia computazionale
Analisi dei gruppi – Cluster Analisys
(Neighbour-Joining Method)
Fibonacci Heaps e il loro utilizzo nell’algoritmo di Prim
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Filogenesi molecolare
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Heap Ordinamento e code di priorità Ugo de Liguoro.
Euristiche: algoritmi costruttivi e di ricerca locale
STATISTICA PER LE DECISIONI DI MARKETING
Cammini minimi da un sorgente
IL CAMPIONE.
Olimpiadi di Informatica 2010 Giornate preparatorie
Algoritmi e strutture Dati - Lezione 7 1 Algoritmi di ordinamento ottimali L’algoritmo Merge-Sort ha complessità O(n log(n))  Algoritmo di ordinamento.
Claudio Arbib Università dell’Aquila Ricerca Operativa Metodo del simplesso per problemi di distribuzione single-commodity.
Grammatiche non contestuali (1)
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 11 Distanza genomica.
Prof. Cerulli – Dott. Carrabs
Codici prefissi Un codice prefisso è un codice in cui nessuna parola codice è prefisso (parte iniziale) di un’altra Ogni codice a lunghezza fissa è ovviamente.
Capitolo 13 Cammini minimi: Bellman e Ford Algoritmi e Strutture Dati.
Flusso di Costo Minimo Applicazione di algoritmi: Cammini Minimi Successivi (SSP) Esercizio 1 Sia data la seguente rete di flusso, in cui i valori riportati.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
Università degli Studi di Cagliari FACOLTA’ DI INGEGNERIA
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Capitolo 1 Un’introduzione.
Algoritmi e Strutture Dati HeapSort. Select Sort: intuizioni L’algoritmo Select-Sort  scandisce tutti gli elementi dell’array a partire dall’ultimo elemento.
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Algoritmi e Strutture Dati Università di Camerino Corso di Laurea in Informatica (12 CFU) I periodo didattico Emanuela Merelli
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
ASD a.a.2010/2011- Lezione 12 Algoritmi e Strutture dati a.a.2010/2011 Prof.ssa Rossella Petreschi Backtracking/ Branch and Bound Lezione n°12.
OTTIMIZZAZIONE DI UN PERCORSO GRAFO CAMMINO MINIMO.
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Algoritmi Avanzati a.a.2013/2014 Prof.ssa Rossella Petreschi Albero ricoprente di costo minimo Lezione n°12.
Algoritmi Avanzati a.a.2014/2015 Prof.ssa Rossella Petreschi Lezione n°10.
Algoritmi Avanzati a.a.2014/2015 Prof.ssa Rossella Petreschi Lezione n°9.
Algoritmi Avanzati a.a.2012/2013 Prof.ssa Rossella Petreschi Albero Ricoprente Lezione n°9.
Transcript della presentazione:

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 10 Evoluzione Molecolare e Analisi Filogenetica

Introduzione Problema: Struttura usata per rappresentare l’evoluzione: studio della storia evolutiva di un insieme di specie Struttura usata per rappresentare l’evoluzione: albero evolutivo o filogenesi Struttura ad albero in cui le foglie sono etichettate dalle specie esistenti, i nodi interni dalle specie progenitrici dato un insieme di specie costruire un albero evolutivo In genere struttura dell’albero e specie progenitrici sono incognite

Albero evolutivo AAAGGTACC AAATGTACC AAATGTACC AAATGTGCC AAATGTGCC G  T mutation AAATGTACC A  G mutation AAATGTACC AAATGTGCC TAATGTGCC AAATGTGCC A  T mutation

I passi 1. Allineamento 2. Modello di sostituzione 3. Costruzione dell’albero 4. Valutazione dell’albero

Allineamento Scelta delle procedure di allineamento Dipendenza dal computer nulla, parziale o completa Richiamo della filogenia assente, a priori o ricorsivo Stima dei parametri di allineamento a priori, dinamica o ricorsiva Possibile allineamento rispetto a strutture superiori Ottimizzazione matematica statistica o non statistica Estrazione di un insieme di dati filogenetici dall’allineamento trattamento degli indels

Modello di sostituzione Matrici di sostituzione tra basi Simmetriche (reversibilità nel tempo) o no Stazionarie o no Tassi di sostituzione tra siti eterogenei Esempio: terzo codone più variabile dei primi due

Costruzione dell’albero filogenetico Metodi basati sulla distanza L’istanza del problema è un insieme di specie e delle distanze evolutive tra esse (Matrice delle distanze) L’obiettivo è costruire un albero che rispetti le distanze date

Distanza genetica tra sequenze omologhe Numero di sostituzioni per sito Sono sottostimate (sostituzioni convergenti, retromutazioni) ACTGAACGTAACGC C->T->A A->T->A AATGGACGTAACGC TCTGGACGTAACGC

Unweighted Pair Group Method with Arithmetic mean (Sokal e Michener 1958) Funziona per velocità circa costanti nelle diverse linee evolutive: relazione lineare tra distanza e tempo di divergenza Usa un algorimo di clusterizzazione sequenziale iterativo Collega le sequenze più vicine a un antenato comune Sostituisce le due sequenze col padre Itera la procedura fino ad avere un solo elemento (radice)

UPGMA (Sokal, Michener, 1958) Initialize Ci = {si}, for all i. Repeat until one cluster left: Find two clusters Ci, Cj with mini=1,..,n;j=1,…,n dij=(dpq)/|Ci||Cj|, pCi, qCj Define node k with i,j as children, edge weight dij Form cluster k, remove i,j clusters. 0.1 0.4 Problem of UPGMA

UPGMA - Esempio A B C B dAB C dAC dBC D dAD dBD dCD Sia dAB il valore più piccolo; A e B vengono raggruppate e il punto di biforcazione posizionato alla distanza dAB/2

UPGMA - Esempio AB C C d(AB)C D d(AB)D dCD ove d(AB)C = (dAC+dBC) /2 e d(AB)D = (dAD+dBD) /2. Sia ora d(AB)C il valore più piccolo; C è raggruppata con AB con punto di biforcazione a distanza d(AB)C/2. Infine si raggruppa con D e la radice è posta a distanza d(ABC)D = [(dAD+dBD+dCD)/3] /2

UPGMA - Esempio A B dAB/2 C d(AB)C/2 D d(ABC)D /2

Neighbor Joining (Saitou, Nei, 1987) Ricostruisce l’albero senza radice che minimizza la somma delle lunghezze dei rami Neighbors: coppia di sequenze, singole o composite, connesse attraverso un singolo nodo interno A B C D E

Neighbor Joining (Saitou-Nei, 1987) Initialize: T={sequences}, L=T Choose i,jL such that dij-ri-rj minimized. Rest similar to UPGMA with similar modification on edge weights to k. Here, ri, rj are the average distances from i,j to other nodes in L – to compensate long edges.

Neighbor joining - Esempio Situazione iniziale:

Neighbor joining - Esempio Tra le n(n-1)/2 diverse coppie si cerca quella che minimizza la somma delle lunghezze dei rami nell’albero seguente:

Neighbor joining - Esempio Si itera la procedura sulla nuova stella con n-1 foglie ottenuta sostituendo ai due neighbors trovati la loro combinazione

Costruzione dell’albero filogenetico Metodi basati sulle sequenze Istanza del problema : insieme di sequenze biologiche appartenenti a diverse specie Output: albero evolutivo (con i nodi interni etichettati dalle sequenze progenitrici) di costo minimo Punteggio di un arco := punteggio dell’allineamento ottimale delle sequenze associate ai nodi dell’arco Punteggio dell’albero := somma dei punteggi degli archi Caso particolare: la struttura dell’albero viene data. Ricerca sequenze progenitrici. Anche questo caso è difficile.

Maximum parsimony (MP - Eck, Dayhoff 66) Rasoio di Occam: La miglior spiegazione dei dati è la più semplice Si trova l’albero che spiega le differenze osservate col minor numero di sostituzioni Metodo qualitativo; determina la topologia dell’albero, non la lunghezza dei rami Molto lento. Usa branch and bound

MP Siti informativi: favoriscono alcuni alberi rispetto ad altri In generale, contengono almeno due nucleotidi ciascuno dei quali è presente in almeno due sequenze MP è molto usato per la sua semplicità; è inadeguato per sequenze nucleotidiche, attendibile come analisi preliminare per le proteine Genera molti alberi equivalenti

Maximum Likelihood (ML, Felsenstein 81) Cerca il modello evolutivo, albero compreso, che ha la massima verosimiglianza rispetto alla produzione delle sequenze osservate

Maximum Likelihood Modello di Jukes-Cantor (1969) : uguale probabilità di sostituzione (1 parametro ) Modello di Kimura (1980) (2 parametri): diversi tassi di sostituzione ( e ) da purina (A,G) a purina o da pirimidina (C,T,U) a pirimidina Processo molto lento, per la necessità di eseguire una ricerca esaustiva su tutti gli alberi Risultati migliori di MP nelle simulazioni

ML - Esempio t1 1 a t5 5 b 2 b t2 a t3 3 c 6 g t6 4 d t4 6 5 a b g t1 t2 t3 t4 t5 t6 L = SaSbSgpa Pab(t5) Pag(t6) Pba(t1) Pbb(t2) Pgc(t3) Pgd(t4)

ML - Esempio Problema della determinazione di Pij(t) Necessità di considerare diverse topologie e diverse lunghezze dei rami.

Metodo dei quartetti Per ogni quattro sequenze si costruisce un albero di 4 nodi (quartetto), ad esempio usando ML Si costruisce poi un grande albero formato dalla (maggior parte di) questi piccoli alberi. Questo passo è NP-difficile Un nuovo approccio: correzione dei dati

Quartetti e Correzione Albero originale d b c a b e c d a d a b e e b b d a d e c correzione a c e c errore d e

Il Software HyperCleaning Per meno di 30 taxa, HyperCleaning è confrontabile con fastDNAml (che usa il punteggio di maximum likehood), e si comporta meglio di NJ. Per più di 30 taxa, i metodi ML e MP puri richiedono giorni e producono risultati scadenti. HyperCleaning si comporta bene, con punteggi migliori.

Valutazione degli alberi: bootstrap (Efron 79) Data la matrice di allineamento A di N sequenze lunghe L si generano n (es, n=100) allineamenti simulati : Per j da 1 a L, si estrae un numero casuale r tra 1 e L e si pone la j-esima colonna di Ak uguale alla r-esima di A si costruiscono gli alberi filogenetici Si attribuisce a ogni nodo un coefficiente di significatività pari alla percentuale di simulazioni che lo supportano

Confronto tra filogenesi Tutti i metodi visti sono NP-hard E’ possibile costuire alberi approssimanti e confrontarli per ottenere un albero migliore

Problemi di confronto L’istanza dei problemi di confronto è un insieme di alberi evolutivi. Esistono vari problemi di confronto MAST MIT

MIT Maximum Isomorphic Subtree L’obiettivo è individuare un sottoalbero S’ tali che gli alberi ristretti a S’ siano tutti isomorfi. Due alberi sono isomorfi se qualunque coppia di foglie ha uguale distanza in entrambi gli alberi. Nel caso gli alberi siano pesati si ha un nuovo problema: MWT (Maximum Weighted Subtree)

MAST Maximum agreement subtree L’obiettivo del problema è individuare il massimo sottoinsieme di specie S’ per cui gli alberi ristretti all’insieme S’ sono omomorfi. Due alberi sono omomorfi se risultano isomorfi a meno di nodi di grado 1.

Complessità dei problemi di confronto I problemi di confronto sono NP-hard già su tre alberi Inoltre non sono facilmente trattabili per l’approssimazione

Software filogenetico PHYLIP PROTDIST PROTPARS DNADIST DNAML fastDNAml PAUP