La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Biologia computazionale A.A. 2010-2011 semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re 5 Evoluzione e filogenesi.

Presentazioni simili


Presentazione sul tema: "Biologia computazionale A.A. 2010-2011 semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re 5 Evoluzione e filogenesi."— Transcript della presentazione:

1 Biologia computazionale A.A semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re 5 Evoluzione e filogenesi - 2 C.d.l. Biotecnologie Industriali e Ambientali

2 Metodi basati su: Distanza Massima parsimonia (minima evoluzione) Massima verosimiglianza Abbiamo già discusso un medoto basato su distanze: UPGMA Costruzione di alberi filogenetici: Classi di metodi disponibili BioCS

3 Abbiamo già discusso un medoto basato su distanze: UPGMA Costruzione di alberi filogenetici: Classi di metodi disponibili BioCS Abbiamo bisogno di altri metodi?

4 Cosa non va in UPGMA? (rivediamo lesempio…) Costruzione di alberi filogenetici: problemi con UPGMA… BioCS ABCD A0667 B045 C03 D0 ABCD Questalbero … implica che la distanza tra B e C ha lo stesso valore della distanza tra B e D? Ma la matrice delle distanze non conteneva valori diversi? ?

5 Costruzione di alberi filogenetici: problemi con UPGMA… BioCS UPGMA calcola la media delle due distanze e pone sia C che D alla medesima distanza (1.5) da B … Cosa succede se le velocità evolutive dopo la divergenza sono diverse? ABCD ABCD A0767 B045 C03 D NB: è un effetto dellipotesi dellorologio molecolare!

6 Costruzione di alberi filogenetici: problemi con UPGMA… BioCS TAXA MOLTO SIMILI Velocità evolutive differenti (non contemplate dallipotesi dellorologio molecolare) possono causare problemi a UPGMA Specialmente nel caso di taxa molto simili (distanze molto piccole)! ABC A043 B03 C0 ABC Questo albero Produce questa matrice..che produce questalbero BCA … e i due alberi sono DIVERSI !

7 Costruzione di alberi filogenetici: Cronogrammi BioCS Alberi ultrametrici ( cronogrammi) Le distanze (nei cronogrammi) devono obbedire a 4 regole: Non-negatività:d(a,b) 0 Distinguibilità: d(a,b) = 0 if and only if a = b Simmetria:d(a,b) = d(b,a) Disug. triangolare:d(a,c) d(a,b) + d(b,c) Inoltre devono anche soddisfare la: Condizione dei tre punti: d(a,b) max( d(a,c), d(b,c) ) abc a c b

8 Costruzione di alberi filogenetici: Cronogrammi BioCS Alberi ultrametrici ( cronogrammi) Le distanze (nei cronogrammi) devono obbedire a 4 regole: Non-negatività:d(a,b) 0 Distinguibilità: d(a,b) = 0 if and only if a = b Simmetria:d(a,b) = d(b,a) Disug. triangolare:d(a,c) d(a,b) + d(b,c) Inoltre devono anche soddisfare la: Condizione dei tre punti: d(a,b) max( d(a,c), d(b,c) ) abc a c b

9 Costruzione di alberi filogenetici: Motivi dei problemi di UPGMA BioCS UPGMA è molto sensibile alla presenza di velocità evolutive differenti (assume che esse siano uguali su tutti i rami). Il clustering funziona SOLO SE i dati sono ultrametrici Le distanze sono ultrametriche SE soddisfano la condizione dei tre punti'. A B C Per ogni combinazione di tre taxa, le due distanze maggiori devono essere uguali. Condizione dei tre punti: A B C

10 Costruzione di alberi filogenetici: Esempio di errore di UPGMA BioCS A B C D E B 5 C 4 7 D E F Velocità evolutive non costanti TOPOLOGIA ERRATA

11 Costruzione di alberi filogenetici: Esempio di errore di UPGMA BioCS A B C D E B 5 C 4 7 D E F Velocità evolutive non costanti TOPOLOGIA ERRATA Esiste un metodo chiamato Neighbor Joining che avrebbe ricostruito la topologia dellalbero in modo corretto.

12 Costruzione di alberi filogenetici: NeighborJoining (NJ) BioCS A B C D a b x c d A e B sono neighbors (vicini) poichè sono connessi da un singolo nodo interno. Anche C e D sono vicini, ma A e D non lo sono. Neighbor Joining e costruzione di alberi additivi (filogrammi, lunghezza rami proporzionale a distanze genetiche )

13 Costruzione di alberi filogenetici: Alberi additivi BioCS Condizione dei 4 punti A B C D d AC + d BD = d AD + d BC = a + b + c + d + 2x = d AB + d CD + 2x a b x c d d AB + d CD < d AC + d BD d AB + d CD < d AD + d BC Se lalbero è additivo, allora deve essere rispettata la: vicini non-vicini Fondamentalmente dice che la distanza tra i vicini è minore di quella tra i non-vicini. Condizione dei 4 punti

14 Costruzione di alberi filogenetici: Neighbor Joining (NJ) BioCS A B C D Partiamo da una struttura a stella (nessuna struttura gerarchica) Lunghezza dellalbero Distanze pair-wise Numero di taxa NJ: costruzione dellalbero più corto

15 Costruzione di alberi filogenetici: Neighbor Joining (NJ) BioCS (Saitou and Nei, 1987) Possiamo utilizzare queste formule per calcolare la lunghezza del nuovo albero:

16 Costruzione di alberi filogenetici: Neighbor Joining (NJ) BioCS (Saitou and Nei, 1987) Ad ogni passo tutte le coppie di vicini vengono esaminate e viene scelta quella che produce lalbero più corto (criterio di minima evoluzione).

17 Costruzione di alberi filogenetici: Neighbor Joining (NJ) BioCS (Saitou and Nei, 1987) Come nel caso di UPGMA ad ogni ciclo viene aggiunto un ramo interno … ma adesso è sempre il ramo più corto possibile !

18 Costruzione di alberi filogenetici: Neighbor Joining (NJ) BioCS (Saitou and Nei, 1987) Come nel caso di UPGMA ad ogni ciclo viene aggiunto un ramo interno … ma adesso è sempre il ramo più corto possibile ! Albero non radicato

19 Costruzione di alberi filogenetici: Massima parsimonia BioCS Massima parsimonia Definizione: parsimònia s. f. [dal lat. parsimonia, der. di parcĕre «risparmiare» (supino parsum)]. – La qualità di chi è parco; moderazione, giusta misura nelluso del denaro o di altri beni, per un senso di doverosa economia o per abituale frugalità di vita: avere, usare p.; … Principio, o legge, della p.: uno dei modi con cui viene denominato il principio (altrimenti detto legge di economia, o principio del minimo sforzo, o del minimo mezzo, o del minimo lavoro) così enunciato da G. Galilei nel «Dialogo sopra i due massimi sistemi» (Giornata seconda): la natura... non opera con lintervento di molte cose quel che si può fare col mez(z)o di poche, volendo significare che ogni fenomeno naturale si realizza sempre con il minimo dispendio sia di materia sia di energia.

20 Costruzione di alberi filogenetici: Massima parsimonia BioCS E possibile applicare il concetto di parsimonia alla costruzione di alberi filogenetici? In fondo gli alberi filogenetici sono IPOTESI evolutive (come gli allineamenti utilizzati per definire le distanze tra i membri di un set di sequenze…). Quindi tra tutte le possibili ipotesi (alberi) vorremmo scegliere quella che spiega le sequenze con il minor numero di eventi evolutivi (da qui il termine parsimonia). Tra tutte le possibili ipotesi in grado di spiegare i dati (sequenze) vogliamo scegliere la più SEMPLICE RASOIO DI OCCAM

21 Costruzione di alberi filogenetici: Massima parsimonia BioCS Massima parsimonia: Osserviamo ogni colonna di un allineamento multiplo e costruiamo un albero che la descriva Costruiamo un albero consenso atgccgca-actgccgcaggagatcaggactttcatgaatatcatcatgcgtggga-ttcag acctccatacgtgccccaggagatctggactttcacc---tggatcatgcgaccgtacctac t-atgg-t-cgtgccgcaggagatcaggactttca-gt--g-aatcatctgg-cgc--c-aa t--tcgt-ac-tgccccaggagatctggactttcaaa---ca-atcatgcgcc-g-tc-tat aattccgtacgtgccgcaggagatcaggactttcag-t--a-tatcatctgtc-ggc--tag

22 Costruzione di alberi filogenetici: Massima parsimonia BioCS Massima parsimonia: Cosa intendiamo quando ci riferiamo ad un albero in grado di descrivere (spiegare) una colonna del multiallineamento? Ipotesi di lavoro: Costruiamo tutti i possibili alberi per una colonna del multiallineamento e poi scegliamo il migliore PROBLEMI: Come costruiamo tutti i possibili alberi per una data colonna? Come riconosciamo lalbero migliore?

23 Costruzione di alberi filogenetici: Massima parsimonia BioCS Massima parsimonia: Come costruiamo tutti i possibili alberi per una data colonna? Come riconosciamo lalbero migliore? Ad ogni nodo interno dellalbero possiamo mettere A oppure G. Alle foglie, invece, dobbiamo rispettare le proporzioni osservate (3A, 1G). AGCT AACT Topologie possibili : 1 AAAG ? (A or G) Al posto dei TAXA abbiamo i nucleotidi (osservati)

24 Costruzione di alberi filogenetici: Massima parsimonia BioCS Massima parsimonia: Come costruiamo tutti i possibili alberi per una data colonna? Come riconosciamo lalbero migliore? Consideriamo il nucleotide più frequente (A) come ancestor … AGCT AACT Alberi possibili : 1 AAAG A or G 0 0 A 0 if A 1 if G 0 if A 1 if A Al posto dei TAXA abbiamo nt scelta: A

25 Costruzione di alberi filogenetici: Massima parsimonia BioCS Massima parsimonia: Come costruiamo tutti i possibili alberi per una data colonna? Come riconosciamo lalbero migliore? Scegliamo i nucleotidi ai nodi interni in modo da spiegare i taxa (nt osservati) minimizzando il numero totale di sostituzioni! AGCT AACT Alberi possibili : 1 AAAG A A A 1 if A Totale sostituzioni : 1 (non male…)

26 Costruzione di alberi filogenetici: Massima parsimonia BioCS Come determinare tutti i possibili alberi? Quando gli organismi sono 2 esiste un unico albero possibile: AB

27 Costruzione di alberi filogenetici: Massima parsimonia BioCS Come determinare tutti i possibili alberi? Se gli organismi fossero 3 Il terzo potrebbe posizionarsi … AB

28 Costruzione di alberi filogenetici: Massima parsimonia BioCS Come determinare tutti i possibili alberi? E se gli organismi fossero 4 ? Per ognuno dei tre possibli alberi precedenti potremmo aggiungere il quarto organismo ad ognuno dei loro 4 rami (o potremmo usarlo come una nuova radice) Il numero di possibili alberi con 4 organismi è quindi: 3*5=15 AB Se partissimo da questalbero con 3 organismi

29 Costruzione di alberi filogenetici: Massima parsimonia BioCS Numero dei possibili alberi: N i : n. di alberi dati i taxa B i : n. di rami in un albero dati i taxa B i =B i-1 +2, e anche i * 2-2 N i =N i-1 *(B i-1 +1) + 1 a causa della potenziale nuova radice N 2 = 1 B 2 =2 TaxaRamiAlberi , , ,027, ,459, ,729,075

30 Costruzione di alberi filogenetici: Massima parsimonia BioCS Numero dei possibili alberi: N i : n. di alberi dati i taxa B i : n. di rami in un albero dati i taxa B i =B i-1 +2, e anche i x 2-2 N i =N i-1 *(B i-1 +1) + 1 a causa della potenziale nuova radice N 2 = 1 B 2 =2 TaxaRamiAlberi , , ,027, ,459, ,729,075 A cosa assomiglia questo tasso di crescita?

31 Costruzione di alberi filogenetici: Massima parsimonia BioCS Numero dei possibili alberi: N i : n. di alberi dati i taxa B i : n. di rami in un albero dati i taxa B i =B i-1 +2, e anche i x 2-2 N i =N i-1 *(B i-1 +1) + 1 a causa della potenziale nuova radice N 2 = 1 B 2 =2 TaxaRamiAlberi , , ,027, ,459, ,729,075 E definito da una relazione di ricorrenza, quindi … Giusto… come al solito, esponenziale E definito da una relazione di ricorrenza, quindi … Giusto… come al solito, esponenziale

32 Costruzione di alberi filogenetici: Massima parsimonia BioCS Possiamo risparmiare qualche albero rinunciando alla radice: Alberi radicati e non radicati Ovunque sia la radice appiattitela

33 Costruzione di alberi filogenetici: Massima parsimonia BioCS Regole per alberi non radicati: Sono anchessi biforcati Non è possibile che 3 rami partano da uno stesso nodo A BC D

34 Costruzione di alberi filogenetici: Massima parsimonia BioCS Possibili alberi non radicati per 4 taxa: Tre alberi possibili A BC D A DC B A CB D Esistono altre combinazioni?

35 Costruzione di alberi filogenetici: Massima parsimonia BioCS Possibili alberi non radicati per 5 taxa: Per ognuno dei tre alberi (da 4 taxa) possiamo aggiungere un ramo ad ognuno dei 5 rami disponibili 3*5=15 alberi A BC D

36 Costruzione di alberi filogenetici: Massima parsimonia BioCS Radicare un albero: Outgroup Includere un organismo che sappiamo a priori essere più distante evolutivamente da ogni taxa rispetto ad ogni distanza tra i taxa appartenenti allalbero da radicare A BC D se outgroup si posiziona qui … outgroup ABCD

37 Costruzione di alberi filogenetici: Massima parsimonia BioCS Numero di alberi non radicati: N i : num. alberi dati i taxa B i : num. rami in un albero dati i taxa B i =B i-1 +2, e anche i * 2-3 N i =N i-1 *(B i-1 ) non serve il +1 per leventuale nuova radice … qui non ci sono radici N 2 = 1 B 2 =2 TaxaRamiAlberi , , ,027, ,459, ,729,075

38 Costruzione di alberi filogenetici: Massima parsimonia BioCS Comparazione (alberi non radicati vs radicati): Riduzione consistente del numero di alberi … e nonstante questo abbiamo guadagnato un solo taxa (in termini di relazione tra num. alberi e num. taxa) TaxaAlb. non radicatiAlb. radicati , , ,027, ,027,02534,459, ,459,425654,729, ,729,07513,749,310,575

39 Costruzione di alberi filogenetici: Massima parsimonia BioCS Come possiamo ridurre la complessità del problema? Non possiamo utilizzare la programmazione dinamica … Il problema non è composto da sottoproblemi ripetitivi Ogni sottoproblema è un albero … e ogni albero è unico … La complessità è ancora esponenziale… EURISTICHE

40 Costruzione di alberi filogenetici: Euristiche che evitano lenumerazione di tutti gli alberi BioCS Ignorare larghi subset di possibili soluzioni Utilizzare euristiche o metodi di predizione Ignorare questa combinazione di rami

41 Costruzione di alberi filogenetici: euristica Branch and Bound BioCS Poniamo un limite superiore ragionevole alla lunghezza complessiva dellalbero utilizzando un algoritmo veloce (ad es. UPGMA) Poi esploriamo le possibili soluzioni purchè non superino la lunghezza stimata inizialmente B & B dipende molto dalla qualità dei dati … e non garantisce di trovare la soluzione ottimale

42 Costruzione di alberi filogenetici: euristica Branch and Bound BioCS Branch and Bound ci fa perdere taxa nella soluzione finale? NO Ci fa perdere alcune topologie tra le possibili soluzioni? SI (è proprio questo il suo obiettivo … ma tra di esse potrebbe esserci la soluzione ottimale) A BC D X X X Non preoccupiamoci di questi possibili modi di ramificare … vanno oltre la soglia di lunghezza

43 Torniamo allalgoritmo di Massima parsimonia BioCS In alcune colonne i simboli sono tutti uguali Non forniscono nessuna informazione Tutti gli alberi hanno costo minimo In alcune colonne i simboli sono tutti diversi Anche queste sono inutili Colonne informative devono contenere almeno due simboli diversi ed almeno uno di essi deve essere ripetuto almeno due volte AGCT AACT ACCT AAAA A 0 0 A A

44 Massima Parsimonia: lalbero consenso BioCS Ogni colonna genera un albero Se le topologie coincidono lalgoritmo finisce qui Se esistono topologie differenti utilizziamo un criterio di maggioranza Se il campione (numero di sequenze) è troppo piccolo eseguiamo un bootstrapping : Estraiamo casualmente sequenze dal multiallineamento Generiamo più alberi Etichettiamo i rami con la percentuale di occorrenze in cui compaiono in un albero Queste informazioni vengono utilizzate come misura di ripetibilità (più un ramo è frequente e più lo consideriamo supportato dai dati)

45 Metodi per costruire alberi filogenetici BioCS Metodi basati su: Distanza Massima parsimonia Massima verosimiglianza Questi li abbiamo visti… Il seguito nella prossima puntata …


Scaricare ppt "Biologia computazionale A.A. 2010-2011 semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re 5 Evoluzione e filogenesi."

Presentazioni simili


Annunci Google