A Brief Introduction to Molecular Systematics

Slides:



Advertisements
Presentazioni simili
Equazioni e calcoli chimici
Advertisements

UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
I numeri naturali ….. Definizione e caratteristiche
1 t Mobilità internazionale e conversione dei voti Maria Sticchi Damiani Università della Calabria 8 febbraio 2013.
2. Introduzione alla probabilità
ECTS: la conversione dei voti Maria Sticchi Damiani Parte IV Conservatorio di Musica “N. Paganini” Genova, 2 maggio
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
____________________
Intervalli di confidenza
Proprietà degli stimatori
6. Catene di Markov a tempo continuo (CMTC)
Frontespizio Economia Monetaria Anno Accademico
RICERCA DI SIMILARITA’ IN BANCHE DATI
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Lez. 3 - Gli Indici di VARIABILITA’
2ab2 2b4 4x − 2y a 3b2y3 3b2y3b Definizione e caratteristiche
Alberi binari di ricerca
6. Catene di Markov a tempo continuo (CMTC)
3. Processi Stocastici Un processo stocastico è una funzione del tempo i cui valori x(t) ad ogni istante di tempo t sono v.a. Notazione: X : insieme di.
Analisi Bivariata e Test Statistici
Analisi Bivariata e Test Statistici
Esercitazioni su circuiti combinatori
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
La distribuzione normale e normale standardizzata
Obiettivi del corso di Statistica Medica.
U V U V (a) |cfc|=2 prima e dopo (b) |cfc|=2 prima e |cfc|=1 dopo
Le moli Il peso di una millimole di (NH4)2HPO4 è … 132 g 114 g
Matematica e statistica Versione didascalica: parte 8 Sito web del corso Docente: Prof. Sergio Invernizzi, Università di Trieste
8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.
Canale A. Prof.Ciapetti AA2003/04
Realizzazione e caratterizzazione di una semplice rete neurale per la separazione di due campioni di eventi Vincenzo Izzo.
Algoritmi e strutture dati
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
Economia politica II – Modulo di Macroeconomia
Biologia computazionale A.A semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re p5p5 UPGMA C.d.l.
Biologia computazionale A.A semestre II U NIVERSITÀ DEGLI STUDI DI MILANO Docente: Giorgio Valentini Istruttore: Matteo Re 6 Evoluzione e filogenesi.
Analisi dei gruppi – Cluster Analisys
Cos’è un problema?.
CALCIO SKY 2007 – 2008 PROFILO DI ASCOLTO. 2 INDICE DEGLI ARGOMENTI Profilo di ascolto CALCIO SERIE A 2007 – 2008 Totale campionato (tutte le partite)……………………………………………….
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 4 Probabilità.
Intelligenza Artificiale Algoritmi Genetici
(Neighbour-Joining Method)
CHARGE PUMP Principio di Funzionamento
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Algoritmi di String Matching
Filogenesi molecolare
Statistica economica (6 CFU) Corso di Laurea in Economia e Commercio a.a Docente: Lucia Buzzigoli Lezione 5 1.
Le distribuzioni campionarie
La tabella dei voti ECTS Maria Sticchi Damiani Sapienza, Roma 26 settembre
LE SAI LE TABELLINE? Mettiti alla prova!.
Un trucchetto di Moltiplicazione per il calcolo mentale
CLUSTERING WITH WEKA Branca Stefano Dosi Clio Gnudi Edward William.
STATISTICA PER LE DECISIONI DI MARKETING
Esempi risolti mediante immagini (e con excel)
Corso di biomatematica lezione 7-3: Test di significatività
Metaclassificazione Giovedì, 18 novembre 2004 Francesco Folino ( Combinare Classificatori Lecture 8.
Minimo comune multiplo
Massimo comun divisore
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
Laurea Ing EO/IN/BIO;TLC D.U. Ing EO 10 PROBABILITA’ E VARIABILI ALEATORIE.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Allineamento di sequenze
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Transcript della presentazione:

A Brief Introduction to Molecular Systematics David S. Horner Dip. Scienze Biomolecolari e Biotecnologie david.horner@unimi.it

Allineamento

Che Cosa è un allineamento? E’ una serie di ipotesi di omologia posizionale

SUGAR SUCRE

SUGAR X SUGR SUCR E SUCRE

S U G A R - S U C – R E ---------------------------- S U ? ? R ?

S U G A R - S U C – R E Z U C K E R S A K A R I S O K K E R A Z U C A R A ç U C A R

-------------------- - S U C(K)A R - S U G - A R - S U C – - R E Z U C K E R - S O K K E R - A Z U C - A R - S A K - A R I A ç U C - A R - -------------------- - S U C(K)A R -

Possiamo Valutare un Allineamento Match = +2 Mismatch = -1 Gap = -2 G A T T C C G T | | | | | G A A T - C C T +2 +2 -1 +2 -2 +2 -1 +2 =6 punti

Models of Amino acid Replacement Exchangeability Parameters

Human: W C T F G T T Mouse: W C A W G T T 11 9 0 1 6 5 5 Si può calcolare un “punteggio di similarità” tra 2 sequenze, in base al punteggio scelto: Human: W C T F G T T Mouse: W C A W G T T 11 9 0 1 6 5 5 score = 37

Saul G. Needleman – Christian D Saul G. Needleman – Christian D. Wunsch 1970 Allineamento ottimale di due sequenze

H E A G W P Exercise fill in the rest of the table 13

La formula Matrice M = (m+1)x(n+1) La posizione m(0,0) è “inizializzata” a zero Poi: m(i,j) è uguale al massimo tra tre possibilità s(xi,yj) è il costo (matrici) della sostituzione dell’i-esima lettera della sequenza X con la j-esima della sequenza Y d è il costo di una cancellazione (inserimento) Alla fine, la casella in basso a destra conterrà il punteggio dell’allineamento

Allineamento “globale” yj allineato con un “gap” m(i-1,j-1) m(i,j-1) m(i-1,j) F(i,j) Allinea carattere con carattere s(xi,yj) d X represents the top string, y the bottom string d xi allineato con un “gap” While building the table, keep track of where optimal score came from, reverse arrows 15

BLOSUM62 Amino Acid Log-odd Substitution Matrix 16

H E A G W -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -2 -9 -17 -25 -33 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 Exercise fill in the rest of the table 17

“Traceback” Segui le frecce a partire dal basso a destra Diagonale: Lettera con lettera Su: Gap nella sequenza sopra Sinistra: Gap nella sequenza sotto H E A G W -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 -14 -19 -22 3 -30 2 -38 1 Diagonal means use one letter from both, up means one letter from bottom and gap on top, left means one letter from top and gap on bottom. HEAGAWGHE-E --P-AW-HEAE 18

Ricerca in Database “Trovami nel database le sequenze che allineate con la mia producono un buon punteggio” Nelle ricerche nei database spesso ci si “accontenta” di trovare similarità locali (domini conservati, siti attivi, ecc.) Il database è enorme: occorrono metodi “veloci” (che non compilino tutta la tabella) per confrontare la nostra sequenza ignota con migliaia di altre sequenze: FASTA, BLAST Punteggi piu alto che atessa indicono omologia

Allineamento Progressivo Inventato da Feng e Doolittle nel 1987. Essenzialmente è un metodo euristico e in quanto tale non garantisce il reperimento dell’allineamento “ottimale”. Richiede n-1+n-2+n-3...n-n+1 allineamenti a coppie di sequenze (pairwise) come punto di partenza - (n(n-1))/2 La sua implementazione più nota è Clustal (Des Higgins) 20

Allineamenti pairwise Partire da tutti I possibili allineamenti pairwise fra ciascuna coppia di sequenze. Ci sono (n-1)+(n-2)...(n-n+1) possibilità. Calcolare la “distanza” per ogni coppia di sequenze sulla base di questi allineamenti pairwise isolati. Generare una matrice di distanza e un albero filogenetico. 21

Caso in cui una terza sequenza vada allineata alla prime due: ogni volta che sia necessario introdurre un gap per migliorare l’allineamento, le due entità vengono trattate come sequenze singole. + 22

H D P -AW-HEAE H E A GAWGHE-E - - P -AW-HEAE H E AGAWGHE-E + H E A GAWGHE-E - - P -AW-HEAE 0.5H 0.5E 0.5A ……. 0.5- 0.5- 0.5P ……. Profile H E AGAWGHE-E - - P-AW-HEAE H D P -8 -16 -24 -16 -24 -32

Progressione L’allineamento multiplo viene progressivamente costruito in questo modo: ogni passaggio è trattato come un allineamento pairwise, a volte ciascun membro del pair (coppia) rappresenta più di una sequenza. 24

Progressive Alignment-Minimo Locale Problemi potenziali: Problema del minimo locale. Se viene introdotto un errore precocemente nel processo di allineamento, non è possibile correggerlo più tardi nel corso della procedura. 25

Muscle www.drive5.com/muscle

Allineamento di sequenze di DNA codificanti per proteine Non è raccomandabile allineare sequenze nucleotidiche di geni codificanti per proteine. ATGCCCCTGTTAGGG ATGCTCGTAGGG ATGCCCCT-GTTAGGG ATG---CTCGT-AGGG http://www.cbs.dtu.dk/services/RevTrans/ 27

Allineamento di sequenze di DNA codificanti per proteine Allineare le seq. Proteiche, inserire 3 gap nelle seq. nucleotidiche per ogni gap nel’allineamento proteico MetProLeuLeuGly ATGCCCCTGTTAGGG ATGCTCGTAGGG MetLeuValGly MPLLG M-LVG ATGCCCCTGTTAGGG ATG---CTCGTAGGG

Che Cosa è un allineamento? E’ una serie di ipotesi di omologia posizionale

Allineamenti, omologia posizionale e siti allineati con segnale potenzialmente fuorviante Siamo confidenti che tutti i siti sono allineati correttamente? Possiamo escludere siti che non sono bene allineati

Esclusione di siti non bene allineati Si fa manualmente o con software come Gblocks http://molevol.ibmb.csic.es/Gblocks.html Rimuove i block con livelli basi di conservazione in modo obiettivo

Terze Posizioni di codoni Tendono essere piu saturati in termini di numero di sostituzioni, particolarmente quando le distanze genetiche sono grandi Long Branch Attraction A volte vengono escluse

Metodi Basati Sulle Distanze Genetiche

Cambiamenti multipli a un singolo sito - cambiamenti nascosti Seq 1 AGCGAG Seq 2 GCCGAC Numero di cambiamenti A G T G pos 1 3 G C pos 2 1 C A C pos 3 2

Differences Substitutions

Distanze Misure di quanto differenti sono due sequenze Il numero di eventi evolutivi che sono intervenuti dopo la divergenza fra due sequenze. La distanza più semplice: p-distance = la proporzione di siti che non sono uguali (Queste non sono buone misure dovuto alla saturazione )

Modelli dell’evoluzione molecolare un “modello del processo”: una descrizione del meccanismo di cambiamenti molecolari. Due approcci per la costruzione di modelli. EMPIRICAMENTE, possiamo usare proprietà stimate da confronti fra un numero alto di sequenze osservate. (valori fissi di parametri) Con un metodo PARAMETRICO, usando valori derivati dai dataset sotto analisi

Modelli dell’evoluzione molecolare L’evoluzione molecolare è modellizzata come un processo probabilistico dipendente dal tempo. (processo stocastico). Assunzioni “standard”: Tutti i siti evolvono independentamente La velocità di sostituzione è costante rispetto al tempo e in organismi diversi. La composizione (di basi o aa) è costante fra diversi organismi (condizione stazionaria). Le probabilità di vari tipi di sostituzioni sono uguali per tutti i siti e non cambiano nel tempo.

Correzioni per sostituzioni sovrapposte Jukes and Cantor – tutte le sostituzioni sono “uguali” Kimura 2-parameter – differenza fra transizioni e transversioni

A T C G Jukes-Cantor (1969) 1 solo parametro Composizione di basi: [1/4, 1/4, 1/4, 1/4] A Tutti i 12 tassi di sostituzioni “sono” uguali (a) T The simpler substitution model. C G

Il logaritmo naturale viene usato per correggere per sostituzioni sovrapposte Se 2 sequenze sono 95% identiche, differiscono al 5% o 0.05 (D) dei siti, quindi: dxy = -3/4 ln (1-4/3 0.05) = 0.0517 Comunque, Se 2 sequenze sono 50% identiche, differiscono a 50% o 0.5 (D) dei siti, quindi: dxy = -3/4 ln (1-4/3 0.5) = 0.824

Modello di Kimura a 2 parametri (1980) Composizione di basi: [1/4, 1/4, 1/4, 1/4] T C Velocità di transizione (a)  Velocità di transversione (b) This is a two parameter model as we assume a different rate for transitions and transversions G

Modello Kimura 2P : P = transizioni / numero di posizioni Q = transversioni / numero di posizioni D = -1/2 ln[ (1 - 2P - Q) * sqrt(1 - 2Q) ] M. Kimura, J. Mol. Evol. 16; 111-120 (1980).

A T C G Felsenstein (1981) 3 parametri liberi composizione di basi diversa: [pA pC pG, pT] A Tutti I 12 tassi di sostituzione “sono” uguali (a) T C This is a two parameter model as we assume a different rate for transitions and transversions G

Hasegawa, Kishino and Yano (1985) composizione di basi diversa: [pA pC pG, pT] 5 parametri liberi A Velocità di transizione (a)  Velocità di transversione (b) T C This is a two parameter model as we assume a different rate for transitions and transversions G

General Time Reversible (1984) 9 parametri liberi/indipendenti composizione di basi diversa: [pA pC pG, pT] A 6 tassi di sostituzione diversi T C This is a nine- parameter model as a different rate is assumed for the four types of transversions and the two types of transitions. Furthermore, equilibrium base composition observed in analyzed sequences is taken into account. G

Metodi di “Distanza” I metodi di “clustering” usano algoritmi per generare alberi UPGMA (Unweighted Pair Group Method using Arithmetic Averages): produce un albero additivo, radicato, che si conforma all’orologio molecolare Neighbor-joining: produce un albero additivo, non radicato Approci basati su criteri di ottimalità: least-squares, minimum evolution,...

Stimare un albero con le distanze Distanze additive: Se potessimo calcolare accuratamente il vero numero di eventi evolutivi che sono accaduti dalla divergenza di due sequenze sulla base del numero di divergenze osservate, queste distanze sarebbero additive.

Metodi di clustering UPGMA distanze additive e ultrametriche => basato sull’assunzione di un orologio molecolare => molto sensibile a tassi di sostituzioni non uguali. Meglio usare altri algoritmi di clustering e.g. Neighbor-joining

A B C D E B 2 C 4 4 D 6 6 6 E 6 6 6 4 F 8 8 8 8 8

A B C D E B 2 C 4 4 D 6 6 6 E 6 6 6 4 F 8 8 8 8 8 Clusteriziamo le 2 seq più vicine, generiamo una nuova matrice dove queste seq. vengono considerate come un cluster unico. dist(A,B),C = (distAC + distBC) / 2 = 4 dist(A,B),D = (distAD + distBD) / 2 = 6 dist(A,B),E = (distAE + distBE) / 2 = 6 dist(A,B),F = (distAF + distBF) / 2 = 8

A,B C D E C 4 D 6 6 E 6 6 4 F 8 8 8 8 dist(D,E),C = (distDC + distEC) / 2 = 6 dist(D,E),F = (distDF + distEF) / 2 = 8 Dist(D,E)(A,B)= (distD(AB) + distE(AB)) / 2 = 6

AB C DE C 4 DE 6 6 F 8 8 8 dist(ABC),F = (dist(AB)F + distCF) / 2 = 8 dist(ABC),(DE) = (dist(AB)(DE) + distC(DE)) / 2 = 6

AB,C DE DE 6 F 8 8 dist(ABC,DE)F = (dist(ABC)(F) + dist(DE)(F)) / 2 = 8

ABC,DE F 8

A B C D E B 2 C 4 4 D 6 6 6 E 6 6 6 4 F 8 8 8 8 8

Pero……

UPGMA is a weak clustering algorithm Neighbor joining is more complicated but better Other clustering algorithms available (least squares, minimum evolution etc)

Maximum Parsimony Identifica l’albero che richiede il minimo numero di cambiamenti evolutivi per spiegare le differenze osservate tra le sequenze Spesso non si può identificare un unico albero per grandi set di dati una ricerca esaustiva non è possibile 60

Maximum Parsimony Assunzioni implicite riguardo all’evoluzione, i cambiamenti sono rari (la migliore ipotesi è quella che richiede il minimo numero di cambiamenti) Tutti tipi di sostituzione avengono con la stessa probibilità Molto sensibile a SATURAZIONE DI SOSTITUZIONI 61

Siti Informativi e non-informativi 2 1 2 1 3 1 2 3 4 3 4 4 Siti informativi sono quelli che ci permettono distinguere tra alberi diversi sulla base di quanti sostituzioni sono postulati. Un sito informativo deve avere almeno due basi diversi, e ciascuno di questi basi dev’essere rappresentato almeno 2 volte 62

4 changes 5 changes 6 changes site 2 site 3 site 5 site 7 site 9 III 1 G A 3 1 G A 2 1 G A 2 site 2 2 A A 4 3 A A 4 4 A A 3 A A A A A A 1 C T 3 1 C G 2 1 C G 2 site 3 2 G T 4 3 T T 4 4 T T 3 G T T T T T 1 G A 3 1 G G 2 1 G G 2 site 5 2 G A 4 3 A A 4 4 A A 3 G A A A A A Select before informative sites, I.e. sites with at least two different letters, each one occurring at least twice. Then evaluate the minimum number of substitutions for each possible tree. As the number of trees increases exponentially with the number of taxa the exhaustive method can be only used for small dataset. Some approximation procedures can be then adopted that guarantee (branch-bound) or not (heuristic search) the finding of the optimal solution. 1 C T 3 1 C C 2 1 C C 2 site 7 C T T T T T 2 4 3 4 4 3 C T T T T T A 1 A 3 1 A G 2 1 A G 2 site 9 G G A G A A 2 4 3 4 4 3 G G A G G A 4 changes 5 changes 6 changes 63

1 2 3 4 T A C C [A,C] 5 [C] T [C,T] 2 Cambiamenti [T] 64

Siti Ancestrali 1 2 3 4 T A C C [A,C] - C 5 [C] - C T [C,T] - T 2 Cambiamenti [T] 65

Analisi di parsimonia Dato un set di caratteri, ad esempio delle sequenze allineate, l’analisi di parsimonia determina l’adattamento (numero di passaggi) di ciascun carattere a un dato albero La somma dei cambiamenti per tutti I caratteri è definita “Tree Length” (TL, lunghezza dell’albero) Most parsimonious trees (MPTs, gli alberi più parsimoniosi) sono quelli che hanno TL minima 66

Risultati dell’analisi di parsimonia Vengono prodotti uno o più MPTs Ipotesi riguardo all’evoluzione dei caratteri associate ad ogni albero (dove e quando sono avvenuti I cambiamenti) Lunghezze dei rami (branch lengths) = numero di cambiamenti associati ai rami Alberi sub-ottimali - opzionali 67

Parsimonia -vantaggi Metodo semplice Sembra non dipendere da un modello esplicito di evoluzione Produce sia alberi che ipotesi ad essi associate dell’evoluzione dei caratteri Dovrebbe dare risultati accurati se I dati sono ben strutturati e se l’omoplasia è rara o ampiamente e casualmente distribuita su tutto l’albero 68

Parsimonia -svantaggi Può produrre risultati fuorvianti se c’è omoplasia concentrata in particolari parti dell’albero, per esempio: convergenza thermofilica bias nella composizione in basi long branch attraction (tassi di sostituzione non uguali tra sequenze) Sottostima le lunghezze dei rami (saturazione) Il modello di evoluzione è implicito - il comportamento del metodo non è del tutto chiaro Spesso giustificata da un punto di vista filosofico - dobbiamo preferire le ipotesi più “semplici” Per molti sistematici molecolari questo argomento non è convincente 69

Numero di alberi distinti in funzione del numero di taxa N taxa N trees 10 2*106 22 3*1023 50 3*1074 100 2*10182 1000 2*102860 70

Trovare gli alberi ottimali - soluzioni esatte Ricerca esaustiva esamina tutti gli alberi possibili Tipicamente usata per problemi con meno di 10 taxa 71

Trovare gli alberi ottimali - soluzioni euristiche Il numero di possibili alberi aumenta esponenzialmente all’aumentare del numero di taxa (esempio di problema NP complete) Metodi euristici sono usati per esplorare il “tree space” in cerca degli alberi più parsimoniosi Non è garantito che gli alberi trovati siano i più parsimoniosi 72

Trovare gli alberi ottimali - soluzioni euristiche Branch Swapping: Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TBR) Altri metodi.... 73

Trovare gli alberi ottimali - soluzioni euristiche Nearest neighbor interchange (NNI) C D A E B F G D C E C D A A E B F B F G G 74

Trovare gli alberi ottimali - soluzioni euristiche Subtree pruning and regrafting (SPR) C D A E B F G C D E F E C G A F D B B G A 75

Trovare gli alberi ottimali - soluzioni euristiche Tree bisection and reconnection (TBR) C D A E B F G B G E A F A C D C D B F E G 76

Ricerche Euristiche In tutti casi, accetiamo un riarrangemento se produce un albero migliore di quello precedente. Possiamo usare anche regole piu complesse (accetiamo se non e tanto peggio, e poi proviamo altre riarrangementi) Facciamo “n” passi cosi (anche usando, per es., x passi di NNI dopo ogni passo di TBR) 77

Alberi ottimali multipli Parsimonia può generare piu di un albero più parsimonioso Possiamo poi selezionare il “migliore” con criteri addizionali Tipicamente relazioni comuni fra tutti gli alberi ottimali vengono riassunte in un albero consensus 78

Consensus methods Un albero consensus è una sintesi dei elementi comuni fra un gruppo di alberi Ci sono vari metodi di consensus che differiscono rispetto a: 1. Il tipo di accordo 2. Il livello di accordo Metodi consensus possono essere usati con alberi multipli derivanti da un’unica analisi o da analisi differenti 79

Majority rule consensus B C D E F G A B C E B E D G D F G A C F Numbers indicate frequency of clades in the fundamental trees A B C E D F G 100 66 66 66 66 MAJORITY-RULE CONSENSUS TREE 80

Come valutare lo support per un albero bootstrap: Selezionare colonne da un allineamento multiplo con rimpiazzo (resampling with replacement) Ricalcolare l’albero Ripetere 100-1000 volte (calcolare 100-1000 nuovi alberi) Quanto spesso vediamo rami che mettono insieme sequenze o gruppi di sequenze? 81

Bootstrapping Costruire un nouvo set di dati con lunghezza uguale a quello originale. Colonne di caretteri vengono scelte casualemente dal dataset originale in modo tale che colonne orignali possono essere presente piu di una volta. Fare un’analisi filogenetica e ricordare l’albero Tornare al capo 100 (1000) volte 82

The Bootstrap 1 2 3 4 5 6 7 8 A C C V K V I Y S B M A V R L I F S C M C L R L L F T 3 4 3 8 6 6 8 6 A V K V S I I S I B V R V S I I S I C L R L T L L T L A Original B C 2x 3x A Non-supportive B Scrambled C 83

Majority rule consensus B C D E F G A B C E B E D G D F G A C F A B C E D F G 100 66 Numbers indicate frequency of clades in the fundamental trees 66 66 66 MAJORITY-RULE CONSENSUS TREE 84

Bootstrapping La concordanza fra gli alberi prodotti viene rappresentata con un albero “majority-rule consensus” La frequenza con cui certi gruppi compaiono, le proporzioni di bootstrap (BPs), è una misura del supporto dei gruppi stessi Informazioni addizionali sono riportate nelle tabelle di partizione 85

Bootstrapping - an example Partition Table Ciliate SSUrDNA - bootstrap 123456789 Freq ----------------- .**...... 100.00 ...**.... 100.00 .....**.. 100.00 ...****.. 100.00 ...****** 95.50 .......** 84.33 ...****.* 11.83 ...*****. 3.83 .*******. 2.50 .**....*. 1.00 .**.....* 1.00 Ochromonas (1) Symbiodinium (2) 100 Prorocentrum (3) Euplotes (8) 84 Tetrahymena (9) 96 Loxodes (4) 100 Tracheloraphis (5) 100 Spirostomum (6) 100 Gruberia (7) Majority-rule consensus 86

Bootstrap - interpretazione Purchè non ci siano evidenze di un forte segnale di distorsione (per esempio bias nella composione, grandi differenze nelle lunghezze dei rami), elevati BPs (> 85%) sono indicativi di un segnale filogenetico forte Bassi BPs non necessariamente significano che la relazione evidenziata è falsa, ma semplicemente che non è fortemente supportata 87

Bootstrap - interpretation le BP sono depende sul numero di caratteri che sono consistenti con un clade e il livello di support per altri relazioni. Ci fornicsono una stima relativa per il grado di support per un gruppo soto il modello e metodo di analisi. 88

Seaview PHYLIP NJPlot http://pbil.univ-lyon1.fr/software/seaview.html http://evolution.genetics.washington.edu/phylip.html http://pbil.univ-lyon1.fr/software/njplot.html NJPlot 89

Maximum Likelihood

Maximum likelihood Try to identify the tree and model of substitution that MAXIMIZES the probability of observing the data (the alignment)

Cos’è la probabilità di osservare un dato? lanciamo una moneta, viene testa. Se assumiamo che si tratti di una moneta “onesta”, la probabilità di avere testa dovrebbe essere 0.5. Se invece pensiamo che questa moneta dia testa nell’80% dei lanci, la probabilità di avere questo risultato dovrebbe essere 0.8! QUINDI: La probabilità dipende dal modello! Lezione: I dati rimangano costanti, il cambiamento è nel modello. Nela caso del secondo modello, la probabilità e più alta. p = ?

MASSIMA VEROSIMGLIANZE - OBIETIVO Stimare la probabilità di osservare i dati, dato un albero filogenetico e un modello che descrive il processo dell’evoluzione. ( ) The principal objective of maximum likelihood is to estimate the probability of observing a set of sequences (from extant organisms, obtained in a molecular biology laboratory). As we will see later, this probability is based on a number of things, but mainly on what we call a model of sequence evolution. This model has two or more components - a phylogenetic tree with branch lengths and a description of the process of how evolution occurred, often a substitution matrix, a description of rate variation between different sites, an idea of the frequency of the nucleotide/codon/amino acid pools during the evolutionary time period. Probability of given

Una regola…la regola dell’1 la somma delle probabilità di tutte le possibilità è SEMPRE uguale a 1. Es. per DNA p(a)+p(c)+p(g)+p(t)=1

Cos’è la probabilità di vedere un nucleotide 'G'? Domanda:Data una sequenza di lunghezza 1, il nucleotide “G”, qual’è la probabilità dei dati? Soluzione: Dipende dal modello dell’evoluzione (composizione). E.g. Model 1: frequenza di G = 0.4 => likelihood(G) = 0.4 Model 2: frequenza di G = 0.1 => likelihood(G) =0.1 Model 3: frequenza di G = 0.25 => likelihood(G) = 0.25

Per sequenze più lunghe? Consideriamo un gene con lunghezza 2: Gene 1: ga La probabilità di osservare questo gene è il prodotto delle probabilità di osservare ogni base. Es. p(g) = 0.4; p(a)=0.15 (per es) probabilità(ga) = 0.4 x 0.15 = 0.06

…e così via per sequenze più lunghe Gene 1: gactagctagacagatacgaattac Model (di frequenza di basi): p(a)=0.15; p(c)=0.2; p(g)=0.4; p(t)=0.25; (La somma di tutte probabiltà dev’essere 1) Prob(Gene 1) = 0.000000000000000018452813 (anche la somma di probabilità di tutti geni =1

Considerazioni sui modelli Possiamo vedere che il nostro modello non è quello ottimale per I dati osservati. Se avessimo usato questo modello: p(a)=0.4; p(c) =0.2; p(g)= 0.2; p(t) = 0.2; La probabilità sarebbe stata: Prob(gene 1) = 0.000000000000335544320000 (un valore quasi 10,000 volte più alto) Lezione: I dati rimangano costanti, il cambiamento è nel modello. Nel caso del secondo modello, la probabilità e più alta.

In quale modo si riferiscono queste considerazioni agli alberi filogenetici? Consideriamo un allineamento di 2 sequenze: Gene 1: gaac Gene 2: gacc Facciamo l’assunzione che questi geni sono imparentati da un albero semplice con lunghezze di rami.

Aumentare la complessità del modello In questo caso, non è possibile usare un modello che descrive solo la composizione. Dobbiamo includere il meccanismo di sostituzione. Ci sono due parti in questo modello: l’albero e il processo (il processo è spesso chiamato “il modello”), in realtà il modello è composto sia dal processo che dall’albero. Even though we tend to refer to the tree and the model separately, they are in fact both parts of the model. NB: Per evitare altra confusione, manteniamo la terminologia confusa.

Il modello Le due parti del modello sono: l’albero e il processo (il modello). Il modello è composto dalla composizione e dal processo di sostituzione (I tassi di varie sostituzioni). Modello = +

Un modello “time-reversible” semplice Un modello semplice dice che la probabilità di una sostituzione da a a c (o vice versa) è 0.4, la composizione (p) a è 0.25 e la composizione (p) c è 0.25 P =

Probabilità della terza posizione del nostro allineamento Gene ancestrale: gaac Gene derivata: gacc p(a) =0.25; p(c) = 0.25; Se cominciamo con A, la probabilità di questo nucleotide è 0.25, mentre la probabilità della sua sostituzione con C è 0.4. Quindi, la probabilità di osservare questi dati è: *probabilità(D|M) = 0.25 x 0.4 =0.01 *La probabilità dei dati, dato il modello.

Diverse lungezze di rami Per rami corti, la probabilità che un carattere rimanga uguale è alta, la probabilità che venga sostituito è bassa (secondo la nostra matrice) Per rami più lunghi, la probabilità di cambiamento dovrebbe essere più alta. I calcoli precedenti sono basati sull’assunzione che la lunghezza del ramo descrive UNA Certain Evolutionary Distance or CED. Se volessimo considerare un ramo con lunghezza 2CED, potremmo moltiplicare la matrice per se stessa (matrice2).

Per valori più alti di CED units Probabilità 1 0.0000300 2 0.0000559 3 0.0000782 10 0.0001620 15 0.0001770 20 0.0001750 30 0.0001520 Lunghezza del ramo