La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

A Brief Introduction to Molecular Systematics David S. Horner Dip. Scienze Biomolecolari e Biotecnologie

Presentazioni simili


Presentazione sul tema: "A Brief Introduction to Molecular Systematics David S. Horner Dip. Scienze Biomolecolari e Biotecnologie"— Transcript della presentazione:

1 A Brief Introduction to Molecular Systematics David S. Horner Dip. Scienze Biomolecolari e Biotecnologie

2 Allineamento

3 Che Cosa è un allineamento? E una serie di ipotesi di omologia posizionale

4 SUGAR SUCRE

5 SUGAR SUCRE SUGR SUCR X E

6 S U G A R - S U C – R E S U ? ? R ?

7 S U G A R - S U C – R E Z U C K E R S O K K E R A Z U C A R S A K A R I A ç U C A R

8 S U G - A R - S U C – - R E Z U C K E R - S O K K E R - A Z U C - A R - S A K - A R I A ç U C - A R S U C (K) A R -

9 Possiamo Valutare un Allineamento Match = +2 Mismatch = -1 Gap = -2 G A T T C C G T | | | | | G A A T - C C T =6 punti

10 Models of Amino acid Replacement Exchangeability Parameters

11 Human: W C T F G T T Mouse: W C A W G T T Si può calcolare un punteggio di similarità tra 2 sequenze, in base al punteggio scelto: score = 37

12 Saul G. Needleman – Christian D. Wunsch 1970 Allineamento ottimale di due sequenze

13 HEAGAWGHEE P A W H E A E

14 La formula Matrice M = (m+1)x(n+1) La posizione m(0,0) è inizializzata a zero Poi: m(i,j) è uguale al massimo tra tre possibilità s(x i,y j ) è il costo (matrici) della sostituzione delli-esima lettera della sequenza X con la j-esima della sequenza Y d è il costo di una cancellazione (inserimento) Alla fine, la casella in basso a destra conterrà il punteggio dellallineamento

15 Allineamento globale m(i-1,j-1)m(i,j-1) m(i-1,j)F(i,j) s(x i,y j ) d d Allinea carattere con carattere x i allineato con un gap y j allineato con un gap While building the table, keep track of where optimal score came from, reverse arrows

16 BLOSUM62 Amino Acid Log-odd Substitution Matrix

17 HEAGAWGHEE P A- 16 W- 24 H- 32 E- 40 A- 48 E- 56

18 Traceback HEAGAWGHEE P A W H E A E HEAGAWGHE-E --P-AW-HEAE Segui le frecce a partire dal basso a destra Diagonale: Lettera con lettera Su: Gap nella sequenza sopra Sinistra: Gap nella sequenza sotto

19 Ricerca in Database Trovami nel database le sequenze che allineate con la mia producono un buon punteggio Nelle ricerche nei database spesso ci si accontenta di trovare similarità locali (domini conservati, siti attivi, ecc.) Il database è enorme: occorrono metodi veloci (che non compilino tutta la tabella) per confrontare la nostra sequenza ignota con migliaia di altre sequenze: FASTA, BLAST Punteggi piu alto che atessa indicono omologia

20 Allineamento Progressivo Inventato da Feng e Doolittle nel Essenzialmente è un metodo euristico e in quanto tale non garantisce il reperimento dellallineamento ottimale. Richiede n-1+n-2+n-3...n-n+1 allineamenti a coppie di sequenze (pairwise) come punto di partenza - (n(n-1))/2 La sua implementazione più nota è Clustal (Des Higgins)

21 Allineamenti pairwise Partire da tutti I possibili allineamenti pairwise fra ciascuna coppia di sequenze. Ci sono (n- 1)+(n-2)...(n-n+1) possibilità. Calcolare la distanza per ogni coppia di sequenze sulla base di questi allineamenti pairwise isolati. Generare una matrice di distanza e un albero filogenetico.

22 Caso in cui una terza sequenza vada allineata alla prime due: ogni volta che sia necessario introdurre un gap per migliorare lallineamento, le due entità vengono trattate come sequenze singole. +

23 HEAGAWGHE-E --P-AW-HEAE 0.5H0.5E0.5A…… P……. Profile + HDP-AW-HEAE HDPHDP HEAGAWGHE-E --P-AW-HEAE

24 Progressione Lallineamento multiplo viene progressivamente costruito in questo modo: ogni passaggio è trattato come un allineamento pairwise, a volte ciascun membro del pair (coppia) rappresenta più di una sequenza.

25 Progressive Alignment-Minimo Locale Problemi potenziali: –Problema del minimo locale. Se viene introdotto un errore precocemente nel processo di allineamento, non è possibile correggerlo più tardi nel corso della procedura.

26 Muscle

27 Allineamento di sequenze di DNA codificanti per proteine Non è raccomandabile allineare sequenze nucleotidiche di geni codificanti per proteine. ATGCCCCTGTTAGGG ATGCTCGTAGGG ATGCCCCT-GTTAGGG ATG---CTCGT-AGGG

28 Allineamento di sequenze di DNA codificanti per proteine Allineare le seq. Proteiche, inserire 3 gap nelle seq. nucleotidiche per ogni gap nelallineamento proteico ATGCCCCTGTTAGGG ATG---CTCGTAGGG MetProLeuLeuGly ATGCCCCTGTTAGGG ATGCTCGTAGGG MetLeuValGly MPLLG M-LVG

29 Che Cosa è un allineamento? E una serie di ipotesi di omologia posizionale

30 Allineamenti, omologia posizionale e siti allineati con segnale potenzialmente fuorviante Siamo confidenti che tutti i siti sono allineati correttamente? Possiamo escludere siti che non sono bene allineati

31 Esclusione di siti non bene allineati Si fa manualmente o con software come Gblocks Rimuove i block con livelli basi di conservazione in modo obiettivo

32 Terze Posizioni di codoni Tendono essere piu saturati in termini di numero di sostituzioni, particolarmente quando le distanze genetiche sono grandi Long Branch Attraction A volte vengono escluse

33 Metodi Basati Sulle Distanze Genetiche

34 Cambiamenti multipli a un singolo sito - cambiamenti nascosti GC A G T G pos 1 pos 2 Numero di cambiamenti Seq 1 AGCGAG Seq 2 GCCGAC pos 3 C A C

35 Substitutions Differences

36 Misure di quanto differenti sono due sequenze Il numero di eventi evolutivi che sono intervenuti dopo la divergenza fra due sequenze. La distanza più semplice: p-distance = la proporzione di siti che non sono uguali (Queste non sono buone misure dovuto alla saturazione ) Distanze

37 Modelli dellevoluzione molecolare un modello del processo: una descrizione del meccanismo di cambiamenti molecolari. Due approcci per la costruzione di modelli. EMPIRICAMENTE, possiamo usare proprietà stimate da confronti fra un numero alto di sequenze osservate. (valori fissi di parametri) Con un metodo PARAMETRICO, usando valori derivati dai dataset sotto analisi

38 Modelli dellevoluzione molecolare Assunzioni standard: Tutti i siti evolvono independentamente La velocità di sostituzione è costante rispetto al tempo e in organismi diversi. La composizione (di basi o aa) è costante fra diversi organismi (condizione stazionaria). Le probabilità di vari tipi di sostituzioni sono uguali per tutti i siti e non cambiano nel tempo. Levoluzione molecolare è modellizzata come un processo probabilistico dipendente dal tempo. (processo stocastico).

39 Correzioni per sostituzioni sovrapposte Jukes and Cantor – tutte le sostituzioni sono uguali Kimura 2-parameter – differenza fra transizioni e transversioni

40 Jukes-Cantor (1969) A C G T Composizione di basi: [1/4, 1/4, 1/4, 1/4] Tutti i 12 tassi di sostituzioni sono uguali ( ) 1 solo parametro

41 Il logaritmo naturale viene usato per correggere per sostituzioni sovrapposte Se 2 sequenze sono 95% identiche, differiscono al 5% o 0.05 (D) dei siti, quindi: –d xy = -3/4 ln (1-4/3 0.05) = Comunque, Se 2 sequenze sono 50% identiche, differiscono a 50% o 0.5 (D) dei siti, quindi: –d xy = -3/4 ln (1-4/3 0.5) = 0.824

42 Modello di Kimura a 2 parametri (1980) A C G T Composizione di basi: [1/4, 1/4, 1/4, 1/4] Velocità di transizione ( ) Velocità di transversione ( ) 2 parametri

43 Modello Kimura 2P : P = transizioni / numero di posizioni Q = transversioni / numero di posizioni D = -1/2 ln[ (1 - 2P - Q) * sqrt(1 - 2Q) ] M. Kimura, J. Mol. Evol. 16; (1980).

44 Felsenstein (1981) A C G T composizione di basi diversa: [ A C G, T ] Tutti I 12 tassi di sostituzione sono uguali ( ) 3 parametri liberi

45 Hasegawa, Kishino and Yano (1985) A C G T composizione di basi diversa: [ A C G, T ] 5 parametri liberi Velocità di transizione ( ) Velocità di transversione ( )

46 General Time Reversible (1984) A C G T composizione di basi diversa: [ A C G, T ] 9 parametri liberi/indipen denti 6 tassi di sostituzione diversi

47

48 Metodi di Distanza I metodi di clustering usano algoritmi per generare alberi –UPGMA (Unweighted Pair Group Method using Arithmetic Averages): produce un albero additivo, radicato, che si conforma allorologio molecolare –Neighbor-joining: produce un albero additivo, non radicato Approci basati su criteri di ottimalità: least-squares, minimum evolution,...

49 Stimare un albero con le distanze Distanze additive: Se potessimo calcolare accuratamente il vero numero di eventi evolutivi che sono accaduti dalla divergenza di due sequenze sulla base del numero di divergenze osservate, queste distanze sarebbero additive.

50 Metodi di clustering UPGMA distanze additive e ultrametriche => basato sullassunzione di un orologio molecolare => molto sensibile a tassi di sostituzioni non uguali. Meglio usare altri algoritmi di clustering e.g. Neighbor-joining

51 AB CDE B2 C44 D666 E6664 F88888

52 AB CDE B2 C44 D666 E6664 F88888 dist(A,B),C = (distAC + distBC) / 2 = 4 dist(A,B),D = (distAD + distBD) / 2 = 6 dist(A,B),E = (distAE + distBE) / 2 = 6 dist(A,B),F = (distAF + distBF) / 2 = 8 Clusteriziamo le 2 seq più vicine, generiamo una nuova matrice dove queste seq. vengono considerate come un cluster unico.

53 A,BCDE C4 D66 E664 F8888 dist(D,E),C = (distDC + distEC) / 2 = 6 dist(D,E),F = (distDF + distEF) / 2 = 8 Dist(D,E)(A,B)= (distD(AB) + distE(AB)) / 2 = 6

54 ABCDE C4 DE66 F888 dist(ABC),F = (dist(AB)F + distCF) / 2 = 8 dist(ABC),(DE) = (dist(AB)(DE) + distC(DE)) / 2 = 6

55 AB,CDE DE6 F88 dist(ABC,DE)F = (dist(ABC)(F) + dist(DE)(F)) / 2 = 8

56 ABC,DE F8

57 AB CDE B2 C44 D666 E6664 F88888

58 Pero……

59 UPGMA is a weak clustering algorithm Neighbor joining is more complicated but better Other clustering algorithms available (least squares, minimum evolution etc)

60 Maximum Parsimony Identifica lalbero che richiede il minimo numero di cambiamenti evolutivi per spiegare le differenze osservate tra le sequenze Spesso non si può identificare un unico albero per grandi set di dati una ricerca esaustiva non è possibile

61 Maximum Parsimony Assunzioni implicite riguardo allevoluzione, i cambiamenti sono rari (la migliore ipotesi è quella che richiede il minimo numero di cambiamenti) Tutti tipi di sostituzione avengono con la stessa probibilità Molto sensibile a SATURAZIONE DI SOSTITUZIONI

62 Siti Informativi e non-informativi Siti informativi sono quelli che ci permettono distinguere tra alberi diversi sulla base di quanti sostituzioni sono postulati. Un sito informativo deve avere almeno due basi diversi, e ciascuno di questi basi devessere rappresentato almeno 2 volte

63 III III site 2 G A AA A AA AA A AG A AA A AG site 3 C G GT T TT TT T GC T TT T GC site 5 G G GA A AA AA A GG A AA A GG site 7 C C CT T TT TT T CC T TT T CC site 9 A G GG A GA AG G GA G AA A GA 4 changes 5 changes6 changes

64 ACC T T [A,C] [C] [C,T] [T] 2 Cambiamenti

65 ACC T T [A,C] - C [C] - C [C,T] - T [T] 2 Cambiamenti Siti Ancestrali

66 Analisi di parsimonia Dato un set di caratteri, ad esempio delle sequenze allineate, lanalisi di parsimonia determina ladattamento (numero di passaggi) di ciascun carattere a un dato albero La somma dei cambiamenti per tutti I caratteri è definita Tree Length (TL, lunghezza dellalbero) Most parsimonious trees (MPTs, gli alberi più parsimoniosi) sono quelli che hanno TL minima

67 Risultati dellanalisi di parsimonia Vengono prodotti uno o più MPTs Ipotesi riguardo allevoluzione dei caratteri associate ad ogni albero (dove e quando sono avvenuti I cambiamenti) Lunghezze dei rami (branch lengths) = numero di cambiamenti associati ai rami Alberi sub-ottimali - opzionali

68 Parsimonia -vantaggi Metodo semplice Sembra non dipendere da un modello esplicito di evoluzione Produce sia alberi che ipotesi ad essi associate dellevoluzione dei caratteri Dovrebbe dare risultati accurati se I dati sono ben strutturati e se lomoplasia è rara o ampiamente e casualmente distribuita su tutto lalbero

69 Parsimonia -svantaggi Può produrre risultati fuorvianti se cè omoplasia concentrata in particolari parti dellalbero, per esempio: -convergenza thermofilica -bias nella composizione in basi -long branch attraction (tassi di sostituzione non uguali tra sequenze) Sottostima le lunghezze dei rami (saturazione) Il modello di evoluzione è implicito - il comportamento del metodo non è del tutto chiaro Spesso giustificata da un punto di vista filosofico - dobbiamo preferire le ipotesi più semplici Per molti sistematici molecolari questo argomento non è convincente

70 Numero di alberi distinti in funzione del numero di taxa 10 2* * * * * N taxaN trees

71 Trovare gli alberi ottimali - soluzioni esatte Ricerca esaustiva esamina tutti gli alberi possibili Tipicamente usata per problemi con meno di 10 taxa

72 Trovare gli alberi ottimali - soluzioni euristiche Il numero di possibili alberi aumenta esponenzialmente allaumentare del numero di taxa (esempio di problema NP complete) Metodi euristici sono usati per esplorare il tree space in cerca degli alberi più parsimoniosi Non è garantito che gli alberi trovati siano i più parsimoniosi

73 Trovare gli alberi ottimali - soluzioni euristiche Branch Swapping: Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TBR) Altri metodi....

74 Trovare gli alberi ottimali - soluzioni euristiche Nearest neighbor interchange (NNI) A B CD E F G A B DC E F G A B CD E F G

75 Trovare gli alberi ottimali - soluzioni euristiche Subtree pruning and regrafting (SPR) A B CD E F G A B CD E F G C D G B A E F

76 Trovare gli alberi ottimali - soluzioni euristiche Tree bisection and reconnection (TBR) A B CD E F G A B C D E F G A C BG F D E

77 Ricerche Euristiche In tutti casi, accetiamo un riarrangemento se produce un albero migliore di quello precedente. Possiamo usare anche regole piu complesse (accetiamo se non e tanto peggio, e poi proviamo altre riarrangementi) Facciamo n passi cosi (anche usando, per es., x passi di NNI dopo ogni passo di TBR)

78 Alberi ottimali multipli Parsimonia può generare piu di un albero più parsimonioso Possiamo poi selezionare il migliore con criteri addizionali Tipicamente relazioni comuni fra tutti gli alberi ottimali vengono riassunte in un albero consensus

79 Consensus methods Un albero consensus è una sintesi dei elementi comuni fra un gruppo di alberi Ci sono vari metodi di consensus che differiscono rispetto a: –1. Il tipo di accordo –2. Il livello di accordo Metodi consensus possono essere usati con alberi multipli derivanti da ununica analisi o da analisi differenti

80 Majority rule consensus ABCDEFG A B C E D FG ABCEDFG MAJORITY-RULE CONSENSUS TREE A B C E F DG Numbers indicate frequency of clades in the fundamental trees

81 Come valutare lo support per un albero bootstrap: –Selezionare colonne da un allineamento multiplo con rimpiazzo (resampling with replacement) –Ricalcolare lalbero –Ripetere volte (calcolare nuovi alberi) –Quanto spesso vediamo rami che mettono insieme sequenze o gruppi di sequenze?

82 Bootstrapping Costruire un nouvo set di dati con lunghezza uguale a quello originale. Colonne di caretteri vengono scelte casualemente dal dataset originale in modo tale che colonne orignali possono essere presente piu di una volta. Fare unanalisi filogenetica e ricordare lalbero Tornare al capo 100 (1000) volte

83 The Bootstrap AC C V K V I Y S BM A V R L I F S CM C L R L L F T AV K V S I I S I BV R V S I I S I CL R L T L L T L Original Scrambled 2x2x 3x3x Non- supportive A B C A B C

84 Majority rule consensus ABCDEFG A B C E D FG ABCEDFG MAJORITY-RULE CONSENSUS TREE A B C E F DG Numbers indicate frequency of clades in the fundamental trees

85 Bootstrapping La concordanza fra gli alberi prodotti viene rappresentata con un albero majority-rule consensus La frequenza con cui certi gruppi compaiono, le proporzioni di bootstrap (BPs), è una misura del supporto dei gruppi stessi Informazioni addizionali sono riportate nelle tabelle di partizione

86 Bootstrapping - an example Ciliate SSUrDNA - bootstrap Freq ** ** ** **** ****** ** ****.* ***** ******* **....* **.....* 1.00 Majority-rule consensus Partition Table Ochromonas (1) Symbiodinium (2) Prorocentrum (3) Euplotes (8) Tetrahymena (9) Loxodes (4) Tracheloraphis (5) Spirostomum (6) Gruberia (7)

87 Purchè non ci siano evidenze di un forte segnale di distorsione (per esempio bias nella composione, grandi differenze nelle lunghezze dei rami), elevati BPs (> 85%) sono indicativi di un segnale filogenetico forte Bassi BPs non necessariamente significano che la relazione evidenziata è falsa, ma semplicemente che non è fortemente supportata Bootstrap - interpretazione

88 le BP sono depende sul numero di caratteri che sono consistenti con un clade e il livello di support per altri relazioni. Ci fornicsono una stima relativa per il grado di support per un gruppo soto il modello e metodo di analisi. Bootstrap - interpretation

89 PHYLIP shington.edu/phylip.htmlhttp://evolution.genetics.wa shington.edu/phylip.html lyon1.fr/software/njplot.html NJPlot Seaview

90 Maximum Likelihood

91 Maximum likelihood Try to identify the tree and model of substitution that MAXIMIZES the probability of observing the data (the alignment)

92 Cosè la probabilità di osservare un dato? lanciamo una moneta, viene testa. Se assumiamo che si tratti di una moneta onesta, la probabilità di avere testa dovrebbe essere 0.5. Se invece pensiamo che questa moneta dia testa nell80% dei lanci, la probabilità di avere questo risultato dovrebbe essere 0.8! QUINDI: La probabilità dipende dal modello! p = ? Lezione: I dati rimangano costanti, il cambiamento è nel modello. Nela caso del secondo modello, la probabilità e più alta.

93 MASSIMA VEROSIMGLIANZE - OBIETIVO Stimare la probabilità di osservare i dati, dato un albero filogenetico e un modello che descrive il processo dellevoluzione. Probability of given ) (

94 Una regola…la regola dell1 la somma delle probabilità di tutte le possibilità è SEMPRE uguale a 1. Es. per DNA p(a)+p(c)+p(g)+p(t)=1

95 Cosè la probabilità di vedere un nucleotide 'G'? Domanda:Data una sequenza di lunghezza 1, il nucleotide G, qualè la probabilità dei dati? Soluzione: Dipende dal modello dellevoluzione (composizione). E.g. –Model 1: frequenza di G = 0.4 => likelihood(G) = 0.4 –Model 2: frequenza di G = 0.1 => likelihood(G) =0.1 –Model 3: frequenza di G = 0.25 => likelihood(G) = 0.25

96 Per sequenze più lunghe? Consideriamo un gene con lunghezza 2: Gene 1: ga La probabilità di osservare questo gene è il prodotto delle probabilità di osservare ogni base. Es. –p(g) = 0.4; p(a)=0.15 (per es) –probabilità(ga) = 0.4 x 0.15 = 0.06

97 …e così via per sequenze più lunghe Gene 1: gactagctagacagatacgaattac Model (di frequenza di basi) : –p(a)=0.15; p(c)=0.2; p(g)=0.4; p(t)=0.25; –(La somma di tutte probabiltà devessere 1) Prob(Gene 1) = (anche la somma di probabilità di tutti geni =1

98 Considerazioni sui modelli Possiamo vedere che il nostro modello non è quello ottimale per I dati osservati. Se avessimo usato questo modello: p(a)=0.4; p(c) =0.2; p(g)= 0.2; p(t) = 0.2; La probabilità sarebbe stata: Prob(gene 1) = (un valore quasi 10,000 volte più alto) Lezione: I dati rimangano costanti, il cambiamento è nel modello. Nel caso del secondo modello, la probabilità e più alta.

99 In quale modo si riferiscono queste considerazioni agli alberi filogenetici? Consideriamo un allineamento di 2 sequenze: –Gene 1: gaac –Gene 2: gacc Facciamo lassunzione che questi geni sono imparentati da un albero semplice con lunghezze di rami.

100 Aumentare la complessità del modello In questo caso, non è possibile usare un modello che descrive solo la composizione. Dobbiamo includere il meccanismo di sostituzione. Ci sono due parti in questo modello: lalbero e il processo (il processo è spesso chiamato il modello), in realtà il modello è composto sia dal processo che dallalbero. NB: Per evitare altra confusione, manteniamo la terminologia confusa.

101 Il modello Le due parti del modello sono: lalbero e il processo (il modello). Il modello è composto dalla composizione e dal processo di sostituzione (I tassi di varie sostituzioni). + Modello =

102 Un modello time-reversible semplice Un modello semplice dice che la probabilità di una sostituzione da a a c (o vice versa) è 0.4, la composizione ( ) a è 0.25 e la composizione ( ) c è 0.25 P =

103 Probabilità della terza posizione del nostro allineamento p(a) =0.25; p(c) = 0.25; Se cominciamo con A, la probabilità di questo nucleotide è 0.25, mentre la probabilità della sua sostituzione con C è 0.4. Quindi, la probabilità di osservare questi dati è: *probabilità(D|M) = 0.25 x 0.4 =0.01 *La probabilità dei dati, dato il modello. –Gene ancestrale: gaac –Gene derivata: gacc

104 Diverse lungezze di rami Per rami corti, la probabilità che un carattere rimanga uguale è alta, la probabilità che venga sostituito è bassa (secondo la nostra matrice) Per rami più lunghi, la probabilità di cambiamento dovrebbe essere più alta. I calcoli precedenti sono basati sullassunzione che la lunghezza del ramo descrive UNA Certain Evolutionary Distance or CED. Se volessimo considerare un ramo con lunghezza 2CED, potremmo moltiplicare la matrice per se stessa (matrice 2 ).

105 Per valori più alti di CED units Lunghezza del ramo ProbabilitàProbabilità

106

107


Scaricare ppt "A Brief Introduction to Molecular Systematics David S. Horner Dip. Scienze Biomolecolari e Biotecnologie"

Presentazioni simili


Annunci Google