Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoLotterio Lisa Modificato 11 anni fa
1
Migliore Punteggio Lunghezza della sequenza Grandezza banca dati
Composizione della sequenza
2
Punteggio sequenze random
Numero Sequenzecasuali 70 60 50 40 30 20 10 Opt = 1070 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT
3
Significatività statistica
Numero Sequenzecasuali 70 60 50 40 30 20 10 Opt = 1070 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT
4
Significatività statistica
Numero Sequenzecasuali 70 60 50 40 30 20 10 E = 1.21*10-21 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT E value = Numero atteso per caso di sequenze con punteggio > opt
5
Matrici di sostituzione
6
Sostituzioni osservate
7
Composizione aminoacidica
8
Matrice di probabilità
0.3 0.15 0.0.. 0.1 0.05 A C D E 0.14 0.28 0.09 0.015 0.03 0.01 = Diviso Frequenze attese Frequenze osservate A C D E 2.13 0.53 6.4 1.6 < 1 Sostituzione sfavorita > 1 Sostituzione favorita Matrice di probabilità
9
Punteggio allineamento
C D E 2.13 0.53 6.4 1.6 Matrice di probabilità Gli Odds non possono essere sommati Per calcolare il puneggio di un allineamento ma debbono essere moltiplicati AAADE || | AACEE f(AA) x f(AA) x f(AC) x f(DE) x f(EE) a(AA) x a(AA) x a(AC) x a(DE) x a(EE) = pAA x pAA x pAC x pDE x pEE = x 2.13 x 0.53 x 1.6 x 6.4 = 25 Scomodo!
10
Logaritmo delle frequenze
Log ( a x b x c x d ) = log(a) + log(b) + log(c) + log(d) Prob = pAA x pAA x pAC x pDE x pEE log( Prob ) = log( pAA x pAA x pAC x pDE x pEE ) Log (Prob) = log(pAA) +log(pAA) +log(pAC) +log(pDE) +log(pEE) A C D E log(pAA) log(pCA) log(pAD) log(pAE) log(pCD) log(pCE) log(pDD) log(pDE) log(pEE) A C D E pAA pAC pAD pAE pCC pCD pCE pDD pDE pEE
11
Punteggio di un allineamento
C D E 0.3 -0.2 0.8 0.2 < o Sostituzione sfavorita > o Sostituzione favorita AAADE || | AACEE Matrice di punteggio = – = 1.4 punteggio di similarità = 25 = probabilità calcolata precedentemente....
12
Una matrice di punteggio
Identità Sostituzioni avvantaggiate Sostituzioni svantaggiate Sostituzioni avvantaggiate
13
Distanza delle matrici
10 -10 -12 -15 11 -9 13 -8 12 A C D E 1.0 -1.0 -0.7 -1.5 1.5 -1.1 -0.2 0.5 -0.9 0.8 Da allineamenti di sequenze molto simili Da allineamenti di sequenze molto divergenti
14
Matrici PAM Percent Accepted Mutation PAM 2 = PAM 1 * PAM 1
PAM 4 = PAM 3 * PAM 1 etc..
15
Matrici BLOSUM Identità < x % L T A G R I D E - W S H L T A G R I D
16
Corrispondenza PAM/BLOSUM
Maggiore divergenza PAM 250 BLOSUM 45 PAM 200 BLOSUM 52 PAM 160 BLOSUM 60 PAM 120 BLOSUM 80 Minore divergenza PAM 100 BLOSUM 90
17
Alberi filogenetici
18
Alberi Filogenetici Nodi interni Radice Tempo Rami Distanza F-H
Unità tassonomiche sconosciute Radice Tempo Rami Distanza F-H A C E D G F B H Nodi esterni - Foglie Unità tassonomiche operative
19
Ortologhi e paraloghi Gene A Gene A Speciazione Duplicazione Gene A1
Gene B Gene A2 Geni Paraloghi Geni Ortologhi
20
Filogenesi molecolare
Filogenesi di geni ortologhi Filogenesi di geni paraloghi Mioglobina Uomo Hb Zeta Uomo Hb Alpha Anatra Hb Alpha Gorilla Hb Alpha Ratto Hb Theta Uomo Hb Alpha Uomo Hb Beta Uomo Hb Delta Uomo Hb Alpha Uomo Hb Alpha Topo Hb Gamma Uomo Hb Epsilon Uomo Emoglobina alfa in specie diverse Diverse catene di emoglobina nell’ uomo
21
Duplicazione/Speciazione
Similarità e distanza Sequenza originaria AGHSVLIWETS Eventi di sostituzione: Avvenuti = 12 Osservabili = 3 Duplicazione/Speciazione Singola A G H S V L I W E T ->T A G H S V L I W E T TGASILLWETT AGESILIWETT Coincidenti ->A ->E Paralleli ->I ->I Multipli ->A->L Retro-Sostituzione ->A->E Convergenti ->I->T ->T
22
Distanza Genetica % Diversità 100% 75% 50% 25% 0% Tempo
Meglio usare sequenze nucleotidiche: - regioni non codificanti - mutazioni nucleotidiche possono non essere aminoacidiche - modello più facile
23
Distanza Jukes & Cantor
sostituzioni per base = - 3/4 * ln( 1 - 4/3 * %Diversità ) Diversità % Stima distanza genetica (Sostituzioni per base) 0.10 0.107 0.20 0.232 0.30 0.383 0.40 0.571 0.50 0.823 0.60 1.207 0.70 2.031
24
Distanza Jukes & Cantor
Genetica Tempo Assunzioni del modello: Stessa probabilità delle sostituzioni Stessa probabilità dei siti Indipendenza dei siti OROLOGIO MOLECOLARE - Velocità di sostituzione costante STAZIONARIETA’ - Composizione nucleotidica costante
25
Matrici di distanze yh globine Scimpanzè Uomo Gorilla Orango Macaco
Scim.Ragno - 0.014 0.02 0.015 0.04 0.03 0.08 0.07 Scim. Ragno 0.11 0.10 0.12
26
Gerarchico addittivo 2 5 4 3 1 5 4 3 2 1
27
Allineamenti multipli
28
Un allineamento multiplo
Regioni con gaps: Loops? Riga = sequenza L T A G R I D E - W S H Blocchi conservati Elementi di struttura secondaria ? Colonna = posizione Famiglia proteine omologhe
29
Vantaggi 1 R E K S A V T L N - D I G 2 1 P E K S A V T L W - N D G 2 1
2 sequenze Troppo divergenti 1 P E K S A V T L W - N D G 2 2 sequenze Troppo simili 1 P A - T V K L W G E Y 2 D N S 3 H Q Allineamento Multiplo
30
Colorazione Cysteine C Negative D, E Positive K, R Alcohol S, T
Polar N, Q Aromatic F, H, W, Y Hydrophobic A, G, I, L, M, P, V
31
Consensus 100% 90% 80% 70%
32
Qualità multiallineamento
V E D K S A T G L 1 2 3 4 5 6 7 8 9 Punteggio = = (VG) + (ED) + (DE) + (KK) + … V E K S A T G L D N 1 2 3 4 5 6 7 8 9 Punteggio = Punteggio = Si P(ci) P(VGAL) = ???
33
Punteggio di una colonna
xxVxxxxx xxGxxxxx Punteggio colonna = Si<j Similarità(AiAj) xxAxxxxx xxLxxxxx V = (VG)+(VA)+(VL)+ A G (GA)+(GL)+ L (AL)
34
Punteggi alternativi V L G =? A L G G V L G L A xxVxxxxx xxGxxxxx
xxAxxxxx G =? A xxLxxxxx L xxGxxxxx G xxLxxxxx =(LG)+(LG)+(LA)+(LV)+(LL) G V L G =(VL)+(LL)+(LG) +(GG)+(GA) L A
35
Programmazione dinamica multi-dimensionale
Tempo O(Ln) 2 sequenze lunghe 100 = 100*100 = quadretti 3 sequenze lunghe 100 = 100*100*100 = 1 milione cubetti 4 sequenze lunghe 100 = 100*100*100*100 = 100 milioni di iper-cubetti
36
Come NON si costruisce ILSLIDWTQVR VISAGDWTNVR VLTAAE-TNVR VLTLID-SNVR
B C D E F VISAGDWTNVR 1 VLTAAE-TNVR 2 VLTLID-SNVR 3 VLSAIDWTNVK 4 VLSLAE-TQVK 5 1) Allineare B con A 2) Allineare C con B 3) Allineare D con C 4) Allineare E con D 5) Allineare F con E
37
Costruzione albero guida
- 4 6 1 9 5 3 7 2 8 N * (N-1) allineamenti a coppia Matrice di distanze Albero guida
38
Allineamento progressivo
VLSAIDWTNVK VLSLAE-TQVK VISAGDWTNVR VLTLID-SNVR VLTAAE-TNVR A B C D E F ILSLIDWTQVR 2 1 3 VLTLIDSNVR VLTAAETNVR 4 5 1) Allineare E con F 2) Allineare B con C 3) Allineare D con EF 4) Allineare BC con DEF 5) Allineare A con BCDEF
39
+ = No Allineamento di allineamenti P E K S G V L A W D N P E K S A V
- N D G P E K S A V - L W N D G = No P E K S A V - L W N D G
40
S&W per allineamenti multipli
K D S A I R E - G C Y 2 sequenze con 2 sequenze L I K R D E ... CS CL+CI+ SL+SI /4 CK+CR+ SK+SR CD+CE+ SD+SE A AL+AI+ AL+AI AK+AR+ AK+AR AD+AE+ AD+AE Y W YL+YI+ WL+WI YK+YR+ WK+WR YD+YE+ WD+WE 1 sequenza con 2 sequenze L I K R D E ... C CL+CI /2 CK+CR CD+CE A AL+AI AK+AR AD+AE Y YL+YI YK+YR YD+YE …
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.