La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Migliore Punteggio Lunghezza della sequenza Grandezza banca dati

Presentazioni simili


Presentazione sul tema: "Migliore Punteggio Lunghezza della sequenza Grandezza banca dati"— Transcript della presentazione:

1 Migliore Punteggio Lunghezza della sequenza Grandezza banca dati
Composizione della sequenza

2 Punteggio sequenze random
Numero Sequenzecasuali 70 60 50 40 30 20 10 Opt = 1070 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT

3 Significatività statistica
Numero Sequenzecasuali 70 60 50 40 30 20 10 Opt = 1070 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT

4 Significatività statistica
Numero Sequenzecasuali 70 60 50 40 30 20 10 E = 1.21*10-21 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT E value = Numero atteso per caso di sequenze con punteggio > opt

5 Matrici di sostituzione

6 Sostituzioni osservate

7 Composizione aminoacidica

8 Matrice di probabilità
0.3 0.15 0.0.. 0.1 0.05 A C D E 0.14 0.28 0.09 0.015 0.03 0.01 = Diviso Frequenze attese Frequenze osservate A C D E 2.13 0.53 6.4 1.6 < 1 Sostituzione sfavorita > 1 Sostituzione favorita Matrice di probabilità

9 Punteggio allineamento
C D E 2.13 0.53 6.4 1.6 Matrice di probabilità Gli Odds non possono essere sommati Per calcolare il puneggio di un allineamento ma debbono essere moltiplicati AAADE || | AACEE f(AA) x f(AA) x f(AC) x f(DE) x f(EE) a(AA) x a(AA) x a(AC) x a(DE) x a(EE) = pAA x pAA x pAC x pDE x pEE = x 2.13 x 0.53 x 1.6 x 6.4 = 25 Scomodo!

10 Logaritmo delle frequenze
Log ( a x b x c x d ) = log(a) + log(b) + log(c) + log(d) Prob = pAA x pAA x pAC x pDE x pEE log( Prob ) = log( pAA x pAA x pAC x pDE x pEE ) Log (Prob) = log(pAA) +log(pAA) +log(pAC) +log(pDE) +log(pEE) A C D E log(pAA) log(pCA) log(pAD) log(pAE) log(pCD) log(pCE) log(pDD) log(pDE) log(pEE) A C D E pAA pAC pAD pAE pCC pCD pCE pDD pDE pEE

11 Punteggio di un allineamento
C D E 0.3 -0.2 0.8 0.2 < o Sostituzione sfavorita > o Sostituzione favorita AAADE || | AACEE Matrice di punteggio = – = 1.4 punteggio di similarità = 25 = probabilità calcolata precedentemente....

12 Una matrice di punteggio
Identità Sostituzioni avvantaggiate Sostituzioni svantaggiate Sostituzioni avvantaggiate

13 Distanza delle matrici
10 -10 -12 -15 11 -9 13 -8 12 A C D E 1.0 -1.0 -0.7 -1.5 1.5 -1.1 -0.2 0.5 -0.9 0.8 Da allineamenti di sequenze molto simili Da allineamenti di sequenze molto divergenti

14 Matrici PAM Percent Accepted Mutation PAM 2 = PAM 1 * PAM 1
PAM 4 = PAM 3 * PAM 1 etc..

15 Matrici BLOSUM Identità < x % L T A G R I D E - W S H L T A G R I D

16 Corrispondenza PAM/BLOSUM
Maggiore divergenza PAM 250 BLOSUM 45 PAM 200 BLOSUM 52 PAM 160 BLOSUM 60 PAM 120 BLOSUM 80 Minore divergenza PAM 100 BLOSUM 90

17 Alberi filogenetici

18 Alberi Filogenetici Nodi interni Radice Tempo Rami Distanza F-H
Unità tassonomiche sconosciute Radice Tempo Rami Distanza F-H A C E D G F B H Nodi esterni - Foglie Unità tassonomiche operative

19 Ortologhi e paraloghi Gene A Gene A Speciazione Duplicazione Gene A1
Gene B Gene A2 Geni Paraloghi Geni Ortologhi

20 Filogenesi molecolare
Filogenesi di geni ortologhi Filogenesi di geni paraloghi Mioglobina Uomo Hb Zeta Uomo Hb Alpha Anatra Hb Alpha Gorilla Hb Alpha Ratto Hb Theta Uomo Hb Alpha Uomo Hb Beta Uomo Hb Delta Uomo Hb Alpha Uomo Hb Alpha Topo Hb Gamma Uomo Hb Epsilon Uomo Emoglobina alfa in specie diverse Diverse catene di emoglobina nell’ uomo

21 Duplicazione/Speciazione
Similarità e distanza Sequenza originaria AGHSVLIWETS Eventi di sostituzione: Avvenuti = 12 Osservabili = 3 Duplicazione/Speciazione Singola A G H S V L I W E T ->T A G H S V L I W E T TGASILLWETT AGESILIWETT Coincidenti ->A ->E Paralleli ->I ->I Multipli ->A->L Retro-Sostituzione ->A->E Convergenti ->I->T ->T

22 Distanza Genetica % Diversità 100% 75% 50% 25% 0% Tempo
Meglio usare sequenze nucleotidiche: - regioni non codificanti - mutazioni nucleotidiche possono non essere aminoacidiche - modello più facile

23 Distanza Jukes & Cantor
sostituzioni per base = - 3/4 * ln( 1 - 4/3 * %Diversità ) Diversità % Stima distanza genetica (Sostituzioni per base) 0.10 0.107 0.20 0.232 0.30 0.383 0.40 0.571 0.50 0.823 0.60 1.207 0.70 2.031

24 Distanza Jukes & Cantor
Genetica Tempo Assunzioni del modello: Stessa probabilità delle sostituzioni Stessa probabilità dei siti Indipendenza dei siti OROLOGIO MOLECOLARE - Velocità di sostituzione costante STAZIONARIETA’ - Composizione nucleotidica costante

25 Matrici di distanze yh globine Scimpanzè Uomo Gorilla Orango Macaco
Scim.Ragno - 0.014 0.02 0.015 0.04 0.03 0.08 0.07 Scim. Ragno 0.11 0.10 0.12

26 Gerarchico addittivo 2 5 4 3 1 5 4 3 2 1

27 Allineamenti multipli

28 Un allineamento multiplo
Regioni con gaps: Loops? Riga = sequenza L T A G R I D E - W S H Blocchi conservati Elementi di struttura secondaria ? Colonna = posizione Famiglia proteine omologhe

29 Vantaggi 1 R E K S A V T L N - D I G 2 1 P E K S A V T L W - N D G 2 1
2 sequenze Troppo divergenti 1 P E K S A V T L W - N D G 2 2 sequenze Troppo simili 1 P A - T V K L W G E Y 2 D N S 3 H Q Allineamento Multiplo

30 Colorazione Cysteine C Negative D, E Positive K, R Alcohol S, T
Polar N, Q Aromatic F, H, W, Y Hydrophobic A, G, I, L, M, P, V

31 Consensus 100% 90% 80% 70%

32 Qualità multiallineamento
V E D K S A T G L 1 2 3 4 5 6 7 8 9 Punteggio = = (VG) + (ED) + (DE) + (KK) + … V E K S A T G L D N 1 2 3 4 5 6 7 8 9 Punteggio = Punteggio = Si P(ci) P(VGAL) = ???

33 Punteggio di una colonna
xxVxxxxx xxGxxxxx Punteggio colonna = Si<j Similarità(AiAj) xxAxxxxx xxLxxxxx V = (VG)+(VA)+(VL)+ A G (GA)+(GL)+ L (AL)

34 Punteggi alternativi V L G =? A L G G V L G L A xxVxxxxx xxGxxxxx
xxAxxxxx G =? A xxLxxxxx L xxGxxxxx G xxLxxxxx =(LG)+(LG)+(LA)+(LV)+(LL) G V L G =(VL)+(LL)+(LG) +(GG)+(GA) L A

35 Programmazione dinamica multi-dimensionale
Tempo O(Ln) 2 sequenze lunghe 100 = 100*100 = quadretti 3 sequenze lunghe 100 = 100*100*100 = 1 milione cubetti 4 sequenze lunghe 100 = 100*100*100*100 = 100 milioni di iper-cubetti

36 Come NON si costruisce ILSLIDWTQVR VISAGDWTNVR VLTAAE-TNVR VLTLID-SNVR
B C D E F VISAGDWTNVR 1 VLTAAE-TNVR 2 VLTLID-SNVR 3 VLSAIDWTNVK 4 VLSLAE-TQVK 5 1) Allineare B con A 2) Allineare C con B 3) Allineare D con C 4) Allineare E con D 5) Allineare F con E

37 Costruzione albero guida
- 4 6 1 9 5 3 7 2 8 N * (N-1) allineamenti a coppia Matrice di distanze Albero guida

38 Allineamento progressivo
VLSAIDWTNVK VLSLAE-TQVK VISAGDWTNVR VLTLID-SNVR VLTAAE-TNVR A B C D E F ILSLIDWTQVR 2 1 3 VLTLIDSNVR VLTAAETNVR 4 5 1) Allineare E con F 2) Allineare B con C 3) Allineare D con EF 4) Allineare BC con DEF 5) Allineare A con BCDEF

39 + = No Allineamento di allineamenti P E K S G V L A W D N P E K S A V
- N D G P E K S A V - L W N D G = No P E K S A V - L W N D G

40 S&W per allineamenti multipli
K D S A I R E - G C Y 2 sequenze con 2 sequenze L I K R D E ... CS CL+CI+ SL+SI /4 CK+CR+ SK+SR CD+CE+ SD+SE A AL+AI+ AL+AI AK+AR+ AK+AR AD+AE+ AD+AE Y W YL+YI+ WL+WI YK+YR+ WK+WR YD+YE+ WD+WE 1 sequenza con 2 sequenze L I K R D E ... C CL+CI /2 CK+CR CD+CE A AL+AI AK+AR AD+AE Y YL+YI YK+YR YD+YE


Scaricare ppt "Migliore Punteggio Lunghezza della sequenza Grandezza banca dati"

Presentazioni simili


Annunci Google