Migliore Punteggio Lunghezza della sequenza Grandezza banca dati

Migliore Punteggio Lunghezza della sequenza Grandezza banca dati
Composizione della sequenza

Punteggio sequenze random
Numero Sequenzecasuali 70 60 50 40 30 20 10 Opt = 1070 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT

Significatività statistica
Numero Sequenzecasuali 70 60 50 40 30 20 10 Opt = 1070 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT

Significatività statistica
Numero Sequenzecasuali 70 60 50 40 30 20 10 E = 1.21*10-21 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT E value = Numero atteso per caso di sequenze con punteggio > opt

Matrici di sostituzione

Sostituzioni osservate

Composizione aminoacidica

Matrice di probabilità
0.3 0.15 0.0.. 0.1 0.05 A C D E 0.14 0.28 0.09 0.015 0.03 0.01 = Diviso Frequenze attese Frequenze osservate A C D E 2.13 0.53 6.4 1.6 < 1 Sostituzione sfavorita > 1 Sostituzione favorita Matrice di probabilità

Punteggio allineamento
C D E 2.13 0.53 6.4 1.6 Matrice di probabilità Gli Odds non possono essere sommati Per calcolare il puneggio di un allineamento ma debbono essere moltiplicati AAADE || | AACEE f(AA) x f(AA) x f(AC) x f(DE) x f(EE) a(AA) x a(AA) x a(AC) x a(DE) x a(EE) = pAA x pAA x pAC x pDE x pEE = x 2.13 x 0.53 x 1.6 x 6.4 = 25 Scomodo!

Logaritmo delle frequenze
Log ( a x b x c x d ) = log(a) + log(b) + log(c) + log(d) Prob = pAA x pAA x pAC x pDE x pEE log( Prob ) = log( pAA x pAA x pAC x pDE x pEE ) Log (Prob) = log(pAA) +log(pAA) +log(pAC) +log(pDE) +log(pEE) A C D E log(pAA) log(pCA) log(pAD) log(pAE) log(pCD) log(pCE) log(pDD) log(pDE) log(pEE) A C D E pAA pAC pAD pAE pCC pCD pCE pDD pDE pEE

Punteggio di un allineamento
C D E 0.3 -0.2 0.8 0.2 < o Sostituzione sfavorita > o Sostituzione favorita AAADE || | AACEE Matrice di punteggio = – = 1.4 punteggio di similarità = 25 = probabilità calcolata precedentemente....

Una matrice di punteggio
Identità Sostituzioni avvantaggiate Sostituzioni svantaggiate Sostituzioni avvantaggiate

Distanza delle matrici
10 -10 -12 -15 11 -9 13 -8 12 A C D E 1.0 -1.0 -0.7 -1.5 1.5 -1.1 -0.2 0.5 -0.9 0.8 Da allineamenti di sequenze molto simili Da allineamenti di sequenze molto divergenti

Matrici PAM Percent Accepted Mutation PAM 2 = PAM 1 * PAM 1
PAM 4 = PAM 3 * PAM 1 etc..

Matrici BLOSUM Identità < x % L T A G R I D E - W S H L T A G R I D

Corrispondenza PAM/BLOSUM
Maggiore divergenza PAM 250 BLOSUM 45 PAM 200 BLOSUM 52 PAM 160 BLOSUM 60 PAM 120 BLOSUM 80 Minore divergenza PAM 100 BLOSUM 90

Alberi filogenetici

Alberi Filogenetici Nodi interni Radice Tempo Rami Distanza F-H
Unità tassonomiche sconosciute Radice Tempo Rami Distanza F-H A C E D G F B H Nodi esterni - Foglie Unità tassonomiche operative

Ortologhi e paraloghi Gene A Gene A Speciazione Duplicazione Gene A1
Gene B Gene A2 Geni Paraloghi Geni Ortologhi

Filogenesi molecolare
Filogenesi di geni ortologhi Filogenesi di geni paraloghi Mioglobina Uomo Hb Zeta Uomo Hb Alpha Anatra Hb Alpha Gorilla Hb Alpha Ratto Hb Theta Uomo Hb Alpha Uomo Hb Beta Uomo Hb Delta Uomo Hb Alpha Uomo Hb Alpha Topo Hb Gamma Uomo Hb Epsilon Uomo Emoglobina alfa in specie diverse Diverse catene di emoglobina nell’ uomo

Duplicazione/Speciazione
Similarità e distanza Sequenza originaria AGHSVLIWETS Eventi di sostituzione: Avvenuti = 12 Osservabili = 3 Duplicazione/Speciazione Singola A G H S V L I W E T ->T A G H S V L I W E T TGASILLWETT AGESILIWETT Coincidenti ->A ->E Paralleli ->I ->I Multipli ->A->L Retro-Sostituzione ->A->E Convergenti ->I->T ->T

Distanza Genetica % Diversità 100% 75% 50% 25% 0% Tempo
Meglio usare sequenze nucleotidiche: - regioni non codificanti - mutazioni nucleotidiche possono non essere aminoacidiche - modello più facile

Distanza Jukes & Cantor
sostituzioni per base = - 3/4 * ln( 1 - 4/3 * %Diversità ) Diversità % Stima distanza genetica (Sostituzioni per base) 0.10 0.107 0.20 0.232 0.30 0.383 0.40 0.571 0.50 0.823 0.60 1.207 0.70 2.031

Distanza Jukes & Cantor
Genetica Tempo Assunzioni del modello: Stessa probabilità delle sostituzioni Stessa probabilità dei siti Indipendenza dei siti OROLOGIO MOLECOLARE - Velocità di sostituzione costante STAZIONARIETA’ - Composizione nucleotidica costante

Matrici di distanze yh globine Scimpanzè Uomo Gorilla Orango Macaco
Scim.Ragno - 0.014 0.02 0.015 0.04 0.03 0.08 0.07 Scim. Ragno 0.11 0.10 0.12

Gerarchico addittivo 2 5 4 3 1 5 4 3 2 1

Allineamenti multipli

Un allineamento multiplo
Regioni con gaps: Loops? Riga = sequenza L T A G R I D E - W S H Blocchi conservati Elementi di struttura secondaria ? Colonna = posizione Famiglia proteine omologhe

Vantaggi 1 R E K S A V T L N - D I G 2 1 P E K S A V T L W - N D G 2 1
2 sequenze Troppo divergenti 1 P E K S A V T L W - N D G 2 2 sequenze Troppo simili 1 P A - T V K L W G E Y 2 D N S 3 H Q Allineamento Multiplo

Colorazione Cysteine C Negative D, E Positive K, R Alcohol S, T
Polar N, Q Aromatic F, H, W, Y Hydrophobic A, G, I, L, M, P, V

Consensus 100% 90% 80% 70%

Qualità multiallineamento
V E D K S A T G L 1 2 3 4 5 6 7 8 9 Punteggio = = (VG) + (ED) + (DE) + (KK) + … V E K S A T G L D N 1 2 3 4 5 6 7 8 9 Punteggio = Punteggio = Si P(ci) P(VGAL) = ???

Punteggio di una colonna
xxVxxxxx xxGxxxxx Punteggio colonna = Si<j Similarità(AiAj) xxAxxxxx xxLxxxxx V = (VG)+(VA)+(VL)+ A G (GA)+(GL)+ L (AL)

Punteggi alternativi V L G =? A L G G V L G L A xxVxxxxx xxGxxxxx
xxAxxxxx G =? A xxLxxxxx L xxGxxxxx G xxLxxxxx =(LG)+(LG)+(LA)+(LV)+(LL) G V L G =(VL)+(LL)+(LG) +(GG)+(GA) L A

Programmazione dinamica multi-dimensionale
Tempo O(Ln) 2 sequenze lunghe 100 = 100*100 = quadretti 3 sequenze lunghe 100 = 100*100*100 = 1 milione cubetti 4 sequenze lunghe 100 = 100*100*100*100 = 100 milioni di iper-cubetti

Come NON si costruisce ILSLIDWTQVR VISAGDWTNVR VLTAAE-TNVR VLTLID-SNVR
B C D E F VISAGDWTNVR 1 VLTAAE-TNVR 2 VLTLID-SNVR 3 VLSAIDWTNVK 4 VLSLAE-TQVK 5 1) Allineare B con A 2) Allineare C con B 3) Allineare D con C 4) Allineare E con D 5) Allineare F con E

Costruzione albero guida
- 4 6 1 9 5 3 7 2 8 N * (N-1) allineamenti a coppia Matrice di distanze Albero guida

Allineamento progressivo
VLSAIDWTNVK VLSLAE-TQVK VISAGDWTNVR VLTLID-SNVR VLTAAE-TNVR A B C D E F ILSLIDWTQVR 2 1 3 VLTLIDSNVR VLTAAETNVR 4 5 1) Allineare E con F 2) Allineare B con C 3) Allineare D con EF 4) Allineare BC con DEF 5) Allineare A con BCDEF

+ = No Allineamento di allineamenti P E K S G V L A W D N P E K S A V
- N D G P E K S A V - L W N D G = No P E K S A V - L W N D G

S&W per allineamenti multipli
K D S A I R E - G C Y 2 sequenze con 2 sequenze L I K R D E ... CS CL+CI+ SL+SI /4 CK+CR+ SK+SR CD+CE+ SD+SE A AL+AI+ AL+AI AK+AR+ AK+AR AD+AE+ AD+AE Y W YL+YI+ WL+WI YK+YR+ WK+WR YD+YE+ WD+WE 1 sequenza con 2 sequenze L I K R D E ... C CL+CI /2 CK+CR CD+CE A AL+AI AK+AR AD+AE Y YL+YI YK+YR YD+YE …

Migliore Punteggio Lunghezza della sequenza Grandezza banca dati

Presentazioni simili

Presentazione sul tema: "Migliore Punteggio Lunghezza della sequenza Grandezza banca dati"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Migliore Punteggio Lunghezza della sequenza Grandezza banca dati

Presentazioni simili

Presentazione sul tema: "Migliore Punteggio Lunghezza della sequenza Grandezza banca dati"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back