Migliore Punteggio Lunghezza della sequenza Grandezza banca dati Composizione della sequenza
Punteggio sequenze random Numero Sequenzecasuali 70 60 50 40 30 20 10 Opt = 1070 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT
Significatività statistica Numero Sequenzecasuali 70 60 50 40 30 20 10 Opt = 1070 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT
Significatività statistica Numero Sequenzecasuali 70 60 50 40 30 20 10 E = 1.21*10-21 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 Punteggio OPT E value = Numero atteso per caso di sequenze con punteggio > opt
Matrici di sostituzione
Sostituzioni osservate
Composizione aminoacidica
Matrice di probabilità 0.3 0.15 0.0.. 0.1 0.05 A C D E 0.14 0.28 0.09 0.015 0.03 0.01 = Diviso Frequenze attese Frequenze osservate A C D E 2.13 0.53 6.4 1.6 < 1 Sostituzione sfavorita > 1 Sostituzione favorita Matrice di probabilità
Punteggio allineamento C D E 2.13 0.53 6.4 1.6 Matrice di probabilità Gli Odds non possono essere sommati Per calcolare il puneggio di un allineamento ma debbono essere moltiplicati AAADE || | AACEE f(AA) x f(AA) x f(AC) x f(DE) x f(EE) ---------------------------------------------- a(AA) x a(AA) x a(AC) x a(DE) x a(EE) = pAA x pAA x pAC x pDE x pEE = 2.13 x 2.13 x 0.53 x 1.6 x 6.4 = 25 Scomodo!
Logaritmo delle frequenze Log ( a x b x c x d ) = log(a) + log(b) + log(c) + log(d) Prob = pAA x pAA x pAC x pDE x pEE log( Prob ) = log( pAA x pAA x pAC x pDE x pEE ) Log (Prob) = log(pAA) +log(pAA) +log(pAC) +log(pDE) +log(pEE) A C D E log(pAA) log(pCA) log(pAD) log(pAE) log(pCD) log(pCE) log(pDD) log(pDE) log(pEE) A C D E pAA pAC pAD pAE pCC pCD pCE pDD pDE pEE
Punteggio di un allineamento C D E 0.3 -0.2 0.8 0.2 < o Sostituzione sfavorita > o Sostituzione favorita AAADE || | AACEE Matrice di punteggio = 0.3 + 0.3 – 0.2 + 0.2 + 0.8 = 1.4 punteggio di similarità 10 1.4 = 25 = probabilità calcolata precedentemente....
Una matrice di punteggio Identità Sostituzioni avvantaggiate Sostituzioni svantaggiate Sostituzioni avvantaggiate
Distanza delle matrici 10 -10 -12 -15 11 -9 13 -8 12 A C D E 1.0 -1.0 -0.7 -1.5 1.5 -1.1 -0.2 0.5 -0.9 0.8 Da allineamenti di sequenze molto simili Da allineamenti di sequenze molto divergenti
Matrici PAM Percent Accepted Mutation PAM 2 = PAM 1 * PAM 1 PAM 4 = PAM 3 * PAM 1 etc..
Matrici BLOSUM Identità < x % L T A G R I D E - W S H L T A G R I D
Corrispondenza PAM/BLOSUM Maggiore divergenza PAM 250 BLOSUM 45 PAM 200 BLOSUM 52 PAM 160 BLOSUM 60 PAM 120 BLOSUM 80 Minore divergenza PAM 100 BLOSUM 90
Alberi filogenetici
Alberi Filogenetici Nodi interni Radice Tempo Rami Distanza F-H Unità tassonomiche sconosciute Radice Tempo Rami Distanza F-H A C E D G F B H Nodi esterni - Foglie Unità tassonomiche operative
Ortologhi e paraloghi Gene A Gene A Speciazione Duplicazione Gene A1 Gene B Gene A2 Geni Paraloghi Geni Ortologhi
Filogenesi molecolare Filogenesi di geni ortologhi Filogenesi di geni paraloghi Mioglobina Uomo Hb Zeta Uomo Hb Alpha Anatra Hb Alpha Gorilla Hb Alpha Ratto Hb Theta Uomo Hb Alpha Uomo Hb Beta Uomo Hb Delta Uomo Hb Alpha Uomo Hb Alpha Topo Hb Gamma Uomo Hb Epsilon Uomo Emoglobina alfa in specie diverse Diverse catene di emoglobina nell’ uomo
Duplicazione/Speciazione Similarità e distanza Sequenza originaria AGHSVLIWETS Eventi di sostituzione: Avvenuti = 12 Osservabili = 3 Duplicazione/Speciazione Singola A G H S V L I W E T ->T A G H S V L I W E T TGASILLWETT AGESILIWETT Coincidenti ->A ->E Paralleli ->I ->I Multipli ->A->L Retro-Sostituzione ->A->E Convergenti ->I->T ->T
Distanza Genetica % Diversità 100% 75% 50% 25% 0% Tempo Meglio usare sequenze nucleotidiche: - regioni non codificanti - mutazioni nucleotidiche possono non essere aminoacidiche - modello più facile
Distanza Jukes & Cantor sostituzioni per base = - 3/4 * ln( 1 - 4/3 * %Diversità ) Diversità % Stima distanza genetica (Sostituzioni per base) 0.10 0.107 0.20 0.232 0.30 0.383 0.40 0.571 0.50 0.823 0.60 1.207 0.70 2.031
Distanza Jukes & Cantor Genetica Tempo Assunzioni del modello: Stessa probabilità delle sostituzioni Stessa probabilità dei siti Indipendenza dei siti OROLOGIO MOLECOLARE - Velocità di sostituzione costante STAZIONARIETA’ - Composizione nucleotidica costante
Matrici di distanze yh globine Scimpanzè Uomo Gorilla Orango Macaco Scim.Ragno - 0.014 0.02 0.015 0.04 0.03 0.08 0.07 Scim. Ragno 0.11 0.10 0.12
Gerarchico addittivo 2 5 4 3 1 5 4 3 2 1
Allineamenti multipli
Un allineamento multiplo Regioni con gaps: Loops? Riga = sequenza L T A G R I D E - W S H Blocchi conservati Elementi di struttura secondaria ? Colonna = posizione Famiglia proteine omologhe
Vantaggi 1 R E K S A V T L N - D I G 2 1 P E K S A V T L W - N D G 2 1 2 sequenze Troppo divergenti 1 P E K S A V T L W - N D G 2 2 sequenze Troppo simili 1 P A - T V K L W G E Y 2 D N S 3 H Q Allineamento Multiplo
Colorazione Cysteine C Negative D, E Positive K, R Alcohol S, T Polar N, Q Aromatic F, H, W, Y Hydrophobic A, G, I, L, M, P, V
Consensus 100% 90% 80% 70%
Qualità multiallineamento V E D K S A T G L 1 2 3 4 5 6 7 8 9 Punteggio = 1+2+3+4+5+6+7+8+9 = (VG) + (ED) + (DE) + (KK) + … V E K S A T G L D N 1 2 3 4 5 6 7 8 9 Punteggio = 1+2+3+4+5+6+7+8+9 Punteggio = Si P(ci) P(VGAL) = ???
Punteggio di una colonna xxVxxxxx xxGxxxxx Punteggio colonna = Si<j Similarità(AiAj) xxAxxxxx xxLxxxxx V = (VG)+(VA)+(VL)+ A G (GA)+(GL)+ L (AL)
Punteggi alternativi V L G =? A L G G V L G L A xxVxxxxx xxGxxxxx xxAxxxxx G =? A xxLxxxxx L xxGxxxxx G xxLxxxxx =(LG)+(LG)+(LA)+(LV)+(LL) G V L G =(VL)+(LL)+(LG) +(GG)+(GA) L A
Programmazione dinamica multi-dimensionale Tempo O(Ln) 2 sequenze lunghe 100 = 100*100 = 10.000 quadretti 3 sequenze lunghe 100 = 100*100*100 = 1 milione cubetti 4 sequenze lunghe 100 = 100*100*100*100 = 100 milioni di iper-cubetti
Come NON si costruisce ILSLIDWTQVR VISAGDWTNVR VLTAAE-TNVR VLTLID-SNVR B C D E F VISAGDWTNVR 1 VLTAAE-TNVR 2 VLTLID-SNVR 3 VLSAIDWTNVK 4 VLSLAE-TQVK 5 1) Allineare B con A 2) Allineare C con B 3) Allineare D con C 4) Allineare E con D 5) Allineare F con E
Costruzione albero guida - 4 6 1 9 5 3 7 2 8 N * (N-1) allineamenti a coppia Matrice di distanze Albero guida
Allineamento progressivo VLSAIDWTNVK VLSLAE-TQVK VISAGDWTNVR VLTLID-SNVR VLTAAE-TNVR A B C D E F ILSLIDWTQVR 2 1 3 VLTLIDSNVR VLTAAETNVR 4 5 1) Allineare E con F 2) Allineare B con C 3) Allineare D con EF 4) Allineare BC con DEF 5) Allineare A con BCDEF
+ = No Allineamento di allineamenti P E K S G V L A W D N P E K S A V - N D G P E K S A V - L W N D G = No P E K S A V - L W N D G
S&W per allineamenti multipli K D S A I R E - G C Y 2 sequenze con 2 sequenze L I K R D E ... CS CL+CI+ SL+SI /4 CK+CR+ SK+SR CD+CE+ SD+SE A AL+AI+ AL+AI AK+AR+ AK+AR AD+AE+ AD+AE Y W YL+YI+ WL+WI YK+YR+ WK+WR YD+YE+ WD+WE 1 sequenza con 2 sequenze L I K R D E ... C CL+CI /2 CK+CR CD+CE A AL+AI AK+AR AD+AE Y YL+YI YK+YR YD+YE …