La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Migliore Punteggio - Lunghezza della sequenza - Grandezza banca dati - Composizione della sequenza.

Presentazioni simili


Presentazione sul tema: "Migliore Punteggio - Lunghezza della sequenza - Grandezza banca dati - Composizione della sequenza."— Transcript della presentazione:

1 Migliore Punteggio - Lunghezza della sequenza - Grandezza banca dati - Composizione della sequenza

2 Punteggio sequenze random Punteggio OPT Opt = 1070 Numero Sequenze casuali

3 Significatività statistica Punteggio OPT Numero Sequenze casuali Opt = 1070

4 Significatività statistica Punteggio OPT Numero Sequenze casuali E = 1.21*10-21 E value = Numero atteso per caso di sequenze con punteggio > opt

5 Matrici di sostituzione

6 Sostituzioni osservate

7 Composizione aminoacidica

8 Matrice di probabilità ACDE A C D E 0.01 ACDE A C D E 0.1 Frequenze osservate Frequenze attese Diviso ACDE A C D E 6.4 Matrice di probabilità = < 1 Sostituzione sfavorita > 1 Sostituzione favorita

9 Punteggio allineamento AAADE || | AACEE f(AA) x f(AA) x f(AC) x f(DE) x f(EE) a(AA) x a(AA) x a(AC) x a(DE) x a(EE) = pAA x pAA x pAC x pDE x pEE = 2.13 x 2.13 x 0.53 x 1.6 x 6.4 = 25 ACDE A C D E 6.4 Matrice di probabilità Scomodo! Gli Odds non possono essere sommati Per calcolare il puneggio di un allineamento ma debbono essere moltiplicati

10 Logaritmo delle frequenze Log ( a x b x c x d ) = log(a) + log(b) + log(c) + log(d) ACDE A log(pAA)log(pCA)log(pAD)log(pAE) C log(pAA)log(pCD)log(pCE) D log(pDD)log(pDE) E log(pEE) ACDE A pAApACpADpAE C pCCpCDpCE D pDDpDE E pEE Prob = pAA x pAA x pAC x pDE x pEE log( Prob ) = log( pAA x pAA x pAC x pDE x pEE ) Log (Prob) = log(pAA) +log(pAA) +log(pAC) +log(pDE) +log(pEE)

11 Punteggio di un allineamento AAADE || | AACEE ACDE A C D E 0.8 Matrice di punteggio = – = 1.4 punteggio di similarità = 25 = probabilità calcolata precedentemente.... < o Sostituzione sfavorita > o Sostituzione favorita

12 Una matrice di punteggio Identità Sostituzioni avvantaggiate Sostituzioni svantaggiate

13 Distanza delle matrici ACDE A C D 13-8 E 12 ACDE A C D E 0.8 Da allineamenti di sequenze molto simili Da allineamenti di sequenze molto divergenti

14 Matrici PAM Percent Accepted Mutation PAM 2 = PAM 1 * PAM 1 PAM 3 = PAM 2 * PAM 1 PAM 4 = PAM 3 * PAM 1 etc..

15 Matrici BLOSUM LTAGARIDED--ARIDEDWEDISLHDWRTEA--DWLHDWRTDW LTAGARLD EDWEDISIHEWSTEA--DWIHEWTTDW LTIGLRIEE------DEDAEDISLHDGRT---EDWLHDWRSDW LTAGARIDE---D---EDWEDISLHDWRTE---DWLHDWRTDW LTAGARIDEDWEARIDEDWEDISLHDWRTEAILDWLHDWRTAW Identità < x % LTAGARID LTAGARLD LTAGARID LTAGARID LTIGLRIE LTAGARID LTAGARLD LTIGLRIE

16 Corrispondenza PAM/BLOSUM Maggiore divergenza Minore divergenza PAM 100 BLOSUM 90 PAM 120 BLOSUM 80 PAM 160 BLOSUM 60 PAM 200 BLOSUM 52 PAM 250 BLOSUM 45

17 Alberi filogenetici

18 Alberi Filogenetici H G F E D B C A Nodi interni Unità tassonomiche sconosciute Nodi esterni - Foglie Unità tassonomiche operative Radice Rami Tempo Distanza F-H

19 Ortologhi e paraloghi Gene A Gene A1 Gene A2 Speciazione Geni Ortologhi Gene A Gene B Duplicazione Geni Paraloghi

20 Filogenesi molecolare Hb Alpha Gorilla Filogenesi di geni ortologhi Filogenesi di geni paraloghi Hb Alpha Uomo Hb Alpha Ratto Hb Alpha Topo Hb Alpha Anatra Hb Epsilon Uomo Hb Gamma Uomo Hb Beta Uomo Hb Delta Uomo Mioglobina Uomo Hb Zeta Uomo Hb Alpha Uomo Hb Theta Uomo Emoglobina alfa in specie diverse Diverse catene di emoglobina nell uomo

21 Similarità e distanza Singola Paralleli Multipli Convergenti AGHSVLIWETSAGHSVLIWETS AGHSVLIWETS Eventi di sostituzione: Avvenuti = 12 Osservabili = 3 Sequenza originaria Duplicazione/Speciazione Coincidenti Retro-Sostituzione AGHSVLIWETSAGHSVLIWETS ->I ->T ->E ->A->L ->I ->A ->T ->I->T ->A->E TGASILLWETT AGESILIWETT

22 Distanza Genetica Meglio usare sequenze nucleotidiche: - regioni non codificanti - mutazioni nucleotidiche possono non essere aminoacidiche - modello più facile Tempo % Diversità 100% 75% 50% 25% 0%

23 Distanza Jukes & Cantor Diversità %Stima distanza genetica (Sostituzioni per base) sostituzioni per base = - 3/4 * ln( 1 - 4/3 * %Diversità )

24 Distanza Jukes & Cantor Tempo d= Distanza Genetica Assunzioni del modello: - Stessa probabilità delle sostituzioni - Stessa probabilità dei siti - Indipendenza dei siti - OROLOGIO MOLECOLARE - Velocità di sostituzione costante - STAZIONARIETA - Composizione nucleotidica costante

25 Matrici di distanze ScimpanzèUomoGorillaOrangoMacacoScim.Ragno Scimpanzè- Uomo Gorilla Orango Macaco Scim. Ragno globine

26 Gerarchico addittivo

27 Allineamenti multipli

28 Un allineamento multiplo Riga = sequenza LTAGARIDED--ARIDEDWEDISLHDWRTEA--DWLH LTAGARLD EDWEDISIHEWSTEA--DWIH LTIGLRIEE------DEDAEDISLHDGRT---EDWLH LTAGARIDE---D---EDWEDISLHDWRTE---DWLH LTAGARIDEDWEARIDEDWEDISLHDWRTEAILDWLH Colonna = posizione Blocchi conservati Elementi di struttura secondaria ? Regioni con gaps: Loops? Famiglia proteine omologhe

29 Vantaggi 1PEEKSAVTALW-KVNVDEVGG 2PEEKSAVLALWDKVNEDEVGG 1PA--TAVKALWGKAGAGEYGA 2AAD-TNVTAAWSKVGAGEYGA 3EHEWQLVLHVW-KVEVAGHGQ 2 sequenze Troppo simili Allineamento Multiplo 1REEKSAVTALN-K--VDEIGG 2K---TA--VIGDKVNIEEV 2 sequenze Troppo divergenti

30 Colorazione Cysteine C Negative D, E Positive K, R Alcohol S, T Polar N, Q Aromatic F, H, W, Y HydrophobicA, G, I, L, M, P, V

31 Consensus 100% 90% 80% 70%

32 Qualità multiallineamento Punteggio = = (VG) + (ED) + (DE) + (KK) + … VEEKSAVTA GEEKAAVLA AADKTNVKA LADKTNVKA VEDKSAVTA GDEKAAVLA Punteggio = Punteggio = i P(c i ) P(VGAL) = ???

33 Punteggio di una colonna xx A xxxxx xx V xxxxx xx G xxxxx xx L xxxxx Punteggio colonna = i

34 Punteggi alternativi A V G L V G L G L L A G xx A xxxxx xx V xxxxx xx G xxxxx xx L xxxxx xx G xxxxx xx L xxxxx =? =(LG)+(LG)+(LA)+(LV)+(LL) =(VL)+(LL)+(LG) +(GG)+(GA)

35 Programmazione dinamica multi-dimensionale 2 sequenze lunghe 100 = 100*100 = quadretti 3 sequenze lunghe 100 = 100*100*100 = 1 milione cubetti 4 sequenze lunghe 100 = 100*100*100*100 = 100 milioni di iper-cubetti Tempo O(L n )

36 Come NON si costruisce F E D C B A VLSAIDWTNVK VISAGDWTNVR VLTAAE-TNVR ILSLIDWTQVR 1 2 1) Allineare B con A 2) Allineare C con B 3) Allineare D con C 4) Allineare E con D 5) Allineare F con E VLTLID-SNVR VLSLAE-TQVK

37 Costruzione albero guida N * (N-1) allineamenti a coppia Matrice di distanze Albero guida

38 Allineamento progressivo F E D C B A VLSAIDWTNVK VLSLAE-TQVK VLTLIDSNVR VLTAAETNVR VISAGDWTNVR VLTLID-SNVR VLTAAE-TNVR ILSLIDWTQVR ) Allineare E con F 2) Allineare B con C 3) Allineare D con EF 4) Allineare BC con DEF 5) Allineare A con BCDEF

39 Allineamento di allineamenti PEEKSAV--ALW--VNVDEVGG PEE--GV--ALWDKVNEDEVGG PEEKSGVLGALWDKVNE---GG + PEEKSAVALW--VNVDEVGG PEE--GVALWDKVNEDEVGG PEEKSGVLGALWDKVNEGG = PEEKSAV-ALW--VNVDEVGG PEE--GVALWDKVNEDEVGG- PEEKSGVLGALWDKVNEGG No

40 LILI KRKR DEDE... C CL+CI /2 CK+CR /2 CD+CE /2... A AL+AI /2 AK+AR /2 AD+AE /2... Y YL+YI /2 YK+YR /2 YD+YE /2... … LILI KRKR DEDE CSCS CL+CI+ SL+SI /4 CK+CR+ SK+SR /4 CD+CE+ SD+SE /4... AAAA AL+AI+ AL+AI /4 AK+AR+ AK+AR /4 AD+AE+ AD+AE /4... YWYW YL+YI+ WL+WI /4 YK+YR+ WK+WR /4 YD+YE+ WD+WE /4... S&W per allineamenti multipli 1 sequenza con 2 sequenze 2 sequenze con 2 sequenze LKDKSA IREL-G CAYKSG


Scaricare ppt "Migliore Punteggio - Lunghezza della sequenza - Grandezza banca dati - Composizione della sequenza."

Presentazioni simili


Annunci Google