La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Presentazioni simili


Presentazione sul tema: "Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di."— Transcript della presentazione:

1 Ricerche in banche dati

2 Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di membrana PROT_234234 - Kinasi di membrana PROT_23423 - Fattore di trascrizione

3 Per similarità di sequenza IDOrga nismo Sequenza RPD2_HUMANHumanMTERENNVYKAKLAEQAERYDEMVEAFYYKMKGDYHRYLAEFIAMNDLPP FFS_MOUSEMouseMKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL RHA_MOUSEMouseASKKJFOWERMPVCOVCOXKVODFKAAFDDAIAELDTLSEIRLGLALNF GCN4_YEASTYeastLNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA RAS_HUMANHumanLNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS IDSimilarità RPD2_HUMAN254 FFS_MOUSE128 RHA_MOUSE95 GCN4_YEAST12 RAS_HUMAN10 Smith-Waterman 5 appaiamenti ENNVYKAKLAEQAERYDEMVEAFRENNVYKAK Sequenza query Risultati Banca dati

4 Metodi Euristici Algoritmo esaustivo Algoritmo euristico Cervello umano

5 Allineamento a occhio

6 Lettere e Parole Lettere = A,B,D,E,F,G,H,..., Y 7 aminaocidi: L, T, A, G, A, G, I Sequenza LTAGAGI lunghezza =7 contiene: 8000 Parole di lunghezza 3 = AAA, AAB, AAC,.., ABA, ABB,.., BAA, BAB,.. 400 Parole di lunghezza 2 = AA, AB, AC,.., BA, BB, BC,.., CA,.. Parole = GTY, ADEF, TR, etc.. 4 parole lunghe 4: LTAG, TAGA, …, … 5 parole lunghe 3: LTA, TAG, AGA, GAG, AGI 6 parole lunghe 2: LT, TA, AG, GA, AG, GI

7 Allineamenti con parole tg rd pl di dw lw ie wt LTGARDWEDIPLWTDDIEQES TGCRDWTDDPLWTQDIENSCNTD 8 Parole identiche Di lunghezza 2 rdw plw die lwt LTGARDWEDIPLWTDDIEQES TGCRDWTDDPLWTQDIENSCNTD 4 Parole identiche Di lunghezza 3

8 Matrice di parole AGWWRAAWAARGWAGA G W W R A G W A A *** **** **** ** ******* *** **** ****** *******

9 AGWWRAAWAARGWAGA G W W R A G W A A 13 Coppie di parole identiche di lunghezza 2 *** **** **** ** ******* *** **** ****** ******* * * Parola 2

10 Matrice di parole AGWWRAAWAARGWAGA G W W R A G W A A 13 Coppie di parole identiche di lunghezza 2 * * Parola 2

11 FastA -------- Sequenza A -------------> -------- Sequenza B -----------> -------- Sequenza A -------------> -------- Sequenza B -----------> Matrice di punti Matrice di parole di lunghezza 2

12 Matrice di parole 2 AGWWRAAWAARGWAGA E W W R A G W A A

13 Unione diagonali AGWWRAAWAARGWAGA E W W R A G W A A

14 Unione parole contigue -------- Sequenza A -------------> -------- Sequenza B -----------> -------- Sequenza A -------------> -------- Sequenza B ----------->

15 Calcolo similarità -------- Sequenza A -------------> -------- Sequenza B -----------> -------- Sequenza A -------------> -------- Sequenza B ----------->

16 Inserimento gaps -------- Sequenza A -------------> -------- Sequenza B -----------> -------- Sequenza A -------------> -------- Sequenza B ----------->

17 Calcolo Opt -------- Sequenza A -------------> -------- Sequenza B ----------->

18 Parole con errori 10 Parole lunghe 3 con 1 errore ammesso LTAGARIDEDWEDISLHDWRTDW TSGCRKDEWWTWDSIHSTQWSD LTAGARIDEDWEDISLHDWRTDW TSGCRKDEWWTWDSIHSTQWSD LTAGARIDEDWEDISLHDWRTDW TSGCRKDEWWTWDSIHSTQWSD Nessuna parola identica di lunghezza 3 18 Parole lunghe 4 con 2 errori ammessi EDW EWW Parole lunghezza 3 Identiche con 1 Errore EDWL EWWA Parole lunghezza 4 Identiche con 2 Errori

19 Parole simili SLH 16 SIH 14 SMH 13 SVH 13 ALH 13 TLH 13 NLH 13 ------ SFH 12 DLH 12 KLH 12 TMQ 11... SLH Tutte le 8000 parole di lunghezza 3 Matrice di sostituzione Calcolo punteggio di similarità e ordinamento SLH ||| 4+5+7=16 SIH SLH ||| 1-1-2=-2 AAA SLH ||| -1+6+7=12 DLH Parole simili a SLH Parole Non-simili A SLH Valore soglia = 12

20 Blast -------- Sequenza A -------------> -------- Sequenza B -----------> -------- Sequenza A -------------> -------- Sequenza B ----------->

21 NWHNNLCRHW C-4-8-3-4 -612-4-3-8 W-417-3-4 -2-82-317 Y-200 0-400 M-2-4-2 4-50-2-4 C -8-3-4 -612-4-3-8 G0-6-200-4-3 -2-6 K1-3011 -530-3 Q1-5311-2-513 N2-4222-3-402 - Parole lunghezza 3 similarità > di 14

22 NWHNNLCRHW C-4-8-3-4 -612-4-3-8 W-417-3-4 -2-82-317 Y-200 0-400 M-2-4-2 4-50-2-4 C -8-3-4 -612-4-3-8 G0-6-200-4-3 -2-6 K1-3011 -530-3 Q1-5311-2-513 N2-4222-3-402 - Parole lunghezza 3 similarità > di 14 - Estensione fino a quando similarità > di 10

23 Migliore Punteggio - Lunghezza della sequenza - Grandezza banca dati - Composizione della sequenza

24 Punteggio sequenze random Punteggio OPT 1002003004005006007008009001000110012001300 Opt = 1070 Numero Sequenze casuali 70 60 50 40 30 20 10

25 Significatività statistica Punteggio OPT Numero Sequenze casuali 1002003004005006007008009001000110012001300 70 60 50 40 30 20 10 Opt = 1070

26 Significatività statistica Punteggio OPT Numero Sequenze casuali 1002003004005006007008009001000110012001300 70 60 50 40 30 20 10 E = 1.21*10-21 E value = Numero atteso per caso di sequenze con punteggio > opt


Scaricare ppt "Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di."

Presentazioni simili


Annunci Google