La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di.

Presentazioni simili


Presentazione sul tema: "Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di."— Transcript della presentazione:

1 Ricerche in banche dati

2 Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_ Kinasi PROT_ Fosfatasi PROT_ Prot di membrana PROT_ Kinasi di membrana PROT_ Fattore di trascrizione

3 Per similarità di sequenza IDOrga nismo Sequenza RPD2_HUMANHumanMTERENNVYKAKLAEQAERYDEMVEAFYYKMKGDYHRYLAEFIAMNDLPP FFS_MOUSEMouseMKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL RHA_MOUSEMouseASKKJFOWERMPVCOVCOXKVODFKAAFDDAIAELDTLSEIRLGLALNF GCN4_YEASTYeastLNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA RAS_HUMANHumanLNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS IDSimilarità RPD2_HUMAN254 FFS_MOUSE128 RHA_MOUSE95 GCN4_YEAST12 RAS_HUMAN10 Smith-Waterman 5 appaiamenti ENNVYKAKLAEQAERYDEMVEAFRENNVYKAK Sequenza query Risultati Banca dati

4 Metodi Euristici Algoritmo esaustivo Algoritmo euristico Cervello umano

5 Allineamento a occhio

6 Lettere e Parole Lettere = A,B,D,E,F,G,H,..., Y 7 aminaocidi: L, T, A, G, A, G, I Sequenza LTAGAGI lunghezza =7 contiene: 8000 Parole di lunghezza 3 = AAA, AAB, AAC,.., ABA, ABB,.., BAA, BAB, Parole di lunghezza 2 = AA, AB, AC,.., BA, BB, BC,.., CA,.. Parole = GTY, ADEF, TR, etc.. 4 parole lunghe 4: LTAG, TAGA, …, … 5 parole lunghe 3: LTA, TAG, AGA, GAG, AGI 6 parole lunghe 2: LT, TA, AG, GA, AG, GI

7 Allineamenti con parole tg rd pl di dw lw ie wt LTGARDWEDIPLWTDDIEQES TGCRDWTDDPLWTQDIENSCNTD 8 Parole identiche Di lunghezza 2 rdw plw die lwt LTGARDWEDIPLWTDDIEQES TGCRDWTDDPLWTQDIENSCNTD 4 Parole identiche Di lunghezza 3

8 Matrice di parole AGWWRAAWAARGWAGA G W W R A G W A A *** **** **** ** ******* *** **** ****** *******

9 AGWWRAAWAARGWAGA G W W R A G W A A 13 Coppie di parole identiche di lunghezza 2 *** **** **** ** ******* *** **** ****** ******* * * Parola 2

10 Matrice di parole AGWWRAAWAARGWAGA G W W R A G W A A 13 Coppie di parole identiche di lunghezza 2 * * Parola 2

11 FastA Sequenza A > Sequenza B > Sequenza A > Sequenza B > Matrice di punti Matrice di parole di lunghezza 2

12 Matrice di parole 2 AGWWRAAWAARGWAGA E W W R A G W A A

13 Unione diagonali AGWWRAAWAARGWAGA E W W R A G W A A

14 Unione parole contigue Sequenza A > Sequenza B > Sequenza A > Sequenza B >

15 Calcolo similarità Sequenza A > Sequenza B > Sequenza A > Sequenza B >

16 Inserimento gaps Sequenza A > Sequenza B > Sequenza A > Sequenza B >

17 Calcolo Opt Sequenza A > Sequenza B >

18 Parole con errori 10 Parole lunghe 3 con 1 errore ammesso LTAGARIDEDWEDISLHDWRTDW TSGCRKDEWWTWDSIHSTQWSD LTAGARIDEDWEDISLHDWRTDW TSGCRKDEWWTWDSIHSTQWSD LTAGARIDEDWEDISLHDWRTDW TSGCRKDEWWTWDSIHSTQWSD Nessuna parola identica di lunghezza 3 18 Parole lunghe 4 con 2 errori ammessi EDW EWW Parole lunghezza 3 Identiche con 1 Errore EDWL EWWA Parole lunghezza 4 Identiche con 2 Errori

19 Parole simili SLH 16 SIH 14 SMH 13 SVH 13 ALH 13 TLH 13 NLH SFH 12 DLH 12 KLH 12 TMQ SLH Tutte le 8000 parole di lunghezza 3 Matrice di sostituzione Calcolo punteggio di similarità e ordinamento SLH ||| 4+5+7=16 SIH SLH ||| 1-1-2=-2 AAA SLH ||| =12 DLH Parole simili a SLH Parole Non-simili A SLH Valore soglia = 12

20 Blast Sequenza A > Sequenza B > Sequenza A > Sequenza B >

21 NWHNNLCRHW C W Y M C G K Q N Parole lunghezza 3 similarità > di 14

22 NWHNNLCRHW C W Y M C G K Q N Parole lunghezza 3 similarità > di 14 - Estensione fino a quando similarità > di 10

23 Migliore Punteggio - Lunghezza della sequenza - Grandezza banca dati - Composizione della sequenza

24 Punteggio sequenze random Punteggio OPT Opt = 1070 Numero Sequenze casuali

25 Significatività statistica Punteggio OPT Numero Sequenze casuali Opt = 1070

26 Significatività statistica Punteggio OPT Numero Sequenze casuali E = 1.21*10-21 E value = Numero atteso per caso di sequenze con punteggio > opt


Scaricare ppt "Ricerche in banche dati. Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_24563 - Kinasi PROT_534346 - Fosfatasi PROT_33463 - Prot di."

Presentazioni simili


Annunci Google