Ricerche in banche dati
Ricerche in banche dati UNIPROT PROTEINASCONOSCIUTA Ricerca PROT_ Kinasi PROT_ Fosfatasi PROT_ Prot di membrana PROT_ Kinasi di membrana PROT_ Fattore di trascrizione
Per similarità di sequenza IDOrga nismo Sequenza RPD2_HUMANHumanMTERENNVYKAKLAEQAERYDEMVEAFYYKMKGDYHRYLAEFIAMNDLPP FFS_MOUSEMouseMKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL RHA_MOUSEMouseASKKJFOWERMPVCOVCOXKVODFKAAFDDAIAELDTLSEIRLGLALNF GCN4_YEASTYeastLNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA RAS_HUMANHumanLNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS IDSimilarità RPD2_HUMAN254 FFS_MOUSE128 RHA_MOUSE95 GCN4_YEAST12 RAS_HUMAN10 Smith-Waterman 5 appaiamenti ENNVYKAKLAEQAERYDEMVEAFRENNVYKAK Sequenza query Risultati Banca dati
Metodi Euristici Algoritmo esaustivo Algoritmo euristico Cervello umano
Allineamento a occhio
Lettere e Parole Lettere = A,B,D,E,F,G,H,..., Y 7 aminaocidi: L, T, A, G, A, G, I Sequenza LTAGAGI lunghezza =7 contiene: 8000 Parole di lunghezza 3 = AAA, AAB, AAC,.., ABA, ABB,.., BAA, BAB, Parole di lunghezza 2 = AA, AB, AC,.., BA, BB, BC,.., CA,.. Parole = GTY, ADEF, TR, etc.. 4 parole lunghe 4: LTAG, TAGA, …, … 5 parole lunghe 3: LTA, TAG, AGA, GAG, AGI 6 parole lunghe 2: LT, TA, AG, GA, AG, GI
Allineamenti con parole tg rd pl di dw lw ie wt LTGARDWEDIPLWTDDIEQES TGCRDWTDDPLWTQDIENSCNTD 8 Parole identiche Di lunghezza 2 rdw plw die lwt LTGARDWEDIPLWTDDIEQES TGCRDWTDDPLWTQDIENSCNTD 4 Parole identiche Di lunghezza 3
Matrice di parole AGWWRAAWAARGWAGA G W W R A G W A A *** **** **** ** ******* *** **** ****** *******
AGWWRAAWAARGWAGA G W W R A G W A A 13 Coppie di parole identiche di lunghezza 2 *** **** **** ** ******* *** **** ****** ******* * * Parola 2
Matrice di parole AGWWRAAWAARGWAGA G W W R A G W A A 13 Coppie di parole identiche di lunghezza 2 * * Parola 2
FastA Sequenza A > Sequenza B > Sequenza A > Sequenza B > Matrice di punti Matrice di parole di lunghezza 2
Matrice di parole 2 AGWWRAAWAARGWAGA E W W R A G W A A
Unione diagonali AGWWRAAWAARGWAGA E W W R A G W A A
Unione parole contigue Sequenza A > Sequenza B > Sequenza A > Sequenza B >
Calcolo similarità Sequenza A > Sequenza B > Sequenza A > Sequenza B >
Inserimento gaps Sequenza A > Sequenza B > Sequenza A > Sequenza B >
Calcolo Opt Sequenza A > Sequenza B >
Parole con errori 10 Parole lunghe 3 con 1 errore ammesso LTAGARIDEDWEDISLHDWRTDW TSGCRKDEWWTWDSIHSTQWSD LTAGARIDEDWEDISLHDWRTDW TSGCRKDEWWTWDSIHSTQWSD LTAGARIDEDWEDISLHDWRTDW TSGCRKDEWWTWDSIHSTQWSD Nessuna parola identica di lunghezza 3 18 Parole lunghe 4 con 2 errori ammessi EDW EWW Parole lunghezza 3 Identiche con 1 Errore EDWL EWWA Parole lunghezza 4 Identiche con 2 Errori
Parole simili SLH 16 SIH 14 SMH 13 SVH 13 ALH 13 TLH 13 NLH SFH 12 DLH 12 KLH 12 TMQ SLH Tutte le 8000 parole di lunghezza 3 Matrice di sostituzione Calcolo punteggio di similarità e ordinamento SLH ||| 4+5+7=16 SIH SLH ||| 1-1-2=-2 AAA SLH ||| =12 DLH Parole simili a SLH Parole Non-simili A SLH Valore soglia = 12
Blast Sequenza A > Sequenza B > Sequenza A > Sequenza B >
NWHNNLCRHW C W Y M C G K Q N Parole lunghezza 3 similarità > di 14
NWHNNLCRHW C W Y M C G K Q N Parole lunghezza 3 similarità > di 14 - Estensione fino a quando similarità > di 10
Migliore Punteggio - Lunghezza della sequenza - Grandezza banca dati - Composizione della sequenza
Punteggio sequenze random Punteggio OPT Opt = 1070 Numero Sequenze casuali
Significatività statistica Punteggio OPT Numero Sequenze casuali Opt = 1070
Significatività statistica Punteggio OPT Numero Sequenze casuali E = 1.21*10-21 E value = Numero atteso per caso di sequenze con punteggio > opt