Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoErminia Cortese Modificato 10 anni fa
1
Motivi Funzionali Identificare la funzione di una sequenza
cercando motivi conservati
2
Motivi e proteine Domini proteici Motivi funzionali Sequenze segnale
3
Consensus ABCA2_HUMAN/1641-1652 C t s a q g G f ABCA2_MOUSE/1641-1652
Allineamento multiplo domini EGF-like ABCA2_HUMAN/ C t s a q g G f ABCA2_MOUSE/ ABCA2_RAT/ ADA11_HUMAN/ i p d w k ADA11_MOUSE/ ADA11_XENLA/ h e ADA22_HUMAN/ v n r ADA22_MOUSE/ ADA22_XENLA/ ADA23_HUMAN/ ADA23_MOUSE/ ADAM8_MOUSE/ y ADP1_YEAST/79-90 CONSENSUS x
4
Ricerca di un motivo + = CxCxxxxxGxxC ASCKCFOWEGGPVCLDSFFEKVOD
ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD ……………… ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD
5
Ricerche in banche dati con un motivo
Ricerca CxCxxxxxGxxC UNIPROT ID Organismo Sequenza RPD2_HUMAN Human MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYHRYLAEFIAMNDLPP FFS_MOUSE Mouse MKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL RHA_MOUSE ASKKJFOWERMPVKLDSFFEKVODFKAAFDDAICECDTLCWGECRLGLALNF GCN4_YEAST Yeast LNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA RAS_HUMAN LNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS … Sequenze Positive: RPD2_HUMAN, RHA_MOUSE, … Sequenze Negative: FFS_MOUSE, GCN4_YEAST, RAS_HUMAN, …
6
Veri/Falsi Positivi/Negativi
Sequenza Consensus FHSERERJEKAKLAEQCEYDECWGACYYKMKGDYH Negativo KAKLAEQCECYDECWGACYYKMKGDYH Positivo FGSDKGPOKEDFGSDSFIJIERJNCOLXCVDFMIDF MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYH MKKVASMDVELTVENLLSVAYKDFLEKH FDGLDFKGLFKAAFDDAICECDTLCWGECRLGLALNF ESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA LNSPDDFSDFKSDFMLKSDGMLKFGIMBVCIJBVUBUI FGXCIXCVIMXRFOLXCVPOXCKOASDLMXCMLNAS Risultato Vero Falso Ha un dominio EGF ? 1 No 2 Si 3 4 5 6 7 8 9
7
Veri/Falsi Positivi/Negativi
Positivo Negativo Vero Falso Raccolgo pomodori nell’orto Prendendo tutto quello che è di colore rosso.
8
Sensitività del motivo
Quanti pomodori sono riuscito ad identificare? VP = VP + FN 13 = = 0.81 13 + 3 +
9
Selettività del motivo
Quanti ortaggi scelti sono veramente pomodori? VP = VP + FP 13 = = 0.65 13 + 7 +
10
Scelta del Motivo Migliore
q G f i p d W k D h e K v n r S A E T y R g F x X C t s a q G f i p d W k D h e K v n r S A E T y R g F x X C t s a q G f i p d W k D h e K v n r S A E T y R g F x EGF-like NO EGF-like Motivo Sensitività 40% Selettività 100% Sensitività 100% Selettività 50% Sensitività 60% Selettività 60%
11
Coefficiente di Correlazione
VP*VN – FN*FP Radice di (VN+FN)*(VN+FP)*(VP+FN)*(VP+FP)
12
Banche dati di motivi Funzione Consensus Sito di N-glicosilazione N.S
Sito di fosforilazione S.R Motivo di legame all’ATP G....GKS Motivo di legame al calcio R..R..D Dominio EGF C.C.....G..C Zinc finger C......C...C....C......C Cerniera di Leucine L......L......L......L …
13
Annotare una sequenza Banca dati di motivi ASCKCFOWEGGPVCLDSFFEKVOD
Ricerca ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sito di fosforilazione Sito di N-glicosilazione Sito di legame al calcio
14
Ricerche con Motivi Banca dati di motivi Ricerca
Funzione Motivo Sito di N-glicosilazione N.S Sito di fosforilazione S.R Motivo di legame all’ATP G....GKS Motivo di legame al calcio R..R..D Dominio EGF C.C.....G..C Zinc finger C......C...C....C......C Cerniera di Leucine L......L......L......L … ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sequenza sconosciuta Banca dati di motivi Ricerca ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sito di N-glicosilazione Sito di fosforilazione Sito di legame al calcio
15
Espressioni regolari H-[ST]-C-X-X-X-C-W VLHSCDAICWTNLK IIHSCLAECWRQVS
GVHTCLIDCWSNIR AAHTCAAECWTLVR VLHTCAAECWTLVR HTC...CW S Posizioni con più possibilità = [A,C,D, …] H-[S,T]-C-X(3)-C-W Posizioni ripetute = (n)
16
Ripetizioni variabili
GVHTCL----CWSNIR VLHSCD--AICWTNLK IIHSCLAAAECWRQVS ? H-[ST]-C-X-C-W ? H-[ST]-C-X-X-X-C-W ? H-[ST]-C-X-X-X-X-X-C-W ? GVHTCLCWSNIR VLHSCDAICWTNLK IIHSCLAAAECWRQVS H-[ST]-C-X(1,5)-C-W Numero variabile di ripetizioni = (i, j)
17
Matrici posizionali di peso
[LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST] L H S C D A T I E V A 0.2 0.4 0.8 C 1.0 D E 0.6 H I L S T V Position Specific Scoring Matrix
18
Logo di sequenza A 0.2 0.4 0.8 C 1.0 D E 0.6 H I L S T V Altezza = log2 (20) - F * log2 (F) = F * log2 (F)
19
Punteggio con PSSM Position Specific Scoring Matrix A 0.2 0.4 0.8 C
1.0 D E 0.6 H I L S T V Position Specific Scoring Matrix … G A W Y … Sequenza 0.2x 1.0x 0.8x 0.4x 0.4=
20
Attesi per caso A 0.25 0.33 0.5 C 1.0 D E H I L S T V
21
Log-Odds Position Specific Scoring Matrix
Punteggio = 10*log(osservati/attesi) T in posizione 3 = 10*log(0.8/0.5) = … = +2 A -1 +1 +2 C D -2 E H I -4 L S T V +0 Position Specific Scoring Matrix … G A W Y … Sequenza = +2
22
Ricerca PSSM su sequenza
TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ Ricerca Espressione regolare [LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST] TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ A -1 +1 +2 C D -2 E H I -4 L S T V Calcolo punteggio PSSM TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ PSSM > -2 = POSITIVI PSSM < -2 = NEGATIVI -13 +5 Scelta motivi più alti del volore soglia TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ Positiva
23
* * * Curve Roc % Veri positivi 100% 75% 50% 25% 25% 50% 75% 100%
Motivo efficiente * 100% 75% Motivo poco efficiente * 50% Random 25% * 25% 50% 75% 100% % Falsi positivi
24
Ricerca con allineamento
H S C D A T I E V … Y G W Allineamento Multiplo ? Sequenza VL HH YS AC LD … VI YT LL VV VA LA P1+ P2+ P3+ P4+ P5+ P6+ P7+ P8+ P9 /5 = Punteggio sequenza
25
Profilo di un allineamento
H S D C A T I E V 1 2 3 4 5 6 7 8 9 … W Y - Allineamento Multiplo =(CD+CL+CL+CA+CA)/5 =(ED+EL+EL+EA+EA)/5
26
Ricerca con profilo 1 2 3 4 5 6 7 8 9 A C D E F G H … W Y - K R *
Punteggio = 1H+2F+3D+4C+5W+6E+7D+8E+9G
27
PSI- BLAST + + + Sequenze Omologhe Sequenza sconosciuta Costruzione
Allineamento Multiplo Ciclo N’ 2 Nuove Sequenze Omologhe BLAST + Ciclo N’ 3 Nuove Sequenze Omologhe Allineamento Multiplo Banche dati di sequenze + Ciclo N’ … …… Profilo dell’ allineamento Costruzione Profilo
28
Analisi di sequenze Sequenze Simili Smith & Waterman Famiglia Sequenze
Omologhe BLAST FASTA Analisi Matrice di distanze UPGMA Sequenza sconosciuta Banche dati di sequenze Sequenza annotata CLUSTALW Albero filogenetico Ricerca con Motivi Allineamento Multiplo Banche dati di Motivi Costruzione Motivi Motivo Funzionale
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.