Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati
Motivi e proteine Domini proteici Motivi funzionali Sequenze segnale
Consensus ABCA2_HUMAN/1641-1652 C t s a q g G f ABCA2_MOUSE/1641-1652 Allineamento multiplo domini EGF-like ABCA2_HUMAN/1641-1652 C t s a q g G f ABCA2_MOUSE/1641-1652 ABCA2_RAT/1641-1652 ADA11_HUMAN/698-709 i p d w k ADA11_MOUSE/702-713 ADA11_XENLA/381-392 h e ADA22_HUMAN/700-711 v n r ADA22_MOUSE/698-709 ADA22_XENLA/701-712 ADA23_HUMAN/757-768 ADA23_MOUSE/754-765 ADAM8_MOUSE/346-357 y ADP1_YEAST/79-90 CONSENSUS x
Ricerca di un motivo + = CxCxxxxxGxxC ASCKCFOWEGGPVCLDSFFEKVOD ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD ……………… ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD
Ricerche in banche dati con un motivo Ricerca CxCxxxxxGxxC UNIPROT ID Organismo Sequenza RPD2_HUMAN Human MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYHRYLAEFIAMNDLPP FFS_MOUSE Mouse MKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL RHA_MOUSE ASKKJFOWERMPVKLDSFFEKVODFKAAFDDAICECDTLCWGECRLGLALNF GCN4_YEAST Yeast LNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA RAS_HUMAN LNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS … Sequenze Positive: RPD2_HUMAN, RHA_MOUSE, … Sequenze Negative: FFS_MOUSE, GCN4_YEAST, RAS_HUMAN, …
Veri/Falsi Positivi/Negativi Sequenza Consensus FHSERERJEKAKLAEQCEYDECWGACYYKMKGDYH Negativo KAKLAEQCECYDECWGACYYKMKGDYH Positivo FGSDKGPOKEDFGSDSFIJIERJNCOLXCVDFMIDF MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYH MKKVASMDVELTVENLLSVAYKDFLEKH FDGLDFKGLFKAAFDDAICECDTLCWGECRLGLALNF ESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA LNSPDDFSDFKSDFMLKSDGMLKFGIMBVCIJBVUBUI FGXCIXCVIMXRFOLXCVPOXCKOASDLMXCMLNAS Risultato Vero Falso Ha un dominio EGF ? 1 No 2 Si 3 4 5 6 7 8 9
Veri/Falsi Positivi/Negativi Positivo Negativo Vero Falso Raccolgo pomodori nell’orto Prendendo tutto quello che è di colore rosso.
Sensitività del motivo Quanti pomodori sono riuscito ad identificare? VP = --------- VP + FN 13 = ------ = 0.81 13 + 3 --------- +
Selettività del motivo Quanti ortaggi scelti sono veramente pomodori? VP = --------- VP + FP 13 = ------ = 0.65 13 + 7 --------- +
Scelta del Motivo Migliore q G f i p d W k D h e K v n r S A E T y R g F x X C t s a q G f i p d W k D h e K v n r S A E T y R g F x X C t s a q G f i p d W k D h e K v n r S A E T y R g F x EGF-like NO EGF-like Motivo Sensitività 40% Selettività 100% Sensitività 100% Selettività 50% Sensitività 60% Selettività 60%
Coefficiente di Correlazione VP*VN – FN*FP ------------------------------------------------------- Radice di (VN+FN)*(VN+FP)*(VP+FN)*(VP+FP)
Banche dati di motivi Funzione Consensus Sito di N-glicosilazione N.S Sito di fosforilazione S.R Motivo di legame all’ATP G....GKS Motivo di legame al calcio R..R..D Dominio EGF C.C.....G..C Zinc finger C......C...C....C......C Cerniera di Leucine L......L......L......L …
Annotare una sequenza Banca dati di motivi ASCKCFOWEGGPVCLDSFFEKVOD Ricerca ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sito di fosforilazione Sito di N-glicosilazione Sito di legame al calcio
Ricerche con Motivi Banca dati di motivi Ricerca Funzione Motivo Sito di N-glicosilazione N.S Sito di fosforilazione S.R Motivo di legame all’ATP G....GKS Motivo di legame al calcio R..R..D Dominio EGF C.C.....G..C Zinc finger C......C...C....C......C Cerniera di Leucine L......L......L......L … ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sequenza sconosciuta Banca dati di motivi Ricerca ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sito di N-glicosilazione Sito di fosforilazione Sito di legame al calcio
Espressioni regolari H-[ST]-C-X-X-X-C-W VLHSCDAICWTNLK IIHSCLAECWRQVS GVHTCLIDCWSNIR AAHTCAAECWTLVR VLHTCAAECWTLVR HTC...CW S Posizioni con più possibilità = [A,C,D, …] H-[S,T]-C-X(3)-C-W Posizioni ripetute = (n)
Ripetizioni variabili GVHTCL----CWSNIR VLHSCD--AICWTNLK IIHSCLAAAECWRQVS ? H-[ST]-C-X-C-W ? H-[ST]-C-X-X-X-C-W ? H-[ST]-C-X-X-X-X-X-C-W ? GVHTCLCWSNIR VLHSCDAICWTNLK IIHSCLAAAECWRQVS H-[ST]-C-X(1,5)-C-W Numero variabile di ripetizioni = (i, j)
Matrici posizionali di peso [LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST] L H S C D A T I E V A 0.2 0.4 0.8 C 1.0 D E 0.6 H I L S T V Position Specific Scoring Matrix
Logo di sequenza A 0.2 0.4 0.8 C 1.0 D E 0.6 H I L S T V Altezza = log2 (20) - F * log2 (F) = 4.32 - F * log2 (F)
Punteggio con PSSM Position Specific Scoring Matrix A 0.2 0.4 0.8 C 1.0 D E 0.6 H I L S T V Position Specific Scoring Matrix … G A W Y … Sequenza 0.2x 1.0x 0.8x 0.4x 0.4= 0.008192
Attesi per caso A 0.25 0.33 0.5 C 1.0 D E H I L S T V
Log-Odds Position Specific Scoring Matrix Punteggio = 10*log(osservati/attesi) T in posizione 3 = 10*log(0.8/0.5) = +2.041… = +2 A -1 +1 +2 C D -2 E H I -4 L S T V +0 Position Specific Scoring Matrix … G A W Y … Sequenza = +2
Ricerca PSSM su sequenza TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ Ricerca Espressione regolare [LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST] TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ A -1 +1 +2 C D -2 E H I -4 L S T V Calcolo punteggio PSSM TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ PSSM > -2 = POSITIVI PSSM < -2 = NEGATIVI -13 +5 Scelta motivi più alti del volore soglia TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ Positiva
* * * Curve Roc % Veri positivi 100% 75% 50% 25% 25% 50% 75% 100% Motivo efficiente * 100% 75% Motivo poco efficiente * 50% Random 25% * 25% 50% 75% 100% % Falsi positivi
Ricerca con allineamento H S C D A T I E V … Y G W Allineamento Multiplo ? Sequenza VL HH YS AC LD … VI YT LL VV VA LA P1+ P2+ P3+ P4+ P5+ P6+ P7+ P8+ P9 /5 = Punteggio sequenza
Profilo di un allineamento H S D C A T I E V 1 2 3 4 5 6 7 8 9 … W Y - Allineamento Multiplo =(CD+CL+CL+CA+CA)/5 =(ED+EL+EL+EA+EA)/5
Ricerca con profilo 1 2 3 4 5 6 7 8 9 A C D E F G H … W Y - K R * Punteggio = 1H+2F+3D+4C+5W+6E+7D+8E+9G
PSI- BLAST + + + Sequenze Omologhe Sequenza sconosciuta Costruzione Allineamento Multiplo Ciclo N’ 2 Nuove Sequenze Omologhe BLAST + Ciclo N’ 3 Nuove Sequenze Omologhe Allineamento Multiplo Banche dati di sequenze + Ciclo N’ … …… Profilo dell’ allineamento Costruzione Profilo
Analisi di sequenze Sequenze Simili Smith & Waterman Famiglia Sequenze Omologhe BLAST FASTA Analisi Matrice di distanze UPGMA Sequenza sconosciuta Banche dati di sequenze Sequenza annotata CLUSTALW Albero filogenetico Ricerca con Motivi Allineamento Multiplo Banche dati di Motivi Costruzione Motivi Motivo Funzionale