La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati.

Presentazioni simili


Presentazione sul tema: "Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati."— Transcript della presentazione:

1 Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati

2 Motivi e proteine Domini proteici Motivi funzionali Sequenze segnale

3 ABCA2_HUMAN/ CtCsaqgtGfsC ABCA2_MOUSE/ CtCsaqgtGfsC ABCA2_RAT/ CtCsaqgtGfsC ADA11_HUMAN/ CiCqpdwtGkdC ADA11_MOUSE/ CiCqpdwtGkdC ADA11_XENLA/ CiChpewtGkdC ADA22_HUMAN/ CvCnrhwiGsdC ADA22_MOUSE/ CvCnrhwtGadC ADA22_XENLA/ CiCdrfwtGedC ADA23_HUMAN/ CiCdftwaGtdC ADA23_MOUSE/ CiCdftwaGtdC ADAM8_MOUSE/ CyCpepreGggC ADP1_YEAST/79-90CeCiegfaGddC CONSENSUSCxCxxxxxGxxC Consensus Allineamento multiplo domini EGF-like

4 Ricerca di un motivo CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ACCKCFOWEGGPVCLDSFFEKVOD ……………… ACCKCFOWEGGPVCLDSFFEKVOD ASCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC + = ACCKCFOWEGGPVCLDSFFEKVOD

5 Ricerche in banche dati con un motivo UNIPROT CxCxxxxxGxxC Ricerca IDOrganismoSequenza RPD2_HUMANHumanMTERENNVYKAKLAEQCECYDECWGACYYKMKGDYHRYLAEFIAMNDLPP FFS_MOUSEMouseMKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL RHA_MOUSEMouseASKKJFOWERMPVKLDSFFEKVODFKAAFDDAICECDTLCWGECRLGLALNF GCN4_YEASTYeastLNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA RAS_HUMANHumanLNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS ……… Sequenze Positive: RPD2_HUMAN, RHA_MOUSE, … Sequenze Negative: FFS_MOUSE, GCN4_YEAST, RAS_HUMAN, …

6 Veri/Falsi Positivi/Negativi Ha un dominio EGF ? 1No 2Si 3No 4Si 5No 6 7Si 8No 9 SequenzaConsensus FHSERERJEKAKLAEQCEYDECWGACYYKMKGDYHNegativo KAKLAEQCECYDECWGACYYKMKGDYHPositivo FGSDKGPOKEDFGSDSFIJIERJNCOLXCVDFMIDFNegativo MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYHPositivo MKKVASMDVELTVENLLSVAYKDFLEKHNegativo FDGLDFKGLFKAAFDDAICECDTLCWGECRLGLALNFPositivo ESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKANegativo LNSPDDFSDFKSDFMLKSDGMLKFGIMBVCIJBVUBUINegativo FGXCIXCVIMXRFOLXCVPOXCKOASDLMXCMLNASNegativo Risultato Vero Falso Vero

7 Veri/Falsi Positivi/Negativi PositivoNegativo Vero Falso Raccolgo pomodori nellorto Prendendo tutto quello che è di colore rosso.

8 Sensitività del motivo Quanti pomodori sono riuscito ad identificare? = = VP = VP + FN

9 Selettività del motivo Quanti ortaggi scelti sono veramente pomodori? = = VP = VP + FP

10 CtCsaqGtGfsC CiCqpdWtGkdD CiCqpdWtGkdD CiChpeGtGKdC CvCnrhWiGSdC CiCdrfWtAEdC CiCdftWaATdC CiCdftWaAtdC CyCpepReGggC CeCiegFaGddC CxCxxxXxXxxX Scelta del Motivo Migliore CtCsaqGtGfsC CiCqpdWtGkdD CiCqpdWtGkdD CiChpeGtGKdC CvCnrhWiGSdC CiCdrfWtAEdC CiCdftWaATdC CiCdftWaAtdC CyCpepReGggC CeCiegFaGddC CxCxxxXxGxxC CtCsaqGtGfsC CiCqpdWtGkdD CiCqpdWtGkdD CiChpeGtGKdC CvCnrhWiGSdC CiCdrfWtAEdC CiCdftWaATdC CiCdftWaAtdC CyCpepReGggC CeCiegFaGddC CxCxxxGxGxxC EGF-like NO EGF-like Motivo Sensitività 100% Selettività 50% Sensitività 60% Selettività 60% Sensitività 40% Selettività 100%

11 Coefficiente di Correlazione VP*VN – FN*FP Radice di (VN+FN)*(VN+FP)*(VP+FN)*(VP+FP)

12 Banche dati di motivi FunzioneConsensus Sito di N-glicosilazioneN.S Sito di fosforilazioneS.R Motivo di legame allATPG....GKS Motivo di legame al calcioR..R..D Dominio EGFC.C.....G..C Zinc fingerC......C...C....C......C Cerniera di LeucineL......L......L......L ……

13 Annotare una sequenza Banca dati di motivi Ricerca ASCKCFOWEGGPVCLDSFFEKVOD ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sito di N-glicosilazione Sito di legame al calcio Sito di fosforilazione

14 Ricerche con Motivi Banca dati di motivi Ricerca ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sito di N-glicosilazione Sito di legame al calcio Sito di fosforilazione FunzioneMotivo Sito di N-glicosilazioneN.S Sito di fosforilazioneS.R Motivo di legame allATPG....GKS Motivo di legame al calcioR..R..D Dominio EGFC.C.....G..C Zinc fingerC......C...C....C......C Cerniera di LeucineL......L......L......L …… ASCKCNASEGGPVCLDSFFE KDSERORKWOPEKEPGFPCI EEIRERIRDWERWE Sequenza sconosciuta

15 Espressioni regolari VLHSCDAICWTNLK IIHSCLAECWRQVS GVHTCLIDCWSNIR AAHTCAAECWTLVR VLHTCAAECWTLVR HTC...CW S H-[ST]-C-X-X-X-C-W H-[S,T]-C-X(3)-C-W Posizioni con più possibilità = [A,C,D, …] Posizioni ripetute = (n)

16 Ripetizioni variabili GVHTCLCWSNIR VLHSCDAICWTNLK IIHSCLAAAECWRQVS H-[ST]-C-X(1,5)-C-W Numero variabile di ripetizioni = (i, j) H-[ST]-C-X-C-W ? H-[ST]-C-X-X-X-C-W ? H-[ST]-C-X-X-X-X-X-C-W ? GVHTCL----CWSNIR VLHSCD--AICWTNLK IIHSCLAAAECWRQVS ?

17 Matrici posizionali di peso LHSCDADCT IHTCLAECS VHTCLIDCS AHTCAAECT LHTCAAECT P osition S pecific S coring M atrix [LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST] A C D E0.6 H1.0 I L S T V0.2

18 Logo di sequenzaA C D E0.6 H1.0 I L S T V0.2 Altezza = log 2 (20) - F * log 2 (F) = F * log2 (F)

19 Punteggio con PSSM A C D E0.6 H1.0 I L S T V0.2 AHTCAADCS Sequenza P osition S pecific S coring M atrix A G… W Y … x1.0x0.8x1.0x0.4x0.8x0.4x1.0x0.4=

20 Attesi per caso A C D E0.5 H1.0 I L S T V0.25

21 Log-OddsA+1+2 C00 D-2 E+1 H0 I-4 L+2+1 S-4 T+2+1 V AHTCAADCS Sequenza P osition S pecific S coring M atrix A G… W Y … = +2 Punteggio = 10*log(osservati/attesi) T in posizione 3 = 10*log(0.8/0.5) = … = +2

22 Ricerca PSSM su sequenza Ricerca Espressione regolare [LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST]A+1+2C00 D-2 E+1 H0 I-4 L+2+1 S-4 T+2+1 V TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ Calcolo punteggio PSSM Scelta motivi più alti del volore soglia PSSM > -2 = POSITIVI PSSM < -2 = NEGATIVI Positiva

23 Curve Roc % Veri positivi 100% 75% 50% 25% % Falsi positivi 100% 75% 50% 25% Random Motivo efficiente Motivo poco efficiente * * *

24 Ricerca con allineamento LHSCDADCT IHTCLAECS VHTCLIDCS AHTCAAECT LHTCAAECT …AVHYALIDCTGWH… Allineamento Multiplo Sequenza /5 = Punteggio sequenza ? VLHHYSACLD…… VIHHYTACLL…… VVHHYTACLL… VAHHYTACLA… VLHHYTACLA… P1+P2+P3+P4+P5+P6+P7+P8+P9

25 Profilo di un allineamento LHSDCADCT IHTLCAECS VHTLCIDCS AHTACAECT LHTACAECT A C D E … … T V W Y - Allineamento Multiplo =(CD+CL+CL+CA+CA)/5 =(ED+EL+EL+EA+EA)/5

26 Ricerca con profilo Profilo A C D E F G H … W Y - …AKRHFCCWE-EGWH… Punteggio = 1H+2F+3D+4C+5W+6E+7D+8E+9G ** ** * * * * *

27 PSI- BLAST Sequenza sconosciuta Allineamento Multiplo Profilo dell allineamento BLAST Costruzione Profilo Ciclo N 2 Nuove Sequenze Omologhe Costruzione Allineamento Multiplo Banche dati di sequenze Sequenze Omologhe Ciclo N 3 Nuove Sequenze Omologhe + Ciclo N … …… + +

28 Analisi di sequenze Sequenza sconosciuta Sequenza annotata Albero filogenetico Allineamento Multiplo Motivo Funzionale Sequenze Simili Matrice di distanze Banche dati di sequenze Banche dati di Motivi CLUSTALW BLAST FASTA Smith & Waterman Ricerca con Motivi UPGMA Costruzione Motivi Analisi Famiglia Sequenze Omologhe


Scaricare ppt "Motivi Funzionali Identificare la funzione di una sequenza cercando motivi conservati."

Presentazioni simili


Annunci Google