La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy.

Presentazioni simili


Presentazione sul tema: "Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy."— Transcript della presentazione:

1 Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy

2 Lera omica: genomi completi Archea:16 speci/33 in progress Batteri:83 speci Eukarioti:17 speci (242 chromosomi) Draft del genoma umano Nature (2/15/01) Human Genome Issue Science (2/16/01) Human Genome Issue

3 Strutture proteiche Dalla Sequenza alla Funzione Geni > RICIN GLYCOSIDASE MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSG DLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDE SKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYH WPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDE YSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGI KSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITR GNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVS LAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPY YLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNT KRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH Sequenze proteiche Funzione Genomica funzionale, Proteomica ed Interattomica

4 PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE PrimariaSecondariaTerziariaQuaternaria Livelli di organizzazione strutturale

5 PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE Gli elementi di struttura secondaria C N Foglietto -elica

6 La cinetica del Folding: I siti di iniziazione La catena La predizione del Protein Folding La proteina nativa Il processo di folding

7 Le Banche Dati di Sequenze Biologiche e Strutture >BGAL_SULSO BETA-GALACTOSIDASE Sulfolobus solfataricus. MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSG DLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDE SKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYH WPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDE YSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGI KSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITR GNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVS LAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPY YLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNT KRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH NCBI: 18,197,119 sequenze 22,616,937,182 nucleotidi Swiss-Prot: 113,470 sequenze 41,413,223 residui PDB: 17,510 strutture August/2002

8 Possiamo estrarre dal PDB circa 1500 esempi di catene di cui e nota la struttura terziaria al fine di ricavare informazioni non ridondanti per la relazione tra sequenza e: Struttura secondaria Motivi strutturali e funzionali Struttura terziaria (3D)

9 Il Protein Folding T T C C P S I V A R S N F N V C R L P G T P E A L C A T Y T G C I I I P G A T C P G D Y A N

10 Caratteristiche della Predizione Strutturale di Sequenze Proteiche Ampio insieme di dati per cui la soluzione del problema è nota E difficile (impossibile) formulare una soluzione analitica del problema Le banche dati vengono aggiornate in modo continuo (grande volume di dati, necessità di operare in tempo reale)

11 X x 1 x 2 ………x n Y y 1 y 2 ………y n X space Y space Mapping generale non-lineare funzionale

12 Set dalla banca dati Mapping noto Regole Generali Nuova sequenza Predizione TrainingPredizione Tools derivati dallapprendimento automatico: Reti Neurali

13 Le proprieta del residuo R dipendono sia dalle interazioni locali (finestra W) che da quelle non locali (contesto C) Contesto C Residuo R Finestra W O O non Rete Neurale La finestra di input

14 Input basato sulla Informazione Evolutiva Multiple Sequence Alignment (MSA) Posizione lungo la sequenza Sequenze allineate 1MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSPTGVAITSSGTKKGEL--FLGDV 2MAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSPTGVAITSSGTKKGDL--FLADV 3MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTANGVAITSTGTKKGEL--FLADV 4MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSTTGVAITASGLKKGEL--FLADV 5MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSSTGVAITTTGTNKGSL--FLGDV 6MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSPNGVAITAAGTRKNES--IFGEL 7-MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTANGPAITATSTKKADL--TVGEI 8AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI 9--AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSL 10-MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVNGSL 11--AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSATGVEFTTSGTSNTDSGKVNGSL 12--MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTSSGIEFNTAGHSNQESGKVFGSL 13--MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTPNNVAFKVTGKSTHDK-VTSGAL 1MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSPTGVAITSSGTKKGEL--FLGDV 2MAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSPTGVAITSSGTKKGDL--FLADV 3MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTANGVAITSTGTKKGEL--FLADV 4MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSTTGVAITASGLKKGEL--FLADV 5MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSSTGVAITTTGTNKGSL--FLGDV 6MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSPNGVAITAAGTRKNES--IFGEL 7-MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTANGPAITATSTKKADL--TVGEI 8AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI 9--AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSL 10-MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVNGSL 11--AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSATGVEFTTSGTSNTDSGKVNGSL 12--MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTSSGIEFNTAGHSNQESGKVFGSL 13--MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTPNNVAFKVTGKSTHDK-VTSGAL Finestra di Input

15 Artificial Neural Networks Percettrone a singolo strato Bias Inputs Outputs x 0x 0 x 1x 1 x dx d z m z 1z 1 a = w i x i i = 0 d z = g (a) La Funzione di Errore Y i (X q ) = Output of the network D i q = Expected Value L Algoritmo di Training: il Back Propagation (gradient descendent: Rumelhart et al. 1986) Correction to the weights = learning rate = momentum term

16 Parametri variabili delle Reti Neurali Lampiezza della finestra mobile Il codice di input Larchitettura: il numero di nodi (neuroni) e gli strati di neuroni La velocità di apprendimento

17 Le Reti Neurali a Bologna predicono: La struttura secondaria delle proteine I siti di iniziazione del protein folding La topologia delle proteine di membrana all alpha and all beta (ISMB BEST PAPER AWARD 2002) La presenza dei peptidi segnale Lo stato di legame delle cisteine e la topologia dei ponti a zolfo Le mappe di contatto delle proteine (BEST PREDICTOR of the CATEGORY at CASP4) Le superfici di interazione tra proteine

18

19 Schema generale dei predittori disponibili al nostro sito web

20 Verso la predizione della struttura 3D: Predittori basati su Reti Neurali La predizione delle mappe dei contatti

21 Predizione dei contatti tra residui Contatti nelle Proteine F 297 F 156 V 299 V 271 I 240 V 238 I 269

22 From 3D Structure F 297 F 156 V 299 V 271 I 240 V 238 I 269 Computation of Contact Maps To Contact Map TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYANTTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

23 RMSD = 2.5 Å N C Contact map MARC 1QHJ (1.9 Å) 3-D Modelling through Contact Maps Bacteriorhodopsin Model

24 Predizione Sequenza Predizione della mappa dei contatti Tools di Apprendimento Automatico Le Reti Neurali imparano il mapping dalla sequenza alla mappa dei contatti Set Banca Dati Regole generali Mapping noto TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN Training

25 T0087: 310 residuesA=20 % (FR/NF) N C

26 T0110: 128 residuesA=30% (NF) N C

27

28 Verso la predizione della struttura 3D: Predittori basati su Reti Neurali La predizione dei ponti a zolfo

29 Il Protein Folding RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTF VYGGCRAKRNNFKSAEDCMRTCGGA

30 I legami a zolfo tra cisteine nelle proteine 2-SH -> -SS- + 2H + + 2e - S-S distance 2.2 Å Torsion angle C-S-S-C 90° Bond Energy 3 Kcal/mol S S C C C C

31 BondingNon bonding Neural Networks for the Prediction of the disulfide-bonding state of cysteines in proteins 1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSCTGVAITSSGTKKGEL--FLGDV 2 SAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSCTGVAITSSGTKKGDL--FLADV 3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTCNGVAITSTGTKKGEL--FLADV 4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSCTGVAITASGLKKGEL--FLADV 5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSCTGVAITTTGTNKGSL--FLGDV 6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSCNGVAITAAGTRKNES--IFGEL 7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTCNGPAITATSTKKADL--TVGEI 8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI 9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVTGSL 10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVNGSL 11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSCTGVEFTTSGTSNTDSGKVNGSL 12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTCSGIEFNTAGHSNQESGKVFGSL 13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTCNNVAFKVTGKSTHDK-VTSGAL

32 MYSFPNSFRFGWSQAGFQCEMSTPGSEDPNTDWYKWVHDPENMAAGLCSGDLPENGPGYWGNYKTFHDNAQKMCLKIARLNVEWSRIFPNP... P(B|W 1 ), P(F|W 1 )P(B|W 3 ), P(F|W 3 )P(B|W 2 ), P(F|W 2 ) W1W1 W2W2 W3W3 Cysteine free states Cysteine bonding states End Begi n Most probable path through the states Prediction of the bonding and non-bonding states of all the cysteines of the sequence

33 Correctly predicted proteins (%) No of cysteines per protein No of proteins NN-based predictorHNN-based predictor Accuratezza per cisteina: 88%; per proteina: 84% Il sistema ibrido Protein Science, in press

34 VGDKLIPLKITYDYYVCNNHMDTDTSYERWPA LGTYRPLNGRDCVMNNHKLAASDRWECDQREP LYTCMCNKDLPTKAAGPLMNTRPILNLSREEW LLPLLTHMNVVAGLCKLP Disulfide bonding cysteine Free cysteine V GDKLIPLKITYDYYVCNNHMDTDTSYERWPALG TYRPLNGRDCVMNNHKLAASDRWECDQREPLYTC MCNKDLPTKAAGPLMNTRPILNLSREEWLLPLLT HMNVVAGLCKLP Input VGDKLIPLKITYDYYVCNNH MDTDTSYERWPALGTYRPLN GRDCVMNNHKLAASDRWECD QREPLYTCMCNKDLPTKAAG PLMNTRPILNLSREEWLLPL LTHMNVVAGLCKLP Output

35 I PREDITTORI POSSONO ESSERE USATI PER SCOPRIRE NUOVE PROTEINE?

36 EcoGene/EcoProt (bmb.med.miami.edu/EcoGene) Protein coding genes: 4,173 Structural RNAs : 120 Escherichia coli K12, genoma completo Completed: Oct 13, Total Bases: 4,639,221 bp NCBI (www.ncbi.nlm.nih.gov) Protein coding genes: 4,289 Structural RNAs: 115

37 EcoGene/SwissProt functional annotation Keywords of SwissProt entries (if exist) are extracted : 1253 NON ANNOTATED PROTEINS (30 %) 137 proteins dont have SwissProt entry 1116 proteins dont contain functional annotation in SwissProt 2160 ANNOTATED PROTEINS (52 %) 421 Inner membrane proteins 35 Outer membrane proteins 1704 Globular proteins 760 PARTIALLY ANNOTATED PROTEINS (18 %) proteins annotated as Hypothetical proteins and with other functional annotations 352 Inner membrane proteins 18 Outer membrane proteins 390 Globular proteins

38 Inner Membrane proteins (all -Transmembrane proteins) Outer Membrane proteins (all -Transmembrane proteins)

39 PROTEOME Signal peptide Yes All- TM No All- TM Yes all -TM Yes all -TM Yes all -TM No Globular No Globular HUNTER

40 * the number of new proteins predicted in the class with Hunter, out of the non-annotated region Predicting globular, inner and outer membrane proteins in genomes of Gram-negative bacteria with Hunter

41

42 Collaborazioni Italia L.Masotti, Biochemistry, Bologna P.Mariani, Physics, Ancona M.Rossi, IBPE/CNR, Napoli G.Campadelli-Fiume, Pathology, Bologna G.Mita, IIGB/CNR, Napoli S.Prosperi, Veterinary, Bologna G.Irace, Biochemistry, Napoli F.Bernardi, Chemistry, Bologna D.Boraschi, CNR, Pisa S.Ciurli, Agricultural Chemistry, Bologna P.Arrigo, ICE/CNR, Genova C.Bergamini, Biochemistry, Ferrara Allestero B.Rost, Columbia University, New York A.Valencia, Protein Design Group, Cantoblanco, Madrid P.Baldi, Genomics and Bioinformatics, Irvine, California A.Krogh, University of Copenhagen, Copenhagen N.Ben Tal, Israel Insitute of Technology, Tel Aviv

43 Protein set Testing set The cross validation procedure Training set

44 Evaluation of the performance Q 2 = = p+n N correct predictions total predictions P(x) = = p p+o correct predictions in class x total predictions in class x Q(x) = = p p+u correct predictions in class x total observations in class x C = Correlation index = p·n - o ·u [(p+o) ·(p+u) ·(n+o) ·(n+u)] 1/2 Predicted Observed Legend :

45 Evaluation of the efficiency of contact map predictions 1) Accuracy: A = Ncp * / Ncp where Ncp * and Ncp are the number of correctly assigned contacts and that of total predicted contacts, respectively. 2) Improvement over a random predictor : R = A / (Nc/Np) where Nc/Np is the accuracy of a random predictor ; Nc is the number of real contacts in the protein of length Lp, and Np are all the possible contacts 3) Difference in the distribution of the inter-residue distances in the 3D structure for predicted pairs compared with all pair distances in the structure (Pazos et al., 1997): Xd= i=1,n (P ic - P ia ) / n d i where n is the number of bins of the distance distribution (15 equally distributed bins from 4 to 60Å cluster all the possible distances of residue pairs observed in the protein structure); d i is the upper limit (normalised to 60 Å) for each bin, e.g. 8 Å for the 4 to 8 Å bin; P ic and P ia are the percentage of predicted contact pairs (with distance between d i and d i-1 ) and that of all possible pairs respectively

46 Protein set Training set 1 Testing set 1 The cross validation procedure

47 PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE Gli elementi della costruzione della struttura primaria AmminoacidiBackbone della proteina


Scaricare ppt "Le reti neurali e la predizione della struttura proteica Rita Casadio Interdepartmental Centre for Biotechnological Research University of Bologna, Italy."

Presentazioni simili


Annunci Google