La struttura delle biomolecole è un argomento di grande interesse per molti settori della ricerca di base e applicativa Funzione STRUTTURA Meccanismo Origine/Evoluzione
Le proteine e gli acidi nucleici sono polimeri Le macromolecole sono costruite collegando insieme unità strutturali definite MONOMERI Proteine 20 amminoacidi 4 basi nucleotidiche Acidi nucleici
Contengono 20 amminoacidi uniti tramite un legame “peptidico”covalente Amminoacido Il legame peptidico
Le proteine hanno diversi livelli di struttura
La sequenza degli amminoacidi costituisce la struttura primaria Ogni pallina corrisponde ad un amminoacido Ribonucleasi: Mr 17000 da, 124 aa., secreta dal pancreas. Catalizza l’idrolisi di acidi nucleici ingeriti con la dieta
Le principali strutture secondarie di una catena polipetidica: elica MODELLO A PALLE E BASTONCINI Elica destrorsa, Si evidenziano i legami idrogeno Il passo dell’elica è 5.4 Å o 3.6 residui amminoacidici
Alfa elica Gli amino-acidi che hanno una maggior propensione a formare una struttura α-elica sono: Metionina, alanina, leucina, glutammato, and lisina ("MALEK") La destabilizzano: Prolina, glicina, tirosina e serina
foglietto I legami idrogeno si formano tra segmenti adiacenti I segmenti adiacenti possono anche essere lontani nella sequenza amminoacidica Le catene possono essere parallele o antiparallele
Classificazione generale delle strutture terziarie Proteine con predominanza di elica Proteine miste Proteine con predominanza di sheets
La struttura quaternaria delle proteine La struttura quaternaria riguarda proteine costituite da più catene polipeptidiche o da più domini strutturali (es. proteine regolatrici) Le interazioni tra le subunità consentono grandi variazioni nell’attività catalitica Es.: emoglobina
ANALISI PROTEINE Analisi struttura primaria Ottenimento sequenza (sequencing, transeq) Caratterizzazione struttura primaria SAPS/ProtPARAM/PEP_Info/PROTSCALE Allineamento (to infer a function) Locale e globale (BLAST e CLUSTALW) Domini conservati (PFAM) Title Predizione Struttura Secondaria Localizzazione cellulare Predizione Struttura Terziaria
ANALISI PROTEINE Analisi struttura primaria Ottenimento sequenza Sequencing di una proteina (C-term, N-term) traduzione inversa (Transeq) Title
ANALISI PROTEINE Caratterizzazione struttura primaria (SAPS) SAPS (Statistical Analysis of Protein Sequences) SAPS valuta statisticamente le proprietà di una sequenza proteica Tra le proprietà considerate ci sono: Composizione Carica e tipo di amino acidi Tipi di strutture ripetute E’ possibile analizzare piu sequenza insieme Title
ANALISI PROTEINE Caratterizzazione struttura primaria (PROTSCALE) SAPS valuta statisticamente le proprietà di una sequenza proteica Tra le proprietà considerate ci sono: Composizione Carica e tipo di amino acidi Tipi di strutture ripetute E’ possibile analizzare piu sequenza insieme Title
ANALISI PROTEINE Allineamento Locale e globale (BLAST e CLUSTALW) Domini funzionali conservati Title
Ricerca motivi in banca dati PROSITE http://www.expasy.ch/tools/scanprosite/
Ricerca motivi in banca dati MotifScan http://scansite.mit.edu/cgi-bin/motifscan_seq#
Ricerca motivi in banca dati Conserved Domains Database http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml La conservazione della sequenza proteica è tanto maggiore quanto più essa è essenziale allo svolgimento della funzione biologica. Questa considerazione permette di definire una raccolta di sequenze consenso per i domini conservati. Il CDD raccoglie queste informazioni attraverso le due collezioni classiche, Smart e Pfam, più altri contributi. Una volta identificato il dominio, è possibile cercare proteine presenti nel database che condividono lo stesso dominio (Domain Architecture Retrieval Tool, DART).
ANALISI PROTEINE Predizione Struttura Secondaria Localizzazione cellulare della proteina Predizione profilo idrofobico-idrofilico Title
Predizione Struttura Secondaria 3 METODI Si basano sulle informazione raccolte dalle proteine la cui struttura terziaria sia già risolta. STATISTICO DI CHOU E FASMAN I 20 aa mostrano preferenze significative per particolari strutture secondarie (A, R, Q, E, M, L, K eliche; C, I, F, T, W, Y, V foglietti) (algoritmo GOR ha attendibilità del 56%) STEREOCHIMICO DI LIM Tiene conto delle proprietà idrofobiche, idrofiliche ed elettrostatiche considerando il loro ruolo nel folding (alternanza di idrofilici e idrofobici, foglietti) utile per predire eliche anfipatiche e transmembrana. (algoritmo SOSUI, TMPRED, ecc.) NEURAL NETWORK Tiene conto di entrambe le precedenti e del processo evolutivo a partire dall’allineamento multiplo. (PHD 70%)
Predizioni di struttura secondaria http://www.expasy.ch/tools/#secondary AGADIR - An algorithm to predict the helical content of peptides APSSP - Advanced Protein Secondary Structure Prediction Server GOR - Garnier et al, 1996 HNN - Hierarchical Neural Network method (Guermeur, 1997) Jpred - A consensus method for protein secondary structure prediction at University of Dundee JUFO - Protein secondary structure prediction from sequence (neural network) nnPredict - University of California at San Francisco (UCSF) Porter - University College Dublin PredictProtein - PHDsec, PHDacc, PHDhtm, PHDtopology, PHDthreader, MaxHom, EvalSec from Columbia Prof - Cascaded Multiple Classifiers for Secondary Structure Prediction PSA - BioMolecular Engineering Research Center (BMERC) / Boston PSIpred - Various protein structure prediction methods at Brunel University SOPMA - Geourjon and Deléage, 1995 SSpro - Secondary structure prediction using bidirectional recurrent neural networks at University of California DLP-SVM - Domain linker prediction using SVM at Tokyo University of Agriculture and Technology
Predizioni di struttura secondaria L M K R H MALEK CHOU & FASMAN
Predizione Struttura secondaria GORIV
PSIPRED Predizione Struttura secondaria (results via mail) http://bioinf.cs.ucl.ac.uk/psipred/psiform.html
(previa registrazione) Predizione Struttura secondaria PREDICT PROTEIN (previa registrazione) http://www.predictprotein.org
SSPRO (California - Reti neurali) Predizione Struttura Secondaria (e molto altro) http://www.igb.uci.edu/?page=tools&subPage=psss SSPRO (California - Reti neurali)
Algoritmi predizione struttura secondaria
ANALISI PROTEINE Predizione Struttura Secondaria Localizzazione cellulare della proteina Predizione profilo idrofobico-idrofilico (proteine TM) Title
Predizione localizzazione cellulare PSORT (BATTERI) http://www.psort.org/psortb/
Predizione localizzazione cellulare WOLFPSORT (EUCARIOTI) http://wolfpsort.org/
ANALISI PROTEINE Predizione Struttura Secondaria Localizzazione cellulare della proteina Predizione profilo idrofobico-idrofilico (proteine TM) Title
Predizione proteine di membrana SOSUI http://bp.nuap.nagoya-u.ac.jp/sosui/sosui_submit.html This amino acid sequence is of a MEMBRANE PROTEIN which have 1 transmembrane helix. No. N terminal transmembrane region C terminal type length 1 20 RALVAFLGILLLTGVLIANLYNL 42 PRIMARY 23
Profilo idropatia e sua utilità Uno dei metodi più utilizzati per valutare le regioni polari o idrofobiche di una sequenza proteica, è quello di utilizzare una "scala", chimico-fisica o statistica. Questa scala assegna a ciascun residuo amminoacidico un valore, che rappresenta la propensione di tale residuo per una fase polare o apolare. Siccome il collasso idrofobico è ritenuto la causa principale del folding di una proteina, ci si può aspettare che un grafico, che assegni valori di idropatia ai vari residui lungo la catena possa essere particolarmente informativo. Per esempio possiamo aspettarci che regioni molto polari indichino zone di esposizione al solvente fisiologico (ritenuto fortemente polare), oppure per proteine che si inseriscono in una membrana lipidica, ci si aspetta che le regioni ad alta idrofobicità siano indicative delle zone che attraversano il doppio strato.
Profilo idropatia ProtScale http://www.expasy.org/tools/protscale.html oppure SAPS
COME RICAVARE INFORMAZIONI SULLA STRUTTURA TERZIARIA Difrattometria ai raggi X Microscopie Spettroscopie Modellistica molecolare Simulazioni al computer di dinamiche molecolare e interazioni molecolari
Struttura terziaria delle proteine La struttura terziaria delle proteine (note) è conservata in una database chiamato PDB (PROTEIN DATA BANK) PDB è il database centrale dei dati biologici di struttura. PDB è un archivio per dati di struttura in 3-D di proteine e acidi nucleici ottenuti grazie alla cristallografia ai raggi X o alla spettrografia NMR I dati sono depositati da ricercatori sono di pubblico dominio e gratuiti
Struttura terziaria delle proteine La struttura terziaria delle proteine è codificata in file “standard” del tipo PDB (PROTEIN DATA BANK) Questi file posso essere letti e interpretati da programmi che collocano nello spazio tutti gli aminoacidi di cui è nota la posizione (3 coordinate) I software utilizzati sono essenzialmente due PDB viewer RasMol
Esempio: Deossiemoglobina umana (1a3n) Il file PDB http://www.rcsb.org/pdb Esempio: Deossiemoglobina umana (1a3n) HEADER OXYGEN TRANSPORT 22-JAN-98 1A3N TITLE DEOXY HUMAN HEMOGLOBIN COMPND MOL_ID: 1; COMPND 2 MOLECULE: HEMOGLOBIN; COMPND 3 CHAIN: A, B, C, D; COMPND 4 BIOLOGICAL_UNIT: ALPHA-BETA-ALPHA-BETA TETRAMER SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: HOMO SAPIENS; SOURCE 3 ORGANISM_COMMON: HUMAN; SOURCE 4 TISSUE: BLOOD; SOURCE 5 CELL: RED CELL KEYWDS OXYGEN TRANSPORT, HEME, RESPIRATORY PROTEIN, ERYTHROCYTE EXPDTA X-RAY DIFFRACTION AUTHOR J.TAME,B.VALLONE REVDAT 1 29-APR-98 1A3N 0 REMARK 1 REMARK 2 REMARK 2 RESOLUTION. 1.8 ANGSTROMS. REMARK 3 […]
coordinate tipo di atomo tipo di amminoacido X Y Z … ATOM 1 N VAL A 1 10.720 19.523 6.163 1.00 21.36 N ATOM 2 CA VAL A 1 10.228 20.761 6.807 1.00 24.26 C ATOM 3 C VAL A 1 8.705 20.714 6.878 1.00 18.62 C ATOM 4 O VAL A 1 8.164 20.005 6.015 1.00 19.87 O ATOM 5 CB VAL A 1 10.602 22.000 5.966 1.00 27.19 C ATOM 6 CG1 VAL A 1 10.307 23.296 6.700 1.00 31.86 C ATOM 7 CG2 VAL A 1 12.065 21.951 5.544 1.00 31.74 C ATOM 8 N LEU A 2 8.091 21.453 7.775 1.00 16.19 N ATOM 9 CA LEU A 2 6.624 21.451 7.763 1.00 17.31 C ATOM 10 C LEU A 2 6.176 22.578 6.821 1.00 18.55 C ATOM 11 O LEU A 2 6.567 23.730 7.022 1.00 18.72 O ATOM 12 CB LEU A 2 6.020 21.707 9.129 1.00 18.34 C ATOM 13 CG LEU A 2 6.386 20.649 10.198 1.00 17.39 C ATOM 14 CD1 LEU A 2 5.998 21.119 11.577 1.00 17.99 C ATOM 15 CD2 LEU A 2 5.730 19.337 9.795 1.00 16.96 C ATOM 16 N SER A 3 5.380 22.237 5.852 1.00 15.02 N ATOM 17 CA SER A 3 4.831 23.237 4.928 1.00 16.59 C ATOM 18 C SER A 3 3.725 24.027 5.568 1.00 14.84 C ATOM 19 O SER A 3 3.095 23.717 6.591 1.00 14.40 O ATOM 20 CB SER A 3 4.308 22.429 3.727 1.00 16.47 C ATOM 21 OG SER A 3 3.076 21.786 3.991 1.00 14.91 O …
Y Z X coordinate 8 7 6 5 4 3 2 22 21 20 19 8 7 6 5 tipo di atomo amminoacido coordinate X Y Z ATOM 1 N VAL A 1 5.720 20.523 5.163 1.00 21.36 N ATOM 10 C LEU A 2 6.176 22.578 9.821 1.00 18.55 Y 8 7 6 5 4 3 2 22 21 20 19 Z 8 7 6 5 X …
Deossiemoglobina catena A 1a3n C O N S EME Fe Deossiemoglobina catena A
RasMOL http://www.umass.edu/microbio/rasmol/index2.htm Prevede che si scarichi CHIME da http://www.umass.edu/microbio/chime/pe_beta/pe/protexpl/mdlchime.htm
SWISS-PDB VIEWER