Protein Structure Prediction ? AVGIFRAAVCTRGVAKAVDFVPVESMETTMRSPVFTDNSSPPAVPQSFQVAHLHAPTGSGKSTKVPAAYAAQGYKVLVLNPSVAATLGFGAYMSKAHGIDPNIRTGVRTITTGAPVTYSTYGKFLADGGCSGGAYDIIICDECHSTDSTTILGIGTVLDQAETAGARLVVLATATPPGSVTVPHPNIEEVALSNTGEIP
Protein Structure Prediction: Perchè? Progettare razionalmente esperimenti Facilitare la determinazione della struttura Progettazione di mutanti Comprensione delle leggi che guidano il folding delle proteine
Protein Structure Prediction EMBL GENBANK PDB 10**6 10**5 1998 1983 10**4 10**3
Protein Structure Prediction: Assessment CASP: Critical Assessment of Structure Prediction 1994: CASP1 [Proteins (1995) Vol. 23, N. 3] 1996: CASP2 [Proteins (1997) Supplement 1] 1998: CASP3 http://predictioncenter.llnl.gov/casp3/Casp3.html
CASP AVSRAFTRAFTAAFDGHTYIPKL Crystallographers announce which proteins they are solving Predictors deposit their predictions Crystallographers deposit their structures A panel of experts evaluates the predictions
Protein Structure Prediction Homology modeling Fold recognition Ab initio methods
Homology modeling 3.0 2.4 Due proteine con sequenze simili hanno strutture simili. Posso modellare la mia proteina target utilizzando la struttura nota come templato. Structural difference (r.m.s.) 1.8 1.2 0.6 0.0 100 80 60 40 20 Sequence identity
. r.m.s.d. = 0.5Å . r.m.s.d. = 1.02Å . r.m.s.d. = 1.8Å
r.m.s.d. = root mean square deviation Di = distanza fra due atomi corrispondenti N = numero di coppie di atomi corrispondenti
Homology modeling [Chothia & Lesk, EMBO J. (1986) 5: 823-826] 3.0 Seq. Id. < 50%: “core” region ~ 90% r.m.s. main-chain ~ 1.0 Å Seq. Id. ~ 20%: “core” region ~ 50% r.m.s. main-chain > 1.8 Å 2.4 Structural difference (r.m.s.) 1.8 1.2 0.6 0.0 100 80 60 40 20 Sequence identity [Chothia & Lesk, EMBO J. (1986) 5: 823-826]
Stadi del Modeling per omologia Individuare una proteina di struttura nota omologa a quella di interesse Allineare la proteina stampo con quella di interesse Modellare il core della proteina di interesse Modellare i loop Aggiunngere le catene laterali Ottimizzare il modello
Comparative (homology) modeling Modeling della catena principale del “core” Identificazione di proteine di struttura nota con la più elevata somiglianza al target allineamento ottimale target TARGETSEQ 1st hit TARGGTSEQ 2nd hit TARGGSSEQ 3rd hit TARGGSTEQ ....... ......... TARGETSEQ PDB
Comparative (homology) modeling Modeling della catena principale del “core” Sequence alignment: Seq. Id. > 50%: metodi automatici Seq. Id. < 50%: ottimizzazione manuale (allineamenti multipli, informazioni SS, motivi di sequenza, residui funzionali, ...) La correttezza dell’allineamento di sequenza è il principale fattore che influenza la qualità del modello!!
GXGXXG AFHLGSGHKGYTMAPLEE :|.| |.||: VESIGAGM----MGPLDT :|.| | : VESIGAGMMGPL----DT
EAAERNSHNSYN---ISNTDPG | :| |: : ..|| EKLAQQSNNTLTTIFVRDSDPP hhhhhh ssssss EAAERNSH---NSYNISNTDPG | :| . : ..|| hhhhh ssssss EAAERNSH---NSYNISNTDPG | :| : ..|| EKLAQQSNNTLTTIFVRDSDPP hhhhhh ssssss
Comparative (homology) modeling Loop prediction Problemi: Sono più variabili degli elementi di SS Insertioni e delezioni Metodi soddisfacenti per la predizione dei loop non sono tuttora disponibili Metodi per la predizione dei loop: riconoscimento di pattern di sequenza ricerca in banca dati/riconoscimento delle regioni fiancheggianti ab initio
Comparative (homology) modeling Regioni adiacenti Gly loop Loop prediction Ricerca in database di strutture proteiche : 1) Conformazione simile del backbone delle regioni adiacenti (e.g., r.m.s. < 0.6 Å) 2) Stessa lunghezza del loop 3) Stesso pattern di residui “speciali” (e.g., Gly, Pro) nel loop
6Ǻ 6Ǻ hhhhh hhhhhh AAEKSSHNNPLLRELK (proteina da modellare) ::.. . . ...:. . AADRITGD-PVLRQAR (struttura nota) 6Ǻ 6Ǻ hhhhh hhhhhh
Comparative (homology) modeling Loop prediction: metodi Ab initio Generare un gran numero di conformazioni teoriche Calcolare l’energia di ciascuna conformazione E
metodi Ab initio: calcolo dell’energia totale di una conformazione di un polipeptide k1 k2 E totale = + + Lunghezze di legame corrette Angoli di legame corretti k3 1 1 r9 r6 + Angoli di torsione corretti Interazioni attrattive e repulsive deboli + 1 r - + Interazioni elettrostatiche attrattive e repulsive (e?)
Energy minimization E Minimi relativi Minimi relativi Minimo assoluto conformazioni Conformazione Iniziale E Minimi relativi Minimi relativi Minimo assoluto
Energy minimization E Minimi relativi Minimo assoluto Conformazione Iniziale conformazioni E Energy Minimization Minimi relativi Minimo relativo Minimo assoluto
Vengono simulati i moti vibrazionali (termici) delle molecole Strategie per il superamento dei massimi relativi : Dinamica Molecolare Vengono simulati i moti vibrazionali (termici) delle molecole Tempi di calcolo lunghissimi: si può simulare al più il comportamento su scala di nanosecondi Dinamica molecolare conformazioni E Minimi relativi Minimo assoluto
E Minimi relativi Minimo assoluto Dinamica conformazioni molecolare Energy Minimization Minimo assoluto
vengono cambiati di valori casuali in modo da deformare la struttura Strategie per il superamento dei massimi relativi : Monte Carlo Ad ogni step una percentuale a caso degli angoli di torsione della proteina (phi, psi, chi, omega) vengono cambiati di valori casuali in modo da deformare la struttura Metodo Monte Carlo conformazioni E Minimi relativi Energy Minimization Minimo assoluto
Loop prediction: metodi Ab initio Limiti principali: 1) Le funzioni per il calcolo dell’energia sono molto imprecise 2) Le regioni adiacenti ai loop sono modellate e quindi contengono errori Modellato: contiene errori E Approssimato: contiene errori
Comparative (homology) modeling Modeling delle catene laterali : librarie di “rotameri” mantenimento delle conformazioni dei residui conservati procedure “Energy based” Calfa S NH3+ NH3+ NH3+
Comparative (homology) modelling “Model refinement” (ottimizzazione): “Geometric refinement” Correzione di interazioni steriche sfavorevoli ottimizzazione delle regioni del backbone derivanti dall’unione di frammenti (e.g., regioni core e loops) “Energy minimization” (EM) “Molecular dynamics” (MD)
Comparative (homology) modeling “Model evaluation”: Distribuzione dei residui idrofobici e idrofilici fra core e superficie Impaccamento degli atomi e cavità Accettori e donatori di legami a idrogeno spaiati Qualità stereochimica
Analizzare il modello iniziale e ottimizzare l’allineamento! Bump A L A Y L V A Bump Hole Sequence shifted by 3 res T A A L Y Analizzare il modello iniziale e ottimizzare l’allineamento!
Ricerca in DB Allineamento Modeling del core Modeling dei loop Modeling catene laterali “Refinement” VERIFICA QUALITA’ Modello OTTIMIZZATO
Comparative (homology) modeling SWISS-MODEL http:/www.expasy.ch/swissmod/SWISS-MODEl.html Può funzionare in modalità: *completamente automatica *parzialmente controllata dall’utente *totalmente controllata dall’utente Invia modello e informazioni aggiuntive (“WHATCheck”) via e-mail Predizione dei loop mediante ricerca in banca dati In automatico richiede identità > 35%
Fold recognition Il numero di “fold” è limitato: due proteine con sequenze differenti (non omologhe) possono avere lo stesso “fold”. Probabilmente il “fold” della proteina di interesse è simile a quello di una proteina di struttura nota. Solutioni: “Profile based methods” “Threading methods” “Mapping methods” AVGIFRAAVCTRGVAKAVDFVPVESMETTMRSPVFTDNSSPPAVPQSFQVAHLHAPTGSGKSTKVPAAYAAQGYKVLVLNPSVAATLGFGAYMSKAHGIDPNIRTGVRTITTGAPVTYSTYGKFLADGGCSGGAYDIIICDECHSTDSTTILGIGTVLDQAETAGARLVVLATATPPGSVTVPHPNIEEVALSNTGEIP
Fold recognition “Profile-based methods” Ciascun amminoacido mostra preferenza per “intorni specifici”: Struttura secondaria Superficie accessibile solvente Ambiente polare/non-polare
Frequenza di presenza in superficie propensione Alfa-elica Beta-strand Coil bassa Idrofobico (a) Idrofilico (d) Idrofobico (b) Idrofilico (e) Idrofobico (g) Idrofilico (z) intermedia Idrofobico (h) Idrofilico (k) Idrofobico (t) Idrofilico (l) Idrofobico (i) Idrofilico (m) alta Idrofobico (n) Idrofilico (p) Idrofobico (x) Idrofilico (r) Idrofobico (o) Idrofilico (s) ssmtbdbrtlbzmopbltrtltmsis Sequenza da modellare
mmmztltltrbmmzibltrxlxzsss Accessibilità al solvente struttura Alfa-elica Beta-strand Coil <40Å2 Idrofobico (a) Idrofilico (d) Idrofobico (b) Idrofilico (e) Idrofobico (g) Idrofilico (z) intermedia Idrofobico (h) Idrofilico (k) Idrofobico (t) Idrofilico (l) Idrofobico (i) Idrofilico (m) >120Å2 Idrofobico (n) Idrofilico (p) Idrofobico (x) Idrofilico (r) Idrofobico (o) Idrofilico (s) mmmztltltrbmmzibltrxlxzsss coil Struttura in bancadati
ssmt bdbrtlbzmopbltrtltmsi s Sequenza da modellare : : | : . : : | : | : | . | | | | : | : : | . | mmmzt ltltrb mmzibltrxlxzsss coil Struttura in bancadati | 3 proprietà in comune : 2 proprietà in comune . 1 proprietà in comune
Fold recognition: threading AVGIFRAAVCTRGVAKAVDFVPVESMETTMRSPVFTDNSSPPAVPQSFQVAHLHAPTGSGKSTKVPAAYAAQGYKVLVLNPSVAATLGFGAYMSKAHGIDPNIRTGVRTITTGAPVTYSTYGKFLADGGCSGGAYDIIICDECHSTDSTTILGIGTVLDQAETAGARLVVLATATPPGSVTVPHPNIEEVALSNTGEIP Mod. 10 Mod. 9 Mod. 8 Mod. 7 Mod. 6 Mod. 5 Mod. 4 Mod. 3 Mod. 2 Mod. 1 Mod. 15 Mod. 14 Mod. 13 Mod. 12 Mod. 11 Score Mod. 2
Fold recognition: mapping AVGIFRAAVCTRGVAKAVDFVPVESMETTMRSPVFTDNSSPPAVPQSFQVAHLHAPTGSGKSTKVPAAYAAQGYKVLVLNPSVAATLGFGAYMSKAHGIDPNIRTGVRTITTGAPVTYSTYGKFLADGGCSGGAYDIIICDECHSTDSTTILGIGTVLDQAETAGARLVVLATATPPGSVTVPHPNIEEVALSNTGEIP Secondary structure prediction ?
Protein Homology/analogY Recognition Engine Fold recognition 3D-PSSM Web Server V 2.6.0 A Fast, Web-based Method for Protein Fold Recognition using 1D and 3D Sequence Profiles coupled with Secondary Structure and Solvation Potential Information. http://www.sbg.bio.ic.ac.uk/~3dpssm/ PHYRE Protein Homology/analogY Recognition Engine http://www.sbg.bio.ic.ac.uk/~phyre/
La natura rinatura le proteine senza confrontarle con un database!!! Ab initio methods “Energy based methods” Base Razionale : La natura rinatura le proteine senza confrontarle con un database!!! Questi metodi non fanno confronti tra la proteina diinteresse ed un database di strutture: Vengono generate numerose conformazioni della proteina di interesse Vengono calcolate le energie delle varie conformazioni Vengono selezionate le conformazioni a minore energia
metodi Ab initio: calcolo dell’energia totale di una conformazione di un polipeptide k1 k2 E totale = + + Lunghezze di legame corrette Angoli di legame corretti k3 1 1 r9 r6 + Angoli di torsione corretti Interazioni attrattive e repulsive deboli + 1 r - + Interazioni elettrostatiche attrattive e repulsive (e?)
conformazioni E Minimi relativi Minimi relativi Minimo assoluto
Se possibile utilizzare il modeling per omologia Conclusioni Se possibile utilizzare il modeling per omologia In alternativa i metodi di fold recognition possono essere utili (è meglio confrontare i risultati di più metodi) Non fidarsi ciecamente dei metodi di predizione, verificare tutte scelte fatte in automatico da programmi e server! Non trascurare mai le conoscenze SPERIMENTALI riguardanti la proteina di interesse!!
Protein Data Bank (PDB) http://www.rcsb.org/pdb/index.html BLAST http://www.ncbi.nlm.nih.gov/BLAST/ SWISS-MODEL (fully automated service) http:/www.expasy.ch/swissmod/SWISS-MODEL.html The ExPASy proteomics server (Expert Protein Analysis System) http://www.expasy.org/spdbv/