Protein Structure Prediction

Slides:



Advertisements
Presentazioni simili
Struttura delle proteine
Advertisements

LA LAUREA MAGISTRALE IN BIOINFORMATICA Università degli studi
Perchè predire la struttura terziaria?
RICERCA DI SIMILARITA’ IN BANCHE DATI
ANALISI CONFORMAZIONALE
Predizione della Struttura Terziaria.
Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dell’RNA 27/04/2011.
Homology modelling L’omology modeling delle proteine è il tipo di predizione di struttura terziaria più semplice ed affidabile. Viene richiesta soltanto.
Struttura delle proteine
Esistono 3 metodi principali di predizione:
Come si può studiare la struttura di una proteina
Corso di Laboratorio di Linguaggi (2006/07) Prof. Nicoletta Cocco
Tutorial per l’utilizzo di k ScanProsite
Determinazione della fase
CONFORMAZIONE organizzazione spaziale degli atomi in una proteina STRUTTURA NATIVA conformazione funzionale di una proteina La FUNZIONE di una proteina.
  Disegno assistito dal computer STRATEGIE PER LA RICERCA DEI NUOVI LEADS Computer-assisted design utilizza la chimica computazionale per al scoperta.
Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Esistono delle banche dati derivate simili a pfam, cioe’ banche dati in cui le proteine sono organizzate per famiglie ma che a differenza di pfam comprendono.
Programmi per l’ALLINEAMENTO DELLE SEQUENZE La creazione di programmi per l’allineamento delle sequenze richiede la definizione di: *** Un criterio oggettivo.
STORIA DI UNA TRIPLETTA: BASI VS AMINOACIDI 3 A 1 Il Codice Genetico Metodo didattico: Spaced Learning Prof. M. Della Mea.
RICERCA DI SIMILARITA’ in DB Problema: identificare all’interno di una banca dati di sequenze quelle sequenze che sono più simili ad una sequenza di nostro.
DETERMINAZIONE DELLA STRUTTURA PRIMARIA DI BIOPOLIMERI.
Proteine. Le proteine Le proteine sono essenziali per la struttura e le funzioni degli organismi viventi – Una proteina è un polimero biologico formato.
Product Quantization for Nearest Neighbor search.
MODELLISTICA MOLECOLARE. Interazione farmaco-recettore Perché un farmaco possa esplicare la propria azione deve interagire con un bersaglio chiamato recettore.
RNS_BOVIN ANG1_MOUSE TPA_HUMAN UROK_HUMAN
Sulla diffusione neutrone-protone
Valutazione dell’incertezza associata alla mappa acustica dinamica di Milano Giovanni Zambon; Roberto Benocci; Maura Smiraglia; H. Eduardo Roman.
Le interazione intermolecolari
ESERCITAZIONI ANTROPOLOGIA
Varianti strutturali.
LO STATO LIQUIDO Lo stato liquido è uno stato intermedio tra quello solido e quello gassoso e in quanto tale non facilmente razionalizzabile con un modello.
Energia potenziale in catene polipeptidiche
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docente: Prof. Stefania Bortoluzzi.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docente: Prof. Stefania Bortoluzzi.
GEOMETRIA MOLECOLARE O H O-C-O Lineare OCO=180° ^ Piegata HOH=105° ^
Meccanismi di caricamento e aggiornamento dei dati
13/11/
Classe 1 Sportivo Collegio Castelli
Cinetica Chimica.
ENZIMI Catalizzatori specifici dei sistemi biologici.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docente: Prof. Stefania Bortoluzzi.
Proprietà macromolecolari
Servizi web per la bioinformatica strutturale
6.1 Molecole e formule chimiche
ENTRIAMO IN LABORATORIO
GEOMETRIA MOLECOLARE O H O-C-O Lineare OCO=180° ^ Piegata HOH=105° ^
Legame covalente omeopolare
INTERNATIONAL COSMIC DAY Become a Scientistic for a Day
Il Legame Chimico e la Struttura Molecolare
Diffrazione.
La forma delle molecole e le forze intermolecolari
Analisi DNA per bS - enzimi di restrizione
Il processo di ricombinazione omologa consiste nello scambio di sequenze di DNA tra molecole che contengono sequenze identiche o quasi. La regione in comune.
L'approssimazione Born-Oppenheimer
Forze intermolecolari
Docenti: Prof. STEFANIA BORTOLUZZI Dr. GIANLUCA OCCHI
Docenti: Prof. STEFANIA BORTOLUZZI Dr. GIANLUCA OCCHI
Energia potenziale in catene polipeptidiche
Transizioni ordine/disordine
Forze intermolecolari
Politecnico di Milano since 1863
Le interazione intermolecolari
Gentica e Biologia Molecolare
Energia potenziale in catene polipeptidiche
Programmi per l’ALLINEAMENTO DELLE SEQUENZE
RICERCA DI SIMILARITA’ in DB
R.m.s.d. = root mean square deviation
Transcript della presentazione:

Protein Structure Prediction ? AVGIFRAAVCTRGVAKAVDFVPVESMETTMRSPVFTDNSSPPAVPQSFQVAHLHAPTGSGKSTKVPAAYAAQGYKVLVLNPSVAATLGFGAYMSKAHGIDPNIRTGVRTITTGAPVTYSTYGKFLADGGCSGGAYDIIICDECHSTDSTTILGIGTVLDQAETAGARLVVLATATPPGSVTVPHPNIEEVALSNTGEIP

Protein Structure Prediction: Perchè? Progettare razionalmente esperimenti Facilitare la determinazione della struttura Progettazione di mutanti Comprensione delle leggi che guidano il folding delle proteine

Protein Structure Prediction EMBL GENBANK PDB 10**6 10**5 1998 1983 10**4 10**3

Protein Structure Prediction: Assessment CASP: Critical Assessment of Structure Prediction 1994: CASP1 [Proteins (1995) Vol. 23, N. 3] 1996: CASP2 [Proteins (1997) Supplement 1] 1998: CASP3 http://predictioncenter.llnl.gov/casp3/Casp3.html

CASP AVSRAFTRAFTAAFDGHTYIPKL Crystallographers announce which proteins they are solving Predictors deposit their predictions Crystallographers deposit their structures A panel of experts evaluates the predictions

Protein Structure Prediction Homology modeling Fold recognition Ab initio methods

Homology modeling 3.0 2.4 Due proteine con sequenze simili hanno strutture simili. Posso modellare la mia proteina target utilizzando la struttura nota come templato. Structural difference (r.m.s.) 1.8 1.2 0.6 0.0 100 80 60 40 20 Sequence identity

. r.m.s.d. = 0.5Å . r.m.s.d. = 1.02Å . r.m.s.d. = 1.8Å

r.m.s.d. = root mean square deviation Di = distanza fra due atomi corrispondenti N = numero di coppie di atomi corrispondenti

Homology modeling [Chothia & Lesk, EMBO J. (1986) 5: 823-826] 3.0 Seq. Id. < 50%: “core” region ~ 90% r.m.s. main-chain ~ 1.0 Å Seq. Id. ~ 20%: “core” region ~ 50% r.m.s. main-chain > 1.8 Å 2.4 Structural difference (r.m.s.) 1.8 1.2 0.6 0.0 100 80 60 40 20 Sequence identity [Chothia & Lesk, EMBO J. (1986) 5: 823-826]

Stadi del Modeling per omologia Individuare una proteina di struttura nota omologa a quella di interesse Allineare la proteina stampo con quella di interesse Modellare il core della proteina di interesse Modellare i loop Aggiunngere le catene laterali Ottimizzare il modello

Comparative (homology) modeling Modeling della catena principale del “core” Identificazione di proteine di struttura nota con la più elevata somiglianza al target allineamento ottimale target TARGETSEQ 1st hit TARGGTSEQ 2nd hit TARGGSSEQ 3rd hit TARGGSTEQ ....... ......... TARGETSEQ PDB

Comparative (homology) modeling Modeling della catena principale del “core” Sequence alignment: Seq. Id. > 50%: metodi automatici Seq. Id. < 50%: ottimizzazione manuale (allineamenti multipli, informazioni SS, motivi di sequenza, residui funzionali, ...) La correttezza dell’allineamento di sequenza è il principale fattore che influenza la qualità del modello!!

GXGXXG AFHLGSGHKGYTMAPLEE :|.| |.||: VESIGAGM----MGPLDT :|.| | : VESIGAGMMGPL----DT

EAAERNSHNSYN---ISNTDPG | :| |: : ..|| EKLAQQSNNTLTTIFVRDSDPP hhhhhh ssssss EAAERNSH---NSYNISNTDPG | :| . : ..|| hhhhh ssssss EAAERNSH---NSYNISNTDPG | :| : ..|| EKLAQQSNNTLTTIFVRDSDPP hhhhhh ssssss

Comparative (homology) modeling Loop prediction Problemi: Sono più variabili degli elementi di SS Insertioni e delezioni Metodi soddisfacenti per la predizione dei loop non sono tuttora disponibili Metodi per la predizione dei loop: riconoscimento di pattern di sequenza ricerca in banca dati/riconoscimento delle regioni fiancheggianti ab initio

Comparative (homology) modeling Regioni adiacenti Gly loop Loop prediction Ricerca in database di strutture proteiche : 1) Conformazione simile del backbone delle regioni adiacenti (e.g., r.m.s. < 0.6 Å) 2) Stessa lunghezza del loop 3) Stesso pattern di residui “speciali” (e.g., Gly, Pro) nel loop

6Ǻ 6Ǻ hhhhh hhhhhh AAEKSSHNNPLLRELK (proteina da modellare) ::.. . . ...:. . AADRITGD-PVLRQAR (struttura nota) 6Ǻ 6Ǻ hhhhh hhhhhh

Comparative (homology) modeling Loop prediction: metodi Ab initio Generare un gran numero di conformazioni teoriche Calcolare l’energia di ciascuna conformazione E

metodi Ab initio: calcolo dell’energia totale di una conformazione di un polipeptide k1 k2 E totale = + + Lunghezze di legame corrette Angoli di legame corretti k3 1 1 r9 r6  + Angoli di torsione corretti Interazioni attrattive e repulsive deboli +  1 r - + Interazioni elettrostatiche attrattive e repulsive (e?)

Energy minimization E Minimi relativi Minimi relativi Minimo assoluto conformazioni Conformazione Iniziale E Minimi relativi Minimi relativi Minimo assoluto

Energy minimization E Minimi relativi Minimo assoluto Conformazione Iniziale conformazioni E Energy Minimization Minimi relativi Minimo relativo Minimo assoluto

Vengono simulati i moti vibrazionali (termici) delle molecole Strategie per il superamento dei massimi relativi : Dinamica Molecolare Vengono simulati i moti vibrazionali (termici) delle molecole Tempi di calcolo lunghissimi: si può simulare al più il comportamento su scala di nanosecondi Dinamica molecolare conformazioni E Minimi relativi Minimo assoluto

E Minimi relativi Minimo assoluto Dinamica conformazioni molecolare Energy Minimization Minimo assoluto

vengono cambiati di valori casuali in modo da deformare la struttura Strategie per il superamento dei massimi relativi : Monte Carlo Ad ogni step una percentuale a caso degli angoli di torsione della proteina (phi, psi, chi, omega) vengono cambiati di valori casuali in modo da deformare la struttura Metodo Monte Carlo conformazioni E Minimi relativi Energy Minimization Minimo assoluto

Loop prediction: metodi Ab initio Limiti principali: 1) Le funzioni per il calcolo dell’energia sono molto imprecise 2) Le regioni adiacenti ai loop sono modellate e quindi contengono errori Modellato: contiene errori E Approssimato: contiene errori

Comparative (homology) modeling Modeling delle catene laterali : librarie di “rotameri” mantenimento delle conformazioni dei residui conservati procedure “Energy based” Calfa S NH3+ NH3+ NH3+

Comparative (homology) modelling “Model refinement” (ottimizzazione): “Geometric refinement” Correzione di interazioni steriche sfavorevoli ottimizzazione delle regioni del backbone derivanti dall’unione di frammenti (e.g., regioni core e loops) “Energy minimization” (EM) “Molecular dynamics” (MD)

Comparative (homology) modeling “Model evaluation”: Distribuzione dei residui idrofobici e idrofilici fra core e superficie Impaccamento degli atomi e cavità Accettori e donatori di legami a idrogeno spaiati Qualità stereochimica

Analizzare il modello iniziale e ottimizzare l’allineamento! Bump A L A Y L V A Bump Hole Sequence shifted by 3 res T A A L Y Analizzare il modello iniziale e ottimizzare l’allineamento!

Ricerca in DB Allineamento Modeling del core Modeling dei loop Modeling catene laterali “Refinement” VERIFICA QUALITA’ Modello OTTIMIZZATO

Comparative (homology) modeling SWISS-MODEL http:/www.expasy.ch/swissmod/SWISS-MODEl.html Può funzionare in modalità: *completamente automatica *parzialmente controllata dall’utente *totalmente controllata dall’utente Invia modello e informazioni aggiuntive (“WHATCheck”) via e-mail Predizione dei loop mediante ricerca in banca dati In automatico richiede identità > 35%

Fold recognition Il numero di “fold” è limitato: due proteine con sequenze differenti (non omologhe) possono avere lo stesso “fold”. Probabilmente il “fold” della proteina di interesse è simile a quello di una proteina di struttura nota. Solutioni: “Profile based methods” “Threading methods” “Mapping methods” AVGIFRAAVCTRGVAKAVDFVPVESMETTMRSPVFTDNSSPPAVPQSFQVAHLHAPTGSGKSTKVPAAYAAQGYKVLVLNPSVAATLGFGAYMSKAHGIDPNIRTGVRTITTGAPVTYSTYGKFLADGGCSGGAYDIIICDECHSTDSTTILGIGTVLDQAETAGARLVVLATATPPGSVTVPHPNIEEVALSNTGEIP

Fold recognition “Profile-based methods” Ciascun amminoacido mostra preferenza per “intorni specifici”: Struttura secondaria Superficie accessibile solvente Ambiente polare/non-polare

Frequenza di presenza in superficie propensione Alfa-elica Beta-strand Coil bassa Idrofobico (a) Idrofilico (d) Idrofobico (b) Idrofilico (e) Idrofobico (g) Idrofilico (z) intermedia Idrofobico (h) Idrofilico (k) Idrofobico (t) Idrofilico (l) Idrofobico (i) Idrofilico (m) alta Idrofobico (n) Idrofilico (p) Idrofobico (x) Idrofilico (r) Idrofobico (o) Idrofilico (s) ssmtbdbrtlbzmopbltrtltmsis Sequenza da modellare

mmmztltltrbmmzibltrxlxzsss Accessibilità al solvente struttura Alfa-elica Beta-strand Coil <40Å2 Idrofobico (a) Idrofilico (d) Idrofobico (b) Idrofilico (e) Idrofobico (g) Idrofilico (z) intermedia Idrofobico (h) Idrofilico (k) Idrofobico (t) Idrofilico (l) Idrofobico (i) Idrofilico (m) >120Å2 Idrofobico (n) Idrofilico (p) Idrofobico (x) Idrofilico (r) Idrofobico (o) Idrofilico (s) mmmztltltrbmmzibltrxlxzsss coil Struttura in bancadati

ssmt bdbrtlbzmopbltrtltmsi s Sequenza da modellare : : | : . : : | : | : | . | | | | : | : : | . | mmmzt ltltrb mmzibltrxlxzsss coil Struttura in bancadati | 3 proprietà in comune : 2 proprietà in comune . 1 proprietà in comune

Fold recognition: threading AVGIFRAAVCTRGVAKAVDFVPVESMETTMRSPVFTDNSSPPAVPQSFQVAHLHAPTGSGKSTKVPAAYAAQGYKVLVLNPSVAATLGFGAYMSKAHGIDPNIRTGVRTITTGAPVTYSTYGKFLADGGCSGGAYDIIICDECHSTDSTTILGIGTVLDQAETAGARLVVLATATPPGSVTVPHPNIEEVALSNTGEIP Mod. 10 Mod. 9 Mod. 8 Mod. 7 Mod. 6 Mod. 5 Mod. 4 Mod. 3 Mod. 2 Mod. 1 Mod. 15 Mod. 14 Mod. 13 Mod. 12 Mod. 11 Score Mod. 2

Fold recognition: mapping AVGIFRAAVCTRGVAKAVDFVPVESMETTMRSPVFTDNSSPPAVPQSFQVAHLHAPTGSGKSTKVPAAYAAQGYKVLVLNPSVAATLGFGAYMSKAHGIDPNIRTGVRTITTGAPVTYSTYGKFLADGGCSGGAYDIIICDECHSTDSTTILGIGTVLDQAETAGARLVVLATATPPGSVTVPHPNIEEVALSNTGEIP Secondary structure prediction ?

Protein Homology/analogY Recognition Engine Fold recognition 3D-PSSM Web Server V 2.6.0 A Fast, Web-based Method for Protein Fold Recognition using 1D and 3D Sequence Profiles coupled with Secondary Structure and Solvation Potential Information. http://www.sbg.bio.ic.ac.uk/~3dpssm/ PHYRE Protein Homology/analogY Recognition Engine http://www.sbg.bio.ic.ac.uk/~phyre/

La natura rinatura le proteine senza confrontarle con un database!!! Ab initio methods “Energy based methods” Base Razionale : La natura rinatura le proteine senza confrontarle con un database!!! Questi metodi non fanno confronti tra la proteina diinteresse ed un database di strutture: Vengono generate numerose conformazioni della proteina di interesse Vengono calcolate le energie delle varie conformazioni Vengono selezionate le conformazioni a minore energia

metodi Ab initio: calcolo dell’energia totale di una conformazione di un polipeptide k1 k2 E totale = + + Lunghezze di legame corrette Angoli di legame corretti k3 1 1 r9 r6  + Angoli di torsione corretti Interazioni attrattive e repulsive deboli +  1 r - + Interazioni elettrostatiche attrattive e repulsive (e?)

conformazioni E Minimi relativi Minimi relativi Minimo assoluto

Se possibile utilizzare il modeling per omologia Conclusioni Se possibile utilizzare il modeling per omologia In alternativa i metodi di fold recognition possono essere utili (è meglio confrontare i risultati di più metodi) Non fidarsi ciecamente dei metodi di predizione, verificare tutte scelte fatte in automatico da programmi e server! Non trascurare mai le conoscenze SPERIMENTALI riguardanti la proteina di interesse!!

Protein Data Bank (PDB) http://www.rcsb.org/pdb/index.html BLAST http://www.ncbi.nlm.nih.gov/BLAST/ SWISS-MODEL (fully automated service) http:/www.expasy.ch/swissmod/SWISS-MODEL.html The ExPASy proteomics server (Expert Protein Analysis System) http://www.expasy.org/spdbv/