La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture.

Presentazioni simili


Presentazione sul tema: "Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture."— Transcript della presentazione:

1 Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture note si sta allargando. Metodi computazionali – Veloci (minuti o ore), poco costosi (PC) – Soluzioni corrette ca. nel 60% dei casi. – Risoluzione più bassa, però spesso sufficiente per spiegare la funzione proteica Osservazione: La sequenza si evolve più rapidamente della struttura ( Chothia & Lesk, 1986 ) – Numero limitato di fold (< 1,000 ?) SequenzeComparative ModelsStrutture

2 Sequenza-struttura-funzione/ predizione di strutture di proteine diverse combinazioni dei 20 aa A I L V M F P Y S T C N Q E D R K H W G Varietà di strutture e funzioni ASSOCIARE A CIASCUNA PROTEINA DI CUI CONOSCIAMO LA SEQUENZA UNA O PIU SPECIFICHE FUNZIONI A LIVELLO MOLECOLARE

3 Codice strutturale ESPERIMENTO DI ANFINSEN NELLA SEQUENZA PRIMARIA E SCRITTA LA STRUTTURA DI UNA PROTEINA PROTEINE CON SEQ. PRIMARIE SIMILI TENDONO AD AVERE STRUTTURE 3D SIMILI CONFRONTO TRA GENOMI i geni essenziali (ciclo cell, sviluppo embrionale, signalling) soggetti a poca variabilità

4 fisica24ore Alcune Applicazioni In primis: conoscere la struttura tridimensionale a risoluzione atomica della molecola per comprendere, spiegare, e a volte anche modificare ed utilizzare, la sua attività biologica.

5 fisica24ore Effettuare MUTAZIONI puntiformi e predire i loro effetti, che possono fornire indicazioni utili per il riconoscimento del sito attivo o di strutture indispensabili all'attività della molecola, dirette ad una certa funzione o nel matenimento della struttura della proteina.

6 fisica24ore Monitorare i cambiamenti strutturali indotti su peptidi o proteine da parte di MEMBRANE BIOLOGICHE, i quali sembrano essere fondamentali per il riconoscimento con il recettore o per oltrepassare la fase lipidica e raggiungere zone altrimenti inaccessibili.

7 fisica24ore Studiare le variazioni conformazionali provocate dallinterazione della proteina con uno o più LIGANDI, la quale fornisce lattivazione (o inattivazione) necessaria per compiere la propria funzione biologica (o per impedirla).

8 Comprendere il processo di FOLDING delle proteine, ovvero il meccanismo di ripiegamento con cui raggiungono la confomazione biologicamente attiva.

9 Applicazioni FARMACOLOGICHE: viene fornita unindicazione specifica, o quanto meno restrittiva, della struttura opportuna in funzione del bersaglio del farmaco. In questo campo, la costruzione di strutture calibrate permette di ridurre la ricerca ad un ristretto raggio dazione.

10 Ipotesi termodinamica di Anfinsen (per proteine a singolo dominio) Linformazione codificata nella sequenza amminoacidica di una proteina determina completamente la sua struttura nativa Lo stato nativo è il minimo assoluto dellenergia libera della proteina

11 Sequenze casuali non sono in grado di ripiegarsi in maniera univoca Esse popolano un limitato gruppo di fold selezionate dalla natura attraverso levoluzione. Ciascuna ha un minimo globale distinto, ben separato dagli altri stati metastabili. Quali sono le proprietà uniche e comuni a tutti gli elementi di questo particolare insieme di strutture di tipo proteico? Le proteine presenti in natura non sono sequenze casuali.

12 Metodi per la predizione della struttura secondaria e di domini/regioni disordinate

13 Propensione dei residui aminoacidici a formare elementi di struttura secondaria come riportato da Chou-Fasman (1978b) (C&F) e Levitt (1978) (L). La colonna pr classifica i residui come indifferenti (=) o stabilizzatori/destabilizzatori forti (++/--) e deboli (+/-) della struttura secondaria. elicafoglietto ripiegamento aaC& F LpraaC& F LpraaC& F L Glu Val Asn Met Ile Gly Ala Tyr Pro Leu Phe Asp Lys Trp Ser Phe Leu Cys Gln Cys Tyr Trp Thr Lys Ile Gln Gln0.98 Val Met Thr Asp =Arg =Trp His =Asn =Arg Arg =His =His Thr =Ala Glu Ser =Ser Ala Cys =Gly Met Tyr Lys Phe Asn Pro Leu Pro Asp Val Gly Glu Ile Ad.es. PREDIZIONE 2D che si basa sullanalisi statistica della composizione in residui delle strutture secondarie presenti nella PDB o sulle propensioni di certi amminoacidi a trovarsi in determinati elementi 2D.

14 Metodi di predizione della struttura 2D e disordine delle proteine a partire dalla sequenza: Diversi programmi per predizione 2D: Ad es. PSIPRED oppure JPRED che applica diversi metodi e fa un consensus dei vari metodi Disopred o Disoclust programmi per la predizione di regioni intrinsecamente disordinate a partire dalla sequenza. Mentre GeneSilico e un metaserver per la predizione del disordine usando il consenso di diversi metodi. Associata alla predizione della struttura 2D o del disordine intrinseco ce sempre un livello di confidenza (da 0 a 9) che va osservato con cautela prima di trarre conclusioni. disordine

15 Diagramma di flusso della modellizzazione proteica Sequenza proteica Proteina omologa nella banca dati PDB? Predizione della struttura secondaria/ Predizione disordine intrinseco Allineamento delle Sequenza ai fold noti (fold recognition) Predizione della struttura terziaria ab-inito Modellizzazione Comparativa (Homology) Dati sperimentali Assegnazione dei domini Allineamento multiplo di sequenza Predizione del fold E stato predetto un fold? Ricerca nelle banchedati No Sì No Modello tridimensionale della proteina

16 che viene usata come STAMPO. Permette di costruire la struttura tridimensionale di una proteina sulla base della SIMILARITÀ DI SEQUENZA con unaltra proteina di struttura NOTA

17 Utilizza strutture note (template) di uno o più membri di una famiglia strutturale-funzionale per predire la struttura (target) di un altro membro della famiglia la cui sequenza sia nota. Si basa sulle seguenti osservazioni: le proteine appartengono ad un numero limitato di famiglie strutturali proteine della stessa famiglia (omologhe) hanno strutture tridimensionali molto simili e conservate applicabile con successo se esiste almeno un omologa a struttura nota (id. > 30% con il templato)

18 HOMOLOGY MODELLING OMOLOGO 3D (PDB) ALLINEAMENTO RICERCA DEL TEMPLATO Blast-FastA -CRITERI IDENTITA/SIMILARITA -CONOSCENZA FUNZ.-STR.-BIOCHIM.

19 ALLINEAMENTO GUIDA LA COSTRUZIONE DEL MODELLO CORRISPONDENZA aa target aa templato ricerca ALLINEAMENTO OTTIMALE CORRISPONDENZA DI aa FUNZ. IMPORTANTI CORRISPONDENZA DELLA STRUTTURA SECONDARIA TRA TEMPLATO E QUERY VALUTAZIONE DEI GAP loop USO TEMPLATI MULTIPLI loc.similarità

20 ALLINEAMENTO 1. Generazione di allineamenti a coppie diversi con diversi programmi (nel caso di un solo templato) 2. Allineamenti multipli di omologhi per avere informazioni maggiori 3. Ricerca di informazioni biologico-biochimiche sugli aa conservati 4. Predizione di struttura secondaria per il target 5. Correzione dellallineamento sulla base delle informazioni ai punti e 4.

21 Dalla sequenza al modello Raw model Loop modeling Side chain placement Refinement

22 CREAZIONE DEL MODELLO identificazione SCR (structural conserved regions) SCR scaffold del modello ______________ ______________ x-ray SCRs No SCRs (loops ?) Raw model Loop modeling Side chain placement Refinement

23 Costruzione del pre-modello La struttura del templato viene utilizzata come stampo per costruire il modello seguendo lallineamento. Le coordinate 3D dei residui strutturalmente conservati si possono copiare direttamente. Le regioni variabili della struttura (generalmente loop) non si possono copiare. flexible conserved

24 Catene laterali Problema: Applicando le coordinate del templato sulla sequenza del target cambiano tipo, dimensione e posizione delle catene laterali. LRMSD cambia relativamente poco, però possono cambiare le conformazioni di residui importanti (p.es. del sito attivo) Dove possibile è meglio mantenere le conformazioni delle catene laterali del templato. Esistono metodi standard per risolvere questo problema. Raw model Loop modeling Side chain placement Refinement

25 PREDIZIONE DELLE CATENE LATERALI AUSILIO DI LIBRERIE DI ROTAMERI Contengono i possibili conformeri delle catene laterali a fronte di specifiche conformazioni del backbone OTTIMIZZAZIONE ENERGETICA DELLE STRUTTURA rimozione di clash

26 Loop modeling Al pre-modello possono mancare interi frammenti di catena principale – non conservati nella famiglia proteica – Inserzioni – Delezioni Descrizione del problema: – Si cerca un fold che colleghi il frammento N- terminale (pre-loop) con quello C-terminale (post-loop) tramite k residui – (, ) sono gli unici parametri liberi loop post-loop pre-loop Raw model Loop modeling Side chain placement Refinement

27 PREDIZIONE DEI LOOP REGIONI VARIABILI – pressione selettiva DUE STRATEGIE PREDITTIVE: criterio geometrico testando diverse conformazioni ricerca in PDB di frammenti simili nelle proteine a struttura nota INFLUENZA DELLINTORNO REFINEMENT CRITICO OTTIMIZZAZIONE MEC. E DIN. MOL. CRITICITA nella predizione quando i LOOP rivestono ruolo funzionale o di interazione.

28 5. Ottimizzazione del modello Minimizzazione energetica Regolarizzazione di legami, angoli e torsioni Eliminazioni di clash strutturali

29 6. Controllo della qualità del modello programmi che valutano la qualità dal punto di vista geometrico della struttura (grafico di ramachandran, planarità, clash…) programmi che fanno una predizione dellrmsd del modello della proteina rispetto alla sua putativa struttura nativa

30 FOLD RECOGNITION Predizione di sequenza con similarità con proteine a struttura nota. Osservazione: La natura utilizza solamente un numero limitato di fold diversi Idea della fold recognition: Cerca di rappresentare la struttura ignota con dei fold conosciuti, valuta quale potrebbe essere quello corretto.

31 FOLD RECOGNITION -per casi predittivi in cui non ci sono omologie chiare con proteine a struttura nota (TWILIGHT ZONE (id.seq tra target e templato 15

32 METODO DEGLI Structural environment - detto anche metodo dei profili 1D-3D o di Eisenberg - ASSUNZIONE: ambiente di un residuo più conservato del residuo stesso (adatto a relazioni distanti) - descrive intorno strutturale di ogni aa in ogni proteina a struttura nota e valuta la frequenza con cui ognuno dei 20 aa si trova in un certo intorno - ambiente/intorno strutturale è descritto sulla base di 3 principi (aspetti + importanti di una struttura proteica): 1.Quanto un residuo in una posizione è schermato dal solvente? 2.Quanto è a contatto con gruppi polari o idrofobici? 3.La struttura secondaria in cui è collocato -Combinazioni dei 3 parametri definiscono diverse CATEGORIE STRUTTURALI (in tutto 18 classi strutturali) 6 classi rappresentano lintorno delle catene laterali che può essere non accessibile (B), parzialmente accessibile (P) o accessibile al solvente (E) P e B sono suddivisi sulla base della frazione dellintorno che è costituita da atomi polari 1– 3 categorie di frazioni di contatti polari (frazione dellarea della catena laterale coperta da atomi polari): 0-0.4, , > 0.8. E sempre a elevata frazione polare. 6 classi: E, P1, P2, B1, B2 e B3 Ciascuna di queste potrà trovarsi in una struttura α o β o altro e quindi le classi possibili sono 18.

33 METODO DEGLI Structural environment -A questo punto entra in gioco un eventuale sequenza x cui voglio valutare la fitness per una data struttura (sequenza target). Confronterò gli amminoacidi della mia sequenza con gli ambienti strutturali definiti sulla base delle strutture note (si parla in questo senso di ALLINEAMENTO SEQUENZA-STRUTTURA) -Si cerca, in sostanza, di adattare ad un fold già noto la sequenza in esame e si cerca lallineamento ottimale (operazione fatta tra la seq e tutte le strutture disponibili); -Allallineamento è sempre assegnato un punteggio di cui valutare la significatività statistica (E-value o z-score).

34 METODO DEI CONTATTI TRA AMMINOACIDI -Si basa, per descrivere i fold noti, su interazioni tra coppie di amminoacidi (sulla distanza tra amminoacidi nelle proteine a struttura nota); -ASSUNZIONE ALLA BASE: le strutture native delle proteine sono stabilizzate da interazioni intramolecolari tra i vari atomi della proteina e intermolecolari tra essi e le molecole di solvente -Dalla banca dati di strutture costruisce una funzione pseudopotenziale che descrive lo spazio conformazionale della proteina: per ogni possibile coppia di aa in una struttura valuto la distanza (di solito Cα-Cα) tra i residui in esame e calcolo una funzione che descrive questa interazione; -Le funzioni pseudopotenziale sono una per ogni coppia di residui e le costruisco sulla base della frequenza con cui osservo una data coppia a una data distanza nel database PDB.

35 METODO DEI CONTATTI TRA AMMINOACIDI -Ad esempio x la coppia ala-ala: misuro in ogni proteina la distanza tra i Cα e costruisco una distribuzione in cui metto in relazione ogni distanza alla frequenza con cui è osservata -Per passare dalle frequenze a energie si usa il principio di Boltzmann che correla probabilità di uno stato con la sua energia -La distanza geometrica r è influenzata dalla distanza in sequenza: si prende in considerazione anche questa; -Parametri da considerare: a,b (i 2 residui); c,d (atomi considerati per le distanze, es Cα-Cα); k è la distanza in sequenza. -

36 Homology modelling Threading/Fold -recognition Identifica prima gli omologhi Prova tutte le possibili strutture Si determina lallineamento ottimale Prova tutti i possibili allineamenti strutturali Ottimizza un modello Valuta molti modelli poco accurati nei dettagli per HOMOLOGY MODELLING: programma Modeller per F.RECOGNITION/THRE ADING: Phyre, GenThreader, 3D-PSSM + metaserver che fanno consenso HHPRED server: sia per homology modelling che threading in caso di templati con identita non troppo bassa (perche si appoggia per definire gli allineamenti su metodi accurati per definire omologie remote tipo HMM

37 Il metodo ab initio (predizione de novo) Il problema della predizione di struttura ab initio data una sequenza proteica, calcolarne la struttura Il calcolo è basato sulla stima dellenergia relativa alla posizione di ciascun atomo nello spazio e la sua relazione chimico-fisica con gli altri atomi Il minimo globale della funzione energia definisce la struttura 3D È teoricamente possibile Essendo la biofisica complessa ed incompleta è nella pratica ancora molto difficile ROSETTA, sviluppata dal gruppo di David Baker

38 Ab initio methods for modelling NO allineamento NO struttura nota Costruire una funzione empirica che descriva le forze di interazione Esplorare lo spazio conformazionale per massimizzare funzione di merito Programmi per ab-initio es. Rosetta o I-Tasser (I-Tasser usa metodi misti di threading e ab-initio)

39 Modello di folding su cui si basa Rosetta: Local sequence fragments rapidly alternate between different possible local structures, and folding occurs when the conformations and relative orientations of these local segments combine to form low energy global structures E UN PROBLEMA DI CAMPIONAMENTO CONFORMAZIONALE

40 PROBLEMA DI CAMPIONAMENTO CONFORMAZIONALE: Ricerca della geometria di minima energia Richiede: 1.Metodo di ricerca/generazione delle conformazioni 2. Funzione energetica (funzione di scoring energetico) per valutarle Nei metodi ab-initio: Rappresentazioni ridotte delle proteine/ Potenziali detti knowledge-based semplificati/ ricerca di conformazionale coarse-grain

41

42

43

44

45

46 Building by homology (Homology modelling) G Y M A A A A K S T A A G G G Y F F Y L E D A V V V V L V I L S E D S Allineamento con proteine a struttura nota Modello strutturale

47 Fold recognition (Threading) Sequenza: + Motivi strutturali noti SLVAYGAAM Modello strutturale

48 Ab initio Sequenza SLVAYGAAM Modello strutturale

49 NOTE GENERALI PER IL MODELLING prima di cercare di ottenere un modello raccogliere quante piu informazioni possibili sulla proteina, e soprattutto definire i suoi domini strutturali (che potrebbero richiedere procedure di modelling diverse) raccogliere informazioni su propensione a determinate strutture secondarie e disordine intrinseco valutare con metodi di ricerca di similarita in banche dati (Blast, PSI-Blast) se esistono omologhe a struttura nota Fare allineamenti multipli con le omologhe a struttura nota e eventualmente altre a sola sequenza nota per identificare bene regioni conservate nella famiglia di proteine di studio Validare sempre gli allineamenti proposti dai programmi per il modelling (soprattutto per metodi di threading e ab-initio o per casi di templati con bassa identita di sequenza)


Scaricare ppt "Perchè predire la struttura terziaria? In cifre: – 700,000+ sequenze proteiche – ~ 20,000 strutture, ~ 5,000 uniche – La distanza tra sequenze e strutture."

Presentazioni simili


Annunci Google