Struttura delle proteine

Slides:



Advertisements
Presentazioni simili
I protidi o proteine Le proteine sono i costituenti fondamentali degli organismi viventi  e occupano una posizione primaria nell'architettura e nelle funzioni.
Advertisements

Perchè predire la struttura terziaria?
gruppi di amminoacidi in base alle catene laterali
PROSITE contiene anche pattern ad ALTA OCCORRENZA, corti e aspecifici (modifiche post-traduzionali) Es. phosphorylation by CK2 [ST]-x(2)-[DE]
RICERCA DI SIMILARITA’ IN BANCHE DATI
Bioinformatica Predizione della struttura secondaria dell’RNA – MFOLD
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Le proteine: come sono fatte, come funzionano, e come si sono evolute
Predizione della Struttura Terziaria.
La Struttura Terziaria
BASI DI DATI BIOLOGICHE - 3
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Previsione della struttura secondaria secondo Chou e Fasman
STRUTTURA ELICOIDALE DEL COLLAGENE (POLIPROLINA II)
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
Le proteine sono gli agenti indispensabili per lo svolgimento della
Modelli simulativi per le Scienze Cognitive Paolo Bouquet (Università di Trento) Marco Casarotti (Università di Padova)
Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dell’RNA 27/04/2011.
PATTERN RECOGNITION.
Metodi basati sulle similitudini per dedurre la funzione di un gene
Elementi di regolarità della struttura proteica a livello primario
Analisi dei gruppi – Cluster Analisys
Apprendimento Automatico Apprendimento non supervisionato:
APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA
Dipartimento di Biochimica, Biofisica e Chimica delle Macromolecole
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Funzioni, struttura e caratteristiche
FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990)
Allineamenti multipli
Homology modelling L’omology modeling delle proteine è il tipo di predizione di struttura terziaria più semplice ed affidabile. Viene richiesta soltanto.
Struttura delle proteine
Esistono 3 metodi principali di predizione:
Predizione della struttura delle proteine
Come si può studiare la struttura di una proteina
LE PROTEINE Relatori: Regolo Matteo Scavuzzo Pasquale
Fisica Computazionale applicata alle Macromolecole
In questa lezione ci occuperemo
Ricerca di similarità di sequenza (FASTA e BLAST)
Tipi di allineamenti.
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Errori casuali Si dicono casuali tutti quegli errori che possono avvenire, con la stessa probabilità, sia in difetto che in eccesso. Data questa caratteristica,
Acidi nucleici e proteine
FORMA ZWITTERIONICA Proprietà a.a : alti p.f., solubilità in acqua, proprietà acido base perché classificabili come anfoteri.
Le PROTEINE o PROTIDI I protidi o proteine sono composti quaternari in quanto formati essenzialmente da 4 elementi: C (carbonio), H (idrogeno), O (ossigeno)
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Determinazione della fase
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Il residuo nella predizione
Laurea Ing. EO/IN/BIO;TLC D.U. Ing EO 3
Allineamento di sequenze
Pietro Ferraro.
AMMINOACIDI E PROTEINE
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.
La struttura delle biomolecole è un argomento di grande interesse per molti settori della ricerca di base e applicativa Funzione STRUTTURA Meccanismo.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Annotazione strutturale dei genomi
CONFORMAZIONE organizzazione spaziale degli atomi in una proteina STRUTTURA NATIVA conformazione funzionale di una proteina La FUNZIONE di una proteina.
organizzazione spaziale degli atomi in una proteina
REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.
STRUTTURE DI MACROMOLECOLE & BANCHE DATI STRUTTURALI.
  Disegno assistito dal computer STRATEGIE PER LA RICERCA DEI NUOVI LEADS Computer-assisted design utilizza la chimica computazionale per al scoperta.
STORIA DI UNA TRIPLETTA: BASI VS AMINOACIDI 3 A 1 Il Codice Genetico Metodo didattico: Spaced Learning Prof. M. Della Mea.
Esempio di allineamento Due regioni simili delle proteine di Drosophila melanogaster Slit e Notch SLIT_DROME FSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFC..:.:
Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Esistono delle banche dati derivate simili a pfam, cioe’ banche dati in cui le proteine sono organizzate per famiglie ma che a differenza di pfam comprendono.
PARAGONE CON I RISULTATI SPERIMENTALI Dobbiamo correlare i parametri  ed s con variabili sperimentali. Per fare questo assumiamo che la costante di equilibrio.
Protein Structure Prediction
Transcript della presentazione:

Struttura delle proteine Struttura primaria Struttura secondaria Struttura terziaria Struttura quaternaria Metodi di predizione di struttura secondaria Homology Modelling Fold Recognition Folding ab-initio Dicroismo circolare Cristallografia ai RX NMR

L’organizzazione di struttura secondaria e terziaria di una proteina è determinata dalla struttura primaria. Circa il 50% del backbone di una proteina si ripiega formando strutture secondarie come l’alfa elica o il foglietto beta. E’ più semplice predire la struttura ad alfa elica che non il foglietto beta: infatti, l’alfa elica è determinata da interazioni locali (ovvero che si formano tra amminoacidi a poca distanza nella sequenza), mentre la struttura a foglietto beta-strand è molto più dipendente dal contesto: servono infatti due o più beta-strands affiancati per formare un foglietto beta, e gli strands possono essere anche molto lontani nella sequenza.

Dalla sequenza alla struttura secondaria Dall’analisi delle sequenze delle proteine è possibile predire la struttura secondaria che tali sequenze possono assumere. Metodi per la predizione delle strutture secondarie: • Approcci statistici: Chou and Fasman, Garnier-Osguthorpe-Robson (GOR) • Proprietà chimico fisiche: Rose, Eisenberg et al., … • Riconoscimento di pattern: Lim, Cohen et al., … • Reti Neurali: PHD, PSIPRED, … • Consenso di metodi: SOPM, SOPMA, JPRED, …

Predizione di strutture secondarie Metodo Chou-Fasman: Sviluppato negli anni ’70, si basa su una procedura statistica che valuta la propensione di ogni amminoacido di far parte di una struttura secondaria. Ogni amminoacido viene classificato per la sua propensione ad entrare in strutture secondarie come “former”, “breaker” o “indifferent”. Si assegna quindi ad ogni residuo la Conformazione avente maggiore probabilita' media su una finestra di un certo numero di amminoacidi (da 5 a 7) che lo circondano. .

Predizione di strutture secondarie Metodo Chou-Fasman: Il dataset originale comprendeva solo 15 proteine; in seguito venne ampliato fino a 144 proteine. L’attendibilità del metodo è abbastanza bassa (circa 50%), tuttavia il metodo Chou-Fasman è ancora molto utilizzato grazie soprattutto alla semplicità di approccio. Metodo GOR: Sviluppato negli anni ’70, si basa su una procedura simile a quella del metodo Chou-Fasman, ma usa finestre di lunghezza maggiore.

Caratteristiche chimico-fisiche e riconoscimento di pattern: Metodi di predizione che si avvalgono del riconoscimento di pattern strutturali specifici o di caratteristiche chimico-fisiche per identificare la presenza di elementi di struttura secondaria. Possono usare allineamenti multipli di sequenze anziché sequenze singole, e tengono conto di: - Posizioni di inserzioni e delezioni (di solito in corrispondenza di loop) - Gly e Pro conservate (presenza di beta turn) - Residui polari e idrofobici alternati (presenza di beta strand di superficie) - Amminoacidi idrofobici e idrofili con periodicità 3.6 (alfa eliche anfifiliche) La predittività con questi metodi migliora di circa 8-9% rispetto ai soli metodi statistici.

Definizione di pattern Un pattern è costituito da un insieme di caratteri (nucleotidi o amminoacidi) non necessariamente contigui nella sequenza ma che si trovano sempre o sono spesso associati ad una precisa struttura e funzione biologica (ad esempio: promotori o hanno la stessa capacità di legare nucleotidi)

Reti Neurali: PHD e PSIPRED sono due metodi che, a partire da singole sequenze o da allineamenti multipli, usano reti neurali per predire le strutture secondarie presenti. Affidabilità: media del 72%, fino a punte del 90%

RETI NEURALI Sono circuiti di informazioni con un numero fissato di nodi (che sono definiti (STATI) in cui immagazzinare le informazioni risultanti dalle varie interconnessioni ed una precisa ARCHITETTURA che rappresenta l’interconnessione tra i vari nodi. Questo è un esempio di ARCHITETTURA:

RETI NEURALI Se io fornisco ad una rete neurale una informazione ed il suo risultato (training set) Gli stati memorizzano il modo di andare dall’informazione al risultato sfruttando le interconnessioni Se io ripeto più volte la fase di training con set diversi, ma sempre veri, la rete sarà in grado di arrivare da sola al risultato (fase di apprendimento) Se io fornisco alla rete una informazione di cui non so il risultato, essa risponderà ….. fornendoci il risultato secondo lei più appropriato, sulla base di quanto ha imparato dai training set.

PHD Alla base del metodo c’è l’osservazione che in un allineamento multiplo si evidenziano conservazioni di amminoacidi che rispettano la conservazione della struttura. La singola query viene confrontata con le sequenze presenti in banche dati per trovare proteine simili. La query e le proteine simili vengono allineate tutte insieme. Quindi, l’allineamento multiplo è usato come input della rete neurale. I risultati che si ottengono sono sottoposti ad una analisi statistica per valutare l’attendibilità delle predizioni per ogni residuo.

PSIPRED Il sistema di calcolo è composto da due reti neurali che analizzano i risultati della prima interazione di PSI-BLAST. 1 - Esecuzione di PSI-BLAST con la query desiderata 2 - Generazione di una PSSM (matrice posizionale di scoring) dai risultati della prima iterazione 3 - Predizione della struttura secondaria con una rete neurale opportunamente addestrata 4 - Una seconda rete neurale di correzione filtra il risultato e genera l’output definitivo, valutando la confidenza per ogni residuo.

Consenso di metodi

JPRED utilizza più metodi di predizione sulla proteina query e costruisce una predizione finale mediante il confronto dei risultati dei singoli metodi. Esempio: Proteina PDB 1FXI_A PHD: 78.12 DSC: 83.33 Predator: 72.92 Mulpred:76.04 NNSP: 77.08 Zpred: 58.33 JPRED (Consensus): 81.25

Calcolo dell’affidabilità delle predizioni: Q3 score: la percentuale di residui di una proteina la cui struttura secondaria viene correttamente predetta dai vari metodi Un metodo più rigoroso: calcolare il coefficiente di correlazione per ogni classe di strutture secondarie: ad es. per le eliche a: numero di residui assegnati correttamente alle eliche b: numero di residui assegnati correttamente a non eliche c: numero di residui assegnati in modo errato a eliche d: numero di residui assegnati in modo errato a non eliche

A cosa può servire il risultato della predizione della struttura secondaria ? L’utilizzo dipende dall’affidabilità della predizione: definizione della classe strutturale e confronto con classificazione di proteine (db SCOP, CATH) confronto con organizzazione di struttura secondaria di proteine note - confronto con risultati di altri metodi (anche metodi di predizione della struttura terziaria)

Metodi di predizione della struttura secondaria delle proteine: Metodi di Chou-Fasman si basa sull’analisi statistica della composizione in residui delle strutture secondarie presenti nella PDB. (http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1) GOR si basa sull’analisi statistica della composizione in residui delle strutture secondarie presenti nella PDB. (http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_gor4.html) AGADIR per predire la percentuale di residui in elica (http://www.embl-heidelberg.de/Services/serrano/agadir/agadir-start.html) PHD prende in input o una sequenza o un allineamento multiplo ed usa le reti neurali. (http://www.embl-heidelberg.de/predictprotein/predictprotein.html) PSIPRED utilizza un sistema di due reti neurali. (http://bioinf.cs.ucl.ac.uk/psipred/) PREDATOR si basa sull’applicazione del metodo del k-esimo vicino che usa le reti neurali (http://bioweb.pasteur.fr/seqanal/interfaces/predator-simple.html) JPRED (http://www.compbio.dundee.ac.uk/Software/JPred/jpred.html) fa un consensus di vari metodi

Chou and Fasman Prediction

PHD

Output of JPred prediction

ALTRI PROGRAMMI

Struttura terziaria

Sequenza Struttura Funzione Genomi Sequenza Struttura Funzione

Sequenze simili  Strutture simili

Sequenze diverse  Strutture simili

Funzione Strutture Sequenze

Deidrogenasi

Struttura 3D delle proteine Metodi Sperimentali Diffrazione ai Raggi X (RX) Risonanza Magnetica Nucleare (NMR) Metodi Computazionali Fold Recognition Folding ab-initio Homology Modelling HOMOLOGY MODELLING

Predizione della struttura tridimensionale di proteine Nuovi fold Fold già esistenti Homology Modeling Ab initio Threading 0 10 20 30 40 50 60 70 80 90 100 Homology (%)

Predizione della struttura tridimensionale delle proteine Esistono proteine con sequenza simile e struttura 3D nota ? Informazione minima necessaria: Sequenza della proteina NO SI Fold recognition ? Modellamento per omologia La sequenza in esame è compatibile con una struttura 3D nota? Verifica della qualità del modello Allineamento sequenze Costruzione del modello sul riferimento della struttura nota SI NO Modellamento “ab initio” From Costantini et al., 2006

Modellamento per omologia

Modellamento comparativo Permette di costruire il modello 3D di una proteina (‘target’) a partire da proteine omologhe (‘template’), la cui struttura è stata caratterizzata sperimentalmente. La percentuale di identità di sequenza tra la proteina target e quelle template deve essere superiore al 30-40%. Alta identità di sequenza buon allineamento delle sequenze buoni modelli ottenuti per omologia

Modellamento Comparativo Modellamento delle Regioni strutturalmente conservate (SCR) Modellamento delle Regioni Loop Modellamento delle Catene Laterali Raffinamento del modellamento

Modellamento Comparativo SEQUENZA ………AQYSKRREVQCSVTDSEKRSLVLVPNSMELHAVMLQGGSDRCKVQL…… RICERCA DEL TEMPLATO BLAST TARGET-TEMPLATE ALLINEAMENTO CLUSTALW PROSA PROCHECK VALUTAZIONE DEL MODELLO MODELLER MODELLO

CD8 in orata Dopo una ricerca in BLAST: - 20 sequenze indicate come CD8 da differenti organismi - Struttura sperimentale del CD8 umano e murino Percentuale di identità di sequenza: Uomo Topo orata 100 45 26   25 Orata

Allinemanto multiplo delle 20 sequenze di CD8

Allinemanto delle sequenze di CD8 Human SQFRVSPLDRTWNLGETVELKCQVLLSNPTSGCSWLFQPRG Mouse KPQAPELRIFPKKMDAELGQKVDLVCEVLGS-VSQGCSWLFQNSS Seabream TDEVKAVTEGDNAEIKCHPSDPGS--MIIWFRVRDK Human AA-ASPTFSQNKPKAA--EGLDTQ-RFSGKRLG-DTFVLTLSDFR Mouse SKLPQPTFASSHNKITWDEKLNSSKLFSAMRDTNNKYVLTLNKFS Seabream SG---MEFSSNGMPKP–-NTKSPSSTFIDSKIG--QNILILQSFK Human -RENEGYYFCSALS-NFSHFVPVFLPA Mouse -KENEGYYFCSVIS-NFSSVVPVLQKVSSA Seabream EAVDSGVYSCATLYKGFGEVTRLVGVK

Analisi dei modelli

Modello di CD8 Il modello presenta una struttura principalmente beta. Cys86-Cys17 Il modello presenta una struttura principalmente beta.

Come si predice la conformazione dei loops? Metodi basati sull’ottimizzazione delle conformazioni. Si genera un gran numero di conformazioni e si sceglie quella più adatta in termini di valori energetici.

Metodi basati sulla ricerca nelle banche dati In genere all’interno di una banca dati strutturale qual è il loop che meglio si adatta alle regioni adiacenti ad esso.

Esistono anche programmi specializzati per inserire loop nelle strutture delle proteine: alcuni di essi sono liberamente fruibili e scaricabili dal sito Web degli autori.

Modellamento catene laterali Le catene laterali degli amminoacidi hanno conformazioni energeticamente favorite, che si traducono nella frequenza con cui ogni amminoacido assume una determinata conformazione in proteine a struttura nota. Si possono creare liste degli angoli corrispondenti alle conformazioni preferite nelle proteine note, creando le “librerie di rotameri”

Esistono anche programmi specializzati per inserire catene laterali nelle strutture delle proteine: alcuni di essi sono liberamente fruibili e scaricabili dal sito Web degli autori.

Sono mostrate le distorsioni in regioni correttamente allineate. Linea sottile: struttura ai Raggi X; Linea spessa: template utilizzato per il modellamento; Linea tratteggiata: modello ottenuto per omologia.

Errori nelle regioni allineate male. Linea sottile: struttura ai Raggi X; Linea spessa: modello ottenuto per omologia; Linea tratteggiata: template utilizzato per il modellamento.