In questa lezione ci occuperemo

Slides:



Advertisements
Presentazioni simili
Organizzazione del genoma umano I
Advertisements

Geni costitutivi e non costitutivi
Sintesi proteica Prof. Domenico Ripolo.
RICERCA DI SIMILARITA’ IN BANCHE DATI
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Dal DNA alle Proteine: Traduzione del Messaggio Genetico
Bioinformatica Prof. Mauro Fasano
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
SINTESI PROTEICA.
BASI DI DATI BIOLOGICHE - 3
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
TRASCRIZIONE del DNA.
Organizzazione del genoma umano III
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Verifica della espressione dei geni predetti Al fine di verificare che i geni predetti siano effettivamente trascritti si può fare una ricerca in banca.
Genomica Andrea G. B. Tettamanzi.
La Sintesi Proteica.
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Caratterizzazione di un gene clonato
Metodi basati sulle similitudini per dedurre la funzione di un gene

L’ordine degli esoni è lo stesso nel genoma e negli mRNA
La mutazione genica La mutazione genica è un cambiamento del materiale ereditario di un gene. Un gene è una sequenza di nucleotidi del DNA, che codifica.
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Analisi della struttura primaria delle proteine
Riassumendo Ci sono diverse modalità con cui un gene può produrre trascritti alternativi Inizi alternativi della trascrizione Terminazioni alternative.
D N A LA MOLECOLA DELLA VITA.
Software per la Bioinformatica
Ivana Calarco DIFFERENZIAMENTO 29/03/2017.
Ricerca di similarità di sequenza (FASTA e BLAST)
UNITA’ DIDATTICA: L’RNA
CORSO DI BIOLOGIA - Programma
CORSO DI BIOLOGIA - Programma
Alcuni esempi di domande di esame
BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze.
Tutorial per l’utilizzo di k ScanProsite
CORSO DI BIOLOGIA - Programma
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Dip. Scienze Biomolecolari e Biotecnologie
Sequenze e Banche Dati Biologiche
DNA – REPLICAZIONE (1) Semiconservativa: Catene genitrici
Annotare i geni Gene xxxx Gene zzzz 3 esoni 7 esoni proteina y
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
TRADUZIONE del RNA.
Pseudogeni = geni non funzionali
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Allineamento di sequenze
La sintesi proteica La sintesi proteica è il processo che porta alla formazione delle proteine utilizzando le informazioni contenute nel DNA. Si tratta.
La trascrizione del DNA
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Capacità di riprodursi struttura nucleo DNA, RNA Membrana semipermeabile Parete cell organelli metabolismo Scambi energia e materia vegetale animale unicellulare.
Annotazione strutturale dei genomi
Struttura di alcuni batteriofagi modello
Sintesi dell’ RNA.
DIAGNOSI MOLECOLARE DI UNA MALATTIA GENETICA E SVILUPPO DI UNA TERAPIA GIUSEPPINA ANDREOTTI M.VITTORIA CUBELLIS.
Geni “cliccabili”. SRS : Ensembl : NCBI : Sanger centre :
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
UD5 Fase I Le Mutazioni Ovvero quando il codice genetico è errato o viene erroneamente decodificato.
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Sintesi proteica Prof. Domenico Ripolo.
Definizione di GENETICA
Transcript della presentazione:

In questa lezione ci occuperemo Ricerca di pattern e motivi funzionali in sequenze nucleotidiche Ricerca di pattern e motivi funzionali in sequenze proteiche Potremmo enunciare il seguente paradigma: La sequenza del DNA determina la sequenza di una proteina La sequenza di una proteina ne determina la struttura La struttura di una proteina ne determina la funzione

Dal DNA …………….. alle Proteine

Sequenze nucleotidiche Sequenze proteiche TRADUZIONE

… ctggcccacaagtatcactac… Esercizio relativo alla traduzione di una sequenza nucleotidica in una sequenza amminoacidica Data la sequenza del gene della b-emoglobina umana: … ctggcccacaagtatcactac… 1)Scrivere la traduzione di questa sequenza in una sequenza amminoacidica 2)Scrivere la sequenza nucleotidica per un cambiamento di una singola base che produca una mutazione silente in questa regione (la mutazione silete è quella che lascia invariata la sequenza amminoacidica) 3)Scrivere la sequenza nucleotidica e la traduzione in sequenza amminoacidica per un cambiamento di una singola base che produca una mutazione di un amminoacido.

Ricerca di pattern e di motivi funzionali Qualche definizione necessaria ……. Un motivo di interesse biologico è costituito da un insieme di caratteri (nucleotidi o amminoacidi) non necessariamente contigui nella sequenza ma che si trovano sempre o sono spesso associati ad una precisa struttura e funzione biologica (ad esempio: promotori o hanno la stessa capacità di legare nucleotidi) La bioinformatica si occupa di sviluppare metodi per il riconoscimento di pattern di interesse biologico e di curare banche dati in cui tali pattern siano organizzati e resi disponibili per l’analisi strutturale e funzionale di nuove sequenze. Ciò deriva dal fatto che nel corso dell’evoluzione la natura ha sviluppato uno o pochi modi per erealizzare una nuova funzione (ad es. attività catalitica o altro)

Per quanto riguarda la Ricerca di pattern e motivi funzionali in sequenze nucleotidiche In realtà non ci sono strumenti che possono essere utilizzati indifferentemente per l’analisi di una qualsiasi sequenza nucleotidica. Infatti nella studio dei segnali importanti per l’identificazione dei singoli geni è necessario considerare alcuni punti: Alcuni programmi sono stati sviluppati per un organismo specifico o per un numero limitato di organismi Per tutte le sequenze è necessario un filtro che escluda dall’analisi le sequenze ripetitive. Infatti, una grande parte del DNA è costituito da sequenze di DNA ripetute che non fanno parte di regioni codificanti. Queste sequenze devono essere eliminate perché possono interferire con le misure di similarità biologicamente significative nel corso delle ricerche in banche dati Ci sono due programmi che fanno questo: CENSOR (http://www.girinst.org/Censor_Server.html) e RepeatMasker (http://www.repeatmasker.org/) Questi due programmi accedono a raccolte di sequenze di DNA ripetute ed operano un confronto con le sequenze sottomesse al programma riuscendo ad identificare le sequenze ripetute presenti e le sottraggono dalla ricerca.

Censor può essere usato con sequenze proteiche e nucleotidiche Possiamo scegliere un organismo per il quale fare la ricerca Scegliere di andare a valutare le percentuali di identità e non di similarità come viene fatta di default

A noi potrebbe interessare: Ricercare i promotori eucariotici L’identificazione dei promotori è importante per l’identificazione di sequenze geniche codificanti e per la corretta assegnazione di esoni tra i geni situati nella stessa porzione del cromosoma (PromoterScan: http://www-bimas.cit.nih.gov/molbio/proscan/) 2) Ricercare i siti di giunzione tra introni ed esoni Un gene è costituito da una sequenza codificante interrotta da sequenze non codificanti (dette introni). I geni sono combinazioni di corti esoni ed introni di lunghezza variabile. Il termine esoni si applica a tutte le regioni che non sono eliminate nel corso di maturazione del RNA [cioè le regioni non tradotte al 5’ dei geni, quelle codificanti vere e proprie (CDS) e le regioni non tradotte al 3’]. Identificare i siti di giunzione tra introni ed esoni per una corretta predizione della struttura di un gene. NetGene: http://genome.cbs.dtu.dk/services/NetGene2/ GenScan: http://genes.mit.edu/GENSCAN.html GenScan è il programma più usato per predire la struttura di un gene

3) Siti di inizio della traduzione Il codone di inizio è in generale (anche se non sempre) il codone AUG che codifica per la Metionina (GeneMark: http://exon.gatech.edu/GeneMark/genemark_prok_gms_plus.cgi/) 4) Identificazione dei segnali di poliadenilazione e di terminazione della traduzione La più nota sequenza segnale coinvolta nella poliadenilazione è AATAAA (GRAIL: http://compbio.ornl.gov/Grail-1.3/

Esercizio 1: Predizioni dei geni codificanti proteine in sequenze genomiche mediante GenScan Ricerchiamo i geni in una sequenza genomica prodotta nell’ambito del progetto di sequenziamento del genoma di Fugu. Collegandosi al sito: http://fugu.hgmp.mrc.ac.uk/fugu-bin/clonesearch/ si effettua la ricerca della sequenza scaffold S004519. La sequenza così estratta può essere utilizzata per la predizione utilizzando il programma GenScan. La sequenza estratta viene incollata nella box clicca su Run GenScan Nell’output di GenScan sono indicati tutti i geni predetti, per ciascuno dei quali viene riportata la corrispondente ipotetica sequenza amminoacidica. Queste sequenze possono essere caratterizzati: o effettuando una ricerca con BLAST contro la banca dati delle proteine o ricercando i domini o motivi funzionali attraverso il sistema InterPro

Esercizio 2: Caratterizzazione di ipotetiche proteine predette mediante BLAST Selezionata una proteina dall’entry di GenScan ottenuta nell’esercizio precedente, copiare la sequenza in BLASTP e lanciare la ricerca. Quante proteine omologhe troviamo? Quale proteina è quella che ha una percentuale di identità di sequenza maggiore?

Ripetere i tre esercizi precedenti usando lo scaffold S000194 Esercizio 3: Stabilire con precisione la struttura di uno specifico gene usando GenomeScan (http://genes.mit.edu/genomescan.html) A partire dalla sequenza genomica (S004519) e dalla proteina omologa selezionata con la più alta percentuale di identità di sequenza RunGenomeScan Ripetere i tre esercizi precedenti usando lo scaffold S000194

Esercizio 4: Determinazione della struttura di un gene mediante il confronto tra la sequenza genomica e l’mRNA maturo mediante il programma SPIDEY http://www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/ L’allineamento tra una sequenza genomica contenente un gene e la sequenza dell’mRNA corrispondente determina la struttura del gene con l’esatta localizzazione degli introni e degli esoni. Come procedere? Trovare la sequenza genomica di cox4 umano mediante SRS Incollare la sequenza di cox4 (NT_024767) nella box sulla pagina di SPIDEY ed indicare l’accession number della sequenza del trascritto NM_001861 nel riquadro in basso. Il risultato in SPIDEY mostrerà la struttura di cox4, di esoni ed introni

SPIDEY Potete inserire o le sequenze o gli accession number Quanti esoni avete trovato usando SPIDEY? Ripetere questa stessa ricerca con GenScan usando la stessa sequenza di cox4

Ricerca di pattern e di motivi funzionali in sequenze proteiche Le proteine possono essere raggruppate in un numero limitato di famiglie sulla base della similarità di sequenze. Le proteine ed i domini proteici appartenenti ad una stessa famiglia condividono attributi funzionali e strutturali derivanti da un progenitore comune. Dallo studio di allineamenti multipli di sequenze appartenenti ad una stessa famiglia è evidente che alcune regioni sono più conservate di altre queste regioni conservate sono in generale importanti per la funzione e la struttura di una proteina. Analizzando le regioni costanti e variabili in un allineamento multiplo è possibile identificare un motivo che possa servire alla classificazione funzionale delle proteine che lo contengono.

Vari programmi in rete: Individuazione di domini SMART PFAM Individuazione di motivi funzionali PROSITE PSORT ELM SMART: http://smart.embl-heidelberg.de/smart/set_mode.cgi?NORMAL=1 PFAM http://www.sanger.ac.uk/Software/Pfam/

[Ala o Gly]-x-x-x-x-GlySer[Ser o Thr] PROSITE http ://www.expasy.org/prosite/ È una banca dati che raccoglie più di 1600 motivi proteici associati ad una determinata struttura e funzione. La sintassi di PROSITE: x indica la posizione in cui ciascun residuo viene accettato Tra le parentesi [ ] sono indicati i residui consentiti in una posizione Tra le parentesi { } sono indicati i residui NON consentiti in una posizione Ad esempio: [A,G]x4GK[S,T] viene tradotto come [Ala o Gly]-x-x-x-x-GlySer[Ser o Thr] Qualche esempio pratico: Ricercare in Prosite la sequenza P68082 Scrivere l’ID dell’entry di Prosite e la famiglia a cui appartiene la proteina Ricercare l’accession number relativo all’interleuchina 1 beta umana (usando ….) e ricercare in Prosite a quale famiglia appartiene questa proteina

Il programma ScanProsite (http://www.expasy.org/tools/scanprosite/) confronta una sequenza con PROSITE o un motivo con tutte le sequenze proteiche riportate in SWISSPROT. …… Esempi!!

PSORT (http://psort.nibb.ac.jp/form2.html) è una procedura per la predizione della localizzazione delle proteine nella cellula. Riceve informazioni sottoforma di sequenze proteiche associate a localizzazioni subcellulari e ne ricava regole di associazione empiriche. Applicando queste regole ad una sequenza proteica di localizzazione ignota, PSORT giunge a predire la localizzazione, fornendo anche un indice di affidabilità della predizione. EML (http://elm.eu.org/) Analizza i siti funzionali nelle proteine ESEMPI PRATICI