Sequenze e Banche Dati Biologiche

Slides:



Advertisements
Presentazioni simili
ALMA MATER STUDIORUM - UNIVERSITÀ DI BOLOGNA
Advertisements

Geni costitutivi e non costitutivi
DBMS (DataBase Management System)
Bioinformatica Banche dati biologiche
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Bioinformatica Prof. Mauro Fasano
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.
BASI DI DATI BIOLOGICHE - 3
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
TRASCRIZIONE del DNA.
Banche dati : qualche avvertenza La prima ricerca serve per tarare i termini da utilizzare ; spesso ci sono indici o liste dei termini da usare La struttura.
PUBMED 29 novembre 2012.
La Sintesi Proteica.
Bioinformatica Banche dati biologiche
Caratterizzazione di un gene clonato
Il concetto di aplotipo
L’ordine degli esoni è lo stesso nel genoma e negli mRNA
La biblioteca e le sue risorse : servizi e strategie di ricerca. Catalogo del sistema bibliotecario padovano Modulo 2 Luisa Banzato Francesca Scarpati.
La Biblioteca e le sue risorse Catalogo di Ateneo e Opac italiani - Periodici 2-3 marzo 2010.
Sistema Bibliotecario di Ateneo | Università di Padova Biblioteca e le sue risorse: servizi e strategie di ricerca Catalogo del sistema bibliotecario padovano.
La Biblioteca e le sue risorse Catalogo di Ateneo e Opac italiani - Periodici 3-4 marzo 2009.
Sistema Bibliotecario di Ateneo | Università di Padova Biblioteca e le sue risorse: servizi e strategie di ricerca OPAC DI ATENEO E ITALIANI – PERIODICI.
L’ ALU UN VIAGGIO NEL DNA.
Genomica e Bioinformatica
Entrez + MedLine => PubMed
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Riassumendo Ci sono diverse modalità con cui un gene può produrre trascritti alternativi Inizi alternativi della trascrizione Terminazioni alternative.
D N A LA MOLECOLA DELLA VITA.
Software per la Bioinformatica
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
OPAC italiani e internazionali Tirocinio del Corso di Laurea Magistrale in Scienze Storiche 8 maggio 2009.
In questa lezione ci occuperemo
Ricerca di similarità di sequenza (FASTA e BLAST)
La varietà dei genomi valore C: quantità totale di DNA contenuta in un genoma aploide Il genoma comprende geni e sequenze non codificanti. Le dimensioni.
CORSO DI BIOLOGIA - Programma
Alcuni esempi di domande di esame
Tutorial per l’utilizzo di k ScanProsite
PROTEINE: “TRASCRIZIONE” e “TRADUZIONE”
La vita in codice Prof.ssa Carmela Allocca.
Dip. Scienze Biomolecolari e Biotecnologie
Giulio Pavesi Dipartimento di BioScienze Università di Milano
DNA – REPLICAZIONE (1) Semiconservativa: Catene genitrici
Annotare i geni Gene xxxx Gene zzzz 3 esoni 7 esoni proteina y
Tecnologie di InternetDocument Type Definition Dott. Nicola Dragoni Document Type Definition  Document Type Definition (DTD)  Documento XML valido 
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
TRADUZIONE del RNA.
GQuery ( ncbi. nlm. nih
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIMOnline Mendelian Inheritance in Man LOCUSLINKcurated sequence and descriptive information about genetic.
La parola “Bioinformatica”
Allineamento di sequenze
1 Come usare la Biblioteca di Agraria e cercare le fonti di informazione scientifica a cura della Biblioteca di Agraria.
La trascrizione del DNA
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
Corso borsisti DIAG 2015 Banche dati e risorse elettroniche bibliografiche.
Geni “cliccabili”. SRS : Ensembl : NCBI : Sanger centre :
Come Orientarsi. 2 Se ti colleghi da fuori Azienda: Senza password: medico-sicentifica-on-linehttp://
UD5 Fase I Le Mutazioni Ovvero quando il codice genetico è errato o viene erroneamente decodificato.
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Transcript della presentazione:

Sequenze e Banche Dati Biologiche

Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili via Internet I database principali sono curati da organizzazioni internazionali The National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/ European Bioinformatics Institute (EBI) http://www.ebi.ac.uk/ I due database elencati (più quello giapponese, DDBJ), vengono “sincronizzati” ogni notte: quindi, il contenuto è (o meglio, dovrebbe essere) lo stesso

NCBI National Center for Biotechnology Information : creato come parte della National Library of Medicine nel 1988 GenBank (1992) – banca dati nucleotidica Free MEDLINE (PubMed, 1997) Altri database: Protein, dbEST, dbGSS, dbSTS, MMDB, OMIM, UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink, RefSeq Programmi di analisi bioinformatica utilizzabili on-line o scaricabili

Che tipi di sequenze? Sequenze genomiche (DNA) Sequenze di mRNA Interi genomi Interi cromosomi “Frammenti” (es. singolo gene), scaffold e contig Sequenze di mRNA Complete o parziali (le EST!) Sequenze di RNA non codificanti Sequenze proteiche

NCBI : non Solo Sequenze... Ogni collegamento indica che esistono link che vanno dalle entry di un database alle entry di un altro

Quante sequenze conosciamo? As of 15 February 2012, GenBank release 188.0 has 137,384,889,783 bases, from 149,819,246 reported sequences.

Non Solo Sequenze...

Sequenze Nelle banche dati si trovano le sequenze stesse, più annotazioni Le annotazioni (quando disponibili) elencano tutto ciò che si conosce della sequenza stessa Spesso, è utile consultare le annotazioni su un dato gene/proteina, senza “utilizzare” la sequenza stessa Oppure, si possono scaricare le sequenze per analizzarle

Esempi di Annotazioni Genoma (DNA) mRNA Proteina Localizzazione dei geni (start-end) nei genomi Localizzazione dei trascritti Divisione in introni-esoni Proteina prodotta dal gene Funzione della proteina mRNA Proteina codificata e sua funzione Inizio e fine della traduzione Proteina Da quale mRNA/gene è codificata Qual è la funzione

Database (o banca dati) Un database è suddiviso in entry Una entry è suddivisa in campi Esempio: il catalogo di una biblioteca: ogni cartellino è un’entry divisa in numero di catalogo tipo pubblicazione (libro, giornale, ecc.) autore titolo, editore anno di pubblicazione luogo di pubblicazione, ecc. Catalogo: LIB001 Tipo : LIBRO Titolo : Il codice da Vinci Autore: Brown, Dan Editore : Mondadori Anno: 2003 ecc. ecc.

Database Biologici Ogni sequenza è contenuta in un’entry L’entry è annotata con Numero di catalogo (univoco, lo stesso in tutto il mondo) Tipo sequenza (DNA, RNA, proteina) Organismo di provenienza “Titolo” della sequenza (prodotto del gene, nome della proteina) e altre informazioni (se e quando disponibili) Catalogo: NM_000546 Tipo : mRNA Organismo : Homo sapiens Titolo: tp53 gene, mRNA Proteina : tumor protein 53 Anno sequenziamento: 2003 Localizzazione: chr 17

Database Biologici E’ possibile fare ricerche per parole chiave, magari limitate a uno dei “campi” del “cartellino” Esempi: cercami la sequenza con numero di catalogo NM_000546 cercami la sequenza del trascritto del gene tp53 cercami tutte le sequenze di Homo sapiens cercami tutte le sequenze localizzate sul cromosoma 17. Catalogo: NM_000546 Tipo : mRNA Organismo : Homo sapiens Titolo: tp53 gene, mRNA Proteina : tumor protein 53 Anno sequenziamento: 2003 Localizzazione: chr 17

Le “Sequenze di Riferimento” Quindi: se un gene produce tanti trascritti, e io ho bisogno dell’mRNA di un dato gene, me li devo scaricare tutti? Spesso inutile, se le differenze sono minime oppure se non sono particolarmente interessato a splicing & co RefSeq (Reference Sequence – Sequenze di Riferimento): per ciascun gene è stato selezionato un trascritto “rappresentativo” “tipico” di quel gene Idem per le proteine codificate: sono quelle codificate dal trascritto RefSeq I trascritti RefSeq sono “catalogati” con un codice che inizia per NM_ seguito da 6 numeri (es: NM_000546) Le proteine prodotte da RefSeq sono catalogate con codice NP_XXXXXX ATTENZIONE: i RefSeq spesso non tengono conto degli splicing alternativi Naturalmente ogni altra sequenza depositata in banca dati ha un identificativo univoco, non solo quelle RefSeq, costituito da una o due lettere seguito da una sequenza di numeri (es. AK312116)

Le Annotazioni sui Genomi Spulciarsi qualche milione di paia di basi (con migliaia e migliaia di annotazioni) in modo testuale è un incubo... Per osservare le annotazioni su una sequenza genomica, si utilizzano i “browser genomici” che permettono di “visualizzare” le annotazioni, “zoomando” su determinate regioni fino a livello di singole paia di basi Per sequenze più piccole (mRNA, ad esempio) è sufficiente esaminare l’entry corrispondente

Le Annotazioni sulle Sequenze Le annotazioni su una sequenza sono riportate in “coordinate” sulla sequenza stessa Genoma: coordinate genomiche Cromosoma e posizione all’interno del cromosoma Altre sequenze: sono numerate a partire da 1 Esempio: mRNA di 1200 bp. CDS (regione codificante) da 100 a 999. Quindi Da 1 a 99 c’è la 5’UTR Da 100 a 999 (incluso) c’è la regione codificante Da 1000 a 1200 c’è la 3’UTR Ricordatevi sempre che le sequenze sono orientate: 1 sta al 5’ (N terminale) la fine sta al 3’ (o C terminale) 1 100 999 1200 5’ 3’

Entry Oltre alla sequenza, il “cartellino” della entry contiene diverse informazioni aggiuntive (alcune affidabili, altre meno, altre inutili!) e link che puntano a risorse “collegate” alla sequenza Esempio trascritto: NM_002032 Esempio proteina: NP_002023

Divisione (primati) Descrizione Data inserimento nel database Tipo Sequenza Lunghezza Versione (attenzione al numero dopo il punto)

Link Incrociati Se nella sequenza è annotata una parte codificante è riportata la traduzione Se esiste anche una entry corrispondente alla proteina, c’è il link all’entry Se si conosce il gene corrispondente e la posizione, c’è un link Link a pubblicazioni che parlano della sequenza (come è stata determinata, qual è la funzione)

Info sulla Sequenza Da che organismo arriva, che tipo di sequenza è, dove è localizzata all’interno del genoma Link alle entry di database “collegati” che riguardano il gene di origine Annotazione di polimorfismi

(la parte codificante) Dove sono i codoni (la parte codificante) Annotazioni sulla funzione e sulle interazioni Ancora link incrociati (questo alla proteina codificata) Annotazioni sulla funzione e sulle interazioni di parti della sequenza

Per Scaricare la Sequenza “Cosa” mostrare Salvo o visualizzo? Voglio solo un “pezzo” di sequenza

Il formato FASTA Usato sempre per “maneggiare” le sequenze La prima riga (header) “dice” di che sequenza si tratta, poi c’è la sequenza vera e propria >NM_002032.2| Homo sapiens ferritin, heavy (FTH1), mRNA ATAAGAGACCACAAGCGACCCGCAGGGCCAGACGTTCTTCGCCGAGAGTCGTCGGGGTTTCCTGCTTCAACAGTGCTTGGACGGAACCCGGCGCTCGTTCCCCACCCCGGCCGGCCGCCCATAGCCAGCCCTCCGTCACCTCTTCACCGCACCCTCGGACTGCCCCAAGGCCCCCGCCGCCGCTCCAGCGCCGCGCAGCCACCGCCGCCGCCGCCGCCTCTCCTTAGTCGCCGCCATGACGACCGCGTCCACCTCGCAGGTGCGCCAGAACTACCACCAGGACTCAGAGGCCGCCATCAACCGCCAGATCAACCTGGAGCTCTACGCCTCCTACGTTTACCTGTCCATGTCTTACTACTTTGACCGCGATGATGTGGCTTTGAAGAACTTTGCCAAATACTTTCTTCACCAATCTCATGA ..............................

Esercizio Collegatevi al sito dell’NCBI, recuperate ed esaminate l’entry con numero di accesso NM_032638. In particolare Di che tipo di sequenza si tratta? Qual è la descrizione (o definizione) della sequenza fornita da chi ha depositato la sequenza stessa? Come si chiama il gene corrispondente (ovvero, quale sigla lo denota)? Su quale cromosoma è localizzato il gene? Quanto sono lunghe 5’UTR, regione codificante e 3’UTR della sequenza che state esaminando? Quanto è lunga la proteina codificata? Qual è il numero di accesso (o “Accession number”) della proteina codificata dalla sequenza stessa?