La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Sequenze e Banche Dati Biologiche

Presentazioni simili


Presentazione sul tema: "Sequenze e Banche Dati Biologiche"— Transcript della presentazione:

1 Sequenze e Banche Dati Biologiche

2 Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili via Internet I database principali sono curati da organizzazioni internazionali The National Center for Biotechnology Information (NCBI) European Bioinformatics Institute (EBI) I due database elencati (più quello giapponese, DDBJ), vengono “sincronizzati” ogni notte: quindi, il contenuto è (o meglio, dovrebbe essere) lo stesso

3 NCBI National Center for Biotechnology Information : creato come parte della National Library of Medicine nel 1988 GenBank (1992) – banca dati nucleotidica Free MEDLINE (PubMed, 1997) Altri database: Protein, dbEST, dbGSS, dbSTS, MMDB, OMIM, UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink, RefSeq Programmi di analisi bioinformatica utilizzabili on-line o scaricabili

4 Che tipi di sequenze? Sequenze genomiche (DNA) Sequenze di mRNA
Interi genomi Interi cromosomi “Frammenti” (es. singolo gene), scaffold e contig Sequenze di mRNA Complete o parziali (le EST!) Sequenze di RNA non codificanti Sequenze proteiche

5 NCBI : non Solo Sequenze...
Ogni collegamento indica che esistono link che vanno dalle entry di un database alle entry di un altro

6 Quante sequenze conosciamo?
As of 15 February 2012, GenBank release has 137,384,889,783 bases, from 149,819,246 reported sequences.

7 Non Solo Sequenze...

8 Sequenze Nelle banche dati si trovano le sequenze stesse, più annotazioni Le annotazioni (quando disponibili) elencano tutto ciò che si conosce della sequenza stessa Spesso, è utile consultare le annotazioni su un dato gene/proteina, senza “utilizzare” la sequenza stessa Oppure, si possono scaricare le sequenze per analizzarle

9 Esempi di Annotazioni Genoma (DNA) mRNA Proteina
Localizzazione dei geni (start-end) nei genomi Localizzazione dei trascritti Divisione in introni-esoni Proteina prodotta dal gene Funzione della proteina mRNA Proteina codificata e sua funzione Inizio e fine della traduzione Proteina Da quale mRNA/gene è codificata Qual è la funzione

10 Database (o banca dati)
Un database è suddiviso in entry Una entry è suddivisa in campi Esempio: il catalogo di una biblioteca: ogni cartellino è un’entry divisa in numero di catalogo tipo pubblicazione (libro, giornale, ecc.) autore titolo, editore anno di pubblicazione luogo di pubblicazione, ecc. Catalogo: LIB001 Tipo : LIBRO Titolo : Il codice da Vinci Autore: Brown, Dan Editore : Mondadori Anno: 2003 ecc. ecc.

11 Database Biologici Ogni sequenza è contenuta in un’entry
L’entry è annotata con Numero di catalogo (univoco, lo stesso in tutto il mondo) Tipo sequenza (DNA, RNA, proteina) Organismo di provenienza “Titolo” della sequenza (prodotto del gene, nome della proteina) e altre informazioni (se e quando disponibili) Catalogo: NM_000546 Tipo : mRNA Organismo : Homo sapiens Titolo: tp53 gene, mRNA Proteina : tumor protein 53 Anno sequenziamento: 2003 Localizzazione: chr 17

12 Database Biologici E’ possibile fare ricerche per parole chiave, magari limitate a uno dei “campi” del “cartellino” Esempi: cercami la sequenza con numero di catalogo NM_000546 cercami la sequenza del trascritto del gene tp53 cercami tutte le sequenze di Homo sapiens cercami tutte le sequenze localizzate sul cromosoma 17. Catalogo: NM_000546 Tipo : mRNA Organismo : Homo sapiens Titolo: tp53 gene, mRNA Proteina : tumor protein 53 Anno sequenziamento: 2003 Localizzazione: chr 17

13 Le “Sequenze di Riferimento”
Quindi: se un gene produce tanti trascritti, e io ho bisogno dell’mRNA di un dato gene, me li devo scaricare tutti? Spesso inutile, se le differenze sono minime oppure se non sono particolarmente interessato a splicing & co RefSeq (Reference Sequence – Sequenze di Riferimento): per ciascun gene è stato selezionato un trascritto “rappresentativo” “tipico” di quel gene Idem per le proteine codificate: sono quelle codificate dal trascritto RefSeq I trascritti RefSeq sono “catalogati” con un codice che inizia per NM_ seguito da 6 numeri (es: NM_000546) Le proteine prodotte da RefSeq sono catalogate con codice NP_XXXXXX ATTENZIONE: i RefSeq spesso non tengono conto degli splicing alternativi Naturalmente ogni altra sequenza depositata in banca dati ha un identificativo univoco, non solo quelle RefSeq, costituito da una o due lettere seguito da una sequenza di numeri (es. AK312116)

14 Le Annotazioni sui Genomi
Spulciarsi qualche milione di paia di basi (con migliaia e migliaia di annotazioni) in modo testuale è un incubo... Per osservare le annotazioni su una sequenza genomica, si utilizzano i “browser genomici” che permettono di “visualizzare” le annotazioni, “zoomando” su determinate regioni fino a livello di singole paia di basi Per sequenze più piccole (mRNA, ad esempio) è sufficiente esaminare l’entry corrispondente

15 Le Annotazioni sulle Sequenze
Le annotazioni su una sequenza sono riportate in “coordinate” sulla sequenza stessa Genoma: coordinate genomiche Cromosoma e posizione all’interno del cromosoma Altre sequenze: sono numerate a partire da 1 Esempio: mRNA di 1200 bp. CDS (regione codificante) da 100 a 999. Quindi Da 1 a 99 c’è la 5’UTR Da 100 a 999 (incluso) c’è la regione codificante Da 1000 a 1200 c’è la 3’UTR Ricordatevi sempre che le sequenze sono orientate: 1 sta al 5’ (N terminale) la fine sta al 3’ (o C terminale) 1 100 999 1200 5’ 3’

16 Entry Oltre alla sequenza, il “cartellino” della entry contiene diverse informazioni aggiuntive (alcune affidabili, altre meno, altre inutili!) e link che puntano a risorse “collegate” alla sequenza Esempio trascritto: NM_002032 Esempio proteina: NP_002023

17 Divisione (primati) Descrizione Data inserimento nel database Tipo Sequenza Lunghezza Versione (attenzione al numero dopo il punto)

18 Link Incrociati Se nella sequenza è annotata una parte codificante è riportata la traduzione Se esiste anche una entry corrispondente alla proteina, c’è il link all’entry Se si conosce il gene corrispondente e la posizione, c’è un link Link a pubblicazioni che parlano della sequenza (come è stata determinata, qual è la funzione)

19 Info sulla Sequenza Da che organismo arriva, che tipo di sequenza è,
dove è localizzata all’interno del genoma Link alle entry di database “collegati” che riguardano il gene di origine Annotazione di polimorfismi

20 (la parte codificante)
Dove sono i codoni (la parte codificante) Annotazioni sulla funzione e sulle interazioni Ancora link incrociati (questo alla proteina codificata) Annotazioni sulla funzione e sulle interazioni di parti della sequenza

21 Per Scaricare la Sequenza
“Cosa” mostrare Salvo o visualizzo? Voglio solo un “pezzo” di sequenza

22 Il formato FASTA Usato sempre per “maneggiare” le sequenze
La prima riga (header) “dice” di che sequenza si tratta, poi c’è la sequenza vera e propria >NM_ | Homo sapiens ferritin, heavy (FTH1), mRNA ATAAGAGACCACAAGCGACCCGCAGGGCCAGACGTTCTTCGCCGAGAGTCGTCGGGGTTTCCTGCTTCAACAGTGCTTGGACGGAACCCGGCGCTCGTTCCCCACCCCGGCCGGCCGCCCATAGCCAGCCCTCCGTCACCTCTTCACCGCACCCTCGGACTGCCCCAAGGCCCCCGCCGCCGCTCCAGCGCCGCGCAGCCACCGCCGCCGCCGCCGCCTCTCCTTAGTCGCCGCCATGACGACCGCGTCCACCTCGCAGGTGCGCCAGAACTACCACCAGGACTCAGAGGCCGCCATCAACCGCCAGATCAACCTGGAGCTCTACGCCTCCTACGTTTACCTGTCCATGTCTTACTACTTTGACCGCGATGATGTGGCTTTGAAGAACTTTGCCAAATACTTTCTTCACCAATCTCATGA

23 Esercizio Collegatevi al sito dell’NCBI, recuperate ed esaminate l’entry con numero di accesso NM_ In particolare Di che tipo di sequenza si tratta? Qual è la descrizione (o definizione) della sequenza fornita da chi ha depositato la sequenza stessa? Come si chiama il gene corrispondente (ovvero, quale sigla lo denota)? Su quale cromosoma è localizzato il gene? Quanto sono lunghe 5’UTR, regione codificante e 3’UTR della sequenza che state esaminando? Quanto è lunga la proteina codificata? Qual è il numero di accesso (o “Accession number”) della proteina codificata dalla sequenza stessa?


Scaricare ppt "Sequenze e Banche Dati Biologiche"

Presentazioni simili


Annunci Google