La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili.

Presentazioni simili


Presentazione sul tema: "Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili."— Transcript della presentazione:

1 Sequenze e Banche Dati Biologiche

2 Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili via Internet Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili via Internet I database principali sono curati da organizzazioni internazionali I database principali sono curati da organizzazioni internazionali The National Center for Biotechnology Information (NCBI) The National Center for Biotechnology Information (NCBI) European Bioinformatics Institute (EBI) European Bioinformatics Institute (EBI)

3 NCBI National Center for Biotechnology Information : creato come parte della National Library of Medicine nel 1988 GenBank (1992) – banca dati nucleotidica Free MEDLINE (PubMed, 1997) Altri database: Protein, dbEST, dbGSS, dbSTS, MMDB, OMIM, UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink, RefSeq Programmi di analisi bioinformatica utilizzabili on-line o scaricabili

4 Che tipi di sequenze? Sequenze genomiche (DNA) Sequenze genomiche (DNA) Interi genomi Interi genomi Interi cromosomi Interi cromosomi “Frammenti” (es. singolo gene), scaffold e contig “Frammenti” (es. singolo gene), scaffold e contig Sequenze di mRNA Sequenze di mRNA Complete o parziali (le EST!) Complete o parziali (le EST!) Sequenze di RNA non codificanti Sequenze di RNA non codificanti Sequenze proteiche Sequenze proteiche

5 NCBI : non Solo Sequenze... Ogni collegamento indica che esistono link che vanno dalle entry di un database alle entry di un altro

6 Quante sequenze conosciamo? As of 15 February 2012, GenBank release has 137,384,889,783 bases, from 149,819,246 reported sequences.

7 Non Solo Sequenze...

8 Sequenze Nelle banche dati si trovano le sequenze stesse, più annotazioni Nelle banche dati si trovano le sequenze stesse, più annotazioni Le annotazioni (quando disponibili) elencano tutto ciò che si conosce della sequenza stessa Le annotazioni (quando disponibili) elencano tutto ciò che si conosce della sequenza stessa Spesso, è utile consultare le annotazioni su un dato gene/proteina, senza “utilizzare” la sequenza stessa Spesso, è utile consultare le annotazioni su un dato gene/proteina, senza “utilizzare” la sequenza stessa Oppure, si possono scaricare le sequenze per analizzarle Oppure, si possono scaricare le sequenze per analizzarle

9 Esempi di Annotazioni Genoma (DNA) Genoma (DNA) Localizzazione dei geni (start-end) nei genomi Localizzazione dei geni (start-end) nei genomi Localizzazione dei trascritti Localizzazione dei trascritti Divisione in introni-esoni Divisione in introni-esoni Proteina prodotta dal gene Proteina prodotta dal gene Funzione della proteina Funzione della proteina mRNA mRNA Proteina codificata e sua funzione Proteina codificata e sua funzione Inizio e fine della traduzione Inizio e fine della traduzione Proteina Proteina Da quale mRNA/gene è codificata Da quale mRNA/gene è codificata Qual è la funzione Qual è la funzione

10 Database (o banca dati) Un database è suddiviso in entry Un database è suddiviso in entry Una entry è suddivisa in campi Una entry è suddivisa in campi Esempio: il catalogo di una biblioteca: ogni cartellino è un’entry divisa in Esempio: il catalogo di una biblioteca: ogni cartellino è un’entry divisa in numero di catalogo numero di catalogo tipo pubblicazione (libro, giornale, ecc.) tipo pubblicazione (libro, giornale, ecc.) autore autore titolo, titolo, editore editore anno di pubblicazione anno di pubblicazione luogo di pubblicazione, ecc. luogo di pubblicazione, ecc. Catalogo: LIB001 Tipo : LIBRO Titolo : Il codice da Vinci Autore: Brown, Dan Editore : Mondadori Anno: 2003 ecc.

11 Database Biologici Ogni sequenza è contenuta in un’entry Ogni sequenza è contenuta in un’entry L’entry è annotata con L’entry è annotata con Numero di catalogo (univoco, lo stesso in tutto il mondo) Numero di catalogo (univoco, lo stesso in tutto il mondo) Tipo sequenza (DNA, RNA, proteina) Tipo sequenza (DNA, RNA, proteina) Organismo di provenienza Organismo di provenienza “Titolo” della sequenza (prodotto del gene, nome della proteina) “Titolo” della sequenza (prodotto del gene, nome della proteina) e altre informazioni (se e quando disponibili) e altre informazioni (se e quando disponibili) Catalogo: NM_ Tipo : mRNA Organismo : Homo sapiens Titolo: tp53 gene, mRNA Proteina : tumor protein 53 Anno sequenziamento: 2003 Localizzazione: chr 17

12 Database Biologici E’ possibile fare ricerche per parole chiave, magari limitate a uno dei “campi” del “cartellino” E’ possibile fare ricerche per parole chiave, magari limitate a uno dei “campi” del “cartellino” Esempi: Esempi: cercami la sequenza con numero di catalogo NM_ cercami la sequenza con numero di catalogo NM_ cercami la sequenza del trascritto del gene tp53 cercami la sequenza del trascritto del gene tp53 cercami tutte le sequenze di Homo sapiens cercami tutte le sequenze di Homo sapiens cercami tutte le sequenze localizzate sul cromosoma 17. cercami tutte le sequenze localizzate sul cromosoma 17. Catalogo: NM_ Tipo : mRNA Organismo : Homo sapiens Titolo: tp53 gene, mRNA Proteina : tumor protein 53 Anno sequenziamento: 2003 Localizzazione: chr 17

13 Le “Sequenze di Riferimento” Quindi: se un gene produce tanti trascritti, e io ho bisogno dell’mRNA di un dato gene, me li devo scaricare tutti? Quindi: se un gene produce tanti trascritti, e io ho bisogno dell’mRNA di un dato gene, me li devo scaricare tutti? Spesso inutile, se le differenze sono minime oppure se non sono particolarmente interessato a splicing & co Spesso inutile, se le differenze sono minime oppure se non sono particolarmente interessato a splicing & co RefSeq (Reference Sequence – Sequenze di Riferimento): per ciascun gene è stato selezionato un trascritto “rappresentativo” “tipico” di quel gene RefSeq (Reference Sequence – Sequenze di Riferimento): per ciascun gene è stato selezionato un trascritto “rappresentativo” “tipico” di quel gene Idem per le proteine codificate: sono quelle codificate dal trascritto RefSeq Idem per le proteine codificate: sono quelle codificate dal trascritto RefSeq I trascritti RefSeq sono “catalogati” con un codice che inizia per NM_ seguito da 6 numeri (es: NM_000546) I trascritti RefSeq sono “catalogati” con un codice che inizia per NM_ seguito da 6 numeri (es: NM_000546) Le proteine prodotte da RefSeq sono catalogate con codice NP_XXXXXX Le proteine prodotte da RefSeq sono catalogate con codice NP_XXXXXX ATTENZIONE: i RefSeq spesso non tengono conto degli splicing alternativi ATTENZIONE: i RefSeq spesso non tengono conto degli splicing alternativi Naturalmente ogni altra sequenza depositata in banca dati ha un identificativo univoco, non solo quelle RefSeq, costituito da una o due lettere seguito da una sequenza di numeri (es. AK312116) Naturalmente ogni altra sequenza depositata in banca dati ha un identificativo univoco, non solo quelle RefSeq, costituito da una o due lettere seguito da una sequenza di numeri (es. AK312116)

14 Le Annotazioni sui Genomi Spulciarsi qualche milione di paia di basi (con migliaia e migliaia di annotazioni) in modo testuale è un incubo... Spulciarsi qualche milione di paia di basi (con migliaia e migliaia di annotazioni) in modo testuale è un incubo... Per osservare le annotazioni su una sequenza genomica, si utilizzano i “browser genomici” che permettono di “visualizzare” le annotazioni, “zoomando” su determinate regioni fino a livello di singole paia di basi Per osservare le annotazioni su una sequenza genomica, si utilizzano i “browser genomici” che permettono di “visualizzare” le annotazioni, “zoomando” su determinate regioni fino a livello di singole paia di basi Per sequenze più piccole (mRNA, ad esempio) è sufficiente esaminare l’entry corrispondente Per sequenze più piccole (mRNA, ad esempio) è sufficiente esaminare l’entry corrispondente

15 Le Annotazioni sulle Sequenze Le annotazioni su una sequenza sono riportate in “coordinate” sulla sequenza stessa Le annotazioni su una sequenza sono riportate in “coordinate” sulla sequenza stessa Genoma: coordinate genomiche Genoma: coordinate genomiche Cromosoma e posizione all’interno del cromosoma Cromosoma e posizione all’interno del cromosoma Altre sequenze: sono numerate a partire da 1 Altre sequenze: sono numerate a partire da 1 Esempio: mRNA di 1200 bp. CDS (regione codificante) da 100 a 999. Quindi Esempio: mRNA di 1200 bp. CDS (regione codificante) da 100 a 999. Quindi Da 1 a 99 c’è la 5’UTR Da 1 a 99 c’è la 5’UTR Da 100 a 999 (incluso) c’è la regione codificante Da 100 a 999 (incluso) c’è la regione codificante Da 1000 a 1200 c’è la 3’UTR Da 1000 a 1200 c’è la 3’UTR Ricordatevi sempre che le sequenze sono orientate: 1 sta al 5’ (N terminale) la fine sta al 3’ (o C terminale) Ricordatevi sempre che le sequenze sono orientate: 1 sta al 5’ (N terminale) la fine sta al 3’ (o C terminale) 5’ 3’

16 Entry Oltre alla sequenza, il “cartellino” della entry contiene diverse informazioni aggiuntive (alcune affidabili, altre meno, altre inutili!) e link che puntano a risorse “collegate” alla sequenza Oltre alla sequenza, il “cartellino” della entry contiene diverse informazioni aggiuntive (alcune affidabili, altre meno, altre inutili!) e link che puntano a risorse “collegate” alla sequenza Esempio trascritto: NM_ Esempio trascritto: NM_ Esempio proteina: NP_ Esempio proteina: NP_002023

17 Descrizione Lunghezza Tipo Sequenza Divisione (primati) Data inserimento nel database Versione (attenzione al numero dopo il punto)

18 Link Incrociati Se nella sequenza è annotata una parte codificante è riportata la traduzione Se nella sequenza è annotata una parte codificante è riportata la traduzione Se esiste anche una entry corrispondente alla proteina, c’è il link all’entry Se esiste anche una entry corrispondente alla proteina, c’è il link all’entry Se si conosce il gene corrispondente e la posizione, c’è un link Se si conosce il gene corrispondente e la posizione, c’è un link Link a pubblicazioni che parlano della sequenza (come è stata determinata, qual è la funzione) Link a pubblicazioni che parlano della sequenza (come è stata determinata, qual è la funzione)

19 Info sulla Sequenza Da che organismo arriva, che tipo di sequenza è, dove è localizzata all’interno del genoma Link alle entry di database “collegati” che riguardano il gene di origine Annotazione di polimorfismi

20 Dove sono i codoni (la parte codificante) Annotazioni sulla funzione e sulle interazioni Ancora link incrociati (questo alla proteina codificata) Annotazioni sulla funzione e sulle interazioni di parti della sequenza

21 Per Scaricare la Sequenza “Cosa” mostrare Salvo o visualizzo?Voglio solo un “pezzo” di sequenza

22 Il formato FASTA Usato sempre per “maneggiare” le sequenze Usato sempre per “maneggiare” le sequenze La prima riga (header) “dice” di che sequenza si tratta, poi c’è la sequenza vera e propria La prima riga (header) “dice” di che sequenza si tratta, poi c’è la sequenza vera e propria >NM_ | Homo sapiens ferritin, heavy (FTH1), mRNA ATAAGAGACCACAAGCGACCCGCAGGGCCAGACGTTCTTCGCCGAGAGTCGTCGGGGT TTCCTGCTTCAACAGTGCTTGGACGGAACCCGGCGCTCGTTCCCCACCCCGGCCGGCC GCCCATAGCCAGCCCTCCGTCACCTCTTCACCGCACCCTCGGACTGCCCCAAGGCCCC CGCCGCCGCTCCAGCGCCGCGCAGCCACCGCCGCCGCCGCCGCCTCTCCTTAGTCGCC GCCATGACGACCGCGTCCACCTCGCAGGTGCGCCAGAACTACCACCAGGACTCAGAGG CCGCCATCAACCGCCAGATCAACCTGGAGCTCTACGCCTCCTACGTTTACCTGTCCAT GTCTTACTACTTTGACCGCGATGATGTGGCTTTGAAGAACTTTGCCAAATACTTTCTT CACCAATCTCATGA

23 Esercizio Collegatevi al sito dell’NCBI, recuperate ed esaminate l’entry con numero di accesso NM_ In particolare Di che tipo di sequenza si tratta? Qual è la descrizione (o definizione) della sequenza fornita da chi ha depositato la sequenza stessa? Come si chiama il gene corrispondente (ovvero, quale sigla lo denota)? Su quale cromosoma è localizzato il gene? Quanto sono lunghe 5’UTR, regione codificante e 3’UTR della sequenza che state esaminando? Quanto è lunga la proteina codificata? Qual è il numero di accesso (o “Accession number”) della proteina codificata dalla sequenza stessa?


Scaricare ppt "Sequenze e Banche Dati Biologiche. Sequenze Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili."

Presentazioni simili


Annunci Google