DATABASE = collezione di dati biologici

Slides:



Advertisements
Presentazioni simili
Malattie genetiche monogeniche
Advertisements

Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.
Banche dati biologiche
Software per la Bioinformatica
Università degli Studi di Genova Laurea Specialistica in Biotecnologie Medico-Farmaceutiche Corso di: Biotecnologie Diagnostiche A.A. 2004/2005 Utilizzo.
Sequenze e Banche Dati Biologiche
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
A.A CORSO DI BIOINFORMATICA per il CLT in Biotecnologie Sanitarie Università di Padova Docente: Dr. STEFANIA BORTOLUZZI.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIMOnline Mendelian Inheritance in Man LOCUSLINKcurated sequence and descriptive information about genetic.
La parola “Bioinformatica”
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
DATABASE=collezione di dati biologici RECORD=elementi del database (o ENTRY) CAMPI=attributi dei record IDENTIFICATORE DI RECORD=alfanumerico identificativo.
FIRB 2003 (art.8) D.D LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: CNRBA ATTIVITA’  Sviluppo programmi di analisi  Sviluppo.
Perché alcune patologie sono a trasmissione dominante mentre altre sono a trasmissione recessiva?
CARATTERIZZAZIONE DI UN GENE CANDIDATO 1.Ricostruzione della sequenza genomica completa attraverso un contiguo di cloni 2. Identificazione della sequenza.
Basi di dati - Fondamenti
La chimica della vita Ogni organismo vivente è una macchina sofisticata, risultato di un complesso insieme di reazioni chimiche. La costruzione e il funzionamento.
CALENDARIO LEZIONI AGGIORNATO
L’anticipazione è un tipo speciale di espressività variabile
ESERCITAZIONI ANTROPOLOGIA POLIMERASE CHAIN REACTION (PCR)
Definizioni: genoma trascrittoma proteoma.
La Fabbrica delle Proteine
Come cercare le fonti di informazione scientifica RISORSE
Regolazione Genica nei Procarioti
ESERCITAZIONI ANTROPOLOGIA
IL GENOMA UMANO Insieme di informazioni genetiche contenute nel DNA delle cellule umane. Due genomi: genoma nucleare, che comprende il 99,9995% dell’informazione.
I MARCATORI MOLECOLARI NEL MIGLIORAMENTO GENETICO
Introni Assenti nei procarioti (qualche eccezione)
L’operone lac I P O Z Y A Geni strutturali lacZ: b-galattosidasi
Le eccezioni delle Leggi di Mendel
AVVISO Il materiale riportato in queste diapositive è di esclusiva proprietà del Prof. Liborio Stuppia. La pubblicazione.
I GENI:parte funzionale del DNA
“A database is a collection of data, typically describing the activities of one or more related organizations” (Ramakrishnan and Gehrke) “A database.
Enzimi coinvolti nel metabolismo dei farmaci (Fase I e Fase II)
Basi di dati - Fondamenti
Corso di Genetica -Lezione 12- Cenci
AVVISO Il materiale riportato in queste diapositive è di esclusiva proprietà del Prof. Liborio Stuppia. La pubblicazione.
Definizioni: genoma trascrittoma proteoma.
TRASCRIZIONE La sequenza dei nucleotidi in un gene è semplice codice per la sequenza degli amminoacidi in una specifica proteina Essendo il DNA composto.
La regolazione genica negli eucarioti
La Fabbrica delle Proteine
STUDIO FUNZIONALE DI UNA PROTEINA ATTRAVERSO
Altre indagini di criminalistica… sinergia tra diverse discipline
POSTGENOMICA O GENOMICA FUNZIONALE
CLONAGGIO POSIZIONALE:
Cominciano le indagini
EPG genetica sociale Tutti gli studenti frequentanti L’EPG devono sostenere 2 lezioni, una frontale ed una in laboratorio. In data 4 giugno ore 16 presso.
CARATTERIZZAZIONE DI UN GENE CANDIDATO
Definizione di GENETICA
Gentica e Biologia Molecolare
13/11/
I Dati Biologici vengono raccolti nelle BANCHE DATI (DATABASE, DB)
CLONAGGIO POSIZIONALE:
13/11/
POSTGENOMICA O GENOMICA FUNZIONALE
CARATTERIZZAZIONE DI UN GENE CANDIDATO
Transcript della presentazione:

DATABASE = collezione di dati biologici RECORD = elementi del database (o ENTRY) CAMPI = attributi dei record IDENTIFICATORE DI RECORD = alfanumerico identificativo di un record DI CAMPO = alfanumerico identificativo di un campo FLAT FILE = file di testo contenente le descrizioni dei campi di un record DataBase Management System (DBMS) = software che gestisce il DB e consente l’accesso ai dati

DATABASE DI SEQUENZE DI DNA I due maggiori centri bioinformatici mondiali, N.C.B.I. di Washington negli Stati Uniti e l'E.B.I. a Cambridge in Europa, gestiscono i principali database di sequenze di DNA: Genbank e EMBL. I due database contengono essenzialmente gli stessi dati e ogni giorno si scambiano le informazioni per aggiornarsi a vicenda. Tuttavia il formato di ogni record, come appare nei corrispondenti "flat files" è leggermente diverso. N.C.B.I./Genbank http://www4.ncbi.nlm.nih.gov/GenBank E.B.I/EMBL http://www.ebi.ac.uk/embl/

ID HSTELETHO standard; RNA; HUM; 959 BP. XX AC AJ000491; SV AJ000491.1 DT 15-AUG-1997 (Rel. 52, Created) DT 14-OCT-1997 (Rel. 52, Last updated, Version 6) DE Homo sapiens mRNA for telethonin KW 19 kDa protein; sarcomeric protein; telethonin. OS Homo sapiens (human) OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Mammalia; Eutheria; OC Primates; Catarrhini; Hominidae; Homo. RN [1] RP 1-959 RA Valle G.; RT ; RL Submitted (17-JUL-1997) to the EMBL/GenBank/DDBJ databases. RL Valle G., CRIBI Biotechnology Centre, Universita di Padova, via U. Bassi RL 58b, Padova, 35121, ITALY. RN [2] RA Valle G., Faulkner G.P., Deantoni A., Pacchioni B., Pallavicini A., RA Pandolfo D., Tiso N., Toppo S., Trevisan S., Lanfranchi G.; RT "Telethonin, a novel sarcomeric protein of heart and skeletal muscle."; RL FEBS Lett. 415:163-168(1997).

XX DR SWISS-PROT; O15273; TELT_HUMAN. FH Key Location/Qualifiers FH FT source 1..959 FT /chromosome="17" FT /db_xref="taxon:9606" FT /sequenced_mol="cDNA to mRNA" FT /organism="Homo sapiens" FT /map="q12" FT /tissue_type="skeletal muscle" FT CDS 11..514 FT /codon_start=1 FT /db_xref="SWISS-PROT:O15273" FT /note="19kD sarcomeric protein" FT /product="telethonin" FT /protein_id="CAA04129.1" FT /translation="MATSELSCEVSEENCERREAFWAEWKDLTLSTRPEEGCSLHEEDT FT QRHETYHQQGQCQVLVQRSPWLMMRMGILGRGLQEYQLPYQRVLPLPIFTPAKMGATKE FT EREDTPIQLQELLALETALGGQCVDRQEVAEITKQLPPVVPVSKPGALRRSLSRSMSQE FT AQRG" SQ Sequence 959 BP; 196 A; 257 C; 355 G; 151 T; 0 other; cggcacgagc atggctacct cagagctgag ctgcgaggtg tcggaggaga actgtgagcg 60 ccgggaggcc ttctgggcag aatggaagga tctgacactg tccacacggc ccgaggaggg 120 ctgctccctg catgaggagg acacccagag acatgagacc taccaccagc aggggcagtg 180 ccaggtgctg gtgcagcgct cgccctggct gatgatgcgg atgggcatcc tcggccgtgg 240 gctgcaggag taccagctgc cctaccagcg ggtactgccg ctgcccatct tcacccctgc 300 caagatgggc gccaccaagg aggagcgtga ggacaccccc atccagcttc aggagctgct 360

Sistemi INTEGRATI di BANCHE DATI Laboratorio Banca Dati Sistema Sistema DNA di Accesso di Sottomissione N.C.B.I. Genbank Entrez SeqIN (USA) E.B.I. EMBL SRS WebIN (Europa) NIG DDBJ SAKURA (Giappone)

I sistemi per la sottomissione dei dati (WebIN, SeqIN e SAKURA) consentono agli autori della sequenza di specificare numerose informazioni funzionali quali presenza di orf, espressione, ruolo funzionale ecc. La maggior parte delle ANNOTAZIONI nelle banche dati derivano direttamente dagli autori delle sequenze. Altre annotazioni vengono aggiunte dai curatori del DB che le derivano dalla letteratura scientifica. Gli aggiornamenti alle annotazioni vengono effettuate in questo modo.

PubMed È un database di referenze bibliografiche di interesse biologico e medico che costituisce un'importante fonte di informazione in cui possono essere facilmente reperite informazioni bibliografiche e riassunti delle corrispondenti pubblicazioni. Fa parte del sistema integrato “Entrez” di database biologici (http://www.ncbi.nlm.nih.gov/Entrez/ )

RISORSE GENOMICHE Entrez_Genomes e EBI_Genome Risorse integrate dove sono disponibili tutti i genomi Comprehensive Microbial Resource presso l’istituto TIGR Raccolta di tutti i genomi batterici Doe Institute Istituto presso il quale sono in via di sequenziamento o completati numerosi genomi batterici GadFly e FlyBASE Drosophyla GDB Geoma umano ….. ………

Il sequenziamento dei genomi produce una tale massa di sequenze da rendere impossibile una rapida e accurata annotazione da parte dei curatori dei DBs genomici pertanto: i DBs genomici vengono annotati con metodi automatici (BLAST ecc.) almeno negli stadi iniziali. Le annotazioni dei genomi sono spesso imprecise o addirittura errate

Ensembl HumGuide Sviluppato dall’E.B.I. con il Sanger centre Database genomico umano ANNOTATO Ad esempio: Dati sul mappaggio dei geni Presenza di polimorfismi Correlazioni fra locus e malattie genetiche HumGuide Sviluppato dall’NCBI

Cellula o tessuto mRNA cDNA Library cDNA EST DB DATABASE EST (Expressed Sequence Tags) Cellula o tessuto mRNA cDNA Library cDNA EST DB Estrazione mRNA Trascrizione inversa Clonaggio Sequenziamento

DATABASE EST (Expressed Sequence Tags) dell’NCBI Vantaggio rispetto ai DBs genomici: contiene informazioni sulla specificità tissutale dell’espressione; sui livelli di espressione; su forme alternative di splicing ecc. Contiene molte sequenze parziali di cDNA Sequenze a bassa precisione (molti errori) FANTOMdb: specifico per il topo, contiene solo cDNA completi. (in via di realizzazione per drosofila)

DATABASE di polimorfismi e mutazioni POLIMORFISMO: variazione nucleotidica che lascia inalterata la funzione di un gene (variante allelica) Se un allele è presente in almeno l’1% della popolazione si parla di polimorfismo. Single Nucleotide Polymorphism (SNP): Polimorfismo associato al cambiamento di un solo nucleotide. Mutazione: Differenza rispetto a un genoma di riferimento e causa di disfunzioni o manifestazioni fenotipiche in generale

DATABASE di polimorfismi e mutazioni Single Nucleotide Polymorphism (SNP): E.B.I. HGVbase NCBI dbSNP Mutazioni: HGMD (human gene mutation database) Solo mutazioni sperimentalmente indagate al livello del DNA. Mutazioni silenti non riportate a meno che non causino alerazioni dell’espressione (ad esempio alterazioni nello splicing). Per ogni mutazione è descritto il fenotipo clinico. OMIM (Online Mendelian Inheritance in Man) Gestita dall’NCBI Tutte le malattie genetiche autosomiche, X linked, Y linked e associate al genoma mitocondriale

DATABASE di DNA di Organelli GOBASE (Organelle Genome Database) Sequenze di Mitocondri e Cloroplasti (derivati da Entrez) Molto curata nelle annotazioni MITOMAP (Human Mitocondrial Genome Database) Variazioni del genoma mitocondriale associate a fenotipi MITOP Sequenze di Mitocondri umani, di topo e di lievito MitoNuc Raccoglie i geni nucleari che esprimono proteine destinate ai mitocondri

DATABASE DI SEQUENZE PROTEICHE Raccolgono sequenze proteiche determinate sperimentalmente (sequenziamento degli amminoacidi) e sequenze proteiche dedotte da sequenze geniche mediante traduzione “in silico”. Il sequenziamento del DNA è molto più semplice e rapido del sequenziamento dei peptidi, pertanto le sequenze dedotte sono di alcuni ordini di grandezza più numerose di quelle ricavate dal sequenziamento diretto. ATTENZIONE! La traduzione “in silico” non mostra modifiche post traduzionali come ad esempio il “processing proteolitico” e a volte pone problemi quali la scelta del corretto codone di inizio.

DATABASE DI SEQUENZE PROTEICHE SWISSPROT Gestita dal SIB (Swiss Institute of Bioinformatics) Formato: flat file simile a quello EMBL Grande cura per le annotazioni in generale Particolare cura nell’annotazione dei nomi (sinonimi) della proteina TREMBL Gestita dall’EBI Deriva dalla traduzione di tutte le sequenze di EMBL Le sequenze complete e ritenute più “sicure” formano il sottoinsieme SPTREMBL che viene poi incamerato in SWISSPROT UNIPROT SWISSPROT + SPTREMBL RIDONDANTE!

DATABASE DI SEQUENZE PROTEICHE PIR (Protein Information Resource) Gestita dalla Georgetown University (USA)+istituto MIPS (Monaco di Baviera) Molto ben annotata ma poco integrata con le altre banche dati

DATABASE CORRELATI A SWISSPROT e TREMBL PROSITE Annota famiglie di proteine accomunate da PATTERN AMMINOACIDICI (sperimentali o predetti in silico, strutturali o funzionali) Pfam Ogni entry raccoglie un gruppo di proteine con degli elementi strutturali o funzionali in comune. Ci sono quattro tipi di elementi: Famiglia = proteine con la stessa organizzazione in domini Domini = unità strutturale che può essere presente in famiglie differenti Repeat = unità strutturale ripetuta più volte in una o più famiglie Pattern

Dom.A B B Dom.C B D E B D E Dom.A B B Dom.C B D E Dom.A B Dom.C Dom.A Famiglia 1 Famiglia 3 Famiglia 2 Dom.A B B Dom.C B D E B D E Dom.A B B Dom.C B D E Dom.A B Repeat tipo 1 Famiglia 4 Dom.C Dom.A Dom.A Dom.F Dom.A Repeat tipo 2 Dom.A G B

DATABASE CORRELATI A SWISSPROT e TREMBL ProDOM Annota famiglie di proteine evolutivamente correlate (determinazione automatica con PSI-BLAST) PRINTS Annota famiglie di proteine accomunate da PATTERN AMMINOACIDICI (sperimentali o predetti in silico, strutturali o funzionali) I dati sono tutti rivisti manualmente ed annotati InterPRO Integrazione di molte banche dati di famiglie proteiche incluse Pfam, PROSITE, ProDOM, PRINTS, SMART

DATABASE Immunologici IMTG Raccoglie dati relativi a: Immunoglobuline; Recettori delle cellule T; MHC I e II (complesso maggiore di istocompatibilità). MHCpep Annota le sequenze dei peptidi che si legano alle molecole MHC di uomo, topo, ratto, e altri mammiferi modello. MPID Annota funzioni per i peptidi che si legano alle molecole MHC

DATABASE pathway metabolici ENZYME Classificazione e nomenclatura UFFICIALE degli enzimi. EC number (EC x.y.z.u) Nome d’uso, attività catalitica, cofattori noti, ecc. PATHWAYS Annota le interazioni fra le proteine! *** Due enzimi che si susseguono in un pathway noto. *** Proteine che fisicamente si legano fra loro. *** Enzima che modifica una proteina bersaglio. MetaCyc Descrive tutti i pathway metabolici noti in letteratura

Raccolgono i dati sperimentali e le loro annotazioni Banche Dati PRIMARIE Raccolgono i dati sperimentali e le loro annotazioni Banche Dati DERIVATE Contengono ANALISI dei dati presenti nelle banche dati primarie Ad esempio: Banca Dati primaria SWISSPROT DERIVATE da SWISSPROT PROSITE Pfam ProDOM PRINTS InterPRO

Banca Dati primaria GenBank/EMBL Ad esempio: Banca Dati primaria GenBank/EMBL DERIVATE da GenBank/EMBL DATABASE EST HGVbase dbSNP HGMD (human gene mutation database) OMIM (Online Mendelian Inheritance in Man) GOBASE (Organelle Genome Database) MITOMAP (Human Mitocondrial Genome Database) MITOP MitoNuc ….