DATABASE=collezione di dati biologici RECORD=elementi del database (o ENTRY) CAMPI=attributi dei record IDENTIFICATORE DI RECORD=alfanumerico identificativo.

Slides:



Advertisements
Presentazioni simili
Malattie genetiche monogeniche
Advertisements

Organizzazione del genoma umano I
Geni costitutivi e non costitutivi
Bioinformatica Pictar – miRanda - TargetScan – miRiam
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Bioinformatica Prof. Mauro Fasano
BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.
BASI DI DATI BIOLOGICHE - 3
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Per avere una utilità pratica un marcatore deve essere polimorfico
Corso di ingegneria genetica
TRASCRIZIONE del DNA.
La Sintesi Proteica.
Il concetto di aplotipo
Opinione studenti II anno A-K Per la stragrande maggioranza degli studenti, il bilancio per il II anno A-K, è nettamente positivo. Infatti se vogliamo.
È stimato che oggi sulla terra sono presenti
Banche dati biologiche
Software per la Bioinformatica
Ivana Calarco DIFFERENZIAMENTO 29/03/2017.
Università degli Studi di Genova Laurea Specialistica in Biotecnologie Medico-Farmaceutiche Corso di: Biotecnologie Diagnostiche A.A. 2004/2005 Utilizzo.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
In questa lezione ci occuperemo
Polimorfismi, mutazioni e metodi per evidenziarli
La varietà dei genomi valore C: quantità totale di DNA contenuta in un genoma aploide Il genoma comprende geni e sequenze non codificanti. Le dimensioni.
CORSO DI BIOLOGIA - Programma
Alcuni esempi di domande di esame
Tutorial per l’utilizzo di k ScanProsite
CORSO DI BIOLOGIA - Programma
La regolazione dell’espressione genica
La vita in codice Prof.ssa Carmela Allocca.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Dip. Scienze Biomolecolari e Biotecnologie
Sequenze e Banche Dati Biologiche
Annotare i geni Gene xxxx Gene zzzz 3 esoni 7 esoni proteina y
Difetti congeniti del metabolismo II
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIMOnline Mendelian Inheritance in Man LOCUSLINKcurated sequence and descriptive information about genetic.
La parola “Bioinformatica”
Allineamento di sequenze
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
Il progetto genoma umano e gli altri progetti genoma: importanza degli organismi-modello.
POLIMERASE CHAIN REACTION (PCR)
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Capacità di riprodursi struttura nucleo DNA, RNA Membrana semipermeabile Parete cell organelli metabolismo Scambi energia e materia vegetale animale unicellulare.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
CLONAGGIO POSIZIONALE
Geni “cliccabili”. SRS : Ensembl : NCBI : Sanger centre :
Concetti di base. Per biodiversità si intende l'insieme di tutte le forme viventi geneticamente diverse e degli ecosistemi ad esse correlati Il termine.
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
Come e quanto varia il genoma umano? Quali sono le conseguenze di queste variazioni?
UD5 Fase I Le Mutazioni Ovvero quando il codice genetico è errato o viene erroneamente decodificato.
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
FIRB 2003 (art.8) D.D LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: CNRBA ATTIVITA’  Sviluppo programmi di analisi  Sviluppo.
I Dati Biologici vengono raccolti nelle BANCHE DATI (DATABASE, DB) BANCHE DATI di Sequenze BANCHE DATI di Strutture BANCHE DATI di Funzioni BANCHE DATI.
Definizione di GENETICA
Genetica diretta e Genetica inversa: approcci sperimentali classici e metodologie recenti per lo studio della funzione dei geni.
DATABASE = collezione di dati biologici
Transcript della presentazione:

DATABASE=collezione di dati biologici RECORD=elementi del database (o ENTRY) CAMPI=attributi dei record IDENTIFICATORE DI RECORD=alfanumerico identificativo di un record IDENTIFICATORE DI CAMPO=alfanumerico identificativo di un campo FLAT FILE=file di testo contenente le descrizioni dei campi di un record DataBase Management System (DBMS)=software che gestisce il DB e consente l’accesso ai dati

DATABASE DI SEQUENZE DI DNA I due maggiori centri bioinformatici mondiali, N.C.B.I. di Washington negli Stati Uniti e l'E.B.I. a Cambridge in Europa, gestiscono i principali database di sequenze di DNA: Genbank e EMBL. I due database contengono essenzialmente gli stessi dati e ogni giorno si scambiano le informazioni per aggiornarsi a vicenda. Tuttavia il formato di ogni record, come appare nei corrispondenti "flat files" è leggermente diverso. N.C.B.I./Genbank E.B.I/EMBL

ID HSTELETHO standard; RNA; HUM; 959 BP. XX AC AJ000491; XX SV AJ XX DT 15-AUG-1997 (Rel. 52, Created) DT 14-OCT-1997 (Rel. 52, Last updated, Version 6) XX DE Homo sapiens mRNA for telethonin XX KW 19 kDa protein; sarcomeric protein; telethonin. XX OS Homo sapiens (human) OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Mammalia; Eutheria; OC Primates; Catarrhini; Hominidae; Homo. XX RN [1] RP RA Valle G.; RT ; RL Submitted (17-JUL-1997) to the EMBL/GenBank/DDBJ databases. RL Valle G., CRIBI Biotechnology Centre, Universita di Padova, via U. Bassi RL 58b, Padova, 35121, ITALY. XX RN [2] RA Valle G., Faulkner G.P., Deantoni A., Pacchioni B., Pallavicini A., RA Pandolfo D., Tiso N., Toppo S., Trevisan S., Lanfranchi G.; RT "Telethonin, a novel sarcomeric protein of heart and skeletal muscle."; RL FEBS Lett. 415: (1997).

XX DR SWISS-PROT; O15273; TELT_HUMAN. XX FH Key Location/Qualifiers FH FT source FT /chromosome="17" FT /db_xref="taxon:9606" FT /sequenced_mol="cDNA to mRNA" FT /organism="Homo sapiens" FT /map="q12" FT /tissue_type="skeletal muscle" FT CDS FT /codon_start=1 FT /db_xref="SWISS-PROT:O15273" FT /note="19kD sarcomeric protein" FT /product="telethonin" FT /protein_id="CAA " FT /translation="MATSELSCEVSEENCERREAFWAEWKDLTLSTRPEEGCSLHEEDT FT QRHETYHQQGQCQVLVQRSPWLMMRMGILGRGLQEYQLPYQRVLPLPIFTPAKMGATKE FT EREDTPIQLQELLALETALGGQCVDRQEVAEITKQLPPVVPVSKPGALRRSLSRSMSQE FT AQRG" XX SQ Sequence 959 BP; 196 A; 257 C; 355 G; 151 T; 0 other; cggcacgagc atggctacct cagagctgag ctgcgaggtg tcggaggaga actgtgagcg 60 ccgggaggcc ttctgggcag aatggaagga tctgacactg tccacacggc ccgaggaggg 120 ctgctccctg catgaggagg acacccagag acatgagacc taccaccagc aggggcagtg 180 ccaggtgctg gtgcagcgct cgccctggct gatgatgcgg atgggcatcc tcggccgtgg 240 gctgcaggag taccagctgc cctaccagcg ggtactgccg ctgcccatct tcacccctgc 300 caagatgggc gccaccaagg aggagcgtga ggacaccccc atccagcttc aggagctgct 360

LaboratorioBanca Dati SistemaSistema DNA di Accessodi Sottomissione N.C.B.I.Genbank EntrezSeqIN (USA) E.B.I.EMBLSRSWebIN (Europa) NIGDDBJSAKURA (Giappone) Sistemi INTEGRATI di BANCHE DATI

I sistemi per la sottomissione dei dati (WebIN, SeqIN e SAKURA) consentono agli autori della sequenza di specificare numerose informazioni funzionali quali presenza di orf, espressione, ruolo funzionale ecc. La maggior parte delle ANNOTAZIONI nelle banche dati derivano direttamente dagli autori delle sequenze. Altre annotazioni vengono aggiunte dai curatori del DB che le derivano dalla letteratura scientifica. Gli aggiornamenti alle annotazioni vengono effettuate in questo modo.

PubMed È un database di referenze bibliografiche di interesse biologico e medico che costituisce un'importante fonte di informazione in cui possono essere facilmente reperite informazioni bibliografiche e riassunti delle corrispondenti pubblicazioni. Fa parte del sistema integrato “Entrez” di database biologici ( )

RISORSE GENOMICHE Entrez_Genomes e EBI_Genome Risorse integrate dove sono disponibili tutti i genomi Comprehensive Microbial Resource presso l’istituto TIGR Raccolta di tutti i genomi batterici Doe Institute Istituto presso il quale sono in via di sequenziamento o completati numerosi genomi batterici GadFly e FlyBASE Drosophyla GDB Geoma umano ….. ………

Il sequenziamento dei genomi produce una tale massa di sequenze da rendere impossibile una rapida e accurata annotazione da parte dei curatori dei DBs genomici pertanto: i DBs genomici vengono annotati con metodi automatici (BLAST ecc.) almeno negli stadi iniziali. Le annotazioni dei genomi sono spesso imprecise o addirittura errate

Ensembl Sviluppato dall’E.B.I. con il Sanger centre Database genomico umano ANNOTATO Ad esempio: Dati sul mappaggio dei geni Presenza di polimorfismi Correlazioni fra locus e malattie genetiche HumGuide Sviluppato dall’NCBI

DATABASE EST (Expressed Sequence Tags) Cellula o tessuto mRNA cDNA Library cDNA EST DB Estrazione mRNA Trascrizione inversa Clonaggio Sequenziamento

DATABASE EST (Expressed Sequence Tags) dell’NCBI Vantaggio rispetto ai DBs genomici: contiene informazioni sulla specificità tissutale dell’espressione; sui livelli di espressione; su forme alternative di splicing ecc. Contiene molte sequenze parziali di cDNA Sequenze a bassa precisione (molti errori) FANTOMdb: specifico per il topo, contiene solo cDNA completi. (in via di realizzazione per drosofila)

DATABASE di polimorfismi e mutazioni POLIMORFISMO: variazione nucleotidica che lascia inalterata la funzione di un gene (variante allelica) Se un allele è presente in almeno l’1% della popolazione si parla di polimorfismo. Single Nucleotide Polymorphism (SNP): Polimorfismo associato al cambiamento di un solo nucleotide. Mutazione: Differenza rispetto a un genoma di riferimento e causa di disfunzioni o manifestazioni fenotipiche in generale

DATABASE di polimorfismi e mutazioni Single Nucleotide Polymorphism (SNP): E.B.I.HGVbase NCBIdbSNP Mutazioni: HGMD (human gene mutation database) Solo mutazioni sperimentalmente indagate al livello del DNA. Mutazioni silenti non riportate a meno che non causino alerazioni dell’espressione (ad esempio alterazioni nello splicing). Per ogni mutazione è descritto il fenotipo clinico. OMIM (Online Mendelian Inheritance in Man) Gestita dall’NCBI Tutte le malattie genetiche autosomiche, X linked, Y linked e associate al genoma mitocondriale

DATABASE di DNA di Organelli GOBASE (Organelle Genome Database) Sequenze di Mitocondri e Cloroplasti (derivati da Entrez) Molto curata nelle annotazioni MITOMAP (Human Mitocondrial Genome Database) Variazioni del genoma mitocondriale associate a fenotipi MITOP Sequenze di Mitocondri umani, di topo e di lievito MitoNuc Raccoglie i geni nucleari che esprimono proteine destinate ai mitocondri

DATABASE DI SEQUENZE PROTEICHE Raccolgono sequenze proteiche determinate sperimentalmente (sequenziamento degli amminoacidi) e sequenze proteiche dedotte da sequenze geniche mediante traduzione “in silico”. Il sequenziamento del DNA è molto più semplice e rapido del sequenziamento dei peptidi, pertanto le sequenze dedotte sono di alcuni ordini di grandezza più numerose di quelle ricavate dal sequenziamento diretto. ATTENZIONE! La traduzione “in silico” non mostra modifiche post traduzionali come ad esempio il “processing proteolitico” e a volte pone problemi quali la scelta del corretto codone di inizio.

DATABASE DI SEQUENZE PROTEICHE SWISSPROT Gestita dal SIB (Swiss Institute of Bioinformatics) Formato: flat file simile a quello EMBL Grande cura per le annotazioni in generale Particolare cura nell’annotazione dei nomi (sinonimi) della proteina TREMBL Gestita dall’EBI Deriva dalla traduzione di tutte le sequenze di EMBL Le sequenze complete e ritenute più “sicure” formano il sottoinsieme SPTREMBL che viene poi incamerato in SWISSPROT SWALL SWISSPROT + SPTREMBL RIDONDANTE!

DATABASE DI SEQUENZE PROTEICHE PIR (Protein Information Resource) Gestita dalla Georgetown University (USA)+istituto MIPS (Monaco di Baviera) Molto ben annotata ma poco integrata con le altre banche dati

DATABASE CORRELATI A SWISSPROT e TREMBL PROSITE Annota famiglie di proteine accomunate da PATTERN AMMINOACIDICI (sperimentali o predetti in silico, strutturali o funzionali) Pfam Ogni entry raccoglie un gruppo di proteine con degli elementi strutturali o funzionali in comune. Ci sono quattro tipi di elementi: Famiglia = proteine con la stessa organizzazione in domini Domini = unità strutturale che può essere presente in famiglie differenti Repeat = unità strutturale ripetuta più volte in una o più famiglie Pattern

Dom.AB B B Dom.CB B DBE DBE DBE Dom.F GB Famiglia 1 Famiglia 2 Famiglia 3 Famiglia 4 Repeat tipo 1 Repeat tipo 2

DATABASE CORRELATI A SWISSPROT e TREMBL ProDOM Annota famiglie di proteine evolutivamente correlate (determinazione automatica con PSI-BLAST) PRINTS Annota famiglie di proteine accomunate da PATTERN AMMINOACIDICI (sperimentali o predetti in silico, strutturali o funzionali) I dati sono tutti rivisti manualmente ed annotati InterPRO Integrazione di molte banche dati di famiglie proteiche incluse Pfam, PROSITE, ProDOM, PRINTS, SMART

DATABASE Immunologici IMTG Raccoglie dati relativi a: Immunoglobuline; Recettori delle cellule T; MHC I e II (complesso maggiore di istocompatibilità). MHCpep Annota le sequenze dei peptidi che si legano alle molecole MHC di uomo, topo, ratto, e altri mammiferi modello. MPID Annota funzioni per i peptidi che si legano alle molecole MHC

DATABASE pathway metabolici ENZYME Classificazione e nomenclatura UFFICIALE degli enzimi. EC number (EC x.y.z.u) Nome d’uso, attività catalitica, cofattori noti, ecc. PATHWAYS Annota le interazioni fra le proteine! *** Due enzimi che si susseguono in un pathway noto. *** Proteine che fisicamente si legano fra loro. *** Enzima che modifica una proteina bersaglio. MetaCyc Descrive tutti i pathway metabolici noti in letteratura

Banche Dati PRIMARIE Raccolgono i dati sperimentali e le loro annotazioni Banche Dati DERIVATE Contengono ANALISI dei dati presenti nelle banche dati primarie Ad esempio: Banca Dati primaria SWISSPROT DERIVATE da SWISSPROT PROSITE Pfam ProDOM PRINTS InterPRO

Ad esempio: Banca Dati primaria GenBank/EMBL DERIVATE da GenBank/EMBL DATABASE EST HGVbase dbSNP HGMD (human gene mutation database) OMIM (Online Mendelian Inheritance in Man) GOBASE (Organelle Genome Database) MITOMAP (Human Mitocondrial Genome Database) MITOP MitoNuc ….