Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel. 0039 049 8276214

Slides:



Advertisements
Presentazioni simili
DBMS (DataBase Management System)
Advertisements

Progetto genoma umano Il genoma tappe dello studio del genoma umano
LA LAUREA MAGISTRALE IN BIOINFORMATICA Università degli studi
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Corso di Laurea Specialistica in Informatica Bioinformatica A. A
Bioinformatica Prof. Mauro Fasano
BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.
BASI DI DATI BIOLOGICHE - 3
File.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: Pubmed CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI- NAPOLI Prof.ssa.
NLM - National Library of Medicine NLM - National library of Medicine Che cosè? n Dove? Bethesda, MD, USA n Affiliazione: –Department of Health and Human.
Basi di dati Università Degli Studi Parthenope di Napoli
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Caratterizzazione di un gene clonato
DBMS ( Database Management System)
Bioinformatica Per la laurea triennale in: Biologia Umana
Entrez + MedLine => PubMed
D N A LA MOLECOLA DELLA VITA.
Banche dati biologiche
Software per la Bioinformatica
ACCESS Introduzione Una delle necessità più importanti in informatica è la gestione di grandi quantità di dati. I dati possono essere memorizzati.
SIMILARITA’ ? OMOLOGIA
Università degli Studi di Genova Laurea Specialistica in Biotecnologie Medico-Farmaceutiche Corso di: Biotecnologie Diagnostiche A.A. 2004/2005 Utilizzo.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
In questa lezione ci occuperemo
Ricerca di similarità di sequenza (FASTA e BLAST)
UNITA’ DIDATTICA: L’RNA
Il progetto genoma umano
Introduzione alle basi di dati
Alcuni esempi di domande di esame
I DATABASE Elenco: Statistiche (Vedere i vari database):
Tutorial per l’utilizzo di k ScanProsite
La vita in codice Prof.ssa Carmela Allocca.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Sequenze e Banche Dati Biologiche
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
GQuery ( ncbi. nlm. nih
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
A.A CORSO DI BIOINFORMATICA per il CLT in Biotecnologie Sanitarie Università di Padova Docente: Dr. STEFANIA BORTOLUZZI.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIMOnline Mendelian Inheritance in Man LOCUSLINKcurated sequence and descriptive information about genetic.
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.
La parola “Bioinformatica”
Allineamento di sequenze
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE
ALLINEAMENTO DI SEQUENZE
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
Le basi di dati.
Laurea Specialistica “Metodologie Chimiche Avanzate” A.A Gabriele Ricchiardi Ricercatore/Chimica Fisica Tel.:
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
Il progetto genoma umano e gli altri progetti genoma: importanza degli organismi-modello.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle Prof.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
La Fabbrica delle Proteine
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Proff.
DATABASE=collezione di dati biologici RECORD=elementi del database (o ENTRY) CAMPI=attributi dei record IDENTIFICATORE DI RECORD=alfanumerico identificativo.
FIRB 2003 (art.8) D.D LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: CNRBA ATTIVITA’  Sviluppo programmi di analisi  Sviluppo.
Definizione di GENETICA
Transcript della presentazione:

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel Universita' di Padova, Corso di laurea in Biologia Sanitaria A.A Corso di Genetica e Bioinformatica

Lezioni Argomenti Ore 1 Database primari e Database secondari. Database di sequenze nucleotidiche e proteiche: GenBank, SWISSPROT. Database compositi e information retrieval: ricerca in ENTREZ. 2 Formato FASTA, traduzione, mascheramento, inverso complementare: utilizzo di BCM sequence utilities. 2 2 Database di interesse per la genetica e la biologia molecolare: - Omim - LocusLink - UniGene - GenCards - Human Gene Mutation Database 3 Portali per l'accesso a database e servizi bioinformatici: - NCBI (SNP, SAGE, Gene expression omnibus, SKY/CGH database) - HGMP (DNA and Proteins analysis tools, Genome database). 1 3 Allineamento di sequenze a coppie. Allineamento globale e allineamento locale. Ricerca di similarita’: BLAST. 2 Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT. 2 PROGRAMMA DEL CORSO (16 ore)

I LEZIONE PARTE A Database primari e Database secondari Database compositi e information retrieval: ricerca in ENTREZ Database di sequenze nucleotidiche e proteiche – GenBank – SWISSPROT

INTRODUZIONE ALL’UTILIZZO DI DATABASE Struttura e organizzazione di database  I database sono insiemi di dati memorizzati su un computer con diversi livelli di astrazione al di sopra di essi.  Ogni livello di astrazione consente di organizzare i dati contenuti e accedervi piu' facilmente, separando la richiesta dal meccanismo di recupero di specifici dati.  Database diversi organizzano i dati in modi differenti  database relazionali (RDBMS, Relational Database Management Systems) es. Oracle  metodologia orientata agli oggetti (OODBMS)  Tutti i sistemi di database impiegano delle interfacce (API, Application Programming Interface) per accedere ai dati ed, eventualmente modificarli. La manipolazione dei dati avviene attraverso un linguaggio di interrogazione che permette essenzialmente quattro operazioni principali: acquisizione, memorizzazione, aggiornamento e eliminazione di dati.

INTRODUZIONE ALL’UTILIZZO DI DATABASE Database flat-file  Il tipo piu' semplice di database e' il database flat-file, formato da files di testo ASCII in formato standard che il programa esamina per cercare informazioni.  Il formato e' di solito costituito da un insieme di campi, contenenti ciascuno una specifica categoria di informazioni, delimitati attraverso caratteri speciali o con lunghezza fissa assegnata.  Il pregio principale dei database flat-file e' la semplicita' di gestione, controbilanciata pero' dalla loro incapacita' di gestire accesso concorrente e dalla mancanza di indicizzazione dei dati, che non consente interrogazioni sequenziali.

DATABASE FLAT-FILE ENTRY ACTT13627 NATorta sacher INcacao, uova, farina, burro, GR180 °C TM40 minuti CA500 a porzione ORVienna REDolci Austriaci, Ed.Frankfurter

LEVELS OF PROTEIN SEQUENCE AND STRUCTURAL ORGANISATION PRIMARY sequence primary database SECONDARY motif secondary database TERTIARY domain module secondary database DATABASE PRIMARI E DATABASE SECONDARI ORGANIZZANO RISPETTIVAMENTE DATI ORIGINALI E CONOSCENZA GENERATA A PARTIRE DA ANALISI DI DATI O INTEGRAZIONE DI DATI DIVERSI

DATABASE PRIMARI DATABASE DI SEQUENZE NUCLEOTIDICHE Collezioni di singoli records, ognuno dei quali contiene un tratto di DNA o RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha un codice che lo identifica univocamente (ACCESSION NUMBER). Le tre principali banche dati primarie di sequenze nucleotidiche sono: EMBL nucleotide database, ora gestita dall’EBI (1980)  EMBL = European Molecular Biology Laboratory (Heidelberg)  EBI = European Bioinformatics Institute (Hinxton, UK) GenBank = banca dell NIH gestita dal NCBI (1982)  NIH = National Institutes of Health (Stuttura USA)  NCBI = National Center for Biotechnology Information, Bethesda, Maryland DDBJ = banca DNA giapponese (1986)  DDBJ = DNA DataBase of Japan SCAMBIO DI DATI  Nel 1988, i gruppi responsabili dei 3 database (EMBL, DDBJ e GB) si sono organizzati nell’International Collaboration of DNA Sequence Databases per utilizzare un formato comune per i records e scambiarsi giornalmente le sequenze.

DATABASE DI SEQUENZE NUCLEOTIDICHE GenBank SUBMISSION DIRETTA  La gran parte delle sequenze finisce in uno dei tre database perché l’autore (il laboratorio dove tale sequenza é stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà’ solo di quel database, l’unico con il diritto di modificarlo. Il database che riceve la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un database sono presenti anche negli altri due. ANNOTAZIONE  Ci sono poi anche degli “annotatori” che prendono le sequenze dalle riviste scientifiche e le trasferiscono nel database.  Problema della ridondanza.

DATABASE DI SEQUENZE NUCLEOTIDICHE GenBank Quante sequenze ci sono in GenBank ? GenBank Statistics Crescita esponenziale di GenBank

DATABASE DI SEQUENZE NUCLEOTIDICHE GenBank GenBank contiene diverse sezioni dbEST  database pubblico di "Expressed Sequence Tags" (sequenze espresse contrassegnate), contiene tutte le sequenze ottenute dal sequenziamento parziale o totale di cloni di cDNA, molto utili per: Identificare nuovi geni Studiare la struttura esoni/introni di geni Studiare l’espressione genica dbEST release Number of public entries: 9,372,718 Summary by Organism - October 26, 2001 Homo sapiens (human) 3,859,807 Mus musculus + domesticus (mouse) 2,328,188 Rattus sp. (rat) 317,076 Drosophila melanogaster (fruit fly) 255,456...

DATABASE DI SEQUENZE NUCLEOTIDICHE GenBank GenBank contiene diverse sezioni ESTs - expressed sequence tags; short, single pass read cDNA (mRNA) sequences. Also includes cDNA sequences from differential display experiments and RACE experiments.ESTs GSSs - genome survey sequences; short, single pass read genomic sequences, exon trapped sequences, cosmid/BAC/YAC ends, others.GSSs HTGs - high throughput genome sequences from large scale genome sequencing centers; unfinished (phase 0, 1, 2) and finished (phase 3) sequences. (Note that contigs assembled from draft and finished human HTG sequences are accessible from the Map Viewer, described below.)HTGsbelow STSs - sequence tagged sites; short sequences that are operationally unique in the genome, used to generate mapping reagents.STSs WGS - whole genome shotgun sequences.WGS

Come e’ fatta un’entry di GenBank ?

DATABASE PRIMARI DATABASE DI SEQUENZE PROTEICHE SWISS-PROT Database di sequenze proteiche annotate, “scarsamente” ridondanti e cross-referenced Contiene TrEMBL, supplemento a SWISS-PROT costituito dalle sequenze annotate al computer, come traduzione di tutte le sequenze codificanti presenti all’EMBL TrEMBL contiene due sezioni: SP-TrEMBL, sequenze da incorporare in SWISSPROT, con AC. REM-TrEMBL, remaining (immunoglobuline, proteine sintetiche,...), senza AC. TrEMBLnew, generato ogni settimana.

DATABASE COMPOSITI E INFORMATION RETRIEVAL Rendono possibile l'interrogazione di piu' database residenti nel medesimo sito, anche in assenza di un formato comune tra i diversi database. SRS - Sequence Retrieval System Si tratta di un network browser per database in biologia molecolare, sviluppato all’interno dell'European Molecular Biology network. SRS permette l'indicizzazione di qualsiasi flat-file database rispetto a qualsiasi altro. Gli indici cosi' derivati sono velocemente cercabili e l'utente ha la possibilita' di recuperare entries da tutte le fonti interconnesse. Il sistema e' disponibile ed adattabile alle caratteristiche di ciascun set di database. Tipicamente, SRS permette di collegare dati relativi ad acidi nucleici, EST, sequenze proteiche, pattern di sequenze, a strutture o di tipo bibliografico, senza che all'utente sia richiesta la conoscenza della struttura dei dati e dei linguaggi utilizzati.

DATABASE COMPOSITI E INFORMATION RETRIEVAL ENTREZ E' stato sviluppato all’NCBI (National Center for Biotechnology Information, USA) per permettere l'accesso a dati di biologia molecolare e citazioni bibliografiche. Sfrutta il concetto di "neighbouring“: possibilita' di collegare tra loro oggetti diversi di database differenti, indipendentemente dal fatto che essi siano direttamente "cross-referenced". Tipicamente, ENTREZ permette l'accesso a database di sequenze nuclotidiche, di sequenze proteiche, di mappaggio di cromosomi e di genomi, di struttura 3D e bibliografici (PubMed).

DATABASE COMPOSITI E INFORMATION RETRIEVAL ENTREZ Permette di accedere a diversi tipi di database: Nucleotide  Dati di sequenza da GenBank, EMBL, and DDBJ Protein  Traduzione delle sequenze codificanti in GenBank, EMBL and DDBJ e sequenze di proteine sottomesse a PIR, SWISSPROT, PRF, Protein Data Bank (PDB) (sequenze da strutture risolte) Genome  Sequenze di genomi completi di molti organismi; cromosomi completi; mappe di contigui; mappe genetiche/fisiche integrate Structure  Struttura 3D di proteine ovvero dati sperimentali di cristallografia e NMR (Cn3D program) PopSet  Sequenze allineate, risultato di studi di genetica di popolazione, filogenesi e mutazione. Sia proteine che nucleotidi...

DATABASE COMPOSITI E INFORMATION RETRIEVAL ENTREZ Permette di accedere a diversi tipi di database:... 3d DomainsTaxonomy CDD GEO UniSTSOMIM GeneBooks UniGeneJournals SNPPubMed Central

Esempi di ricerca in: Pubmed Bookshelf Nucleotide Protein Genomes SNP Taxonomy Omologene CDD