BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.

Slides:



Advertisements
Presentazioni simili
Introduzione al linguaggio C++
Advertisements

INFORMATICA Tipi strutturati
Introduzione ad XML Mario Arrigoni Neri.
DBMS (DataBase Management System)
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità C1 Il linguaggio SQL.
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
1 Linking ed integrazione dei servizi Da A-to-Z alle banche dati biomediche di EBSCO Publishing 5 Luglio 2005 BOLOGNA BIBLIOSAN Annalisa Mamberti.
WEB OF SCIENCE ISI Web of Knowledge
Gli schema W3C Estensione di tipi semplici, scelte fra più elementi, application profiles.
Query OQL e XQUERY a confronto
Università degli studi di Modena e Reggio Emilia
4 – Progettazione – Introduzione e Modello E-R
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Basi di Dati prof. A. Longheu 4 – Progettazione – Introduzione e Modello E-R Cap. 5 Basi di dati Atzeni – Ceri – Paraboschi - Torlone.
Introduzione a UNIMARC Liliana Bernardis gennaio 1999.
BASI DI DATI BIOLOGICHE - 3
BASI DI DATI BIOLOGICHE - 1. Sommario Introduzione. La analisi biologiche e i dati che producono. Organizzazione dei dati. Esempi.
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
JavaScript Laboratorio di Applicazioni Informatiche II mod. A.
Basi di dati. Vantaggi degli archivi digitali Risparmio di spazio: sono facilmente trasferibili e duplicabili Risparmio di tempo: si può accedere ai dati.
PUBMED 29 novembre 2012.
I database per il medico: PubMed
PubMed: le funzioni avanzate
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
1 Implementazione di Linguaggi 2 Implementazione di Linguaggi 2 Federico Bernardi Type checking 2° parte Type checking 2° parte - Equivalenza di type expressions.
Bioinformatica Andrea G. B. Tettamanzi.
Corso di Laurea in Ingegneria per lAmbiente e il Territorio Informatica per lAmbiente e il Territorio Docente: Giandomenico Spezzano Tutor: Alfredo Cuzzocrea.
Sequenze Ripetitive di Dna
Esercitazione 1
Entrez + MedLine => PubMed
PROGETTAZIONE DI UN DATA BASE TURCO MERY MAT CPA
Software per la Bioinformatica
2000 Prentice Hall, Inc. All rights reserved. Capitolo 10 (Deitel) Strutture, unioni ed enumerazioni Sommario Introduzione Definire le strutture.
Progettare un database
Creare pagine web Xhtlm. Struttura di una pagina.
Alcuni esempi di domande di esame
DATABASE PRIMARI Cosa sono i database primari di acidi nucleici?
PARSERIZZAZIONE DI FILE
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Sequenze e Banche Dati Biologiche
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
Giulio Pavesi Dipartimento di BioScienze Università di Milano
Cosa sono i GENI I geni rappresentano l’unità strutturale e funzionale della genetica Un gene è una successione lineare di unità chimiche semplici (nucleotidi)
=produzione di molte copie identiche del frammento di DNA
I DBMS BASI DI DATI (DATABASE) Insieme organizzato di dati utilizzati
GLI ALGORITMI VISIBILE SUL BLOG INFORMATICA ANNO SCOLASTICO 2013 / 2014 GABRIELE SCARICA 2°T.
Tecnologie di InternetDocument Type Definition Dott. Nicola Dragoni Document Type Definition  Document Type Definition (DTD)  Documento XML valido 
Prog. applicazioni Web- 1 - Processo di sviluppo: Visione d’insieme.
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
© Piero Demichelis Tipi strutturati I tipi considerati finora hanno la caratteristica comune di non essere strutturati: ogni elemento è una singola entità.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
MySQL Database Management System
GQuery ( ncbi. nlm. nih
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
La parola “Bioinformatica”
Allineamento di sequenze
ALLINEAMENTO DI SEQUENZE
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
Modulo 5 – Database ACCESS LICEO SCIENTIFICO “ B. RESCIGNO COMPUTER SCUOLA PIANO INTEGRATO 2008/09 ESPERTO prof.ssa Rita Montella.
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
Biotecnologie Il DNA ricombinante.
FIRB 2003 (art.8) D.D LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: CNRBA ATTIVITA’  Sviluppo programmi di analisi  Sviluppo.
Definizione di GENETICA
DI:SARA MASINI, THOMAS RICHELDI E SEIF AJRA. MUFFE LIEVITI FUNGHI A CAPPELLO.
di una cellula Il ciclo vitale
Transcript della presentazione:

BASI DI DATI BIOLOGICHE - 2

Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac. Di analisi: Microarray.

Basi di dati di sequenze (1) Basi di dati pubbliche: NCBI;DDBJ;EBI. Mantengono dati sul sequenziamento (sequenza FASTA) e sulle caratteristiche conosciute riconducibili a tali sequenze (regioni codificanti, regioni di legame, inizio della replicazione,...).

Basi di dati di sequenze (2) Deposito di sequenze provenienti da sottomissioni dirette. Le tre le organizzazioni utilizzano DBMS diversi. NCBI – personalizzato; EBI – SRS Oracle. Si scambiano dati quotidianamente.

Basi di dati di sequenze - Interazione L'interazione con gli utenti è diversa per ognuna delle organizzazioni. NCBI:Entrez;EBI/DDBJ:SRS. In tutti i casi, la struttura delle basi di dati è nascosta agli utenti.

Basi Di Dati di Sequenze – Flat File L'interazione fra le tre organizzazioni è organizzata attraverso un protocollo. Tale protocollo definisce il formato dei dati che vengono scambiati. In modo indiretto fornisce delle informazioni sull'organizzazione dei dati.

Flat File - Introduzione L'obiettivo dei flat file è di definire delle regole che permettano alle tre basi di dati di scambiarsi informazioni. Le informazioni scambiate possono essere di natura diversa: informazioni sulla sequenza; caratteristiche (feature): funzioni biologiche; interazioni fra molecole; risultato dell'espressione di una funzione biologica.

Flat File - Struttura Insieme di coppie chiave/valore. Il valore può essere, a sua volta, una insieme di coppie chiave/valore. La chiave è stabilita dallo standad. Del valore viene a volte definita la struttura.

Flat File - Esempio. LOCUS SCU bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U GI: KEYWORDS. SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), (1994) MEDLINE PUBMED REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), (1996) MEDLINE PUBMED REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA

Flat File - LOCUS Il primo attributo (LOCUS) è strutturato: locus name – nell'esempio, SCU49845; sequence length – 5028 bp; molecule type – DNA; GenBank division – PLN = plant, fungal, and algal sequences; modification date.

Flat File - DEFINITION Breve descrizione della sequenza, che include informazioni quali l'organismo di provenienza, il nome del gene, o della proteina, e una qualche descrizione delle funzioni della sequenza qualora essa non sia codificante; E un campo poveramente strutturato, denominato annotazione della sequenza.

Flat File - SOURCE Informazioni non strutturate sull'organismo e, talvolta, sul tipo della molecola di provenienza della sequenza; Contiene la sotto-specificazione ORGANISM: Nome scientifico formale (genere e specie) dell'organismo di provenienza.

Flat File – IDENTIFICATORI ACCESSION: è l'identificatore stabile del record della sequenza, costituito da una combinazione di lettere e numeri. VERSION: è l'identificatore di una singola, specifica sequenza all'interno della genbank. GI: è un numero, equivalente a VERSION, attribuito ad ogni sequenza.

Flat File – REFERENCE Pubblicazioni scientifiche relative alla sequenza, che hanno per oggetto dati riportati nel record (sia sulla sequenza che sull'annotazione); E' costituito da un insieme di coppie chiave/valore.

Flat File – REFERENCE sottocampi AUTHORS – elenco degli autori; TITLE – titolo del documento; JOURNAL – dove è stato pubblicato; MEDLINE – MedLine unique identifier (UID); PUBMED – PubMed Identifier (PMID). Direct Submission – Informazioni su chi ha inviato la sequenza.

Flat File – FEATURES Oltre ai dati sulla sequenza, sono presenti, organizzati in maniera diversa, dati relativi a caratteristiche associabili alla sequenza; Tali dati, detti anche Feature Table, constano dei seguenti elementi: Feature Key: singola parola indicante il gruppo funzionale; Location: informazione utile per reperire la feature; Qualificazioni: informazioni ausiliarie sulla feature.

FEATURES – Peculiarità Alcuni caratteristiche interessanti delle features sono: Si possono definire gerarchie di features; Le localizzazioni possono essere complesse; Possono essere disposte in maniera ordinata; L'evidenza sperimentale può essere fornita in modo esplicito; La sintassi si presta ad un parsing automatico.

FEATURES – Esempio (1) Key Location/Qualifiers CDS /product="alcohol dehydrogenase" /gene="adhI" LA feature CDS è una sequenza codificante che inizia alla base 23 e finisce alla base 400, ha un prodotto detto 'alcohol dehydrogenase' e codifica per un gene detto 'adhI'

FEATURES – Esempio (2) Key Location/Qualifiers CDS join( ,688..>1032) /product="T-cell receptor beta-chain" Questa feature è una sequenza parzialmente codificante formata unendo gli elementi indicati a formare un'unica sequenza contigua che codifica un prodotto detto 'T-cell receptor beta-chain'.

FEATURES – Esempio (3) FEATURES Location/Qualifiers source /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="IX" /map="9" CDS < /codon_start=3 /product="TCP1-beta" /protein_id="AAA " /db_xref="GI: " /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene /gene="AXL2" CDS /gene="AXL2" /note="plasma membrane glycoprotein" /codon_start=1 /function="required for axial budding pattern of S. cerevisiae" /product="Axl2p" /protein_id="AAA " /db_xref="GI: " /translation="MTQLQIS...PEML" gene complement( ) /gene="REV7" CDS complement( ) /gene="REV7" /codon_start=1 /product="Rev7p" /protein_id="AAA " /db_xref="GI: " /translation="MNRWVEKWLR...SLF"

FEATURES - source E' una feature particolare che riassume quanto si sa sull'elemento sulla base del solo sequenziamento: lunghezza;organismo; locazione genomica; ecc...

FEATURES - CDS Regione di nucleotidi che corrisponde ad una sequenza di aminoacidi in una proteina (sequenza codificante): La prima riga è la locazione; Seguono dati accessori: product; protein_id; translation.

FEATURES - Gene Una regione di interesse biologico identificata come un gene e alla quale è stato assegnato un nome. Locazione; Locazione; Nome del Gene. Nome del Gene.

FLAT FILE Alla fine del flat file vengono riportati: BASE COUNT – il numero di A, C, T e G nella sequenza; Last but not list, la sequenza.

FEATURES – Esempio (3) BASE COUNT 1510 a 1074 c 835 g 1609 t ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa 361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat 421 aatacccatc ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

ESERCIZIO Sulla base del file di esempio, si costruisca una base di dati che mantenga le informazioni in esso riportate, ovvero: Informazioni sulle sequenze: descrizione; source; reference. Features relative alle varie sequenze.