BASI DI DATI BIOLOGICHE - 3

Slides:



Advertisements
Presentazioni simili
Modulo 5 DataBase ACCESS.
Advertisements

Misure con biomarcatori VI. Markers di funzionalità cellulare Prof. Giorgio Sartor Corso di Laurea Specialistica in Scienze per lAmbiente e il Territorio.
Creazione di archivi tramite Data Base
DBMS (DataBase Management System)
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità C1 Il linguaggio SQL.
Le base di dati database.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
4 – Progettazione – Introduzione e Modello E-R
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Basi di Dati prof. A. Longheu 4 – Progettazione – Introduzione e Modello E-R Cap. 5 Basi di dati Atzeni – Ceri – Paraboschi - Torlone.
Active Directory.
Le proteine: come sono fatte, come funzionano, e come si sono evolute
NESSUS.
Bioinformatica Prof. Mauro Fasano
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.
BASI DI DATI BIOLOGICHE - 1. Sommario Introduzione. La analisi biologiche e i dati che producono. Organizzazione dei dati. Esempi.
Archivio Cé necessità di immagazzinare in modo permanente grandi quantità di dati. Esempio: anagrafe dei cittadini di un comune.
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Basi di dati. Vantaggi degli archivi digitali Risparmio di spazio: sono facilmente trasferibili e duplicabili Risparmio di tempo: si può accedere ai dati.
Open Archives Initiative e Metadata harvesting ICCU Seminario nazionale sui Metadati Roma 3 aprile 2001 Dr. Valdo Pasqui Università di Firenze.
Metodi basati sulle similitudini per dedurre la funzione di un gene
Algoritmi e Programmazione Avanzata
DBMS ( Database Management System)
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
Implementare un modello di dati
Basi di Dati Microsoft Office: Access OpenOffice: Base Informatica 1 (SAM) - a.a. 2010/11.
D N A LA MOLECOLA DELLA VITA.
Software per la Bioinformatica
Progettare un database
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
In questa lezione ci occuperemo
Ricerca di similarità di sequenza (FASTA e BLAST)
CORSO DI BIOLOGIA - Programma
Alcuni esempi di domande di esame
CORSO DI BIOLOGIA - Programma
1 DTS: Importazione Apertura di un DTS da file di archiviazione strutturata: Per aprire un pacchetto DTS salvato come file di archiviazione strutturata.
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Sequenze e Banche Dati Biologiche
Corso Web CSV – Andiamo on-line 1 Andiamo on-line Corso di formazione Elementi base per la costruzione di un sito web.
Modulo 5 DataBase ACCESS. Informazioni e Dati INFORMAZIONI vengono scambiate con linguaggio scritto o parlato DATI rappresentazione di informazioni in.
Modulo 5 - Database. Contenuti della lezione 5.1.1Concetti Fondamentali 5.1.2Organizzazione di un Database 5.1.3Relazioni 5.2.1Lavorare con i database.
Semantic Web. I problemi della ricerca in Web Querying  Ambiguità della formula Browsing  Arbitrarietà nei criteri di classificazione dei dati = Web.
CORSO Di WEB DESIGN prof. Leonardo Moriello
I DBMS BASI DI DATI (DATABASE) Insieme organizzato di dati utilizzati
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
IV D Mercurio DB Lezione 2
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
PROGETTO… Internet Providers, registrazione del dominio Costruire una home page … e renderla visibile sul Web.
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Allineamento di sequenze
POSTGENOMICA O GENOMICA FUNZIONALE
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
Active Directory. Cos’è Active Directory (AD)  Un “directory service”  Un contenitore di oggetti  Un insieme di servizi di accesso  Un “namespace”
PROGETTO GIS Autocad Map 3D 2013 Tipi di dati gestibili e connessione ai dati Lezione 2 Università degli Studi di Napoli Federico II DIPARTIMENTO DI ARCHITETTURA.
1 “ Le Basi di Dati ”. 2 Parte 5: Tabelle –Creazione di una tabella –Indici e chiavi primarie –Relazioni e integrità referenziale Basi di Dati Struttura.
STRUTTURE DI MACROMOLECOLE & BANCHE DATI STRUTTURALI.
Il modello relazionale. Modello Relazionale 2 Dal modello concettuale a quello logico Una volta stabilita la rappresentazione concettuale della realtà.
Modulo 5 – Database ACCESS LICEO SCIENTIFICO “ B. RESCIGNO COMPUTER SCUOLA PIANO INTEGRATO 2008/09 ESPERTO prof.ssa Rita Montella.
CLONAGGIO POSIZIONALE
I DONEITÀ DI C ONOSCENZE E C OMPETENZE I NFORMATICHE ( A – D ) Un database è un insieme di record (registrazioni) e di file (archivi) organizzati per uno.
Corso di bioinformatica Eugenio Notomista tel Introduzione alla bioinformatica G. Valle, M. Helmer Citterich, M. Attimonelli,
Vengono detti memorie di massa tutti i supporti (dischi e nastri) su cui vengono registrati dati, documenti e programmi che si vogliono conservare, sono.
FIRB 2003 (art.8) D.D LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: CNRBA ATTIVITA’  Sviluppo programmi di analisi  Sviluppo.
Transcript della presentazione:

BASI DI DATI BIOLOGICHE - 3

Principali Basi di Dati Biologiche Alcune delle principali Basi di Dati Biologiche: Di sequenze: NCBI. Di proteine: Protein Data Bank. Di annotazioni: Ensembl. Di analisi: microarray.

Protein Data Bank (PDB) Archivio globale di dati strutturali relativi a macromolecole biologiche. Istituita nel 1971. Dal 1980 esplosione del numero di strutture grazie ai progressi nell’ambito delle tecniche utilizzate (principalmente NMR). Dai primi anni 90 deposito ed accesso ai dati via www.

PDB – Il deposito dei dati (1) Il deposito dei dati avviene attraverso ADIT (AutoDep Input Tool); i dati devono rispettare un dizionario (mmCIF) di 1700 termini. Appena ricevuti, i dati entrano a far parte del “core database”. Successivamente, vengono controllati attraverso un certo insieme di interazioni con i submitter.

PDB – Il deposito dei dati (2) Vengono registrate: le coordinate della struttura; informazioni generali sulla struttura (pubblicazioni, organismi, ...); informazioni specifiche (dati della NMR, processo di acquisizione del dato, ...).

Interazione con PDB

PDB – La base di dati (1) Le basi di ati che costituiscono PDB sono: Il “core relational database” (Sybase), che contiene i dati sperimentali primari e i dati relativi alle coordinate. I dati finali (curati) presenti come file di testo (ASCII). La “base di dati” POM (Property Object Model), che comprende oggetti indicizzati che descrivono proprietà native (coordinate atomiche) o derivate (strutture secondarie calcolate).

PDB – La base di dati (2) Il “Biological Macromolecule Crystallization Database” (Sybase), che contiene informazioni ricavate dalla letteratura. La base di dati LDAP usata per indicizzare i campi testuali del PDB in formato strutturato.

PDB – La base di dati (3)

PDB - Un esempio http://www.rcsb.org/pdb/ Cercare cyclin. Scaricare il risultato.

Ensembl - Caratteristiche generali Scopo del progetto Ensembl è mettere assieme il mosaico dei segmenti di DNA creati dal sequenziamento del genoma umano. Utilizza sequenze ricavate dalle basi di dati pubbliche per alimentare una pipeline di analisi. Determina in maniera semi-automatica geni e caratteristiche rilevanti delle sequenze Presenta i risultati attraverso il www.

Ensembl - L’architettura

Ensembl - Contenuto Geni Altre caratteristiche: Noti da altri esperimenti; Predetti da Ensembl. Altre caratteristiche: SNPs; Repeats; Homologies.

Ensembl - Identificatori In progetti di questo tipo è essenziale definire un vocabolario di nomi comuni affinché un dato elemento possa essere identificato univocamente (i.e., nomi dei geni). E’, inoltre, di fondamentale importanza disporre di identificatori stabili per le sequenze (pur riconoscendo la necessità della gestione delle versioni). Gli identificatori specifici di Ensembl sono del tipo: ENSG0000XXXX , ENST00000XXXX, ...

Ensembl – La base di dati (1) Le singole basi di dati vengono costruite in più passi Creazione dello schema; Caricamento dei dati di sequenza (DNA, clone, ...); Costruzione di geni; Analisi dei geni.

Ensembl – La base di dati (2) Viene utilizzato MySQL. Le basi di dati possono essere scaricate dal sito di Ensembl. Ogni organismo ha più basi di dati: Core; Desease; ... Il Core mantiene le informazioni d'interesse.

Ensembl -Le tabelle della base di dati Dividiamo le tabelle in 3 gruppi: tabelle fondamentali; caratteristiche ed analisi; ID mapping.

Le tabelle fondamentali - 1 assembly: Descrive come i contig si uniscono per creare la sequenza del cromosoma. Mantiene un mapping tra le locazioni sul cromosoma e locazioni sui contig. assembly_exception: Fornisce informazioni aggiuntive su una data sezione della precedente tabella. attrib_type: Mantiene gli attributi riconducibili ad una sequenza.

Tabelle fondamentali - 2 dna: Contiene le sequenze di DNA; è in rapporto 1:1 con i Contig. exon: Mantiene informazioni sugli esoni, è associato ai trascritti mediante una chiave esterna. exon_stable_id: Identificatori stabili. exon_transcript: Mantiene la relazione tra trascritti ed esoni.

Tabelle fondamentali - 3 gene: Permette di creare una relazione tra geni e trascritti. prediction_exon, prediction transcript: Informazione su esoni e trascritti predetti. seq_region: Informazioni sulle regioni delle sequenze; fa riferimento al DNA e al sistema di coordinate. seq_region_attrib: Informazioni sugli attributi di una data regione; mantiene riferimenti a attib_type.

Tabelle fondamentali - 4 supporting_feature: giustifica il processo di predizione con collegamenti ad allineamenti della sequenza con DNA o proteine. transcripts: Informazioni sui trascritti. translation: Descrive quale parte degli esoni viene usate nella traduzione.

Caratteristiche ed Analisi - 1 analysis: Descrive programmi e basi di dati utilizzati per creare una feature su un dato pezzo di una sequenza. dna_align_feature: Descrive un allineamento rispetto ad una sequenza ottenuto attraverso un BLAST. map: Registra nomi di mappe per le quali sono disponibili informazioni sui marker. marker: Le informazioni sul Marker.

Caratteristiche ed Analisi - 2 marker_feature: Descrive le posizioni dei marker. marker_map_location: Mette in Relazione i marker e la mappa. misc_attrib: Lega attributi a feature. misc_feature: Mette in relazione l'attributo e la sequenza. misc_set: Definisce insiemi di feature.

Caratteristiche ed Analisi - 3 prediction_transcript: Trascritti predetti (genscan, SNAP). protein_align_feature: Come per gli allineamenti di DNA. protein_feature: Descrive le caratteristiche delle traduzioni

ID mapping gene_archive: Mantiene l'elenco dei geni modificati o cancellati tra una release e l'altra. mapping_session: Mappa gli stable ID tra le varie basi di dati. peptide_archive: Contiene i peptidi per traduzioni cancellate o modificate. stable_id_event: Stabilisce cosa sia accaduto ad uno stable ID (cancellazioni, creazioni, relazioni tra stable ID).

Altre Basi di Dati Biologiche TRANSFOG: una base di dati “limite”, in cui tutto è basato sul programma di ricerca dei fattori trascrizionali. BASE: una base di dati per la gestione di analisi di MicroArray (una descrizione completa dell'esperimento dall'estrazione all'immagine).

Quanti e quali sono i DB biologici? http://www3.oup.co.uk/nar/database/ per la lista in ordine alfabetico: http://www3.oup.co.uk/nar/database/a/