THE BIG DATA ERA Researchers need to be obliged to document and manage their data with as much professionalism as they devote to their experiments. Nature.

Slides:



Advertisements
Presentazioni simili
Centro Internazionale per gli Antiparassitari e la Prevenzione Sanitaria Azienda Ospedaliera Luigi Sacco - Milano WP4: Cumulative Assessment Group refinement.
Advertisements

Divisione in gruppi di tre persone
Teoria e Tecniche del Riconoscimento
1 Teaching Cloud Computing and Windows Azure in Academia Domenico Talia UNIVERSITA DELLA CALABRIA & ICAR-CNR Italy Faculty Days 2010.
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
Set-up di un Tavolo di Concertazione sulla Bio Economia Basata sulla Conoscenza San Benedetto del Tronto Centro Unicram, 8 Giugno 2007.
Facoltà di Architettura PSICOLOGIA DELLA PERCEZIONE L01 a.a. 2001/02 prof. Walter Gerbino.
Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Lezione 1 Di che cosa si occupa la patologia generale
1.E un algoritmo ricorsivo: Tutti le istanze di oggetti raggiungibili da un oggetto persistente diventano anchessi persistenti.
Bioinformatica Prof. Mauro Fasano
MySQL Esercitazioni. Ripasso Connessione a MySQL. Creazione delle basi di dati e delle tablelle. Inserimento dei dati. Interrogazioni.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: Pubmed CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI- NAPOLI Prof.ssa.
Biometry to enhance smart card security (MOC using TOC protocol)
1. Conoscere luso delle collezioni in Java Comprendere le principali caratteristiche nelle varie classi di Collection disponibili Saper individuare quali.
NLM - National Library of Medicine NLM - National library of Medicine Che cosè? Dove? Bethesda, MD, USA Affiliazione: –Department of Health and Human.
NLM - National Library of Medicine NLM - National library of Medicine Che cosè? n Dove? Bethesda, MD, USA n Affiliazione: –Department of Health and Human.
NLM - National Library of Medicine NLM - National library of Medicine Che cosè? n Dove? Bethesda, MD, USA n Affiliazione: –Department of Health and Human.
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
SCIFINDER. SCIFINDER COSE E una banca dati bibliografica (ma non solo) COPERTURA TEMPORALE dal 1907 ad oggi.
Watson et al. , BIOLOGIA MOLECOLARE DEL GENE, Zanichelli editore S. p
DPC-INGV Project S4 – The Italian strong motion database Task 4 - Individuazione di siti e di registrazioni anomale D8 Responsibles RU2-INGV-RM1.
1 Isfol – Institutional Communication and Documentary Activities Istituto per lo sviluppo della formazione professionale dei lavoratori ReferNet Italian.
Constraints.
PROJECT MANAGEMENT Comune di Cervia attraverso il CENTRO RISORSE FINANCED PIANI SOCIALI DI ZONA (Legge Quadro 328/00 L.R. 2/03) INTENDED FOR scuole e.
Gli ambienti di apprendimento Firenze, 3 marzo 2006.
INTERNET Internet è una rete a livello mondiale che permette alle persone di comunicare ed ad accedere a banca dati da qualunque parte del mondo e su qualunque.
INTERNET Antonio Papa Classe 2^ beat I.S.I.S. G. Meroni a.s. 2007/2008.
Project Review byNight byNight December 6th, 2011.
Banche dati biologiche
Software per la Bioinformatica
Università degli Studi di Genova Laurea Specialistica in Biotecnologie Medico-Farmaceutiche Corso di: Biotecnologie Diagnostiche A.A. 2004/2005 Utilizzo.
Tutor: Elisa Turrini Mail:
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
Project Review byNight byNight December 21th, 2011.
Project Review byNight byNight December 6th, 2011.
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
Project Review byNight byNight December 5th, 2011.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Uso di Genome Browser per l'annotazione di sequenze genomiche.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Gene details Annotation Tracks official sequence comparisons SNPs NAVIGATING GENOMES By Genome Browsers.
A.A CORSO DI BIOINFORMATICA per il CLT in Biotecnologie Sanitarie Università di Padova Docente: Dr. STEFANIA BORTOLUZZI.
Alcuni esempi di domande di esame
Negli ultimi anni, la richiesta di poter controllare in remoto la strumentazione e cresciuta rapidamente I miglioramenti nell’hardware e nel software insieme.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
Collection & Generics in Java
La DNA Polimerasi può commettere errori Nei batteri: 1 errore ogni 10 9 basi in ogni generazione.
Sequenze e Banche Dati Biologiche
Guida alla compilazione del Piano di Studi Curricula Sistemi per l’Automazione Automation Engineering.
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
A.A CORSO DI BIOINFORMATICA per il CLT in Biotecnologie Sanitarie Università di Padova Docente: Dr. STEFANIA BORTOLUZZI.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIMOnline Mendelian Inheritance in Man LOCUSLINKcurated sequence and descriptive information about genetic.
La parola “Bioinformatica”
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle Prof.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Proff.
DATABASE=collezione di dati biologici RECORD=elementi del database (o ENTRY) CAMPI=attributi dei record IDENTIFICATORE DI RECORD=alfanumerico identificativo.
Il principio della ChIP: arricchimento selettivo della frazione di cromatina contenente una specifica proteina La ChIP può anche esser considerata.
Transcript della presentazione:

THE BIG DATA ERA Researchers need to be obliged to document and manage their data with as much professionalism as they devote to their experiments. Nature journal Issue of Importance of data: Retrieval Integration Analysis An at least basic knowledge of bioinformatic methods in unavoidable also for experimental researchers Bioinformatics from basic methods for managing biosequences to systems biology models

DATABASES AND DATA RETRIEVAL Biosequences and Gene-related info

DATABASE PRIMARI DATABASE DI SEQUENZE NUCLEOTIDICHE Collezioni di singoli record, ognuno dei quali contiene un tratto di DNA o RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha un codice che lo identifica univocamente (ACCESSION NUMBER). Le tre principali banche dati primarie di sequenze nucleotidiche sono: EMBL nucleotide database, ora gestita dallEBI (1980) EMBL = European Molecular Biology Laboratory (Heidelberg) EBI = European Bioinformatics Institute (Hinxton, UK) GenBank = banca dell NIH gestita dal NCBI (1982) NIH = National Institutes of Health (Stuttura USA) NCBI = National Center for Biotechnology Information, Bethesda, Maryland DDBJ = banca DNA giapponese (1986) DDBJ = DNA DataBase of Japan SCAMBIO DI DATI Nel 1988, i gruppi responsabili dei 3 database si sono organizzati nellInternational Collaboration of DNA Sequence Databases per utilizzare un formato comune e scambiarsi giornalmente le sequenze.

SUBMISSION DIRETTA La gran parte delle sequenze finisce in uno dei tre database perché lautore (il laboratorio dove tale sequenza é stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà solo di quel database, lunico con il diritto di modificarlo. Il database che riceve la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un database sono presenti anche negli altri due. ANNOTAZIONE Ci sono poi anche degli annotatori che prendono le sequenze dalle riviste scientifiche e le trasferiscono nel database. Problema della ridondanza There are specialized, streamlined procedures for batch submissions of sequences, such as EST, STS, and HTG sequences (High-throughput sequencing).ESTSTSHTG DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank

DATABASE PRIMARI DATABASE DI SEQUENZE PROTEICHE SWISS-PROT Database di sequenze proteiche annotate, scarsamente ridondanti e cross-referenced Contiene TrEMBL, supplemento a SWISS-PROT costituito dalle sequenze annotate al computer, come traduzione di tutte le sequenze codificanti presenti allEMBL TrEMBL contiene due sezioni: SP-TrEMBL, sequenze da incorporare in SWISSPROT, con AC. REM-TrEMBL, remaining (immunoglobuline, proteine sintetiche,...), senza AC. TrEMBLnew, generato ogni settimana.

DATABASE SECONDARI UniProt (Universal Protein Resource) Il piu grande catalogo di informazioni sulle proteine. Contiene informazioni sulla sequenza e sulla funzione di proteine ed e ottenuto dallinsieme delle informazioni contenute in Swiss- Prot, TrEMBL e PIR.

UniProt UniProt Knowledgebase, due parti: Records annotati manualmente, informazioni dalla letteratura (UniProtKB/Swiss-Prot) Records risultato di analisi computazionali, in attesa di annotazione completa (UniProtKB/TrEMBL).

DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIMOnline Mendelian Inheritance in Man NCBIGenecurated sequence and descriptive information about genetic loci GeneCardsdatabase of human genes, their products and their involvement in diseases dbSNPthe NCBI database of genetic variation (Single Nucleotide Polymorphism) GEOGene Expression Omnibus

OMIM Online Mendelian Inheritance in Man Catalogo di geni umani e malattie genetiche (Dr. Victor A. McKusick, Johns Hopkins + NCBI) Contiene informazione testuale, riferimenti bibliografici e links a MEDLINE, sequenze e ad altre risorse OMIM gene map Posizioni di mappa citogenetica di geni-malattia e altri geni descritti in OMIM OMIM morbid map Posizioni di mappa citogenetica di geni-malattia indicizzati in OMIM

Use OMIM to explore Rett syndrome

There are entries for both the disease and the gene

Link to NCBI map viewer OMIM number

Varianti alleliche stesso ID piu un altro numero di 4 cifre. Sono MUTAZIONI CHE CAUSANO MALATTIE OMIM

NCBI GENE Interfaccia unificata per cercare informazioni su sequenze e loci genetici. Presenta informazioni sulla nomenclatura ufficiale, accession numbers, fenotipi, MIM numbers, UniGene clusters, omologia, posizioni di mappa e link a numerosi altri siti web.

NCBI GENE

DATABASE SECONDARI NCBI - Information retrieval system E' stato sviluppato allNCBI (National Center for Biotechnology Information, USA) per permettere l'accesso a dati di biologia molecolare e citazioni bibliografiche. Sfrutta il concetto di neighbouring: possibilita' di collegare tra loro oggetti diversi di database differenti, indipendentemente dal fatto che essi siano direttamente cross-referenced. Tipicamente, permette l'accesso a database di sequenze nucleotidiche, di sequenze proteiche, di mappaggio di cromosomi e di genomi, di struttura 3D e bibliografici (PubMed).

PubMed

Bookshelf

Overview of the whole Genome Browser page (mature release) } Genome viewer section mRNA and EST Tracks Expression and Regulation Comparative Genomics ENCODE Tracks Variation and Repeats Groups of data Mapping and Sequencing Tracks Genes and Gene Prediction Tracks