Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel. 0039 049 8276214

Slides:



Advertisements
Presentazioni simili
1 Teaching Cloud Computing and Windows Azure in Academia Domenico Talia UNIVERSITA DELLA CALABRIA & ICAR-CNR Italy Faculty Days 2010.
Advertisements

Modalità di ricerca semantica nelle Biblioteche digitali Maria Teresa Biagetti DIPARTIMENTO DI SCIENZE DOCUMENTARIE LINGUISTICO-FILOLOGICHE E GEOGRAFICHE.
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
UDDI (Universal Description, Discovery and Integration Protocol) Laurea Magistrale in Informatica Reti 2 (2006/07) dott. Federico Paoloni
JPA Overview della tecnologia. Java Persistence Architecture Definita nella JSR-220 EJB 3.0 ( Tentativo di unificare EJB2.1 con.
Bioinformatica BioPerl Dr. Giuseppe Pigola –
Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Bioinformatica Prof. Mauro Fasano
Un DataBase Management System (DBMS) relazionale client/server.
MySQL Esercitazioni. Ripasso Connessione a MySQL. Creazione delle basi di dati e delle tablelle. Inserimento dei dati. Interrogazioni.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: Pubmed CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI- NAPOLI Prof.ssa.
Sistemi didattici per la rete Un motore di ricerca basato su ontologie per il retrieval di LO.
Introduzione alle griglie computazionali - a.a LEZIONE LEZIONE N. 12 Grid Monitoring modello GMA GridICE GridICE demo Introduzione alle griglie.
1. Conoscere luso delle collezioni in Java Comprendere le principali caratteristiche nelle varie classi di Collection disponibili Saper individuare quali.
NLM - National Library of Medicine NLM - National library of Medicine Che cosè? Dove? Bethesda, MD, USA Affiliazione: –Department of Health and Human.
NLM - National Library of Medicine NLM - National library of Medicine Che cosè? n Dove? Bethesda, MD, USA n Affiliazione: –Department of Health and Human.
NLM - National Library of Medicine NLM - National library of Medicine Che cosè? n Dove? Bethesda, MD, USA n Affiliazione: –Department of Health and Human.
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Parma, 26 gennaio 2006 E-book per bambini: esperienze a confronto Valeria Baudo.
SCIFINDER. SCIFINDER COSE E una banca dati bibliografica (ma non solo) COPERTURA TEMPORALE dal 1907 ad oggi.
2000 Prentice Hall, Inc. All rights reserved. 1 Capitolo 6: Classi e astrazione dati 1.Introduzione 2.Definizione delle strutture 3.Accedere ai membri.
1 laboratorio di calcolo II AA 2003/04 ottava settimana a cura di Domizia Orestano Dipartimento di Fisica Stanza tel. ( )
FONDAMENTI DI INFORMATICA III WfMC-1. FONDAMENTI DI INFORMATICA III WfMC-2 WFMC Cose WfMC Workflow Management Coalition (WfMC), Brussels, è unorganizzazione.
Java base VI: Gestione I/O. Argomenti Introdurre le API per linput e output in Java.
FUNZIONI DI GRUPPO Le funzioni di gruppo operano su un set di record restituendo un risultato per il gruppo. AVG ([DISTINCT|ALL] n) media, ignora i valori.
Constraints.
Componenti dell’architettura Oracle
Palermo, may 2010 F.Doumaz, S.Vinci (INGV-CNT- Gruppo di telerilevamento)
Entrez + MedLine => PubMed
1 © 2013 Cobra Italia SpA All rights reserved Cobra group website Gennaio 2013.
MIC 2008, Roma Antonio Pistoia Università Politecnica delle Marche MOODLELab Uno strumento per MOODLE per la gestione dei telelaboratori durante i corsi.
Un esempio: Registrazione e lettura di dati in un file
Microsoft Access Maschere.
1 Università degli Studi di Messina Facoltà di Ingegneria Visilab – Computer Vision and Image Processing Lab Nanodesktop Software development kit per sistemi.
Sito IntergruppoParma.it Nuovo Intergruppo Parma.
Alcune problematiche di replicazione dati in unorganizzazione geograficamente distribuita Collaborazione CASPUR - ENEA Silvia Eccher - CASPUR Franco Iannone.
EUROPEAN YOUTH MEET THE CULTURAL HEREDITAGE WORKSHOP MALTA OTTOBRE 2011.
La Biblioteca del Polo biologico Brevi note per un utilizzo consapevole della nostra biblioteca.
Architettura delle GPU e
Modulo 1 bis Menù Incolla Esercitazione Un computer è quasi umano, a parte il fatto che non attribuisce i propri errori a un altro computer. (Anonimo)
Gli ambienti di apprendimento Firenze, 3 marzo 2006.
Innovazioni versione 4 Bari, 17 ottobre Innovazioni versione 4 Il menù dinamico secondo logica operativa Il ruolo dei Ruoli Facilitare la scelta.
Perché insegnare statistica a scuola Utilità della Statistica 1.è a fondamento della crescita democratica di un nazione moderna 2.è essenziale per monitorare.
INTERNET Internet è una rete a livello mondiale che permette alle persone di comunicare ed ad accedere a banca dati da qualunque parte del mondo e su qualunque.
Gruppo 4: Gelmi Martina, Morelato Francesca, Parisi Elisa La mia scuola ha un sito Web: modelli per la qualità dei siti (Ingegneria del Web)
Sistema Informativo Demanio Idrico marzo Per aumentare lefficienza del servizio abbiamo realizzato un sistema in grado di gestire in modo integrato.
Andrea Petricca Problematiche di rete nella sperimentazione di file-system distribuiti su WAN per applicazioni di GRID-Computing Rapporto trimestrale attività
INTERNET Antonio Papa Classe 2^ beat I.S.I.S. G. Meroni a.s. 2007/2008.
La nascita di internet Luigi Di Chiara Arci Solidarietà Napoli.
Computer & Scuola Realizzare la fase dimplementazione delle nuove tecnologie in Europa.
Voting Sistema di votazione telematica. Che cosè Sito web per gestire votazioni tramite internet La sezione amministratore permette di progettare lo scenario.
Attività Formativa Sviluppo di un WORKFLOW ENGINE di Dott. Riccardo Gasperoni Alessandro Caricato Gabriele Trabucco in collaborazione con Progesi S.p.A.
Banche dati biologiche
THE BIG DATA ERA Researchers need to be obliged to document and manage their data with as much professionalism as they devote to their experiments. Nature.
Software per la Bioinformatica
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
A.A CORSO DI BIOINFORMATICA per il CLT in Biotecnologie Sanitarie Università di Padova Docente: Dr. STEFANIA BORTOLUZZI.
1 Basi di dati (Sistemi Informativi) Scuola di Dottorato in Scienze Veterinarie per la Salute Animale e la Sicurezza Alimentare a.a Ing. Mauro.
Collection & Generics in Java
Sequenze e Banche Dati Biologiche
JDBC Java DataBase Connectivity SISTEMI ITIS B. CASTELLI Anno Scolastico
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
La parola “Bioinformatica”
Transcript della presentazione:

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel Corso di Laurea in Biotecnologie Sanitarie Universita' di Padova Corso di Bioinformatica 16 ore

Utilizzare Database per recuperare informazioni biomediche Utilizzare specifici programmi per analizzare le informazioni disponibili nei database, per avvantaggiarsi nel disegno e nella programmazione dellattivita sperimentale Utilizzare metodologie e programmi per analizzare sequenze e navigare genomi completi Bioinformatica - OBIETTIVI

Home page del corso

I LEZIONE Database primari e Database secondari Database di sequenze nucleotidiche e proteiche GenBank SWISSPROT ENTREZ Information retrieval system

INTRODUZIONE ALLUTILIZZO DI DATABASE Struttura e organizzazione di database I database sono insiemi di dati memorizzati su un computer con diversi livelli di astrazione al di sopra di essi; ogni livello di astrazione consente di organizzare i dati contenuti e di accedervi. Database diversi organizzano i dati in modi differenti database Flat-File il tipo piu semplice di database database relazionali (Oracle, mySQl) permettono la composizione di interrogazioni o query che collegano piu' tabelle, stabilendo delle "relazioni" tra i contenuti delle singole tabelle. database Object Oriented, le informazioni sono gestite come "oggetti" con varie "proprieta'", invece che records con campi. Tutti i sistemi di database impiegano delle interfacce (API, Application Programming Interface) per accedere ai dati e modificarli

INTRODUZIONE ALLUTILIZZO DI DATABASE Database flat-file Il tipo piu' semplice di database e' il database flat-file, formato da files di testo ASCII in formato standard che il programa esamina per cercare informazioni. Il formato e' di solito costituito da un insieme di campi, contenenti ciascuno una specifica categoria di informazioni, delimitati attraverso caratteri speciali o con lunghezza fissa assegnata. Il pregio principale dei database flat-file e' la semplicita' di gestione, controbilanciata pero' dallincapacita' di gestire accesso concorrente e dalla mancanza di indicizzazione dei dati, che non consentono interrogazioni sequenziali.

LEVELS OF PROTEIN SEQUENCE AND STRUCTURAL ORGANISATION PRIMARY sequence primary database SECONDARY motif secondary database TERTIARY domain module secondary database DATABASE PRIMARI E DATABASE SECONDARI ORGANIZZANO RISPETTIVAMENTE DATI ORIGINALI E CONOSCENZA GENERATA A PARTIRE DA ANALISI DI DATI O INTEGRAZIONE DI DATI DIVERSI

DATABASE PRIMARI DATABASE DI SEQUENZE NUCLEOTIDICHE Collezioni di singoli record, ognuno dei quali contiene un tratto di DNA o RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha un codice che lo identifica univocamente (ACCESSION NUMBER). Le tre principali banche dati primarie di sequenze nucleotidiche sono: EMBL nucleotide database, ora gestita dallEBI (1980) EMBL = European Molecular Biology Laboratory (Heidelberg) EBI = European Bioinformatics Institute (Hinxton, UK) GenBank = banca dell NIH gestita dal NCBI (1982) NIH = National Institutes of Health (Stuttura USA) NCBI = National Center for Biotechnology Information, Bethesda, Maryland DDBJ = banca DNA giapponese (1986) DDBJ = DNA DataBase of Japan SCAMBIO DI DATI Nel 1988, i gruppi responsabili dei 3 database si sono organizzati nellInternational Collaboration of DNA Sequence Databases per utilizzare un formato comune e scambiarsi giornalmente le sequenze.

DATABASE DI SEQUENZE NUCLEOTIDICHE GenBank SUBMISSION DIRETTA La gran parte delle sequenze finisce in uno dei tre database perché lautore (il laboratorio dove tale sequenza é stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà solo di quel database, lunico con il diritto di modificarlo. Il database che riceve la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un database sono presenti anche negli altri due. ANNOTAZIONE Ci sono poi anche degli annotatori che prendono le sequenze dalle riviste scientifiche e le trasferiscono nel database. Problema della ridondanza

DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank

DATABASE DI SEQUENZE NUCLEOTIDICHE GenBank contiene diverse sezioni in passato divise per gruppi tassonomici e strategie di sequenziamento ora tre grandi sezioni : EST, GSS e CoreNucleotide dbEST database pubblico di "Expressed Sequence Tags" (sequenze espresse contrassegnate), contiene tutte le sequenze ottenute dal sequenziamento parziale o totale di cloni di cDNA, molto utili per: Identificare nuovi geni Studiare la struttura esoni/introni di geni Studiare lespressione genica

Come e fatta unentry di GenBank ?

DATABASE PRIMARI DATABASE DI SEQUENZE PROTEICHE SWISS-PROT Database di sequenze proteiche annotate, scarsamente ridondanti e cross-referenced Contiene TrEMBL, supplemento a SWISS-PROT costituito dalle sequenze annotate al computer, come traduzione di tutte le sequenze codificanti presenti allEMBL TrEMBL contiene due sezioni: SP-TrEMBL, sequenze da incorporare in SWISSPROT, con AC. REM-TrEMBL, remaining (immunoglobuline, proteine sintetiche,...), senza AC. TrEMBLnew, generato ogni settimana.

DATABASE SECONDARI UniProt (Universal Protein Resource) Il piu grande catalogo di informazioni sulle proteine. Contiene informazioni sulla sequenza e sulla funzione di proteine ed e ottenuto dallinsieme delle informazioni contenute in Swiss-Prot, TrEMBL e PIR. UniProt ha 3 componenti: UniProt Knowledgebase (UniProt) the central access point for extensive curated protein information, including function, classification, and cross-reference. UniProt Non-redundant Reference (UniRef) databases combine closely related sequences into a single record to speed searches. UniProt Archive (UniParc) is a comprehensive repository, reflecting the history of all protein sequences.

UniProt (Universal Protein Resource) UniProt Knowledgebase, due parti: Records annotati manualmente, informazioni dalla letteratura (UniProtKB/Swiss-Prot) Records risultato di analisi computazionali, in attesa di annotazione completa (UniProtKB/TrEMBL).

DATABASE SECONDARI ENTREZ - Information retrieval system E' stato sviluppato allNCBI (National Center for Biotechnology Information, USA) per permettere l'accesso a dati di biologia molecolare e citazioni bibliografiche. Sfrutta il concetto di neighbouring: possibilita' di collegare tra loro oggetti diversi di database differenti, indipendentemente dal fatto che essi siano direttamente cross-referenced. Tipicamente, ENTREZ permette l'accesso a database di sequenze nucleotidiche, di sequenze proteiche, di mappaggio di cromosomi e di genomi, di struttura 3D e bibliografici (PubMed).