A.A. 2008-2009 CORSO DI BIOINFORMATICA per il CLT in Biotecnologie Sanitarie Università di Padova Docente: Dr. STEFANIA BORTOLUZZI.

Slides:



Advertisements
Presentazioni simili
Trieste, 26 novembre © 2005 – Renato Lukač Using OSS in Slovenian High Schools doc. dr. Renato Lukač LinuxDay Trieste.
Advertisements

Centro Internazionale per gli Antiparassitari e la Prevenzione Sanitaria Azienda Ospedaliera Luigi Sacco - Milano WP4: Cumulative Assessment Group refinement.
I numeri, l’ora, I giorni della settimana
L’esperienza di un valutatore nell’ambito del VII FP Valter Sergo
Cache Memory Prof. G. Nicosia University of Catania
Teoria e Tecniche del Riconoscimento
1 Teaching Cloud Computing and Windows Azure in Academia Domenico Talia UNIVERSITA DELLA CALABRIA & ICAR-CNR Italy Faculty Days 2010.
A. Oppio, S. Mattia, A. Pandolfi, M. Ghellere ERES Conference 2010 Università Commerciale Luigi Bocconi Milan, june 2010 A Multidimensional and Participatory.
Relaunching eLene Who are we now and which are our interests.
Modalità di ricerca semantica nelle Biblioteche digitali Maria Teresa Biagetti DIPARTIMENTO DI SCIENZE DOCUMENTARIE LINGUISTICO-FILOLOGICHE E GEOGRAFICHE.
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
JPA Overview della tecnologia. Java Persistence Architecture Definita nella JSR-220 EJB 3.0 ( Tentativo di unificare EJB2.1 con.
Bioinformatica BioPerl Dr. Giuseppe Pigola –
Outline Gene Finding: Struttura ed identificazione di geni in procarioti ed eucarioti; Hidden Markov Models; Genscan; Dept. of Mathematics and Computer.
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Copia darchivio (Preservation copy) A Preservation copy (or Archive copy) is the artefact designated to be stored and maintained as the preservation master.
1.E un algoritmo ricorsivo: Tutti le istanze di oggetti raggiungibili da un oggetto persistente diventano anchessi persistenti.
MySQL Esercitazioni. Ripasso Connessione a MySQL. Creazione delle basi di dati e delle tablelle. Inserimento dei dati. Interrogazioni.
SOCIOLOGIA DEI PROCESSI CULTURALI E COMUNICATIVI Prof.ssa Donatella Padua A.A. 2011/12 A.A. 2011/12.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: Pubmed CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI- NAPOLI Prof.ssa.
Biometry to enhance smart card security (MOC using TOC protocol)
Ergo : what is the source of EU-English? Standard British English? Standard American English? Both!!!! See morphology (use of British.
1. Conoscere luso delle collezioni in Java Comprendere le principali caratteristiche nelle varie classi di Collection disponibili Saper individuare quali.
NLM - National Library of Medicine NLM - National library of Medicine Che cosè? Dove? Bethesda, MD, USA Affiliazione: –Department of Health and Human.
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Metadati gestionali e amministrativi per oggetti digitali nativi Antonio Scolari Seminario nazionale sui metadati Roma, 3 aprile 2001.
Watson et al. , BIOLOGIA MOLECOLARE DEL GENE, Zanichelli editore S. p
1 laboratorio di calcolo II AA 2003/04 ottava settimana a cura di Domizia Orestano Dipartimento di Fisica Stanza tel. ( )
VARO SRL LOGISTIC, QUALITY, SERVICE
1 Attivita di ricerca Carlo Batini. 2 Aree Come costruire ed esprimere il contenuto informativo integrato di sistemi informativi complessi basati.
Concord A tool for the analysis and concordances of the terminological constituents P. Plini, N. Mastidoro* * - Èulogos, Rome Institute for Atmospheric.
Scuola di Dottorato della Facoltà di Scienze MM. FF. NN., Università di Milano Bicocca ELEMENTI DI ORGANIZZAZIONE AZIENDALE Funzione finanza e controllo:
Palermo, may 2010 F.Doumaz, S.Vinci (INGV-CNT- Gruppo di telerilevamento)
PASTIS CNRSM, Brindisi – Italy Area Materiali e Processi per lAgroindustria Università degli Studi di Foggia, Italy Istituto di Produzioni e Preparazioni.
PROJECT MANAGEMENT Comune di Cervia attraverso il CENTRO RISORSE FINANCED PIANI SOCIALI DI ZONA (Legge Quadro 328/00 L.R. 2/03) INTENDED FOR scuole e.
Gli ambienti di apprendimento Firenze, 3 marzo 2006.
Innovazioni versione 4 Bari, 17 ottobre Innovazioni versione 4 Il menù dinamico secondo logica operativa Il ruolo dei Ruoli Facilitare la scelta.
INTERNET Internet è una rete a livello mondiale che permette alle persone di comunicare ed ad accedere a banca dati da qualunque parte del mondo e su qualunque.
INTERNET Antonio Papa Classe 2^ beat I.S.I.S. G. Meroni a.s. 2007/2008.
Project Review byNight byNight December 6th, 2011.
UNIVERSITÀ DEGLI STUDI DI PAVIA FACOLTÀ DI ECONOMIA, GIURISPRUDENZA, INGEGNERIA, LETTERE E FILOSOFIA, SCIENZE POLITICHE. Corso di Laurea Interfacoltà in.
THE BIG DATA ERA Researchers need to be obliged to document and manage their data with as much professionalism as they devote to their experiments. Nature.
Software per la Bioinformatica
Robotica e Futuro Competenze per la Vita Personale, Professionale e Imprenditoriale Alfonso Molina Professor of Technology Strategy, University of Edinburgh.
Tutor: Elisa Turrini Mail:
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
…there is still plenty of room at the bottom*
Federazione Nazionale Commercio Macchine Cantiermacchine Cogena Intemac Unicea Unimot ASSOCIAZIONE ITALIANA PER LA PROMOZIONE DELLA COGENERAZIONE.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
20 maggio 2002 NETCODE Set up a thematic network for development of competence within the Information Society.
Negli ultimi anni, la richiesta di poter controllare in remoto la strumentazione e cresciuta rapidamente I miglioramenti nell’hardware e nel software insieme.
Collection & Generics in Java
Introduction to automatic ABMs documentation Keywords: Doxygen ODD protocol MASON documentation Simone Romano.
La DNA Polimerasi può commettere errori Nei batteri: 1 errore ogni 10 9 basi in ogni generazione.
Sequenze e Banche Dati Biologiche
Guida alla compilazione del Piano di Studi Curricula Sistemi per l’Automazione Automation Engineering.
JDBC Java DataBase Connectivity SISTEMI ITIS B. CASTELLI Anno Scolastico
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
La parola “Bioinformatica”
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle Prof.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Proff.
Studente : Andrea Cassarà Classe: 5AII A.S. 2014/2015 Link Sito
Transcript della presentazione:

A.A CORSO DI BIOINFORMATICA per il CLT in Biotecnologie Sanitarie Università di Padova Docente: Dr. STEFANIA BORTOLUZZI

THE BIG DATA ERA Researchers need to be obliged to document and manage their data with as much professionalism as they devote to their experiments. Nature journal Issue of 4 September 2008 Importance of data: Retrieval Integration Analysis An at least basic knowledge of bioinformatic methods in unavoidable also for experimental researchers Bioinformatics from basic methods for managing biosequences to systems biology models

DATABASES AND DATA RETRIEVAL Biosequences and Gene-related info

WORKING WITH BIOSEQUENCES Alignments and similarity search

gene details Annotation Tracks official sequence comparisons SNPs NAVIGATING GENOMES By Genome Browsers

Introduction to more advanced bioinformatics Gene expression data analysis Search for patterns and functional motifs Prediction of protein structure

Svolgimento del corso e modalità desame Al II semestre del II anno. Durata: 32 ore, comprendenti lezioni teoriche frontali ed esercitazioni al computer. Valutazione finale: in base allesito delle esercitazioni svolte in piccoli gruppi e di una verifica scritta individuale.

WEB SITE DEDICATO AL CORSO /Bioinformatica_BTS/Bioinfo_BTS.php

I LEZIONE Database primari e Database secondari Database di sequenze nucleotidiche e proteiche GenBank, short seqs. archives SWISSPROT, Uniprot ENTREZ Information retrieval system – Pubmed – Bookshelf

INTRODUZIONE ALLUTILIZZO DI DATABASE Struttura e organizzazione di database I database sono insiemi di dati memorizzati su un computer con diversi livelli di astrazione al di sopra di essi; ogni livello di astrazione consente di organizzare i dati contenuti e di accedervi. Database diversi organizzano i dati in modi differenti database Flat-File il tipo piu semplice di database database relazionali (Oracle, mySQl) permettono la composizione di interrogazioni o query che collegano piu' tabelle, stabilendo delle "relazioni" tra i contenuti delle singole tabelle. database Object Oriented, le informazioni sono gestite come "oggetti" con varie "proprietà", invece che records con campi. Tutti i sistemi di database impiegano delle interfacce (API, Application Programming Interface) per accedere ai dati e modificarli

INTRODUZIONE ALLUTILIZZO DI DATABASE Database flat-file Il tipo piu' semplice di database e' il database flat-file, formato da files di testo ASCII in formato standard che il programa esamina per cercare informazioni. Il formato e' di solito costituito da un insieme di campi, contenenti ciascuno una specifica categoria di informazioni, delimitati attraverso caratteri speciali o con lunghezza fissa assegnata. Il pregio principale dei database flat-file e' la semplicita' di gestione, controbilanciata pero' dallincapacita' di gestire accesso concorrente e dalla mancanza di indicizzazione dei dati, che non consentono interrogazioni sequenziali.

LEVELS OF PROTEIN SEQUENCE AND STRUCTURAL ORGANISATION PRIMARY sequence primary database SECONDARY motif secondary database TERTIARY domain module secondary database DATABASE PRIMARI E DATABASE SECONDARI ORGANIZZANO RISPETTIVAMENTE DATI ORIGINALI E CONOSCENZA GENERATA A PARTIRE DA ANALISI DI DATI O INTEGRAZIONE DI DATI DIVERSI

Using a database How to get information out of a database: –Summaries: how many entries, average or extreme values; rates of change, most recent entries, etc. –Browsing: getting a sense of the kind and quality of information available, e.g. checking familiar records –Search: looking for specific, predefined information Key to searching a database: –Must identify the element(s) of the database that are of interest somehow: Gene name, symbol, location or other identifying information. Sequences of genes, mRNAs, proteins, etc. A crossreference from another database or database generated id.

DATABASE PRIMARI DATABASE DI SEQUENZE NUCLEOTIDICHE Collezioni di singoli record, ognuno dei quali contiene un tratto di DNA o RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha un codice che lo identifica univocamente (ACCESSION NUMBER). Le tre principali banche dati primarie di sequenze nucleotidiche sono: EMBL nucleotide database, ora gestita dallEBI (1980) EMBL = European Molecular Biology Laboratory (Heidelberg) EBI = European Bioinformatics Institute (Hinxton, UK) GenBank = banca dell NIH gestita dal NCBI (1982) NIH = National Institutes of Health (Stuttura USA) NCBI = National Center for Biotechnology Information, Bethesda, Maryland DDBJ = banca DNA giapponese (1986) DDBJ = DNA DataBase of Japan SCAMBIO DI DATI Nel 1988, i gruppi responsabili dei 3 database si sono organizzati nellInternational Collaboration of DNA Sequence Databases per utilizzare un formato comune e scambiarsi giornalmente le sequenze.

SUBMISSION DIRETTA La gran parte delle sequenze finisce in uno dei tre database perché lautore (il laboratorio dove tale sequenza é stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà solo di quel database, lunico con il diritto di modificarlo. Il database che riceve la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un database sono presenti anche negli altri due. ANNOTAZIONE Ci sono poi anche degli annotatori che prendono le sequenze dalle riviste scientifiche e le trasferiscono nel database. Problema della ridondanza There are specialized, streamlined procedures for batch submissions of sequences, such as EST, STS, and HTG sequences (High-throughput sequencing).ESTSTSHTG DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank

NAR Database Issue Year Base Pairs Sequences ,008,761,784 2,837, ,116,431,94298,868,465

GenBank contiene diverse sezioni in passato divise per gruppi tassonomici e strategie di sequenziamento ora tre grandi sezioni : CoreNucleotide (the main collection), dbEST (Expressed Sequence Tags), and dbGSS (Genome Survey Sequences). dbEST database pubblico di "Expressed Sequence Tags" (sequenze espresse contrassegnate), contiene tutte le sequenze ottenute dal sequenziamento parziale o totale di cloni di cDNA, molto utili per: Identificare nuovi geni Studiare la struttura esoni/introni di geni Studiare lespressione genica Come e fatta unentry di GenBank ?

Pyrosequencing o sequencing by syntesis: si basa sulla rilevazione del pirofosfato rilasciato dallincorporazione di un nucleotide durante la sintesi del DNA, effettuata in nanoreattori in emulsione. Per ciascuna cella, la sequenza nucleotidica è determinata dai picchi del pirogramma, mentre il filamento di DNA complementare viene sintetizzato Accumulo ancora più rapido e massivo di moltissime sequenze brevi: short reads: 35 for Illumina and solid, for Roche 454 Un singolo run puo produrre di sequenze (reads) 450 Megabasi in 10 ore Servono nuovi database/repository di dati! Nuove metodologie di sequenziamento di terza generazione

Nuovi database/repository di dati grezzi: NCBI SRA Short Reads Archive ENA european nucleotide archive Assemblies disponibili in genbank Struttura tipo di unentry: metadati su study, sample ed experiment dati, sequenze vere e proprie in formato FHKWVLO02GHWT8 length=141 TTTCTTTGACCACGTCTTGGTTTTGCACCAGAAGTCCACCA ACTACACCTGTGTATTCTGCTTCCACTTCACTGGCCTCTTG AGCATCAAATGGTAAGGCAAGGATACGCAAGTTTTTCTTTT GTTGGTTCGAAAATAGGC +SRR FHKWVLO02GHWT8 length=141 AA??111AAAAAAAAAAAEBAAAAABBAAABAA????BAA? /..0

DATABASE PRIMARI DATABASE DI SEQUENZE PROTEICHE SWISS-PROT Database di sequenze proteiche annotate, scarsamente ridondanti e cross-referenced Contiene TrEMBL, supplemento a SWISS-PROT costituito dalle sequenze annotate al computer, come traduzione di tutte le sequenze codificanti presenti allEMBL TrEMBL contiene due sezioni: SP-TrEMBL, sequenze da incorporare in SWISSPROT, con AC. REM-TrEMBL, remaining (immunoglobuline, proteine sintetiche,...), senza AC. TrEMBLnew, generato ogni settimana.

DATABASE SECONDARI UniProt (Universal Protein Resource) Il piu grande catalogo di informazioni sulle proteine. Contiene informazioni sulla sequenza e sulla funzione di proteine ed e ottenuto dallinsieme delle informazioni contenute in Swiss- Prot, TrEMBL e PIR.

UniProt UniProt Knowledgebase, due parti: Records annotati manualmente, informazioni dalla letteratura (UniProtKB/Swiss-Prot) Records risultato di analisi computazionali, in attesa di annotazione completa (UniProtKB/TrEMBL).

DATABASE SECONDARI ENTREZ - Information retrieval system E' stato sviluppato allNCBI (National Center for Biotechnology Information, USA) per permettere l'accesso a dati di biologia molecolare e citazioni bibliografiche. Sfrutta il concetto di neighbouring: possibilita' di collegare tra loro oggetti diversi di database differenti, indipendentemente dal fatto che essi siano direttamente cross-referenced. Tipicamente, ENTREZ permette l'accesso a database di sequenze nucleotidiche, di sequenze proteiche, di mappaggio di cromosomi e di genomi, di struttura 3D e bibliografici (PubMed).

PubMed

Bookshelf