Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel. 0039 049 8276214

Slides:



Advertisements
Presentazioni simili
Introduzione al linguaggio R
Advertisements

DBMS (DataBase Management System)
WEB OF SCIENCE ISI Web of Knowledge
LA LAUREA MAGISTRALE IN BIOINFORMATICA Università degli studi
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
LA RICERCA Larticolo 33, 1º comma, della Costituzione sancisce: "Larte e la scienza sono libere e libero ne è linsegnamento". Larticolo 33, 1º comma, della.
Bioinformatica Prof. Mauro Fasano
BASI DI DATI BIOLOGICHE - 2. Basi di Dati Biologiche Tipi principali di Basi di Dati Biologiche: Di sequenze : NCBI. Di annotazioni: Ensembl.Specifiche:Transfac.
BASI DI DATI BIOLOGICHE - 3
File.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: è meglio Google o Pubmed? CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: le banche dati
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: le funzioni avanzate di Pubmed CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-
Basi di dati. Vantaggi degli archivi digitali Risparmio di spazio: sono facilmente trasferibili e duplicabili Risparmio di tempo: si può accedere ai dati.
PUBMED 29 novembre 2012.
NLM - National Library of Medicine NLM - National library of Medicine Che cosè? n Dove? Bethesda, MD, USA n Affiliazione: –Department of Health and Human.
Corso pratico di EBM n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois Torino,
I database per il medico: PubMed
Basi di dati Università Degli Studi Parthenope di Napoli
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Caratterizzazione di un gene clonato
Introduzione al linguaggio R
I database per il medico / 2 n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois.
DBMS ( Database Management System)
Bioinformatica Per la laurea triennale in: Biologia Umana
Entrez + MedLine => PubMed
Banche dati biologiche
THE BIG DATA ERA Researchers need to be obliged to document and manage their data with as much professionalism as they devote to their experiments. Nature.
Software per la Bioinformatica
ACCESS Introduzione Una delle necessità più importanti in informatica è la gestione di grandi quantità di dati. I dati possono essere memorizzati.
Università degli Studi di Genova Laurea Specialistica in Biotecnologie Medico-Farmaceutiche Corso di: Biotecnologie Diagnostiche A.A. 2004/2005 Utilizzo.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
Basi di Dati e Sistemi Informativi
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Introduzione alle basi di dati
Alcuni esempi di domande di esame
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
La ricerca bibliografica
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Sequenze e Banche Dati Biologiche
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
GQuery ( ncbi. nlm. nih
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Servizi Internet Claudia Raibulet
La parola “Bioinformatica”
Allineamento di sequenze
Indicizzazione di documenti semistrutturati Sistemi informativi – AA D’Este Laura.
“ Pseudocodice ” Un programma per computer lavorerà su in insieme di “ variabili ” contenenti i dati del problema, soluzioni intermedie, soluzioni finali.
Le basi di dati.
Laurea Specialistica “Metodologie Chimiche Avanzate” A.A Gabriele Ricchiardi Ricercatore/Chimica Fisica Tel.:
Le risorse elettroniche per l’ingegneria Maddalena Morando Biblioteca Centrale di Ingegneria.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle Prof.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Corso di Biologia Molecolare I Pagina web.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
1 “ Le Basi di Dati ”. 2 Parte 5: Tabelle –Creazione di una tabella –Indici e chiavi primarie –Relazioni e integrità referenziale Basi di Dati Struttura.
La sanità nel XXI secolo si avvale non soltanto di diverse abilità mediche, ma anche di migliori informazioni sull’efficacia di ogni trattamento.
Modulo 5 – Database ACCESS LICEO SCIENTIFICO “ B. RESCIGNO COMPUTER SCUOLA PIANO INTEGRATO 2008/09 ESPERTO prof.ssa Rita Montella.
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
Come Orientarsi. 2 Se ti colleghi da fuori Azienda: Senza password: medico-sicentifica-on-linehttp://
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Proff.
DATABASE=collezione di dati biologici RECORD=elementi del database (o ENTRY) CAMPI=attributi dei record IDENTIFICATORE DI RECORD=alfanumerico identificativo.
FIRB 2003 (art.8) D.D LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: CNRBA ATTIVITA’  Sviluppo programmi di analisi  Sviluppo.
Transcript della presentazione:

Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel Corso di Laurea in Biotecnologie Sanitarie Universita' di Padova Corso di Bioinformatica 16 ore

Utilizzare Database per recuperare informazioni biomediche Utilizzare specifici programmi per analizzare le informazioni disponibili nei database, per avvantaggiarsi nel disegno e nella programmazione dell’attivita’ sperimentale Utilizzare metodologie e programmi per analizzare sequenze e “navigare” genomi completi Bioinformatica - OBIETTIVI

Home page del corso

I LEZIONE Database primari e Database secondari Database di sequenze nucleotidiche e proteiche GenBank SWISSPROT ENTREZ Information retrieval system

INTRODUZIONE ALL’UTILIZZO DI DATABASE Struttura e organizzazione di database  I database sono insiemi di dati memorizzati su un computer con diversi livelli di astrazione al di sopra di essi; ogni livello di astrazione consente di organizzare i dati contenuti e di accedervi.  Database diversi organizzano i dati in modi differenti database Flat-File il tipo piu’ semplice di database database relazionali (Oracle, mySQl) permettono la composizione di interrogazioni o query che collegano piu' tabelle, stabilendo delle "relazioni" tra i contenuti delle singole tabelle. database Object Oriented, le informazioni sono gestite come "oggetti" con varie "proprieta'", invece che records con campi.  Tutti i sistemi di database impiegano delle interfacce (API, Application Programming Interface) per accedere ai dati e modificarli

INTRODUZIONE ALL’UTILIZZO DI DATABASE Database flat-file  Il tipo piu' semplice di database e' il database flat-file, formato da files di testo ASCII in formato standard che il programa esamina per cercare informazioni.  Il formato e' di solito costituito da un insieme di campi, contenenti ciascuno una specifica categoria di informazioni, delimitati attraverso caratteri speciali o con lunghezza fissa assegnata.  Il pregio principale dei database flat-file e' la semplicita' di gestione, controbilanciata pero' dall’incapacita' di gestire accesso concorrente e dalla mancanza di indicizzazione dei dati, che non consentono interrogazioni sequenziali.

DATABASE FLAT-FILE ENTRY ACTT13627 NAThe ultimate chocolate cake INcacao, uova, farina, burro, … GR180 °C TM40 minuti CA500 ORVienna REDolci Austriaci, Ed.Frankfurter

LEVELS OF PROTEIN SEQUENCE AND STRUCTURAL ORGANISATION PRIMARY sequence primary database SECONDARY motif secondary database TERTIARY domain module secondary database DATABASE PRIMARI E DATABASE SECONDARI ORGANIZZANO RISPETTIVAMENTE DATI ORIGINALI E CONOSCENZA GENERATA A PARTIRE DA ANALISI DI DATI O INTEGRAZIONE DI DATI DIVERSI

DATABASE PRIMARI DATABASE DI SEQUENZE NUCLEOTIDICHE Collezioni di singoli record, ognuno dei quali contiene un tratto di DNA o RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha un codice che lo identifica univocamente (ACCESSION NUMBER). Le tre principali banche dati primarie di sequenze nucleotidiche sono: EMBL nucleotide database, ora gestita dall’EBI (1980)  EMBL = European Molecular Biology Laboratory (Heidelberg)  EBI = European Bioinformatics Institute (Hinxton, UK) GenBank = banca dell NIH gestita dal NCBI (1982)  NIH = National Institutes of Health (Stuttura USA)  NCBI = National Center for Biotechnology Information, Bethesda, Maryland DDBJ = banca DNA giapponese (1986)  DDBJ = DNA DataBase of Japan SCAMBIO DI DATI  Nel 1988, i gruppi responsabili dei 3 database si sono organizzati nell’International Collaboration of DNA Sequence Databases per utilizzare un formato comune e scambiarsi giornalmente le sequenze.

DATABASE DI SEQUENZE NUCLEOTIDICHE GenBank SUBMISSION DIRETTA  La gran parte delle sequenze finisce in uno dei tre database perché l’autore (il laboratorio dove tale sequenza é stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà solo di quel database, l’unico con il diritto di modificarlo. Il database che riceve la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un database sono presenti anche negli altri due. ANNOTAZIONE  Ci sono poi anche degli “annotatori” che prendono le sequenze dalle riviste scientifiche e le trasferiscono nel database.  Problema della ridondanza

DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank

DATABASE DI SEQUENZE NUCLEOTIDICHE GenBank contiene diverse sezioni  in passato per gruppi tassonomici e strategie di sequenziamento  ora tre grandi sezioni : EST, GSS e CoreNucleotide dbEST  database pubblico di "Expressed Sequence Tags" (sequenze espresse contrassegnate), contiene tutte le sequenze ottenute dal sequenziamento parziale o totale di cloni di cDNA, molto utili per: Identificare nuovi geni Studiare la struttura esoni/introni di geni Studiare l’espressione genica

Come e’ fatta un’entry di GenBank ?

DATABASE PRIMARI DATABASE DI SEQUENZE PROTEICHE SWISS-PROT Database di sequenze proteiche annotate, “scarsamente” ridondanti e cross-referenced Contiene TrEMBL, supplemento a SWISS-PROT costituito dalle sequenze annotate al computer, come traduzione di tutte le sequenze codificanti presenti all’EMBL TrEMBL contiene due sezioni: SP-TrEMBL, sequenze da incorporare in SWISSPROT, con AC. REM-TrEMBL, remaining (immunoglobuline, proteine sintetiche,...), senza AC. TrEMBLnew, generato ogni settimana.

UniProt (Universal Protein Resource) Il piu’ grande catalogo di informazioni sulle proteine. Contiene informazioni sulla sequenza e sulla funzione di proteine ed e’ ottenuto dall’insieme delle informazioni contenute in Swiss-Prot, TrEMBL e PIR. UniProt ha 3 componenti: UniProt Knowledgebase (UniProt) the central access point for extensive curated protein information, including function, classification, and cross-reference. UniProt Non-redundant Reference (UniRef) databases combine closely related sequences into a single record to speed searches. UniProt Archive (UniParc) is a comprehensive repository, reflecting the history of all protein sequences.

UniProt (Universal Protein Resource) The UniProt Knowledgebase consists of two parts, a section containing fully manually-annotated records resulting from information extracted from literature and curator-evaluated computational analyses, and a section with computationally- analysed records awaiting full manual annotation. For the sake of continuity and name recognition, the two sections are referred to as "UniProtKB/Swiss-Prot" and "UniProtKB/TrEMBL", respectively.

ENTREZ E' stato sviluppato all’NCBI (National Center for Biotechnology Information, USA) per permettere l'accesso a dati di biologia molecolare e citazioni bibliografiche. Sfrutta il concetto di “neighbouring”: possibilita' di collegare tra loro oggetti diversi di database differenti, indipendentemente dal fatto che essi siano direttamente “cross-referenced”. Tipicamente, ENTREZ permette l'accesso a database di sequenze nucleotidiche, di sequenze proteiche, di mappaggio di cromosomi e di genomi, di struttura 3D e bibliografici (PubMed).