Banche dati biologiche

Slides:



Advertisements
Presentazioni simili
DBMS (DataBase Management System)
Advertisements

PHP.
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
WEB OF SCIENCE ISI Web of Knowledge
Esercitazione sulle modalità di ricerca di CINAHL.
Bioinformatica Banche dati biologiche
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Bioinformatica Prof. Mauro Fasano
BASI DI DATI BIOLOGICHE - 3
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Corso di ingegneria genetica
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: Medline CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI- NAPOLI Prof.ssa.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: è meglio Google o Pubmed? CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-
PUBMED 29 novembre 2012.
Il contributo della ricerca bibliografica online
CORSO DI RICERCA BIBLIOGRAFICA 4. giornata (20 marzo 2008) Web of Science Beilstein e Gmelin Crossfire.
Bioinformatica Banche dati biologiche
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Metodi basati sulle similitudini per dedurre la funzione di un gene
Lautore e il ricercatore nellambiente digitale 2. edizione 12 aprile 2007 Introduzione al Portale AIRE A cura di Cristina Capodaglio (Biblioteca del Dipartimento.
Bioinformatica Andrea G. B. Tettamanzi.
Cos’è un CMS? Content Management System
Daniel Stoilov Tesi di Laurea
Banche dati in rete dateneo Cosa faremo: Primo giorno Introduzione alle principali banche dati umanistiche Secondo giorno Esercitazioni.
DBMS ( Database Management System)
e per generare Bibliografie
Entrez + MedLine => PubMed
Modulo 7 – reti informatiche u.d. 3 (syllabus – )
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Modulo 7 – reti informatiche u.d. 1 (syllabus – )
Software per la Bioinformatica
ACCESS Introduzione Una delle necessità più importanti in informatica è la gestione di grandi quantità di dati. I dati possono essere memorizzati.
Università degli Studi di Genova Laurea Specialistica in Biotecnologie Medico-Farmaceutiche Corso di: Biotecnologie Diagnostiche A.A. 2004/2005 Utilizzo.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
In questa lezione ci occuperemo
Ricerca di similarità di sequenza (FASTA e BLAST)
Alcuni esempi di domande di esame
BIOINFO3 - Lezione 361 RICERCA DI SIMILARITA TRA SEQUENZE Un altro problema comunissimo in bioinformatica è quello della ricerca di similarità tra sequenze.
Tutorial per l’utilizzo di k ScanProsite
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
Percorso didattico per l’apprendimento di Microsoft Access Modulo 5
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Sequenze e Banche Dati Biologiche
PSYCINFO.
L’accesso alle banche dati bibliografiche per l’area economica La ricerca economica per la tesi di laurea: abilità strumentali e strategie informative.
Romano, Portale Web 1 WP 5 – Attività 1 Il portale Web Paolo Romano Istituto Nazionale per la Ricerca sul Cancro
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
Tutorial Rehabilitation Reference Center support.ebsco.com.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Data Base ACCESS EM 09.
La parola “Bioinformatica”
Allineamento di sequenze
Cloud Tecno V. Percorso didattico per l’apprendimento di Microsoft Access 4 - Le maschere.
Il software Aleph caratteristiche e funzionalità Aleph500 v ersione seminario a cura di Libera Marinelli Università di Genova - Centro di servizi.
Laurea Specialistica “Metodologie Chimiche Avanzate” A.A Gabriele Ricchiardi Ricercatore/Chimica Fisica Tel.:
Tutorial UNOsearch Discovery Service dell’Università degli studi di Napoli “L’Orientale” Link a UNOsearch.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
Un sito con Wordpress Includere Digital-mente – Corso livello 4 docente: prof.ssa MANUELA MARSILI.
Modulo 5 – Database ACCESS LICEO SCIENTIFICO “ B. RESCIGNO COMPUTER SCUOLA PIANO INTEGRATO 2008/09 ESPERTO prof.ssa Rita Montella.
DIAGNOSI MOLECOLARE DI UNA MALATTIA GENETICA E SVILUPPO DI UNA TERAPIA GIUSEPPINA ANDREOTTI M.VITTORIA CUBELLIS.
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
DATABASE=collezione di dati biologici RECORD=elementi del database (o ENTRY) CAMPI=attributi dei record IDENTIFICATORE DI RECORD=alfanumerico identificativo.
Corso di bioinformatica Eugenio Notomista tel Introduzione alla bioinformatica G. Valle, M. Helmer Citterich, M. Attimonelli,
FIRB 2003 (art.8) D.D LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: CNRBA ATTIVITA’  Sviluppo programmi di analisi  Sviluppo.
Transcript della presentazione:

Banche dati biologiche Bionformatica Banche dati biologiche NBRF (1970) EMBL (1980), GenBank e DDBJ (1986) PROSITE, EPD (1985) PDB (Protein Data Bank) Sistemi di interrogazione: SRS Entrez Metodologie bio-computazionali Programmi per la ricerca di similarità delle sequenze (BLAST e FASTA Studi di evoluzione molecolare Predizioni di strutture di RNA Predizioni di strutture secondarie proteiche Predizioni di strutture tridimensionali proteiche

La bioinformatica Nasce negli anni 70 quando vennero pubblicate le prime sequenze nucleotidiche e cominciò a nascere l’esigenza di avere a disposizione sistemi informatici per l’archiviazione e l’analisi di dati di sequenza che sono state prodotte nel futuro in grande quantità. Compiti della bioinformatica: Mettere a punto dei sistemi idonei per collezionare ed interrogare l’enorme mole di dati biologici. Progettazione, implementazione ed applicazione di metodi matematico-statistici rivolti - alla caratterizzazione funzionale delle sequenza biologiche, - a studi di evoluzione molecolare - a studi strutturali degli acidi nucleici e delle proteine.

Genetic Computer Group Tre pacchetti per analizzare i dati: Genetic Computer Group (commerciale) Phylip Analisi di evoluzione molecolare EMBOSS http://emboss.sourceforge.net/ Infrastrutture bioinformatiche: EBI (UK) EMBL http://www.ebi.ac.uk NCBI GenBank http://www.ncbi.nlm.nih.gov:8000 Expasy http://www.expasy.org Sanger http://www.sanger.org SIB http://www.isb-sib.ch EMBnet http://www.embnet.org

Programma del corso Le lezioni in laboratorio riguarderanno i seguenti argomenti: - Elementi di base di Informatica e Programma Access - Interrogazione di banche dati biologiche usando Entrez, SRS etc. - Ricerca in banche dati di sequenze nucleotidiche. - Ricerca in banche dati di sequenze e strutture proteiche. - Studio ed utilizzo di banche dati di geni e trascrittomi. - Allineamento di sequenze di acidi nucleici e di proteine mediante i programmi BLAST e FASTA. - Utilizzo di algoritmi per allineamenti multipli globali e locali e per la costruzione di alberi filogenetici (ad es. i programmi CLUSTAL e PHYLIPS). - Predizione della struttura secondaria di RNA. - Ricerca di motivi e pattern funzionali in proteine. - Programmi per la predizione della struttura secondaria (metodi statistici e neural network). - Programmi per la visualizzazione grafica di strutture proteiche. - Programmi per la predizione di struttura tridimensionale delle proteine. - Banche dati di interazioni proteiche e programmi di docking.

Esercitazioni: Ricerca in banche dati di sequenze nucleotidiche (EMBL, GenBank) e proteiche (SWISSPROT, Uni-Prot) Ricerca in banche dati di strutture proteiche (PDB, CATH e SCOP) Utilizzo del programma Access Interrogazione in banche dati mediante SRS Localizzazione di un gene sul genoma umano mediante Ensembl. - Predizione di geni codificanti proteine in sequenze genomiche. - Determinazione della struttura di un gene mediane il confronto tra la sequenza genomica e l’mRNA maturo. - Analisi di sequenze proteiche (peso molecolare, punto isoelettrico) utilizzando i tools sul sito Expasy. - Predizione della struttura secondaria di una proteina di cui è nota la sequenza mediante i programmi JPred e PsiPred. - Modellamento per omologia della struttura tridimensionale di una proteina a partire dalla sola sequenza usando SwissModel.

Scopo di realizzare una banca dati Consentire la consultazione e l’analisi delle informazioni in essa contenute e di ogni altra informazione a esse correlate e memorizzate in altre banche dati Tipi di banche dati: Primarie o derivate Nelle banche dati primarie sono presenti solo le informazioni minime necessarie da associare ai dati per identificarli al meglio. Le banche dati derivate contengono invece insiemi di dati omogenei che possono derivare da banche dati primarie, ma rivisti e annotati con varie informazioni che danno un valore aggiunto alla banca dati stessa. Non Curate o curate Le banche dati non curate contengono i dati grezzi così come sono forniti da chi li ha ottenuti, o con annotazioni da sistemi automatici. Le banche dati curate presentano informazioni che sono verificate, confrontate con quelle di altre banche dati, opportunamente corrette (o per lo meno con segnalazione di possibili errori e conflitti con altri dati) Relazionali Nelle banche dati relazionali i dati sono gestiti come tabelle, tutte correlate tra loro (ACCESS è un esempio di programma per creare database).

Banche dati biologiche Una banca dati biologica raccoglie informazioni e dati derivanti dalla letteratura e da analisi effettuate sia in laboratorio sia attraverso analisi bioinformatiche. Ogni banca dati biologica è caratterizzata da un elemento biologico centrale che costituisce l’oggetto principale intorno al quale viene costruita la entry della banca dati. Esempi di elemento centrale: 1) la sequenza nucleotidica di DNA nelle banche dati di acidi nucleici 2) promotore nelle banche dati di promotori eucariotici. Ciascuna entry raccoglie tutte le informazioni che caratterizzano l’elemento centrale.

Esempio entry in EMBL File flat-file File sequenziale nel quale ogni classe di informazione è riportata su una o più linee consecutive identificate da un codice a sinistra caratterizzante gli attributi annotati nella linea stessa. Vantaggi: 1. Molto semplice da creare 2. Facilmente analizzabile da diversi programmi Svantaggi: Dati eterogenei difficilmente maneggiabili

Codici in un File flat-file Ogni sequenza inviata al database viene contrassegnata da un accession number (AC) permanente per l’entry. Viene anche assegnata una entry name (ID). Altre informazioni annotate: DT: date di creazione e aggiornamento KW: parole chiave per la descrizione OS: nome della specie OC: classificazione tassonomica RN, RA, RT, RL: informazioni sulla bibliografia FT: regioni funzionalmente caratterizzate SQ: sequenza nucleotidica

Tipi di banche dati: Riferimenti scientifici Sequenze nucleotidiche Sequenze proteiche Strutture Proteiche Interazioni tra molecole dati di espressione genica malattie genetiche pathway biochimici Sequenze nucleotidiche: GenBank EMBL LocusLink GeneCards RefSeq UniGene Ensembl Proteine SwissProt UniProt PROSITE PDB ENZYME CATH SCOP PDBsum Altre banche dati : PubMed OMIM UTR 2DPAGE IARC P53

Tipi di banche dati: Banche dati di letteratura scientifica (PubMed) Banche dati di sequenze nucleotidiche (EMBL, GenBank, DDBJ) Banche dati di geni (LocusLink, GeneCards, RefSeq, UniGene) Banche dati di genomi (Ensembl) Banche dati di prodotti di trascrizione (dbEST, UniGene) Banche dati di profili di espressione (GEO, ArrayExpress) Banche dati di polimorfismi e mutazioni (dbSNPs, HGMD) Banche dati di sequenze proteiche (SwissProt, UniProt, PIR) Banche dati di motivi e domini proteici (PROSITE, Pfam) Banche dati di strutture proteiche (PDB, CATH e SCOP) Banche dati di profili di proteomica (OPD) Banche dati di pathways metabolici (ENZYME, PATHWAYS) Banche dati mitocondriali (MITOMAP) Banche dati di malattie genetiche (OMIM)

PUBMED (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed) E’ considerata la banca dati per eccellenza della letteratura medica e biologica. E’ consultabile in modo gratuito e permette il link diretto ai siti delle riviste per visionare o scaricare l’articolo (gratuitamente o a pagamento a seconda della policy della rivista). Le ricerche in PubMed possono essere effettuate tramite diverse opzioni: 1. Autore 2. Rivista 3. Parole chiave usando anche le possibilità offerte dal database Esercizio: Ricerchiamo gli articoli che negli ultimi 3 anni riguardano gli “amminacidi” usando l’opzione Limits

Esempio PUBMED

Esempio Risultato (febbraio 2007)

Banche dati di sequenze nucleotidiche EMBL (Inghilterra) http://www.ebi.ac.uk/embl/ GenBank (America) http://www.ncbi.nlm.nih.gov/Genbank/ DDBJ (Giappone) http://www.ddbj.nig.ac.jp/Welcome-e.html Per ogni sequenza le informazioni riportate sono identiche anche se la struttura dei file è abbastanza diversa

Banche dati di sequenze nucleotidiche Esercizi: Ricercare la sequenza nucleotidica che corrisponde all’Accession number M10051 in EMBL. 2. Ricercare in GenBank tutte le entry che corrispondono al termine “myoglobin” 3. Confrontare le entry nelle due banche dati se ricerchiamo in entrambe all’Accession number M10051

UNIPROT (http://www.pir.uniprot.org) E’ la banca dati di riferimento per le sequenze proteiche. Deriva da un consorzio tra: 1. SWISSPROT (http://www.ebi.ac.uk/swissprot/access.html): banca dati originale, sviluppata in Svizzera. E’ una banca dati altamente curata, con alto livello di annotazione (descrizione della proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali e post-trasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con altri database, basso livello di ridondanza. Questa banca dati ci fornisce entry di formato flat-file che si differenzia da quello di EMBL soprattutto per qunto riguarda le features che descrivono nelle proteine la presenza di aa modificati, regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi 2. TREMBL (http://www.ebi.ac.uk/trembl/access.html): banca dati di sequenze proteiche ottenute tramite traduzione delle sequenze nucleotidiche contenute in EMBL, annotate automaticamente. Di queste sequenze annotate una parte che costituisce SPTREMBL è inserita in SWISSPROT mentre la parte relativa alle proteine immunologiche è raccolta in REMTREMBL. In SRS con il termine SWALL è indicato l’insieme di SWISSPROT+ SPTREMBL. 3. PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche sviluppata negli USA. E’ molto curata e ben annotata, ma è poco integrata con altri database e quindi offre minori vantaggi nel suo uso.

Dal sito UniProt UniProt has three components, each optimized for different uses. The UniProt Knowledgebase (UniProtKB) is the central access point for extensive curated protein information, including function, classification, and cross-reference. The UniProt Reference Clusters (UniRef) databases combine closely related sequences into a single record to speed searches. The UniProt Archive (UniParc) is a comprehensive repository, reflecting the history of all protein sequences.

Esempio UniProt home page

Esempio di output

Se clicco su MYG_HUMAN

Database di STRUTTURE PDB (http://www.rcsb.org/pdb/home/home.do): Banca dati di riferimento per i dati strutturali 3D di proteine, comprendente le coordinate atomiche determinate attraverso analisi cristallografiche ai raggi X, analisi NMR o altre tecniche (microscopia elettronica etc.). Comprende anche una sezione dedicata alle strutture delle proteine determinate tramite metodi computazionali. Anche in questo caso è stato recentemente creato un consorzio tra le tre organizzazioni responsabili del mantenimento dei server: RCSB (USA), MSD-EBI (EU) e PDBj (Giappone) MMDB [Entrez's Molecular Modeling Database] http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure NDB (http://ndbserver.rutgers.edu/) : banca dati di strutture di acidi nucleici, soli o assieme a proteine CSD (http://www.ccdc.cam.ac.uk/products/csd/) : banca dati di strutture di piccole molecole organiche ed organometalliche

Esempio HomePage PDB 2MM1

Esempio di file PDB

Altre banche dati che riguardano la struttura delle proteine: DSSP (Dictionary of Protein Secondary Structure) raccolta delle strutture secondarie. Programma: http://bioweb.pasteur.fr/seqanal/interfaces/dssp-simple.html Database http://swift.cmbi.ru.nl/gv/dssp/ HSSP (Homology derived Secondary Structure of Proteins) contiene informazioni utili per costruire modelli di proteine. Database http://swift.cmbi.kun.nl/gv/hssp/ FSSP (Fold classification based on Secondary Structure alignment of Proteins) include l’allineamento con le proteine di struttura simile e riporta i residui che sono equivalenti nelle strutture. PDBsum (http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/) riassume per ogni proteina tutte le informazioni derivanti dalle varie banche dati correlati. SCOP [Structural Classification of Proteins] (http://scop.mrc-lmb.cam.ac.uk/scop/) organizza le strutture proteiche gerarchicamente seguendo criteri evolutivi e di similarità strutturale. CATH (http://www.cathdb.info/latest/index.html) presenta una classificazione strutturale simile a quellla offerta da SCOP, basata su confronti di strutture.

Esempio pagina web PDBsum e risultato di una ricerca

Esempio pagina web CATH

Esempio pagina web SCOP

Esercizi: Ricercare in CATH e SCOP le entries relative alla keyword “myoglobin” Ricercare in PDBsum l’entry “2MM1” Usare DSSP per assegnare la struttura secondaria della proteina che corrisponde al codice 2MM1

HGMD (Human Gene Mutation Database) Questa banca dati raccoglie i dati presenti in letteratura sulle mutazioni derivanti da alterazioni e disfunzioni geniche. Si annotano solo mutazioni sperimentalmente determinate sul DNA e non sulla proteina, ma le mutazioni silenti sono annotate solo se determinano influenze sullo splicing. Ogni mutazione è associata al fenotipo clinico OMIM (Online Mendelian Inheritance in Man) La banca dati OMIM nasce da un catalogo (MIM) per la raccolta delle informazioni correlate alle malattie genetiche di natura mendeliana. Il database attualmente contiene informazioni non solo su malattie genetiche di tipo autosomico, ma anche su malattie associate ad alterazioni dei cromosomi sessuali e dei mitocondri. Presenta cross-links a diverse altre banche dati. Sistema ENSEMBL (http://www.ensembl.org/index.html) raccoglie dati relativi alle annotazioni del genoma umano, murino, pesce zebra (Danio rerio) e la zanzara (Anopheles gambiae). Annotare un genoma significa caratterizzare le sue funzioni attraverso la ricerca di dati già determinati o attraverso l’applicazione di metodologie bioinformatiche che consentono di caratterizzare nuove funzioni

Banche dati di motivi e domini proteici InterPro (http://www.ebi.ac.uk/interpro/) è una risorsa bioinformatica che raccoglie varie informaioni strutturali e funzionali relative ad una proteina o ad una famiglia di proteine. All’interno di InterPro sono comprese varie banche dati: PROSITE (http://www.ebi.ac.uk/ppsearch/): annota patterns amminoacidici individuati in un set di sequenze proteiche attraverso analisi in silico e studi sperimentali. PRODOM http://prodom.prabi.fr/prodom/current/html/form.php?typeform=KW è un database che raccoglie dati relativi a famiglie di proteine generate dall’applicazione di PSI-BLAST, che partendo dal confronto di una sequenza proteica contro un database diproteine, raccoglie in un multiallineamento tutte le sequuenze proteiche per le quali Blast ha determinato uno score più aòtro di un score indicato come threshold. PFAM è una banca dati di famiglie di proteine accomunate da elementi strutturali e funzionali.

PRINTS è un database che raccoglie sequenze proteiche in clusters definiti da un comune Fingerprint dove per Fingerprint si intende l’insieme di più motivi conservatie dedotti dall’osservazione di un multiallineamento ottenuto applicando algoritmi per la ricerca di similarità locali. SMART è una risorsa che raccoglie dati relativi a domini proteici e consente la ricerca di domini in nuove sequenze proteiche Esercizio: Ricerca in PRODOM inserendo la parola “myoglobin” in Keyword Search

Esempio Prosite

Esempio Prosite

Sistemi di interrogazione: Modalità di ricerca dei dati È possibile utilizzare la logica booleana che consente di effettuare intersezioni (AND), somme (OR) ed esclusioni (BUT NOT) di insiemi di dati. Sistemi di interrogazione: SRS Entrez EMBL Genbank PDB MMDB …… ……. Per SRS: http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+srsq2+-noSession Per Entrez: http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi

ENTREZ (http://www.ncbi.nlm.nih.gov/Database/index.html) Comprende Medline banca dati bibliografica OMIM malattie mendeliane GenBank sequenze genomiche Taxonomy classificazione degli organismi La ricerca viene fatta sempre usando la combinazione di AND, OR and BUT NOT. Come SRS permette la navigazione tra le varie banche dati disponibili utilizzando il meccanismo dei neighbors Il comando History visualizza tutte le query selezionate nell’ambito però di una singola categoria (nucleotidi, proteine etc). History è l’equivalente di Resuls in SRS I dati associati a ciascuna query possono essere salvati e visualizzati mediante il comando Text

Esercizio con Entrez (http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi): Cosa succede se io ricerco inserendo la keyword: myoglobin? Cosa succede se io ricerco inserendo la keyword: myoglobin human?

SRS: - consente di interrogare più banche dati contemporaneamente più banche dati biologiche - sfrutta i meccanismi di codifica di cross-referencing e consente la navigazione tra le banche dati Nella top page sono riportati i nomi di tutte le banche dati indicizzate su server e raggruppate in categorie. A sinistra di ciascuna categoria è riportata una box con – quando è visibile l’intero elenco delle banche dati + quando c’è solo un testo succinto che descrive le caratteristiche della banca dati e dei suoi contenuti. Ci sono due possibili Query: Standard Query Form Extended Query Form

Le Query usano 3 criteri possibili: AND: & in SRS OR: | in SRS BUT NOT: ! in SRS Possibili funzioni: Formati di visualizzazione menu View Salvare i dati comando Save Link consente di ottenere informazioni su dati presenti nella banca dati e correlati ai dati associati alla query prescielta. Launch consente di applicare programmi di analisi ai dati di sequenza associati alla query selezionata Tool: Blast, Fasta e Clustal

In pratica SRS ci permette di: 1. scegliere i database da utilizzare per la ricerca 2. immettere una o più query concatenate 3. visualizzare i risultati in modo personalizzabile 4. Applicare i programmi di analisi ai risultati ottenuti 5. salvare nel server EBI i risultati di una ricerca e di richiamarli successivamente Esempi pratici ……….

Differenze tra Entrez ed SRS: E’ un sistema disponibile sul sito dell’NCBI (www.ncbi.nlm.nih.gov) per interrogare ed estrarre dati dalle più varie banche dati esistenti. Non è commercialmente disponibile e quindi non può essere scaricato ed installato localmente, né è possibile modificare le banche dati implementate sul sistema. SRS – Sequence Retrieval System Il nome può suggerire un uso limitato a “sequenze”. In realtà è un sistema utilizzabile su qualunque tipo di database. Molti centri di ricerca hanno installato SRS sul proprio web server utilizzandolo per offrire un servizio di consultazione di banche dati. Uno dei sistemi SRS più curati è quello presente sul sito dell’EBI (www.ebi.ac.uk)

Esercizio usando SRS: Ricercare in UniProt/SWISSProt tutte le sequenze di mioglobine Lanciare un Blast su una sequenza a vostra scelta Selezionare tutte le sequenze e ricercare le strutture corrispondenti nella banca dati PDB Scelta una struttura ricercare le corrispondenti strutture riportate in DSSP Modificare il modo di visualizzare i risultati Salvare i risultati Data una sequenza predire la sua struttura secondaria mediante Garnier