La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Bionformatica Banche dati biologiche NBRF (1970) EMBL (1980), GenBank e DDBJ (1986) PROSITE, EPD (1985) PDB (Protein Data Bank) Sistemi di interrogazione:

Presentazioni simili


Presentazione sul tema: "Bionformatica Banche dati biologiche NBRF (1970) EMBL (1980), GenBank e DDBJ (1986) PROSITE, EPD (1985) PDB (Protein Data Bank) Sistemi di interrogazione:"— Transcript della presentazione:

1 Bionformatica Banche dati biologiche NBRF (1970) EMBL (1980), GenBank e DDBJ (1986) PROSITE, EPD (1985) PDB (Protein Data Bank) Sistemi di interrogazione: SRS Entrez Metodologie bio-computazionali Programmi per la ricerca di similarità delle sequenze (BLAST e FASTA Studi di evoluzione molecolare Predizioni di strutture di RNA Predizioni di strutture secondarie proteiche Predizioni di strutture tridimensionali proteiche

2 Compiti della bioinformatica: 1)Mettere a punto dei sistemi idonei per collezionare ed interrogare lenorme mole di dati biologici. 2)Progettazione, implementazione ed applicazione di metodi matematico-statistici rivolti - alla caratterizzazione funzionale delle sequenza biologiche, - a studi di evoluzione molecolare - a studi strutturali degli acidi nucleici e delle proteine. La bioinformatica Nasce negli anni 70 quando vennero pubblicate le prime sequenze nucleotidiche e cominciò a nascere lesigenza di avere a disposizione sistemi informatici per larchiviazione e lanalisi di dati di sequenza che sono state prodotte nel futuro in grande quantità.

3 Tre pacchetti per analizzare i dati: EMBOSS Genetic Computer Group (commerciale) Phylip Analisi di evoluzione molecolare Infrastrutture bioinformatiche: EBI (UK) EMBL NCBI GenBank Expasy Sanger SIB EMBnet

4 Programma del corso Le lezioni in laboratorio riguarderanno i seguenti argomenti: - Elementi di base di Informatica e Programma Access - Interrogazione di banche dati biologiche usando Entrez, SRS etc. - Ricerca in banche dati di sequenze nucleotidiche. - Ricerca in banche dati di sequenze e strutture proteiche. - Studio ed utilizzo di banche dati di geni e trascrittomi. - Allineamento di sequenze di acidi nucleici e di proteine mediante i programmi BLAST e FASTA. - Utilizzo di algoritmi per allineamenti multipli globali e locali e per la costruzione di alberi filogenetici (ad es. i programmi CLUSTAL e PHYLIPS). - Predizione della struttura secondaria di RNA. - Ricerca di motivi e pattern funzionali in proteine. - Programmi per la predizione della struttura secondaria (metodi statistici e neural network). - Programmi per la visualizzazione grafica di strutture proteiche. - Programmi per la predizione di struttura tridimensionale delle proteine. - Banche dati di interazioni proteiche e programmi di docking.

5 Esercitazioni: -Ricerca in banche dati di sequenze nucleotidiche (EMBL, GenBank) e proteiche (SWISSPROT, Uni-Prot) -Ricerca in banche dati di strutture proteiche (PDB, CATH e SCOP) -Utilizzo del programma Access -Interrogazione in banche dati mediante SRS -Localizzazione di un gene sul genoma umano mediante Ensembl. - Predizione di geni codificanti proteine in sequenze genomiche. - Determinazione della struttura di un gene mediane il confronto tra la sequenza genomica e lmRNA maturo. - Analisi di sequenze proteiche (peso molecolare, punto isoelettrico) utilizzando i tools sul sito Expasy. - Predizione della struttura secondaria di una proteina di cui è nota la sequenza mediante i programmi JPred e PsiPred. - Modellamento per omologia della struttura tridimensionale di una proteina a partire dalla sola sequenza usando SwissModel.

6 Scopo di realizzare una banca dati Consentire la consultazione e lanalisi delle informazioni in essa contenute e di ogni altra informazione a esse correlate e memorizzate in altre banche dati Tipi di banche dati: Primarie o derivate Nelle banche dati primarie sono presenti solo le informazioni minime necessarie da associare ai dati per identificarli al meglio. Le banche dati derivate contengono invece insiemi di dati omogenei che possono derivare da banche dati primarie, ma rivisti e annotati con varie informazioni che danno un valore aggiunto alla banca dati stessa. Non Curate o curate Le banche dati non curate contengono i dati grezzi così come sono forniti da chi li ha ottenuti, o con annotazioni da sistemi automatici. Le banche dati curate presentano informazioni che sono verificate, confrontate con quelle di altre banche dati, opportunamente corrette (o per lo meno con segnalazione di possibili errori e conflitti con altri dati) Relazionali Nelle banche dati relazionali i dati sono gestiti come tabelle, tutte correlate tra loro (ACCESS è un esempio di programma per creare database).

7 Banche dati biologiche Una banca dati biologica raccoglie informazioni e dati derivanti dalla letteratura e da analisi effettuate sia in laboratorio sia attraverso analisi bioinformatiche. Ogni banca dati biologica è caratterizzata da un elemento biologico centrale che costituisce loggetto principale intorno al quale viene costruita la entry della banca dati. Esempi di elemento centrale: 1) la sequenza nucleotidica di DNA nelle banche dati di acidi nucleici 2) promotore nelle banche dati di promotori eucariotici. Ciascuna entry raccoglie tutte le informazioni che caratterizzano lelemento centrale.

8 Esempio entry in EMBL File flat-file File sequenziale nel quale ogni classe di informazione è riportata su una o più linee consecutive identificate da un codice a sinistra caratterizzante gli attributi annotati nella linea stessa. Vantaggi: 1. Molto semplice da creare 2. Facilmente analizzabile da diversi programmi Svantaggi: Dati eterogenei difficilmente maneggiabili

9 Ogni sequenza inviata al database viene contrassegnata da un accession number (AC) permanente per lentry. Viene anche assegnata una entry name (ID). Altre informazioni annotate: DT: date di creazione e aggiornamento KW: parole chiave per la descrizione OS: nome della specie OC: classificazione tassonomica RN, RA, RT, RL: informazioni sulla bibliografia FT: regioni funzionalmente caratterizzate SQ: sequenza nucleotidica Codici in un File flat-file

10 Tipi di banche dati: - Riferimenti scientifici - Sequenze nucleotidiche - Sequenze proteiche - Strutture Proteiche - Interazioni tra molecole - dati di espressione genica - malattie genetiche - pathway biochimici Sequenze nucleotidiche: GenBank EMBL LocusLink GeneCards RefSeq UniGene Ensembl Altre banche dati : PubMed OMIM UTR 2DPAGE IARC P53 Proteine SwissProt UniProt PROSITE PDB ENZYME CATH SCOP PDBsum

11 Tipi di banche dati: Banche dati di letteratura scientifica (PubMed) Banche dati di sequenze nucleotidiche (EMBL, GenBank, DDBJ) Banche dati di geni (LocusLink, GeneCards, RefSeq, UniGene) Banche dati di genomi (Ensembl) Banche dati di prodotti di trascrizione (dbEST, UniGene) Banche dati di profili di espressione (GEO, ArrayExpress) Banche dati di polimorfismi e mutazioni (dbSNPs, HGMD) Banche dati di sequenze proteiche (SwissProt, UniProt, PIR) Banche dati di motivi e domini proteici (PROSITE, Pfam) Banche dati di strutture proteiche (PDB, CATH e SCOP) Banche dati di profili di proteomica (OPD) Banche dati di pathways metabolici (ENZYME, PATHWAYS) Banche dati mitocondriali (MITOMAP) Banche dati di malattie genetiche (OMIM)

12 PUBMED (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed) E considerata la banca dati per eccellenza della letteratura medica e biologica. E consultabile in modo gratuito e permette il link diretto ai siti delle riviste per visionare o scaricare larticolo (gratuitamente o a pagamento a seconda della policy della rivista). Le ricerche in PubMed possono essere effettuate tramite diverse opzioni: 1. Autore 2. Rivista 3. Parole chiave usando anche le possibilità offerte dal database Esercizio: Ricerchiamo gli articoli che negli ultimi 3 anni riguardano gli amminacidi usando lopzione Limits

13 Esempio PUBMED

14 Esempio Risultato (febbraio 2007)

15 Banche dati di sequenze nucleotidiche EMBL (Inghilterra) GenBank (America) DDBJ (Giappone) Per ogni sequenza le informazioni riportate sono identiche anche se la struttura dei file è abbastanza diversa

16

17 Banche dati di sequenze nucleotidiche Esercizi: 1.Ricercare la sequenza nucleotidica che corrisponde allAccession number M10051 in EMBL. 2. Ricercare in GenBank tutte le entry che corrispondono al termine myoglobin 3. Confrontare le entry nelle due banche dati se ricerchiamo in entrambe allAccession number M10051

18

19

20

21 UNIPROT (http://www.pir.uniprot.org) E la banca dati di riferimento per le sequenze proteiche. Deriva da un consorzio tra: 1. SWISSPROT (http://www.ebi.ac.uk/swissprot/access.html): banca dati originale, sviluppata in Svizzera. E una banca dati altamente curata, con alto livello di annotazione (descrizione della proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali e post-trasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con altri database, basso livello di ridondanza. Questa banca dati ci fornisce entry di formato flat-file che si differenzia da quello di EMBL soprattutto per qunto riguarda le features che descrivono nelle proteine la presenza di aa modificati, regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi 2. TREMBL (http://www.ebi.ac.uk/trembl/access.html): banca dati di sequenze proteiche ottenute tramite traduzione delle sequenze nucleotidiche contenute in EMBL, annotate automaticamente. Di queste sequenze annotate una parte che costituisce SPTREMBL è inserita in SWISSPROT mentre la parte relativa alle proteine immunologiche è raccolta in REMTREMBL. In SRS con il termine SWALL è indicato linsieme di SWISSPROT+ SPTREMBL. 3. PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche sviluppata negli USA. E molto curata e ben annotata, ma è poco integrata con altri database e quindi offre minori vantaggi nel suo uso.http://pir.georgetown.edu

22 Dal sito UniProt UniProt has three components, each optimized for different uses. The UniProt Knowledgebase (UniProtKB) is the central access point for extensive curated protein information, including function, classification, and cross-reference. The UniProt Reference Clusters (UniRef) databases combine closely related sequences into a single record to speed searches. The UniProt Archive (UniParc) is a comprehensive repository, reflecting the history of all protein sequences.

23 Esempio UniProt home page

24 Esempio di output

25 Se clicco su MYG_HUMAN

26

27

28 Database di STRUTTURE PDB (http://www.rcsb.org/pdb/home/home.do): Banca dati di riferimento per i dati strutturali 3D di proteine, comprendente le coordinate atomiche determinate attraverso analisi cristallografiche ai raggi X, analisi NMR o altre tecniche (microscopia elettronica etc.). Comprende anche una sezione dedicata alle strutture delle proteine determinate tramite metodi computazionali. Anche in questo caso è stato recentemente creato un consorzio tra le tre organizzazioni responsabili del mantenimento dei server: RCSB (USA), MSD-EBI (EU) e PDBj (Giappone) MMDB [Entrez's Molecular Modeling Database] NDB (http://ndbserver.rutgers.edu/) : banca dati di strutture di acidi nucleici, soli o assieme a proteinehttp://ndbserver.rutgers.edu/ CSD (http://www.ccdc.cam.ac.uk/products/csd/) : banca dati di strutture di piccole molecole organiche ed organometallichehttp://www.ccdc.cam.ac.uk/products/csd/

29 Esempio HomePage PDB 2MM1

30 Esempio di file PDB

31

32 Altre banche dati che riguardano la struttura delle proteine: DSSP (Dictionary of Protein Secondary Structure) raccolta delle strutture secondarie. Programma: Database HSSP (Homology derived Secondary Structure of Proteins) contiene informazioni utili per costruire modelli di proteine. Database FSSP (Fold classification based on Secondary Structure alignment of Proteins) include lallineamento con le proteine di struttura simile e riporta i residui che sono equivalenti nelle strutture. PDBsum (http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/) riassume per ogni proteina tutte le informazioni derivanti dalle varie banche dati correlati. SCOP [Structural Classification of Proteins] (http://scop.mrc-lmb.cam.ac.uk/scop/) organizza le strutture proteiche gerarchicamente seguendo criteri evolutivi e di similarità strutturale.http://scop.mrc-lmb.cam.ac.uk/scop/ CATH (http://www.cathdb.info/latest/index.html) presenta una classificazione strutturale simile a quellla offerta da SCOP, basata su confronti di strutture.http://www.cathdb.info/latest/index.html

33 Esempio pagina web PDBsum e risultato di una ricerca

34

35 Esempio pagina web CATH

36

37 Esempio pagina web SCOP

38 Esercizi: -Ricercare in CATH e SCOP le entries relative alla keyword myoglobin -Ricercare in PDBsum lentry 2MM1 -Usare DSSP per assegnare la struttura secondaria della proteina che corrisponde al codice 2MM1

39 HGMD (Human Gene Mutation Database) Questa banca dati raccoglie i dati presenti in letteratura sulle mutazioni derivanti da alterazioni e disfunzioni geniche. Si annotano solo mutazioni sperimentalmente determinate sul DNA e non sulla proteina, ma le mutazioni silenti sono annotate solo se determinano influenze sullo splicing. Ogni mutazione è associata al fenotipo clinico OMIM (Online Mendelian Inheritance in Man) La banca dati OMIM nasce da un catalogo (MIM) per la raccolta delle informazioni correlate alle malattie genetiche di natura mendeliana. Il database attualmente contiene informazioni non solo su malattie genetiche di tipo autosomico, ma anche su malattie associate ad alterazioni dei cromosomi sessuali e dei mitocondri. Presenta cross-links a diverse altre banche dati. Sistema ENSEMBL (http://www.ensembl.org/index.html) raccoglie dati relativi alle annotazioni del genoma umano, murino, pesce zebra (Danio rerio) e la zanzara (Anopheles gambiae). Annotare un genoma significa caratterizzare le sue funzioni attraverso la ricerca di dati già determinati o attraverso lapplicazione di metodologie bioinformatiche che consentono di caratterizzare nuove funzioni

40 Banche dati di motivi e domini proteici InterPro (http://www.ebi.ac.uk/interpro/) è una risorsa bioinformatica che raccoglie varie informaioni strutturali e funzionali relative ad una proteina o ad una famiglia di proteine. Allinterno di InterPro sono comprese varie banche dati: PROSITE (http://www.ebi.ac.uk/ppsearch/): annota patterns amminoacidici individuati in un set di sequenze proteiche attraverso analisi in silico e studi sperimentali. PRODOM è un database che raccoglie dati relativi a famiglie di proteine generate dallapplicazione di PSI-BLAST, che partendo dal confronto di una sequenza proteica contro un database diproteine, raccoglie in un multiallineamento tutte le sequuenze proteiche per le quali Blast ha determinato uno score più aòtro di un score indicato come threshold.http://prodom.prabi.fr/prodom/current/html/form.php?typeform=KW PFAM è una banca dati di famiglie di proteine accomunate da elementi strutturali e funzionali.

41 Esercizio: Ricerca in PRODOM inserendo la parola myoglobin in Keyword Search PRINTS è un database che raccoglie sequenze proteiche in clusters definiti da un comune Fingerprint dove per Fingerprint si intende linsieme di più motivi conservatie dedotti dallosservazione di un multiallineamento ottenuto applicando algoritmi per la ricerca di similarità locali. SMART è una risorsa che raccoglie dati relativi a domini proteici e consente la ricerca di domini in nuove sequenze proteiche

42 Esempio Prosite

43

44 Modalità di ricerca dei dati È possibile utilizzare la logica booleana che consente di effettuare intersezioni (AND), somme (OR) ed esclusioni (BUT NOT) di insiemi di dati. Sistemi di interrogazione: SRS Entrez EMBL Genbank PDB MMDB …… ……. Per SRS: Per Entrez:

45 ENTREZ (http://www.ncbi.nlm.nih.gov/Database/index.html) Comprende Medline banca dati bibliografica OMIM malattie mendeliane GenBank sequenze genomiche Taxonomy classificazione degli organismi La ricerca viene fatta sempre usando la combinazione di AND, OR and BUT NOT. Come SRS permette la navigazione tra le varie banche dati disponibili utilizzando il meccanismo dei neighbors Il comando History visualizza tutte le query selezionate nellambito però di una singola categoria (nucleotidi, proteine etc). History è lequivalente di Resuls in SRS I dati associati a ciascuna query possono essere salvati e visualizzati mediante il comando Text

46 Esercizio con Entrez (http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi):http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi Cosa succede se io ricerco inserendo la keyword: myoglobin? Cosa succede se io ricerco inserendo la keyword: myoglobin human?

47 SRS: - consente di interrogare più banche dati contemporaneamente più banche dati biologiche - sfrutta i meccanismi di codifica di cross-referencing e consente la navigazione tra le banche dati Nella top page sono riportati i nomi di tutte le banche dati indicizzate su server e raggruppate in categorie. A sinistra di ciascuna categoria è riportata una box con – quando è visibile lintero elenco delle banche dati + quando cè solo un testo succinto che descrive le caratteristiche della banca dati e dei suoi contenuti. Ci sono due possibili Query: 1.Standard Query Form 2.Extended Query Form

48 Le Query usano 3 criteri possibili: AND: & in SRS OR: | in SRS BUT NOT: ! in SRS Possibili funzioni: Formati di visualizzazione menu View Salvare i dati comando Save Link consente di ottenere informazioni su dati presenti nella banca dati e correlati ai dati associati alla query prescielta. Launch consente di applicare programmi di analisi ai dati di sequenza associati alla query selezionata Tool: Blast, Fasta e Clustal

49 In pratica SRS ci permette di: 1. scegliere i database da utilizzare per la ricerca 2. immettere una o più query concatenate 3. visualizzare i risultati in modo personalizzabile 4. Applicare i programmi di analisi ai risultati ottenuti 5. salvare nel server EBI i risultati di una ricerca e di richiamarli successivamente Esempi pratici ……….

50 Differenze tra Entrez ed SRS: ENTREZ: E un sistema disponibile sul sito dellNCBI (www.ncbi.nlm.nih.gov) per interrogare ed estrarre dati dalle più varie banche dati esistenti. Non è commercialmente disponibile e quindi non può essere scaricato ed installato localmente, né è possibile modificare le banche dati implementate sul sistema. SRS – Sequence Retrieval System Il nome può suggerire un uso limitato a sequenze. In realtà è un sistema utilizzabile su qualunque tipo di database. Molti centri di ricerca hanno installato SRS sul proprio web server utilizzandolo per offrire un servizio di consultazione di banche dati. Uno dei sistemi SRS più curati è quello presente sul sito dellEBI (www.ebi.ac.uk)

51 Esercizio usando SRS: 1.Ricercare in UniProt/SWISSProt tutte le sequenze di mioglobine 2.Lanciare un Blast su una sequenza a vostra scelta 3.Selezionare tutte le sequenze e ricercare le strutture corrispondenti nella banca dati PDB 4.Scelta una struttura ricercare le corrispondenti strutture riportate in DSSP 5.Modificare il modo di visualizzare i risultati 6.Salvare i risultati 7.Data una sequenza predire la sua struttura secondaria mediante Garnier


Scaricare ppt "Bionformatica Banche dati biologiche NBRF (1970) EMBL (1980), GenBank e DDBJ (1986) PROSITE, EPD (1985) PDB (Protein Data Bank) Sistemi di interrogazione:"

Presentazioni simili


Annunci Google