“A database is a collection of data, typically describing the activities of one or more related organizations” (Ramakrishnan and Gehrke) “A database.

LEZIONE 2 Database e archivi di dati biologici – struttura e consultazione

“A database is a collection of data, typically describing the activities of one or more related organizations” (Ramakrishnan and Gehrke) “A database is a repository for a collection of computerized data files” (Date) I database tipicamente supportano: (i) archiviazione; (ii) recupero dati (iii); aggiornamento dati; (iv) rimozione dati

In un database «biologico» questo consiste nel: -Depositare una sequenza una volta determinata la sua sequenza -Permettere una ricerca utilizzando uno o più campi (identificativo, nome del gene, ecc.) -Aggiornarla nel caso si rilevino errori nel sequenziamento, la si riesca ad allungare o assemblare meglio nel caso di un genoma -Eliminarla quando la entry diventi obsoleta, ridondante o semplicemente si verifichi che si trattava di un artefatto sperimentale

MODELLI DI DATABASE RELAZIONALI
Tutte le entry e le relazioni sono inserite in tabelle Oracle, DB2, MySQL, PostgreSQL Schema predefinito GERARCHICI/SEMISTRUTTURATI Schema implicito Flessibile XML

KNOWLEDGE DISCOVERY IN DATABASE (KDD)

TIPI DI DATABASE Originariamente tutti database usavano un cosiddetto flat file format File di testo, caratteri speciali, ad esempio (|) per separare le entries Ogni file è invece separato da tab o virgole Non sono presenti istruzioni nascoste per effettuare data mining Per effettuare una ricerca il computer deve leggere l’intero file Per facilitare l’accesso ed il recupero dei dati sono stati sviluppati dei nuovi programmi Database management systems Questi sistemi contengono istruzioni operative per assistere l’identificazione di connessioni nascoste

Sulla base del tipo di strutturazione dei dati possiamo classificare questi sistemi in due classi:
RELATIONAL DATABASE MANAGEMENT SYSTEMS OBJECTED-ORIENTED DATABASE MANAGEMENT SYSTEMS

DATABASE RELAZIONALI Usano un set di tabelle per organizzare I dati Ogni tabella (relazione) consiste di: -colonne (campi) -righe (valori relative ai campi) I database relazionali possono essere creati utilizzando un particolare linguaggio di programmazione, chiamato STRUCTURED QUERY LANGUAGE (SQL) Richiede un’attenta pianificazione Nuove categorie di dati possono essere aggiunte facilmente La ricerca in database ed il reaggruppamento dei dati sono relativamente intuitivi

Un semplice esempio... Che i dati siano biosequenze, dati personali, articoli in vendita, certificazioni fiscali ecc., la logica è sostanzialmente quella di compilare in modo corretto e completo le schede, in modo che siano ricavabili, tramite interrogazioni specifiche, le informazioni più appropriate e nel modo più efficace possibile.

I PRIMI PASSI VERSO I DATABASE DI SEQUENZA

Le prime banche dati contenenti biosequenze (ovvero, sequenze di DNA o proteine) sono state trasferite su supporti informatici e distribuite negli anni '80; per vari anni le versioni aggiornate di tali database sono state distribuite su un supporto (in origine si trattava di floppy disk; successivamente sostituiti dai CD). Ben presto, la diffusione di internet ha reso obsoleta la distribuzione su CD ed ha consentito l'accesso ai dati depositati e la loro distribuzione, mediante sistemi on line di interrogazione ed acquisizione di interi database o sezioni di database (download delle sequenze da cartelle pubbliche, mediante protocollo di trasferimento internet o ftp).

I database in cui sono depositati i dati di sequenza genomica o comunque sequenze di DNA possono essere considerati vere e proprie banche dati primarie, dal momento che, ormai, i database di sequenze proteiche non contengono solo sequenze amminoacidiche derivanti dal sequenziamento diretto delle proteine, bensì, in larga parte, sequenze "dedotte" per traduzione dinamica delle sequenze genomiche.

Esistono molte banche dati specializzate contenenti uno o più database, la cui completezza non consiste tanto nel numero di sequenze (o strutture) contenute, quanto nella ricchezza descrittiva relativa alle loro caratteristiche. Infatti, con il progredire delle analisi sperimentali, il numero di evidenze associabili a ciascuna sequenza, parte di sequenza o gruppo di sequenze è diventato sempre più alto, consentendo un'annotazione funzionale sempre più accurata. Le banche dati speciali sono quasi sempre frutto dell'iniziativa di gruppi di ricerca specialisti in un certo settore; tuttavia, esse possono restare piccole o integrarsi/fondersi con banche simili o, infine, essere inglobate in banche dati più grandi o influire sul sistema di annotazione di queste ultime, suggerendo campi di compilazione utili e non ancora presenti.

Ma come sono organizzati i database biologici?
Elemento fondamentale per qualsiasi database è la singola scheda o entry, che contiene tutte le informazioni su una certa sequenza o struttura. In differenti database le schede possono essere compilate in modi diversi; tuttavia ciascuna entry prevede l'esistenza di campi, cui corrispondono specifiche informazioni. Tipologia e numero di campi definiscono l'annotazione di una entry; la qualità dell'annotazione dipende non solo dal numero di caratteristiche che sono segnalate, ma anche da quanto correttamente esse sono immesse in ciascuna scheda e verificate.

Tra i campi più comunemente associati alle biosequenze vi sono l'identificativo (ID), ovvero il "nome" della sequenza ed il numero di accesso (accession o AC), che rappresenta una "targa", ovvero un codice alfanumerico mediante il quale ciascuna entry può essere identificata univocamente all'interno di un database e tra database diversi. Altri campi comuni alla maggior parte dei database sono le informazioni tassonomiche (indicate da sigle quali OS e OC o da parole più esplicite quali ORGANISM e SOURCE) e le informazioni bibliografiche, che riportano la prima pubblicazione inerente la sequenza, ma spesso anche le successive, con indicazione di titolo, rivista, volume, pagine, anno ed autori.

Sono molto importanti, rappresentando la reale differenza tra database in termini di ricchezza di annotazione, le caratteristiche o proprietà (FEATURES o FT) associate alla sequenza, quali ad esempio attività biochimica, presenza di domini o motivi ecc. Un riferimento per la ricerca rapida di sequenze associabili ad un certo argomento o ad una funzione è quanto indicato nel campo delle parole chiave (KEYWORDS o KW) Naturalmente, la struttura delle entry in database diversi riflette non solo l'organizzazione di chi ha concepito le schede ma anche le peculiari caratteristiche delle entità trattate.

DATABASE BIOINFORMATICI
National Center for Biotechnology Information (NCBI) Il più grande archivio di dati di sequenza al mondo Contiene dati relativi a DNA, mRNA, proteine, genomi, pubblicazioni, strumenti per data mining, ecc.

European Bioinformatics Institute (EBI) Il corrispettivo europeo dell’NCBI Contiene dati relativi a DNA, mRNA, proteine, genomi, pubblicazioni, strumenti per data mining, ecc.

DDBJ (DNA Data Bank of Japan) Il corrispettivo giapponese dell’NCBI e dell’EBI Inizialmente più orientato a sequenze nucleotidiche

UniProtKB Archivio di sequenze proteiche Sezione SWISS-PROT: sequenze annotate manualmente e controllate una ad una TrEMBL: annotate automaticamente e non controllate

KEGG (Kyoto Encyclopedia of Genes and Genomes) Informazioni relative a geni, genomi e funzioni nell’ambito di pathway metabolici

KEGG PATHWAY – UN ESEMPIO

UTRdb Informazioni relative alle regioni 5’ e 3’ UTR (untranslated) degli RNA messaggeri -> importanti per la regolazione della traduzione e per determinare l’emivita degli mRNA

DATABASE BIBLIOGRAFICI
Anche i contenuti di un giornale scientifico possono essere organizzati, in modo molto semplice, secondo i medesimi criteri Prendiamo come esempio il giornale Nucleic Acids Research ( .com/nar)

Issues -> menù a tendina possibilità di selezionare anno di pubblicazione e volume/issue

Ogni articolo è associato a:
Titolo Autori Dati bibliografici (Journal name, volume, issue, pages Doi (Digital Object Identifier) -> URL persistente per permettere archiviazione e accessibilità nel lungo periodo Data di pubblicazione Abstract -> un breve riassunto del lavoro che presenta metodologie e scoperte più rilevanti Keywords

FORMATI DI FILE – FASTA (Paerson)
Formato base di input (e output) per moltissimi software e tool online di bioinformatica Linea di intestazione introdotta da «>» seguita da testo libero Sequenza (nucleotidica o proteica) a capo Solo sequenza! Non c’è nessuna annotazione >gi| |gb|AAD | cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAG

FORMATI DI FILE – GenBank
Flat file format usato da GenBank (database di sequenze nucleotiche) Contiene la sequenza ma anche annotazioni Autore, versione, data di deposito, aricolo di riferimento, traduzione in proteina, ecc. Esempio a lato mostra solo un file relativamente semplice, ma queste entry possono essere notevolmente complesse!

FORMATI DI FILE – Swiss-Prot
Formato definito dal database UniProtKB/Swiss-Prot Dedicato a sequenze proteiche Anche in questo caso contiene sia la sequenza primaria che le annotazioni ad essa relative

FORMATI DI FILE – ASN.1 Formato relativo ad uno standard internazionale (Abstract Syntax Notation One) Formato base per tutti i dati contenuti nel portale NCBI, indipendentemente dal database di riferimento E’standardizzato, quindi è indipendente dalla piattaforma e dal linguaggio

FORMATI DI FILE – XML eXtensible Markup Language Standardizzato
Formato flessibile Documenti semistrutturati Utilizza dei marcatori (tag) come l’HTML, ma rispetto all’HTML (limitato a pagine web/ipertesti) ha applicazioni molto più importanti nella strutturazione dei documenti I DTD (document type definition) definiscono le caratteristiche strutturali di un documento XML

CONVERSIONE TRA FORMATI
Molto spesso gli strumenti bioinformatici necessitano di un input in un determinato formato Allo stesso tempo l’output è anch’esso in un determinato formato che potrebbe non essere direttamente conpatibile con altri strumenti Fortunatamente esistono tool che permettono la conversione tra formati I maggiori portali permettono lo scaricamento dei dati in più formati esempio

ACQUISIRE I DATI BIOINFORMATICI
Ricercare e selezionare I dati in un database Scaricare i dati da una pagina web Utilizzare degli script per scaricare I dati Perl/BioPerl Utilizzare FTP per scaricare interi database Esempio: ftp.ncbi.nih.gov Durante un progetto potrebbe essere necessario eseguire tutte queste operazioni

Diviene ogni giorno più difficile separare la realtà di un database da quella del sistema di interrogazione, dal momento che gli stessi sono sempre più integrati. Molto spesso, pertanto, ha più senso fare riferimento a "poli" bioinformatici, che allocano le risorse su più server dedicati ed interconnessi.

EMBL Nucleotide Sequence database
è la banca dati europea per eccellenza, sorta nel 1980 e contenente sequenze nucleotidiche. Attualmente l'insieme di database EMBL, gestito dall'EBI, comprende anche il database di sequenze proteiche TrEMBL, compilato grazie alla traduzione dinamica delle sequenze codificanti. L'unione del preesistente database proteico SWISS-PROT, gestito dal SIB (Swiss Institute of Bioinformatics), con TrEMBL, forma il database proteico UniProtKB, i cui curatori (SIB ed EBI) provvedono alla costante eliminazione della ridondanza ed al miglioramento della qualità di annotazione.

Genbank è la più importante banca dati americana, strutturata due anni dopo la creazione dell'EMBL library Le entries di Genbank sono organizzate in modo leggermente diverso rispetto a quelle di EMBL Esiste un accordo tra l'EBI e l'NCBI, che gestisce Genbank, finalizzato allo scambio dei dati, per permettere di reperire il massimo in termini di informazioni a chiunque effettui una ricerca all’interno di uno dei due database

Ensembl non è solo un database o un sistema di interrogazione (browser), bensì un sistema integrato, dedicato alla genomica Ensembl è nato da un progetto di collaborazione tra EMBL- EBI e Sanger Institute, finanziato principalmente dalla Wellcome Trust Gli organismi i cui genomi sono analizzabili presso il sito Ensembl erano inizialmente prevalentemente uomo, topo e Drosophila, ma ad oggi il numero di genomi curati è molto maggiore

GDB: Il Genome Data Bank (oggi NCBI Genome) è stato istituito per depositare i dati di mappaggio ottenuti con il progetto "Genoma Umano" e rappresenta un punto di riferimento per la ricerca genomica e biomedica. OMIM: è dedicato a geni e fenotipi umani con ereditarietà mendeliana. Chiunque lavori nel campo delle malattie genetiche e della biomedicina si ritrova costantemente a contatto con informazioni relative ad OMIM.

TAIR (The Arabidopsis Information Resource): Arabidopsis thaliana rappresenta la pianta modello nella sperimentazione genomica, biomolecolare, evoluzionistica ed agrobiotecnologica, in quanto sono disponibili ampie collezioni di mutanti ed il suo genoma è stato il primo ad essere, tra le piante, competamente sequenziato. Il sito TAIR contiene un database annotato con sequenze genomiche, trascritti e sequenze proteiche relative ad Arabidopsis, nonchè link a risorse correlate (stock di semi, collezioni di mutanti ecc.). ACEDB (A Caenorhabditis Elegans Data Base): è l'equivalente dei database appena illustrati per il nematode modello genomico e di sviluppo Caenorhabditis Elegans -> oggi è diventata una piattaforma per genomica comparata

PDB: Protein DataBank è un'importantissima banca contenente strutture proteiche, molto ben organizzata PROSITE: sarà trattata più ampiamente in seguito. In questa sede ci si limita a riferire che rappresenta il più noto esempio di database funzionale, ovvero contenente sequenze associabili a funzioni quali motivi e pattern conservati. Pfam: banca dati specializzata nella catalogazione dei domini proteici; sarà trattata più ampiamente in seguito. InterPro: un "sistema integrato" per l'analisi delle proteine. Dalla home page di InterPro si può accedere a numerosi database dedicati.

Infine, sebbene non contengano sequenze o dati strutturali, ma solo referenze bibliografiche...
Medline, che è gestita ed aggiornata dall‘EBI e Pubmed, che è gestita dall’NCBI risultano accessibili mediante numerosi collegamenti diretti all'interno di campi appositi nelle entries dei maggiori database biologici.

PUBMED Accessibile da https://www.ncbi.nlm.nih.gov/pubmed/
Riporta metadati principali + link esterno alla webpage del giornale con testo completo (non sempre accessibile liberamente)

SCOPUS Accessibile da (solo da rete universitaria!) Permettono di effettuare, come in tutti gli altri database, ricerche per campi Per autore Per data Per giornale Per titolo/abstract Che possono ovviamente essere combinati in ricerche complesse

SCOPUS Scopus può essere uno strumento utile per valutare i parametri bibliometrici di un autore Articoli pubblicati, H-index, numero totale di pubblicazioni, collaborazioni e argomenti trattati Permette anche di tracciare le citazioni nell’arco degli anni, con una serie di cross-references ad altri articoli, cosa molto utile per studi di letteratura (ad esempio, chi ha citato un articolo di mio interesse? Magari può tornarmi utile per scrivere una tesi…)

NEXT-GENERATION SEQUENCING – I NUOVI DATABASE
La massiccia mole di dati che è possibile generare con un sequenziatore di nuova generazione ha reso necessario sviluppare nuovi tool di analisi, ma allo stesso tempo anche nuovi database dedicati che permettano lo storage ed una efficace ricerca dei dati NCBI SRA (Sequence Read Archive) NCBI BioProject: contiene schede «madre» che puntano ai singoli esperimenti contenuti in SRA

SRA Fondamentale per permettere la ricerca di dati genomici e trascrittomici generati con metodiche Illumina, IonTorrent, PacBio, 454, ecc. File contenenti centinaia di milioni di sequenze Campo in rapidissima evoluzione -> necessità una certa flessibilità di formato Collegato a Bioproject e Biosample (database di campioni biologici)

DATABASE TASSONOMICI Necessità di linkare dati di sequenza ad identificativi di specie Utilissimi per studi evolutivi e di genomica comparata NCBI Taxonomy Database dedicati (es. WoRMS, World Register of Marine Species)

Si è ben presto compreso che, nell'allestimento e riorganizzazione dei database e motori di ricerca, i "link" internet rappresentano il modo migliore per non appesantire i database, senza rinunciare a fornire un gran numero di informazioni. Infatti, anzichè riportare informazioni incomplete o ridondanti rispetto a database dedicati, si è intrapresa la strada dei link per associare alle entries informazioni specifiche. I link stanno rapidamente anche trasformando le "cross-references", ovvero le indicazioni di accession e ID della entry corrispondente di un altro database (ad es., accession Genbank in una entry EMBL o viceversa), in veri e propri sistemi per rimandare in automatico alle relative pagine internet, consentendo un rapido confronto e l'integrazione dei dati.

COME EFFTTUARE UNA RICERCA IN UN DATABASE?
La maggior parte dei database offrono le seguenti possibilità: Utilizzare operatori Booleani (AND, OR, NOT) Restringere la ricerca ad un organismo di interesse Restringere la ricerca ad un intervallo temporale Combinare più campi per ricerche complesse

IDENTIFICATORI DI DATI
Alcuni tra i più comuni sono... Geneinfo ID (gi): identificicati univoco per ogni sequenza. Stabile del tempo, non cambia quando la sequenza viene aggiornata (ne viene generato uno nuovo (es. GI: ) PMID (o Pubmed ID, per articoli) Locus name (identificatori originali di Genbank; prime 3 lettere dell’organismo, più codice per il gene. Es. HUMBB) Accession number: numeri di targa/codici a barre per sequenze nucleotidiche e proteiche. Due lettere maiuscole seguite da numeri (non legati ad alcun significato biologico. Prima versione indicata da «.1» (es. BC ), successive (aggiornate) da «.2», «.3», ecc.

DIMENSIONI DEI DATABASE
In crescente ed esponenziale aumento… facile rendersene conto dal portale EBI Naturalmente i database nucleotidici e proteici (anche grazie al numero molto elevato di genomi oramai disponibili) sono quelli che comprendono il maggior numero di dati Per esplorare le dimensioni dei vari database potete dare uno sguardo a

COME EFFETTUARE UNA RICERCA COMPLESSA?
Prima di tutto devo chiedermi QUALI sono i campi che contraddistinguono una entry di un determinato database Una entri di Pubmed avrà «autore», «giornale», «data di pubblicazione», ma ad esempio non il campo «cromosoma», che invece troverò in un database contenente sequenze nucleotidiche (e probabilmente anche proteine Devo chiedermi quali sono i campi più informativi e come posso combinarli con gli operatori booleani

COME POSSO ACCEDERE AD UNA RICERCA AVANZATA?
Nel portale dell’NCBI… Dal menu a tendina seleziono i campi e digito le parole chiave. I tasi «+» e «-» mi permettono di aggiungere o togliere campi, rendendo la ricerca più o meno complessa

COME POSSO ACCEDERE AD UNA RICERCA AVANZATA?
Nel portale dell’EBI… Build query Seleziono il database dal menu a tendina 3) Aggiungo campi con «add rule» e digito le parole chiave

“A database is a collection of data, typically describing the activities of one or more related organizations” (Ramakrishnan and Gehrke) “A database.

Presentazioni simili

Presentazione sul tema: "“A database is a collection of data, typically describing the activities of one or more related organizations” (Ramakrishnan and Gehrke) “A database."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

“A database is a collection of data, typically describing the activities of one or more related organizations” (Ramakrishnan and Gehrke) “A database.

Presentazioni simili

Presentazione sul tema: "“A database is a collection of data, typically describing the activities of one or more related organizations” (Ramakrishnan and Gehrke) “A database."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back