GQuery (http://www. ncbi. nlm. nih

Slides:



Advertisements
Presentazioni simili
CENTRO DI BIOTECNOLOGIE
Advertisements

Geni costitutivi e non costitutivi
tradurre e applicare il Thesaurus MeSH
Ebsco Publishing EBSCO Publishing Academic Databases Medical Databases Full Text Linking Bologna, 5 luglio 2005 Biomedical Reference Collection.
WEB OF SCIENCE ISI Web of Knowledge
Esercitazione sulle modalità di ricerca di CINAHL.
Seminario Lutilizzo delle banche dati online per laggiornamento scientifico- professionale. Introduzione a Psychology and Behavioral Sciences collection.
SBBL E LINTERROGAZIONE DI CINAHL CORSO DI INTRODUZIONE ALLA RICERCA BIBLIOGRAFICA PER STUDENTI DEL CORSO DI LAUREA IN SCIENZE INFERMIERISTICHE Università
SBBL E LINTERROGAZIONE DI CINAHL I servizi online della biblioteca e SBBL Enrica Veronesi Brescia, 30 maggio 2005.
Esercitazione sulla ricerca di base di CINAHL
Bioinformatica Prof. Mauro Fasano
BASI DI DATI BIOLOGICHE - 3
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: Medline CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI- NAPOLI Prof.ssa.
LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: è meglio Google o Pubmed? CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-
PUBMED 29 novembre 2012.
Il contributo della ricerca bibliografica online
PubMed: le funzioni avanzate
CORSO DI RICERCA BIBLIOGRAFICA 4. giornata (20 marzo 2008) Web of Science Beilstein e Gmelin Crossfire.
Caratterizzazione di un gene clonato
Corso di Laurea in Ingegneria per lAmbiente e il Territorio Informatica per lAmbiente e il Territorio Docente: Giandomenico Spezzano Tutor: Alfredo Cuzzocrea.
DBMS ( Database Management System)
La Ricerca Bibliografica in LibriVision Febbraio 2007 Testo e grafica: Maria Lucia Peduto  
e per generare Bibliografie
Entrez + MedLine => PubMed
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Software per la Bioinformatica
MD Consult raggruppa e gestisce le principali risorse elettroniche disponibili in ambito medico-clinico in un unico servizio online progettato per supportare.
EBSCO Discovery Service tutorial
Elenchi in Excel E’ possibile inserire le voci del nuovo elenco oppure
Internet Explorer I preferiti Stampa di pagine web Salvataggio di pagine web Copia di elementi di pagine web in altri applicativi.
La varietà dei genomi valore C: quantità totale di DNA contenuta in un genoma aploide Il genoma comprende geni e sequenze non codificanti. Le dimensioni.
Alcuni esempi di domande di esame
I DATABASE Elenco: Statistiche (Vedere i vari database):
Tutorial per l’utilizzo di k ScanProsite
CORSO DI BIOLOGIA - Programma
La vita in codice Prof.ssa Carmela Allocca.
Sintesi di una proteina Cos’è il patrimonio genetico
Interrogare il database
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
La ricerca bibliografica
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Sequenze e Banche Dati Biologiche
PSYCINFO.
Annotare i geni Gene xxxx Gene zzzz 3 esoni 7 esoni proteina y
La traduzione italiana del thesaurus MeSH Cristina Calicchia Maurella Della Seta Settore Documentazione Istituto Superiore di Sanità.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Data Base ACCESS EM 09.
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIMOnline Mendelian Inheritance in Man LOCUSLINKcurated sequence and descriptive information about genetic.
La parola “Bioinformatica”
Allineamento di sequenze
PubMed
Confidential – graphic materials for illustration only Scopri il nuovo webshop di Lyreco Design moderno e nuove funzioni!
La sintesi proteica La sintesi proteica è il processo che porta alla formazione delle proteine utilizzando le informazioni contenute nel DNA. Si tratta.
La trascrizione del DNA
Il software Aleph caratteristiche e funzionalità Aleph500 v ersione seminario a cura di Libera Marinelli Università di Genova - Centro di servizi.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Capacità di riprodursi struttura nucleo DNA, RNA Membrana semipermeabile Parete cell organelli metabolismo Scambi energia e materia vegetale animale unicellulare.
FILE DEI DATABASE FASTA GBFF XML ASN. Formato FASTA Il formato fasta è forse il più utilizzato dai comuni software di ricerca. Esso consiste in un file.
Come faccio a utilizzare una banca dati?. Banche dati Alle banche dati in abbonamento e a quelle open access consigliate dal nostro Ateneo, puoi accedere.
La Fabbrica delle Proteine
Creare e gestire il proprio profilo autore con ResearcherID Ornella Russo Biblioteca d’Area della Ricerca.
Sintesi proteica Prof. Domenico Ripolo.
Transcript della presentazione:

GQuery (http://www. ncbi. nlm. nih GQuery (http://www.ncbi.nlm.nih.gov/gquery/) è il punto di partenza per eseguire query su tutti o parte dei database dell’NCBI: si basa sul sistema di interrogazione ENTREZ Entrez is NCBI’s primary text search and retrieval system that integrates the PubMed database of biomedical literature with 39 other literature and molecular databases including DNA and protein sequence, structure, gene, genome, genetic variation and gene expression. The Entrez system comprises 40 molecular and literature databases. New databases are added as biomedical science advances and new kinds of data become available. An alphabetical list of the current databases with a brief description of each is given below. Informatica e Bioinformatica – A. A. 2013-2014

PubMed (http://www.ncbi.nlm.nih.gov/pubmed) PubMed, interrogabile tramite NCBI Entrez retrieval system, è stato sviluppato dal National Center for Biotechnology Information (NCBI) alla National Library of Medicine (NLM), ed è localizzato presso il National Institutes of Health (NIH).  PubMed consente l’accesso alle citazioni della letteratura biomedica e fornisce i link ad altre risorse biomolecolari di Entrez. Permette di trovare rapidamente una particolare pubblicazione di cui conosciamo ad es. il nome di un autore o un particolare termine PubMed comprises over 23 million citations for biomedical literature from MEDLINE, life science journals, and online books. PubMed citations and abstracts include the fields of biomedicine and health, covering portions of the life sciences, behavioral sciences, chemical sciences, and bioengineering. PubMed also provides access to additional relevant web sites and links to the other NCBI molecular biology resources. MEDLINE is the U.S. National Library of Medicine's® (NLM) premier bibliographic database that contains over 19 million references to journal articles in life sciences with a concentration on biomedicine. A distinctive feature of MEDLINE is that the records are indexed with NLM Medical Subject Headings (MeSH®). PubMed is a free resource that is developed and maintained by the National Center for Biotechnology Information (NCBI), at the U.S. National Library of Medicine (NLM), located at the National Institutes of Health (NIH). Possiamo risalire anche al nome per esteso di una rivista (e.g. mol cell biol) tramite il tasto Journals in NCBI Database Informatica e Bioinformatica – A. A. 2013-2014

MeSH (Medical Subject Headings) È un dizionario dei sinonimi e contrari (thesaurus) ‘controllato’ da NLM (National Library of Medicine). Consiste in un insieme di termini descritti in strutture gerarchiche che permettono di effettuare ricerche a vari livelli di specificità. Le descrizioni di MeSH sono disposte sia in modo alfabetico che in modo gerarchico. Questo dizionario è utilizzato dalla NLM per indicizzare gli articoli provenienti da più di 5400 riviste biomediche e non per Medline e PubMed. Serve anche per catalogare libri, documenti, audiovisivi ecc. Ogni referenza bibliografica è associata con un insieme di elementi del dizionario MeSH che ne descrivono il contenuto. Gerarchico, da termine più generale a più specifico (per una definizione più precisa della ricerca). Informatica e Bioinformatica – A. A. 2013-2014

Le regole di interpretazione del sistema PubMed sono: Termini descritti in strutture gerarchiche Le regole di interpretazione del sistema PubMed sono: - Per ogni parola viene consultato l’indice MeSH (vocabolario con tutti i termini medici e i loro sinonimi). Se non si trova nulla, viene consultato l’indice con tutti i giornali e le riviste, con i codici ISSN e le altre informazioni. - Se non si trova nulla, si cerca nel campo autori di tutte le entries possibili. An International Standard Serial Number (ISSN) is a unique eight-digit number used to identify a periodical publication at a specific media type. Informatica e Bioinformatica – A. A. 2013-2014

Record MEDLINE (Medical Literature Analysis and Retrieval System Online) Formato html Formato flat-file Informatica e Bioinformatica – A. A. 2013-2014

….. Ma per fortuna esistono strumenti che facilitano le ricerche …….. Per poter effettuare complesse ricerche è necessario conoscere a fondo la struttura dei database e l’esatta denominazione dei campi ….. Ma per fortuna esistono strumenti che facilitano le ricerche …….. Tipica ‘Form’ di PubMed dell’NCBI Consente di salvare il risultato della vostra ricerca Consente di limitare la ricerca a determinati campi Consente di effettuare una ricerca più specifica Informatica e Bioinformatica – A. A. 2013-2014

Esempio di ricerca in PubMed Cerchiamo il termine “adaptation”. Quanti risultati abbiamo ottenuto? La ricerca può essere ritenuta soddisfacente? Come potrei impostare la query per ottenere risultati più specifici? Informatica e Bioinformatica – A. A. 2013-2014

Questa volta cerchiamo il termine solo nel campo “title” Possiamo velocizzare la nostra ricerca imponendo dei particolari filtri Questa volta cerchiamo il termine solo nel campo “title” Adesso quanti risultati soddisfano la nostra ricerca? Informatica e Bioinformatica – A. A. 2013-2014

Il menù Display setting ci permette di scegliere quali campi rendere visibili, che numero di record mostrare per pagina, modificarne l’ordine (sort by) Si possono inoltre inviare i record ottenuti via e-mail, salvarli in un file ecc ecc. Informatica e Bioinformatica – A. A. 2013-2014

Raffiniamo ulteriormente la nostra ricerca introducendo gli operatori booleani Quanti risultati abbiamo trovato adesso? Informatica e Bioinformatica – A. A. 2013-2014

Attenzione: se abbiamo applicato dei filtri alla ricerca, tutti i termini scritti nella query si riferiscono a quel filtro (ad esempio il campo Title) Occorre quindi esplicitare a che campo si riferisce lo specifico termine della query Informatica e Bioinformatica – A. A. 2013-2014

Attenzione che in ENTREZ i filtri sono specifici del database che si sta interrogando. Filtri nel database PubMed Filtri nel database Nucleotide Informatica e Bioinformatica – A. A. 2013-2014

“Advanced” Con questa opzione viene visualizzata la “storia” delle query compiute e si può inoltre restringere la ricerca, utilizzando l’opzione “Search Builder” Con gli operatori booleani si possono aggiungere altri termini di ricerca Informatica e Bioinformatica – A. A. 2013-2014

Cliccando sul tasto “Search” compaiono i risultati della ricerca formulata Con Search details si può valutare come il sistema di retrieval ha interpretato e scomposto la nostra query. E con See more la corrispondenza tra la query generata e la query translation Informatica e Bioinformatica – A. A. 2013-2014

Il nostro risultato contiene l’eventuale link alla rivista in cui è pubblicato e agli articoli correlati a quello cercato! Le modalità con cui si esegue una ricerca bibliografica sono di esempio per una qualsiasi ricerca testuale o query. Informatica e Bioinformatica – A. A. 2013-2014

A proposito della ricerca bibliografica… … per sapere se abbiamo accesso “full text” ad una rivista http://www.unipd.it/ http://www.cab.unipd.it/capere/ Informatica e Bioinformatica – A. A. 2013-2014

Principali Database biologici La maggior quantità di dati biologici presenti nei database è rappresentata da sequenze di acidi nucleici Principali Database biologici Sequenze di acidi nucleici ottenute da: DNA genomico Trascritti (mRNA) EST (corte sequenze di trascritti) Sequenze proteiche ottenute da: Sequenziamento diretto (degradazione di Edman) Traduzione informatica delle sequenze nucleotidiche (traduzione) Studi di espressione proteica (gel bidimensionale e spettrometria di massa) * Cristallografia e determinazione delle strutture secondarie e terziarie Informatica e Bioinformatica – A. A. 2013-2014

Sequenze di DNA Sequenze di mRNA Il DNA genomico viene frammentato in regioni di più o meno piccole dimensioni. I differenti frammenti vengono poi sequenziati. Con l’assemblaggio delle sequenze ottenute da questi frammenti si ottengono le lunghe sequenze di DNA presenti nei database, che rappresentano parte di o interi cromosomi. Se si vogliono conoscere lunghe sequenze di DNA, è necessario sequenziare frammenti del DNA e poi assemblare le corte sequenze in modo che si sovrappongano tra loro Sequenze parziali Sequenza assemblata Sequenze di mRNA L’mRNA (meno stabile del DNA) deve essere preventivamente trasformato in cDNA: da una molecola di mRNA si ottiene prima una copia complementare di DNA a singolo filamento che poi viene resa a doppia elica. Si procede poi come per il DNA genomico Informatica e Bioinformatica – A. A. 2013-2014

Ragioni per cui sequenziare anche l’mRNA Per individuare i geni negli eucarioti superiori (in uomo solo l’1,5-3% del genoma è codificante). Questo permette anche di studiare le sequenze fiancheggianti e quindi la regolazione della trascrizione. Per conoscere (tradurre la sequenza nucleotidica in sequenza proteica) e studiare informaticamente la relativa proteina. Per conoscere varianti (splicing alternativi) dello stesso gene e quindi probabili funzioni differenti della proteina generata. Per conoscere l’espressione genica: individuare quando (sviluppo o momento particolare) e dove (quale tessuto) un gene viene espresso. Informatica e Bioinformatica – A. A. 2013-2014

Sequenze EST (Expressed Sequence Tag) Per individuare la presenza di un trascritto non serve conoscerne tutta la sequenza, ma è sufficiente che se ne identifichi una parte. Da questo presupposto sono stati sviluppati progetti di sequenziamento di corte sequenze di cDNA chiamate EST (Expressed Sequence Tag) che hanno permesso di studiare i profili trascrizionali (espressione genica in un particolare tessuto, in un particolare momento dello sviluppo, in presenza di una particolare malattia genetica). ATG AAAAAAAAA TAA 5’UTR Seq. codificante 3’UTR polyA EST 5’ EST 3’ Attualmente nei database esistono più di 74 milioni di sequenze di EST di cui oltre 8 milioni relative a Homo sapiens (human) e quasi 5 milioni relative a topo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Informatica e Bioinformatica – A. A. 2013-2014

I database primari di acidi nucleici Cosa sono i database primari? Sono i contenitori di tutte le sequenze prodotte nel mondo e rese disponibili alla comunità scientifica. Memorizzano essenzialmente le sequenze e poche altre informazioni generiche ad esse correlate (laboratorio dove è avvenuto il sequenziamento, data di produzione, organismo, descrizione …) ENA Europa GenBank USA DDBJ Giappone European Nucleotide Archive, consultabile tramite i web services messi a disposizione dal gestore EMBL-EBI, la cui caratteristica principale è che dati e tools sono disponibili gratuitamente e inoltre sono portabili (scaricabili e installabili localmente), DNA DataBank of Japan (DBGET). I tre database si aggiornano quotidianamente scambiandosi i dati ricevuti durante la giornata, in modo che sia sufficiente interrogare solo uno dei tre. Per l’interrogazione dei database ciascun gestore ha sviluppato differenti sistemi di retrivial (vi ricordate Entrez?) Informatica e Bioinformatica – A. A. 2013-2014

NCBI http://www.ncbi.nih.gov/Genbank/index.html Release attuale: 200, Febbraio 2014 Informatica e Bioinformatica – A. A. 2013-2014

Informatica e Bioinformatica – A. A. 2013-2014 GenBank WGS Release Date Bases Sequences 200 Feb 2014 157.943.793.171 171.123.749 591.378.698.544 139.725.795 Informatica e Bioinformatica – A. A. 2013-2014

NUCLEOTIDE http://www.ncbi.nlm.nih.gov/nucleotide/ Generiamo quindi le nostre queries… Informatica e Bioinformatica – A. A. 2013-2014

Esempio di ricerca in Nucleotide Quanti e che tipo di record vengono trovati. Nome ufficiale del gene. In questo caso siamo interessati ai trascritti… Informatica e Bioinformatica – A. A. 2013-2014

? ? ? ID per il mRNA che ci interessa. Informatica e Bioinformatica – A. A. 2013-2014

Analizziamo meglio il record LOCUS un codice DEFINITION descrizione della sequenza ACCESSION ORGANISM l’organismo a cui appartiene la sequenza (e tassonomia) REFERENCE Riferimenti bibliografici a quella sequenza o chi l’ha sottomessa Informatica e Bioinformatica – A. A. 2013-2014

Continua da precedente COMMENT molto utile ma purtroppo non sempre presente FEATURES alcune caratteristiche e link importanti, ad esempio: le coordinate cromosomiche il gene la sequenza codificante la traduzione in proteina Informatica e Bioinformatica – A. A. 2013-2014

Continua da precedente … e molte altre informazioni E per concludere la sequenza nucleotidica Se non è chiara la descrizione dei campi si può utilizzare il link: http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html Informatica e Bioinformatica – A. A. 2013-2014

Questo è un record speciale in cui sono definiti i principali campi Informatica e Bioinformatica – A. A. 2013-2014

Ad esempio potremmo scegliere solo alcune sequenze di Sus scrofa Come già accennato, anche nel database nucleotidico si possono raffinare le ricerche tramite l’utilizzo dei “LIMITS” Ad esempio potremmo scegliere solo alcune sequenze di Sus scrofa E’ possibile selezionare solo alcuni dei record risultanti ed effettuare delle operazioni solo su essi. Ad esempio visualizzarne la sequenza, salvarli su file.... Informatica e Bioinformatica – A. A. 2013-2014

Con “DISPLAY SETTINGS” si può impostare il formato con cui visualizzare i dati Informatica e Bioinformatica – A. A. 2013-2014

IL FORMATO “FASTA” Spesso i programmi che effettuano analisi bioinformatiche sulle sequenze richiedono che esse vengano date come input in questo formato particolare. FASTA è un formato standard per la rappresentazione di una sequenza in formato testo. Consiste in una intestazione, di solito limitata a una linea di testo, e in una o più linee che riportano una sequenza di DNA o di amminoacidi usando l’alfabeto standard. Ecco un esempio: >37463.f1|g83244|telethonin ecc. ACGTGACTGCTACGTACGGGCGTTACGACTGCTACGACGCATGCTATGTC GTAGCAGCCGTGTACACGTGTTTATTCGTAGGGCTTCTA ‘>’ Simbolo d’inizio della riga di intestazione Sequenza Riga di intestazione Interruzione di riga L’intestazione (la prima riga del file precedente) è riconoscibile perché ha inizio con il simbolo ‘>’. Il testo che segue tale simbolo nella stessa riga può essere strutturato liberamente: di solito, la prima cosa che si trova scritta è un accession number, ossia l’identificatore della sequenza che ne permette il reperimento. Informatica e Bioinformatica – A. A. 2013-2014

È anche possibile visualizzarne la sequenza inversa complementare: Una volta visualizzato un record di sequenza è pure possibile estrarne solo una parte È anche possibile visualizzarne la sequenza inversa complementare: vi ricordate cosa significa? Vediamo ora altri database… Informatica e Bioinformatica – A. A. 2013-2014

http://www.ncbi.nlm.nih.gov/taxonomy Informatica e Bioinformatica – A. A. 2013-2014

www.ncbi.nlm.nih.gov/protein/ Informatica e Bioinformatica – A. A. 2013-2014

http://www.ncbi.nlm.nih.gov/omim/ Le mutazioni possono riflettersi in alterazioni della funzionalità della proteina da esso codificata. Questo mutazioni possono causare le cosiddette malattie genetiche. Esempio: una mutazione a carico del gene della β-globina fa sì che una particolare base del gene venga sostituita con un’altra, ciò altera il codone e nella proteina ciò si riflette nella sostituzione di un glutamato con una valina e in una ridotta funzionalità della proteina che causa una malattia genetica detta anemia a cellule falciformi. Il database OMIM cataloga le malattie genetiche e fornisce descrizioni particolareggiate delle malattie e delle possibili cause (mutazioni). Informatica e Bioinformatica – A. A. 2013-2014

Problemi dei database primari di acidi nucleici  Formato dei dati (standardizzazione) Accuratezza dei dati (terminologie improprie, errori tipografici, ecc.) Comprensibilità Ridondanza (immissione della stessa sequenza più volte, ma anche produzione della stessa sequenza nucleotidica più volte per motivi vari) Per queste ragioni si sono resi necessari i DATABASE COMPOSTI Per generare il database composto si prendono i dati da più sorgenti, generalmente con formati diversi e si costruisce un nuovo database specializzato, in genere “pulito” e non ridondante. Esempio: NRdb (Non Redundant Database) Database di acidi nucleici o proteine in cui l’informazione è stata ottimizzata in modo non ripetitivo (non ridondante). Informatica e Bioinformatica – A. A. 2013-2014

Database NON RIDONDANTI : RefSeq, UniGene, Gene Come già detto nei database primari sono inserite tutte le sequenze conosciute ottenute sperimentalmente. La stessa regione genomica o lo stesso trascritto possono essere stati sequenziati più volte. Quindi ci aspettiamo che la stessa sequenza possa essere presente più volte. Per evitare problemi di ridondanza sono stati creati dei database ‘semplificati’, senza ripetizioni di informazioni. In particolare In RefSeq sono rappresentate, in modo non ridondante, tutte le sequenze genomiche, di mRNA e di proteine. In UniGene sono rappresentate in modo non ridondante, le sequenze ottenute dal sequenziamento dei trascritti (mRNA) Gene: è un sottoinsieme di RefSeq con rappresentate solo le sequenze geniche. Informatica e Bioinformatica – A. A. 2013-2014

http://www.ncbi.nlm.nih.gov/RefSeq/ The Reference Sequence (RefSeq) collection aims to provide a comprehensive, integrated, non-redundant, well-annotated set of sequences, including genomic DNA, transcript (RNA), and protein products. RefSeq is a foundation for medical, functional, and diversity studies; they provide a stable reference for genome annotation, gene identification and characterization, mutation and polymorphism analysis, expression studies, and comparative analyses RefSeq are derived from GenBank records but differ in that each RefSeq is a synthesis of information, not an archived unit of primary research data. Similar to a review article in the literature, a RefSeq represents the consolidation of information by a particular group at a particular time. http://www.ncbi.nlm.nih.gov/unigene/ UniGene: An Organized View of the Transcriptome. Each UniGene entry is a set of transcript sequences that appear to come from the same transcription locus (gene or expressed pseudogene), together with information on protein similarities, gene expression, cDNA clone reagents, and genomic location. Informatica e Bioinformatica – A. A. 2013-2014

http://www.ncbi.nlm.nih.gov/gene/ Gene supplies gene-specific connections in the nexus of map, sequence, expression, structure, function, citation, and homology data. Unique identifiers are assigned to genes with defining sequences, genes with known map positions, and genes inferred from phenotypic information. These gene identifiers are used throughout NCBI's databases and tracked through updates of annotation. Gene includes genomes represented by NCBI Reference Sequences (or RefSeqs) and is integrated for indexing and query and retrieval from NCBI's Entrez and E-Utilities systems. Informatica e Bioinformatica – A. A. 2013-2014

Le frecce indicano il senso della trascrizione Importante  osservare il senso della trascrizione: un gene può essere codificato dal filamento ‘senso’ (detto anche ‘+’ o ‘forward’) o dal filamento antisenso (detto anche ‘-’ o reverse) Informatica e Bioinformatica – A. A. 2013-2014

Osserviamo ora il gene corrispondente (omologo) presente in uomo Osserviamo ora il gene corrispondente (omologo) presente in uomo. Sono riportate 3 isoforme, varianti del gene, dovute a splicing alternativo dello stesso gene Esoni: sono rappresentati dalle linee più spesse Introni: sono rappresentati dalle linee più sottili Informatica e Bioinformatica – A. A. 2013-2014

A causa delle numerose risorse mantenute dai diversi poli bioinformatici, si rischia non sapere esattamente quale tipo di dati vengano memorizzati in un certo database, ne’ il significato di alcune terminologie. Può essere d’aiuto la consultazione della pagina web: www.ncbi.nlm.nih.gov/guide/howto/learn-basics/ Informatica e Bioinformatica – A. A. 2013-2014