I DATABASE Elenco: Statistiche (Vedere i vari database):
NUCLEOTIDE
LIMITS È possibile limitare la ricerca, creando delle query anche piuttosto complesse
LIMITS Ad esempio scegliere solo le sequenze di Sus scrofa E possibile selezionare solo alcuni dei record risultanti ed effettuare delle operazioni solo su essi Ad esempio visualizzarne la sequenza, salvarli su file.... numero di record mostrati per pagina clickando qui si vede il record
DISPLAY Con DISPLAY è possibile selezionare il formato con cui visualizzare i risultati
SEND TO Con clipboard si possono salvare informazioni sul sito per 8 ore Con SEND TO è possibile scegliere se mandare i risultati come testo (senza link o checkbox) a video o se downloadarlo come un file locale sul PC (ad esempio per successive elaborazioni)
UN RECORD LOCUS un codice DEFINITION descrizione della sequenza ACCESSION un codice ORGANISM lorganismo a cui appartiene la sequenza (e tassonomia) REFERENCE Riferimenti bibliografici a quella sequenza o chi lha sottomessa FEATURES alcune caratteristiche e link importanti ORIGIN la sequenza
LIMITS Proviamo a limitare ulteriormente la ricerca
PREVIEW PREVIEW permette di vedere solo il numero di record che soddisfano la query.
INDEX INDEX permette di usare il numero delle query (preceduto da #) anzichè riscrivere tutto (si possono fare anche operazioni booleane
IL BOTTONE SUBSEQUENCE Una volta visualizzato un record di sequenza è possibile estrarne solo una sottosequenza o trovarne linverso complementare
IL BOTTONE FEATURES Permette di togliere dalle FEATURE del record visualizzato come ad esempio delle informazioni che potrebbero essere numerosissime e poco significative come ad esempio i SNP Vedere il record della sequenza nucleotidica della telethonina &val= http:// &val= e rimuovere gli SNP
OPERATORI BOOLEANI Questi dovreste conoscerli dalla matematica e dallinformatica! ATTENZIONE! Oltre a quello nucleare, esiste anche il genoma mitocondriale, nei database sono depositate sequenze derivanti da entrambe le sorgenti!!!
OPERATORI BOOLEANI Esempio di OR Esempio di AND (non esistono sequenze contemporaneamente di maiale e di pollo)
UN ERRORE Attenzione: se abbiamo limitato la ricerca, tutti i termini scritti sulla linea di query si riferiscono a quella limitazione (ad esempio il campo organismo)
CORRETTO! In tal caso bisogna specificare a quale campo si riferisce ogni temine della query
ATTENZIONE AL MINUSCOLO Attenzione: gli operatori booleani vanno indicati in MAIUSCOLO! Sbagliato! Giusto!
SORGENTI DEI DATI Record proveniente da DDBJ (con codice AK ) Record provenienti da REFSEQ, database di sequenze di trascritti (con codice NM_ ) Record proveniente da GENBANK, (con codice BC ) Il codice gi è identificativo allinterno del database nucleotidico globale di NCBI Come già accennato il database NUCLEOTIDICO dellNCBI contiene numerose sorgenti di dati. Dalla riga di intestazione del formato FASTA si può capire quale [gb|emb|dbj|sp|pir]
LINK A TAXONOMY Link a taxonomy (database degli organismi rappresentati in NUCLEOTIDE di NCBI Vediamo più in dettaglio alcuni dei campi ed in particolare i link agli altri database integrati in ENTREZ
LINK A PUBMED Link alle pubblicazioni scientifiche riguardanti quellargomento LEZIONE 5-01mar2005
PubMed, disponibile tramite NCBI Entrez retrieval system, è stato sviluppato dal National Center for Biotechnology Information (NCBI) alla National Library of Medicine (NLM), è localizzato presso il National Institutes of Health (NIH). Entrez retrieval systemNational Center for Biotechnology Information (NCBI)National Library of Medicine (NLM)National Institutes of Health (NIH) Entrez (come già discusso) è il sistema di ricerca testuale e di recupero utilizzato allNCBI per servizi che includono PubMed, Sequenze di nucleotidi e Proteine, Genomi completi, Tassonomia, OMIM e molti altri. PubMed è stato disegnato per fornire accesso alle citazioni della letteratura biomedica, inoltre consente laccesso e il link ad altre risorse biomolecolari di Entrez.
Esempio di una ricerca in PubMed Testo ricercato visualizzazione Parametri avanzati di ricerca
In stretta relazione con le banche dati primarie di nuceotidi, esistono numerose banche dati di geni, ad esempio presso lNCBI è stata sviluppata la banca dati LocusLink. Come si può dedurre dal nome, questo database assegna per ogni locus genetico, ossia per ogni elemento funzionale di un genoma (ad esempio un gene codificante una proteina): il nome ufficiale, eventuali sinonimi, il link a OMIM, gli accession numbers delle sequenze nucleotidiche associate a quel locus e presenti nelle banche dati primarie, Il codice della classificazione internazionale degli enzimi (se si tratta di un enzima), Il link ad altre banche dati NCBI costituenti il pacchetto per la genomica quali RefSeq (in cui a ciascuna entry è associata per es.la sequeza completa tra le ridondanti) ed UniGene.
Quindi LocusLink fornisce uninterfaccia per effettuare delle query singole a sequenze curate* ed informazioni descrittive su singoli loci genetici. A breve LocusLink verrà rimpiazzato da Entrez Gene che integrerà le informazioni provenienti da LocusLink e da RefSeq per i genomi completamente sequenziati. *si intende per sequenza curata un sequenza che è stata sottoposta ad un processo di verifica (spesso manuale) e di controllo che consente di eliminare errori, ridondanza nel numero delle sequenze (vedi database primari di nucleotidi, ecc.).
I link forniti sono estremamente interessanti: ad esempio si possono ottenere ulteriori informazioni sul gene in database come PubMed e OMIM LEZIONE 5-01mar2005
Why GeneCards? La comunità scientifica ha recentemente sviluppato un gran numero di risorse web contenenti informazioni di carattere biologico e medico, questo trend è stato incentivato dalla necessità di immagazzinare e distribuire i dati ottenuti dal Progetto Genoma Umano. Tuttavia lintegrazione di tutti I dati biomedici in un browser accessibile non è ancora stato raggiunto. Inoltre il crescente numero di differenti sorgenti di dati hanno creato un labirinto di informazioni che fa sì che spesso non si riescano a recuperare I dati voluti. Al fine di testare nuovi approcci per un navigazione efficiente nelle informazioni biomediche è stata sviluppata la GeneCards Encyclopedia.GeneCards Encyclopedia Un aspetto cruciale della strategia di GeneCards è lutilizzo della nomenclatura standard come ad esempio i simboli dei geni approvati. IL DATABASE GeneCards
Esempio di una query su GeneCards Profilo di espressione utile per valutare il livello di espressione del gene in esame in vari tessuti e calcolato con metodi differenti. Link a geni ortologhi** in altri organismi LEZIONE 5-01mar2005
**Durante il processo evolutivo è noto che si generano specie differenti da un antenato comune. Nelle specie che derivano da questo processo detto di speciazione, gran parte dei geni dellantenato comune vengono mantenuti e nella gran parte dei casi da un gene se ne ottengono due, uno per ognuna delle due specie. Questi due geni si definiscono geni ortologhi. SPECIE 1 Gene A SPECIE 2 Gene A-1 SPECIE 3 Gene A-2
Come detto in precedenza mutazioni, ossia alterazioni della sequenza nucleotidica di un gene, possono riflettersi in alterazioni della funzionalità della proteina da esso codificata. Questo mutazioni possono quindi causare le cosiddette malattie genetiche. ES: una mutazione a carico del gene della β globina fa sì che una particolare base del gene venga sostituita con unaltra, ciò altera il codone e nella proteina ciò si riflette nella sostituzione di un glutamato con una valina e in una ridotta funzionalità della proteina che causa una malattia genetica detta anemia a cellule falciformi. Mutazioni a carico di geni differenti causano molte malattie genetiche diverse per questo è stato costituito il database OMIM.
Questo database è un catalogo di geni umani e di disordini genetici prodotto da Victor A. McKusick e dai suoi colleghi alla Johns Hopkins University e svilluppato per il web dall NCBI, il National Center for Biotechnology Information. Il database contiene informazioni testuali e referenze; contiene inoltre numerosi link a MEDLINE, ai record delle sequenze all NCBI ed ad altri database ed altri link a risorse collegate. Come in altri database NCBI è possibile fare delle ricerche avanzate utilizzando opzioni quali Limits, Preview/Index, History, and Clipboard.
TEXT Since at least as early as 1970, 2 alpha loci have been known to exist in some humans (Brimhall et al., 1970): hemoglobins G (Pest) and J (Buda) showed the existence of at least 2 alpha chains in the Hungarians studied ( , ), whereas hemoglobin J (Tongariki) indicated that in Melanesians only 1 alpha locus exists ( ). The alpha locus is apparently double in Chinese (Kan, 1974), whereas in American blacks, chromosomes with single or double alpha loci are about equally frequent (Huisman, 1974). Rucknagel and Dublin (1974) estimated that a chromosome with a single alpha locus has a frequency of about 0.27 in American blacks and about 0.36 in African blacks. Rucknagel and Rising (1975) studied an American black family in which of 5 persons heterozygous for hemoglobin G (Philadelphia), an alpha-chain mutant, 3 had about 30% Hb G and 2 had 40%. They suggested that the former persons have 2 alpha hemoglobin loci and the latter persons 1 such locus… Esempio di una query sul database OMIM: da notare lestensiva descrizione di quanto noto sulla/e malattia/e determinate da mutazioni a carico del gene in esame
UCSC genome browser Questo browser genomico è stato sviluppato per fronteggiare il problema dellenorme aumento di dati genomici derivanti in particolare dai progetti di sequenziamento dei vertebrati. Ovviamente è poco utile avere lunghe stringhe di basi corrispondenti ai singoli cromosomi dei vari organismi. Per questo motivo lUCSC genome browser fornisce una rapida visualizzazione grafica di ogni regione di genoma di qualsivoglia lunghezza assieme ad una grande quantità di informazioni come: geni noti, geni predetti, ESTs (expressed sequence TAGs), mRNA, geni omologhi di altri organismi, ecc..
Organismo di cui si vuole visualizzare la regione genomica Durante il sequenziamento sitematico di un genoma, spesso vengono rilasciate versioni successive specialmente nella fase conclusiva del progetto; esse possono essere più o meno definitive. Qui si fa riferimento a varie versioni (release) del genoma umano. Gruppo di organismi di interesse LEZIONE 5-01mar2005
Pulsanti di spostamento sul genoma Pulsanti per ingrandire o rimpicciolire larea di interesse Posizione attuale sul genoma Permette di saltare sulla posizione digitata sulla finestra di sinistra Chromosoma, rappresentazione schematica e posizione attuale
Posizione (bp) Geni con esoni (sbarrette spesse) ed introni (sbarrette sottili) ESTs Grado di conservazione della sequenza tra organismi diversi
Moltissimi sono i campi a disposizione, essi possono essere visualizzati (dense-full o pack) o nascosti (hide) utilizzando le opzioni presenti nella parte inferiore della pagina Ci sono varie possibilità di visualizzazione di ogni informazione sul genome browser, si possono fare varie prove ad esercitazione
Il numero crescente di sequenze geniche note e di informazioni disponibili su di esse spesso causa dei problemi come per esempio lassegnazione di nomi multipli allo stesso gene oppure lassegnazione di funzioni differenti alla stessa proteina. Queste funzioni possono essere tutte corrette (spesso una proteina svolge più di una funzione) ma esse devono essere rese disponibili agli utenti e definite utilizzando una terminologia corretta per far sì che non si generino descrizioni troppo soggettive e lasciate completamente al libero arbitrio dello scopritore della proteina o del gene. Per questo motivo è stato fondato il database GeneOntology che fornisce una definizione precisa del ruolo svolto dalle singole proteine tramite un vocabolario (delle ontologie) che consenta di definire in modo corretto e non arbitrario il o i processi biologici cui una proteina partecipa, la/e sue funzioni molecolari e la sua localizzazione/i cellulare.
GeneOntology
The ontologies I tre principi che stanno alla base delle gene ontologies sono: molecular function, biological process e cellular component. Un prodotto genico ha una o più funzioni molecolari ed è utilizzato in uno o più processi biologici ed esso potrebbe essere associato con uno o più componenti cellulari. Per esempio, il prodotto genico citocromo C può essere descritto dal termine di funzione molecolare electron transporter activity, dal termine di processo biologico oxidative phosphorylation e induction of cell death, e dal termine della categoria componente cellulare mitochondrial matrix e mitochondrial inner membrane.
Come si vede nella precedente slide un termine di gene ontology molto generico (ad esempio organelle organization and biogenesis) contiene al suo interno più termini di gene ontology via via più specifici (es. mitochondrion organization and biogenesis). Questo fa sì che man mano che si va verso il basso le definizioni diventino sempre più precise ed i geni che soddisfano a quella descrizione sempre meno. Questo albero può quidi essere letto a più livelli, da quelli più generali che stanno in alto a quelli via via sempre più specifici che stanno in basso.
Quanti sono i database disponibili in rete? Una risposta si può ottenere al seguente sito: DBCAT, The Public Catalog of DatabasesCatalog of Databases Attualmente esistono più di 500 database di carattere biologico che sono stati raggruppati in questo sito in otto categorie principali: Il numero di database inoltre è in continua crescita e la rivista NAR (nucleic acids research) dedica ogni anno un numero speciale per la descrizione dei database biologici.