gene details Annotation Tracks official sequence comparisons SNPs NAVIGATING GENOMES By Genome Browsers
V LEZIONE Navigare le sequenze genomiche NCBI Map View UCSC Genome Browser UCSC BLAT ENSEMBL VEGA
PROGETTO GENOMA UMANO Milestones: 1990: Inizio (U.S. Department of Energy and the National Institutes of Health) Giugno 2000: Completamento della sequenza working draft dellintero genoma umano Febbraio 2001: Pubblicazione prime analisi sul genoma completo Aprile 2003: Completamento della sequenza
Una sequenza viene detta finita quando presenta un livello di errore inferiore a 1/10000 basi e non ha gaps. Il Progetto Genoma Umano era complesso dal punto di vista tecnico ma anche dal punto di vista computazionale. Loutput di una singola reazione di sequenza (read) = bp Tutti i singoli frammenti dovevano essere assemblati in una singola stringa lineare. NCBI fornisce ora lassembly di riferimento per i 3 principali portali genomici: MapView Ensembl Genome Browser
La sequenza primaria del genoma non è sufficiente… Annotazione del genoma E necessario riportare sullassembly le informazioni e i dati sperimentali già ottenuti. Riconciliare e integrare lassembly con le mappe fisiche, genetiche e citogenetiche Gli STS sono mappati sulla sequenza usando e-PCR La corrispondenza con la mappa citogenetica utilizzando FISH sistematica di BAC. Lannotazione dei geni è attuata con metodi leggermente diversi dai 3 genome browser –LNCBI allinea mRNA di RefSeq, mRNA di GenBank utilizzando MegaBlast. –Ensembl allinea tutte le proteine umane note di SP/Trembl utilizzando un suo algoritmo –UCSC allinea mRNA di Refseq e GenBank e dalle ultime release SP/Trembl con BLAT
Annotazione dei geni ab initio, in base a sensori, funzioni che tentano di dedurre la presenza di una caratteristica genica in base a motivi o proprietà statistiche del DNA. –Sensori per TSS (G+C) –Sensori per siti splicing (AG-GT) –Sensori che misurano la composizione in basi di esoni putativi Loutput dei vari sensori è combinato per generare un modello genico metodi basati sulla similarità: lallineamento di una regione genomica con un cDNA o un EST sono una buona evidenza. Lo splicing alternativo complica linterpretazione degli allineamenti tra DNA genomico, cDNA e ESTs I dati di similarità sono incompleti: trascritti poco espressi o espressi transientemente sono assenti… I programmi di ultima generazione come Grail/Exp, Genie EST, GenomeScan combinano predizioni ab inizio con dati di similarità ottenendo risultati migliori
Viral Genomes
3 milioni di basi in formato testo = nessuna utilita Servono: Annotazione dellinformazione sulla sequenza Possibilita di recuperare velocemente la sequenza di regioni specifiche del genoma in base a criteri di Contenuto di informazione Caratteristiche di sequenza Genomi disponibili Human Homo sapiens assembly 99% delle regioni contenenti geni accuratezza 99.99% 2.84 Gb finite highly contiguous Species A. gambiae A. mellifera C. briggsae C. elegans C. intestinalis Chicken Chimp Cow D. ananassae D. erecta D. grimshawi D. melanogaster D. mojavensis D. persimilis D. pseudoobscura D. sechellia D. simulans D. virilis UCSC Genome Browser Sistema per la navigazione della sequenza e dellannotazione di genomi, che permette la visualizzazione dellinformazione a diverso ingrandimento ed il recupero di porzioni di sequenza con associate le informazioni di annotazione, come: Geni noti e geni predetti ESTs, mRNAs Isole CpG assembly gaps e coverage, bande cromosomiche Omologia con altri genomi … D. yakuba Dog Fugu Human Mouse Opossum Rat Rhesus S. purpuratus SARS Tetraodon X. tropicalis Yeast Zebrafish
UCSC Genome Browser Molte possibilita per la ricerca di una regione specifica: chr7 un cromosoma intero 20p13 una regione (banda p13 del cr. 20) chr3: il primo milione di basi del cr. 3 dal ptel D16S3046 regione intorno al marcatore (100,000 basi per lato) RH18061;RH80175 regione tra i due marcatori AA regione genomica che si allinea con la sequenza con questo GB accession number PRNP regione del genoma che comprende il gene PRNP NM_ NP_ (LLID) Oppure di liste di regioni: pseudogene mRNA Lists transcribed pseudogenes, but not cDNAs homeobox caudal Lists mRNAs for caudal homeobox genes zinc finger Lists many zinc finger mRNAs huntington Lists candidate genes associated with Huntington's disease
Overview of the whole Genome Browser page (mature release) } Genome viewer section mRNA and EST Tracks Expression and Regulation Comparative Genomics ENCODE Tracks Variation and Repeats Groups of data Mapping and Sequencing Tracks Genes and Gene Prediction Tracks
Sample Genome Viewer image, BRCA1 region Genome backbone STS markers Known genes RefSeq genes Gene predictions GenBank mRNAs repeats GenBank ESTs conservation SNPs MGC clones
Annotation Track options, defined Hide: removes a track from view Dense: all items collapsed into a single line Squish: each item = separate line, but 50% height + packed Pack: each item separate, but efficiently stacked (full height) Full: each item on separate line
Clicking an annotation line, new page of detailed information You will get detail for that single item you click Example: click on the BRCA1 Black Known Genes line Click the line New web page opens Many details and links to more data about BRCA1
Click annotation track = BRCA1 Known gene detail page informative description other resource links microarray data mRNA secondary structure links to sequences protein domains/structure homologs in other species Gene Ontology descriptions mRNA descriptions pathways Not all genes have This much detail. Different annotation tracks carry different detail data. SNP detail page sample
Getting the sequences Get DNA, with Extended Options; or Details pages Use the DNA link at the top Plain or Extended options Change colors, fonts, etc.
Accessing the BLAT tool Rapid searches by INDEXING the entire genome Works best with high similarity matches BLAT = BLAST-like Alignment Tool
BLAT tool overview: Submit Make choices DNA limit bases Protein limit aa 25 total sequences Paste one or more sequences Or upload
BLAT results, with links Results with demo sequences, settings default; sort = Query, Score –Score is a count of matcheshigher number, better match sorting Click browser to go to Genome Browser image location (next slide) Click details to see the alignment to genomic sequence (2 nd slide)
BLAT results, alignment details browser From browser click in BLAT results A new line with your Sequence from BLAT Search appears! query matches Click to flip frame Watch out for reading frame! Click > to flip frame Base position = full and zoomed in enough to see amino acids
BLAT results, alignment details Your query Genomic match, color cues Side-by-side alignment
Ensembl Genome Browser
NCBI Map Viewer
UCSC Genome Browser
What Distinguishes Ensembl from the UCSC and NCBI Browsers? The gene set. Automatic annotation based on mRNA and protein information. Programmatic access via the Perl API (open source) BioMart Integration with other databases (DAS) Comparative analysis (gene trees)
VEGA ED ENCODE: annotazione dettagliata dei genomi I Genome Browsers di cui abbiamo parlato sono basati essenzialmente sui risultati di analisi computazionali volte allintegrazione di dati ed al riferimento di queste ai genomi. Altri database collegati a Browsers genomici sono legati a progetti sperimentali per una maggiore caratterizzazione funzionale di elementi di DNA (ENCODE) o prevedono comunque una fase supplementare di curation manuale dei dati relativi a geni e trascritti (VEGA).