La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

III LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Ricerca di similarita con sequenze genomiche: BLAT.

Presentazioni simili


Presentazione sul tema: "III LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Ricerca di similarita con sequenze genomiche: BLAT."— Transcript della presentazione:

1 III LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Ricerca di similarita con sequenze genomiche: BLAT.

2 PROGETTO GENOMA UMANO Milestones: 1990: Inizio (U.S. Department of Energy and the National Institutes of Health) Giugno 2000: Completamento della sequenza working draft dellintero genoma umano Febbraio 2001: Pubblicazione prime analisi sul genoma completo Aprile 2003: Completamento della sequenza

3 Una sequenza viene detta finita quando presenta un livello di errore inferiore a 1/10000 basi e non ha gaps. Il Progetto Genoma Umano era complesso dal punto di vista tecnico ma anche dal punto di vista computazionale. Loutput di una singola reazione di sequenza (read) = bp Tutti i singoli frammenti devono essere assemblati in una singola stringa lineare. NCBI fornisce ora lassembly di riferimento per i 3 portali genomici: MapWiew Ensembl Genome Browser

4 La sequenza primaria del genoma non è sufficiente… Annotazione del genoma E necessario riportare sullassembly le informazioni e i dati sperimentali già ottenuti. Riconciliare e integrare lassembly con le mappe fisiche, genetiche e citogenetiche Gli STS sono mappati sulla sequenza usando e-PCR La corrispondenza con la mappa citogenetica utilizzando FISH sistematica di BAC. Lannotazione dei geni è attuata con metodi leggermente diversi dai 3 genome browser –LNCBI allinea mRNA di RefSeq, mRNA di GenBank utilizzando MegaBlast. –Ensembl allinea tutte le proteine umane note di SP/Trembl utilizzando un suo algoritmo –UCSC allinea mRNA di Refseq e GenBank e dalle ultime release SP/Trembl con BLAT

5 Annotazione dei geni ab initio, in base a sensori, funzioni che tentano di dedurre la presenza di una caratteristica genica in base a motivi o proprietà statistiche del DNA. –Sensori per TSS (G+C) –Sensori per siti splicing (AG-GT) –Sensori che misurano la composizione in basi di esoni putativi Loutput dei vari sensori è combinato per generare un modello genico metodi basati sulla similarità: lallineamento di una regione genomica con un cDNA o un EST sono una buona evidenza. Lo splicing alternativo complica linterpretazione degli allineamenti tra DNA genomico, cDNA e ESTs I dati di similarità sono incompleti: trascritti poco espressi o espressi transientemente sono assenti… I programmi di ultima generazione come Grail/Exp, Genie EST, GenomeScan combinano predizioni ab inizio con dati di similarità ottenendo risultati migliori

6 Viral Genomes

7

8

9 3 milioni di basi in formato testo = nessuna utilita Servono: Annotazione dellinformazione sulla sequenza Possibilita di recuperare velocemente la sequenza di regioni specifiche del genoma in base a criteri di Contenuto di informazione Caratteristiche di sequenza Genomi disponibili Human Homo sapiens assembly 99% delle regioni contenenti geni accuratezza 99.99% 2.84 Gb finite highly contiguous Mouse Rat Fugu Fruitfly C. Elegans C. Briggsae Yeast SARS Zoo UCSC Genome Browser Sistema per la navigazione della sequenza e dellannotazione di genomi, che permette la visualizzazione dellinformazione a diverso ingrandimento ed il recupero di porzioni di sequenza con associate le informazioni di annotazione, come: Geni noti e geni predetti ESTs, mRNAs Isole CpG assembly gaps e coverage, bande cromosomiche Omologia con altri genomi …

10 UCSC Genome Browser Molte possibilita per la ricerca di una regione specifica: chr7 un cromosoma intero 20p13 una regione (banda p13 del cr. 20) chr3: il primo milione di basi del cr. 3 dal ptel D16S3046 regione intorno al marcatore (100,000 basi per lato) RH18061;RH80175 regione tra i due marcatori AA regione genomica che si allinea con la sequenza con questo GB accession number PRNP regione del genoma che comprende il gene PRNP NM_ NP_ (LLID) Oppure di liste di regioni: pseudogene mRNA Lists transcribed pseudogenes, but not cDNAs homeobox caudal Lists mRNAs for caudal homeobox genes zinc finger Lists many zinc finger mRNAs huntington Lists candidate genes associated with Huntington's disease

11

12

13

14 Categorie di annotazione: Mapping and Sequencing Tracks Genes and Gene Prediction Tracks mRNA and EST Tracks Expression and Regulation Comparative Genomics ENCODE Tracks Variation and Repeats Genome Browser

15 Known Genes Hide Genome Browser: display mode

16 Known Genes Dense Genome Browser: display mode

17 Known Genes Squish Genome Browser: display mode

18 Known Genes Pack Genome Browser: display mode

19 Known Genes Full Genome Browser: display mode

20 Genome Browser Categorie di annotazione: Expression and Regulation 1.CpG Islands 2.FirstEF 3.NCI60 4.GNF Ratio 5.Affymetrix U133 6.Affymetrix U95

21 CpG Islands, ISOLE CpG Regioni in cui seqenze CpG sono significativamente piu frequenti che nel resto del genoma. Associate ai geni, soprattutto agli housekeeping. Di solito si trovano vicino ai TSS, associate ai promotori. Nei vertebrati le sequenze CpG sono rare, e le C nelle isole CpG tendono ad essere metilate e, nel tempo, le C metilate tendono a mutare a T per deaminazione spontanea. Percio sono rare e di solito vengono mantenute solo per ragioni regolative. Metodo: Finestra a scorrimento per dinucleotidi (punteggio +17 per CG, -1 tutti gli altri) e successiva identificazione dei segmenti con punteggi massimali. Poi, per ogni segmento, calcolo contenuto in GC (>= 50%), lunghezza (> 200), e rapporto tra frazione di dinucleotide CG osservato e atteso in base al contenuto in GC del segmento (> 0.6).

22 GNF Gene Expression Atlas Ratios Using Affymetrix GeneChips Dati despressione ottenuti dallanalisi di Affymetrix GeneChips GNF (The Genomics Institute of the Novartis Research Foundation). I colori mostrano il segnale medio tra diversi esperimenti su scala logaritmica: colore scuro segnale forte.

23 FirstEF: First-Exon and Promoter Prediction Predizioni del programma First Exon Finder: primi esoni, promotori e isole CpG. Due predizioni consecutive a distanza inferiore a 1000 bp sono rappresentate come primi esoni alternativi. Metodo: FirstEF is a 5' terminal exon and promoter prediction program. It consists of different discriminant functions structured as a decision tree. The probabilistic models are optimized to find potential first donor sites and CpG-related and non-CpG-related promoter regions based on discriminant analysis.

24 Genome Browser Categorie di annotazione: Comparative Genomics 1.Mouse Tight 2.Mouse Chain 3.Mouse Net 4.Rat Chain 5.Rat Net 6.Fugu Blat 7.Chimp Chain 8.Chimp Net 9.Chimp Deletions 10.Chimp Diff 11.Human/Mouse/Rat 12.3x Reg Potential 13.2x Reg Potential

25 Genome Browser Mouse Net Mouse Net è la traccia che mostra linsieme degli allineamenti ottimali tra il genoma umano e quello di topo, ottenuti attraverso BLASTZ. BOX = ungapped alignments LINEE = gaps

26 Genome Browser Mouse Net

27 Genome Browser 3-Way Regulatory Potential Human (hg16), Mouse (mm3), Rat (rn3) Traccia che mostra il punteggio RP (3-Way Regulatory Potential) lungo la sequenza in esame, computato in base allanalisi dellallineamento multiplo di regioni ortologhe dei genomi di uomo topo e ratto. Il punteggio RP si basa sulla comparazione delle frequenze di brevi pattern negli allineamenti in regioni regolative e non (modelli Markoviani).

28 Genome Browser 3-Way Regulatory Potential Human (hg16), Mouse (mm3), Rat (rn3)

29 Genome Browser Categorie di annotazione: Variation and Repeats 1.Variation and Repeats 2.SNPs 3.Overlap SNPs 4.Random SNPs 5.Affy 120K SNPs 6.Affy 10K SNPs 7.RepeatMasker 8.Simple Repeats 9.Self Chain

30 Genome Browser SNPs, Simple Nucleotide Polymorphisms Traccia che mostra diversi tipi di polimorfismi: SNPs propri, inserzioni e delezioni, duplicazioni polimorfismi osservati in base alla comparazione di cloni, polimorfismi inclusi nei kits per il Genotyping dellAffimetrix (10K e 120K).


Scaricare ppt "III LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Ricerca di similarita con sequenze genomiche: BLAT."

Presentazioni simili


Annunci Google