IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.

Slides:



Advertisements
Presentazioni simili
Argomenti trattati Struttura di un gene e alternative splicing (AS)
Advertisements

Tumori e predisposizione genetica
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
BASI DI DATI BIOLOGICHE - 3
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
TRASCRIZIONE del DNA.
LEZIONE 2 Anno Accademico 2008/9
La Sintesi Proteica.
Metodi basati sulle similitudini per dedurre la funzione di un gene
Micro RNA (miRNA) Piccole molecole di RNA (20-22 nt)
Genomica e Bioinformatica
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Cap. 17 Regolazione dell’espressione genica negli Eucarioti. Pp
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
Corso di Laurea in Biotecnologie Sanitarie
In questa lezione ci occuperemo
Il progetto GENOMA Marta Franceschetti.
Il progetto genoma umano
La varietà dei genomi valore C: quantità totale di DNA contenuta in un genoma aploide Il genoma comprende geni e sequenze non codificanti. Le dimensioni.
III LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Ricerca di similarita’ con sequenze genomiche: BLAT.
Uso di Genome Browser per l'annotazione di sequenze genomiche.
CORSO DI BIOLOGIA - Programma
Gene details Annotation Tracks official sequence comparisons SNPs NAVIGATING GENOMES By Genome Browsers.
Alcuni esempi di domande di esame
CORSO DI BIOLOGIA - Programma
La vita in codice Prof.ssa Carmela Allocca.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
Dip. Scienze Biomolecolari e Biotecnologie
Sequenze e Banche Dati Biologiche
Giulio Pavesi Dipartimento di BioScienze Università di Milano
Annotare i geni Gene xxxx Gene zzzz 3 esoni 7 esoni proteina y
Metodi post-genomici in biochimica cellulare. Metodi post-genomici.
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
TRADUZIONE del RNA.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle.
Pseudogeni = geni non funzionali
CORSO DI BIOLOGIA - Programma
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Dipartimento di Biologia Universita’ degli Studi di Padova
Il DNA Trascrizione Traduzione Trascritto primario (pre-mRNA) mRNA
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 3 Mappe genetiche.
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIMOnline Mendelian Inheritance in Man LOCUSLINKcurated sequence and descriptive information about genetic.
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.
Docenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Allineamento di sequenze
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
POSTGENOMICA O GENOMICA FUNZIONALE
Il progetto genoma umano e gli altri progetti genoma: importanza degli organismi-modello.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle Prof.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Annotazione strutturale dei genomi
LABORATORIO 2: ANALISI DI RESTRIZIONE DI DNA GENOMICO In questa esercitazione campioni di DNA (es.: da fago λ e da plasmide pET28) verranno digeriti con.
Geni “cliccabili”. SRS : Ensembl : NCBI : Sanger centre :
Clonaggio funzionale Clonaggio posizionale Conoscenza proteina Malattia genetica Determinazione sequenza amminoac.Mappatura genetica con marcatori polimorfici.
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Jacob, Monod – Parigi,1961 il modello dell’Operon-lac
Identificazione di geni candidati nella regione individuata
CLONAGGIO POSIZIONALE:
Transcript della presentazione:

IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.

PROGETTO GENOMA UMANO Milestones: ■ 1990: Inizio (U.S. Department of Energy and the National Institutes of Health0 ■ Giugno 2000: Completamento della sequenza “working draft” dell’intero genoma umano ■ Febbraio 2001: Pubblicazione prime analisi sul genoma completo ■ Aprile 2003: Completamento della sequenza

Una sequenza viene detta “finita” quando presenta un livello di errore inferiore a 1/10000 basi e non ha gaps. Il Progetto Genoma Umano era complesso dal punto di vista tecnico ma anche dal punto di vista computazionale. L’output di una singola reazione di sequenza (read) = 500-800 bp  Tutti i singoli frammenti devono essere assemblati in una singola stringa lineare. NCBI fornisce ora l’assembly di riferimento per i 3 portali genomici: MapView Ensembl Genome Browser

Annotazione del genoma La sequenza primaria del genoma non è sufficiente… Annotazione del genoma E’ necessario riportare sull’assembly le informazioni e i dati sperimentali già ottenuti. Riconciliare e integrare l’assembly con le mappe fisiche, genetiche e citogenetiche Gli STS sono mappati sulla sequenza usando e-PCR La corrispondenza con la mappa citogenetica utilizzando FISH sistematica di BAC. L’annotazione dei geni è attuata con metodi leggermente diversi dai 3 “genome browser” L’NCBI allinea mRNA di RefSeq, mRNA di GenBank utilizzando MegaBlast. Ensembl allinea tutte le proteine umane note di SP/Trembl utilizzando un suo algoritmo UCSC allinea mRNA di Refseq e GenBank e dalle ultime release SP/Trembl con BLAT

Annotazione dei geni ab initio, in base a “sensori”, funzioni che tentano di dedurre la presenza di una caratteristica genica in base a motivi o proprietà statistiche del DNA. Sensori per TSS (G+C) Sensori per siti splicing (AG-GT, la maggior parte degli introni inizia con GT e finisce con AG) Sensori che misurano la composizione in basi di esoni putativi L’output dei vari sensori è combinato per generare un “modello genico” metodi basati sulla similarità: l’allineamento di una regione genomica con un cDNA o un EST sono una buona evidenza. Lo splicing alternativo complica l’interpretazione degli allineamenti tra DNA genomico, cDNA e ESTs I dati di similarità sono incompleti: trascritti poco espressi o espressi transientemente sono assenti… I programmi di ultima generazione come Grail/Exp, Genie EST, GenomeScan combinano predizioni ab inizio con dati di similarità ottenendo risultati migliori

3 milioni di basi in formato testo = nessuna utilita’ Genomi disponibili Human Homo sapiens assembly 99% delle regioni contenenti geni accuratezza 99.99% 2.84 Gb finite “highly contiguous” Mouse Rat Fugu Fruitfly C. Elegans C. Briggsae Yeast SARS Zoo 3 milioni di basi in formato testo = nessuna utilita’ Servono: Annotazione dell’informazione sulla sequenza Possibilita’ di recuperare velocemente la sequenza di regioni specifiche del genoma in base a criteri di Contenuto di informazione Caratteristiche di sequenza UCSC Genome Browser Sistema per la “navigazione” della sequenza e dell’annotazione di genomi, che permette la visualizzazione dell’informazione a “diverso ingrandimento” ed il recupero di porzioni di sequenza con associate le informazioni di annotazione, come: Geni noti e geni predetti ESTs, mRNAs Isole CpG assembly gaps e coverage, bande cromosomiche Omologia con altri genomi …

UCSC Genome Browser Molte possibilita’ per la ricerca di una regione specifica: chr7 un cromosoma intero 20p13 una regione (banda p13 del cr. 20) chr3:1-1,000,000 il primo milione di basi del cr. 3 dal ptel D16S3046 regione intorno al marcatore(100,000 basi per ogni lato RH18061;RH80175 regione tra i deu marcatori AA205474 regione genomica che sia allinea con la sequenza con questo GB accession number PRNP regione del genoma che comprende il gene PRNP NM_017414 NP_059110 11274 (LLID) Oppure di liste di regioni: pseudogene mRNA Lists transcribed pseudogenes, but not cDNAs homeobox caudal Lists mRNAs for caudal homeobox genes zinc finger Lists many zinc finger mRNAs huntington Lists candidate genes associated with Huntington's disease

Genome Browser Categorie di annotazione: Mapping and Sequencing Tracks Genes and Gene Prediction Tracks mRNA and EST Tracks Expression and Regulation Comparative Genomics ENCODE Tracks Variation and Repeats