Docenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel. 0039 049 8276214.

Slides:



Advertisements
Presentazioni simili
Malattie genetiche monogeniche
Advertisements

Argomenti trattati Struttura di un gene e alternative splicing (AS)
LA LAUREA MAGISTRALE IN BIOINFORMATICA Università degli studi
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Bioinformatica Prof. Mauro Fasano
BASI DI DATI BIOLOGICHE - 3
LEZIONE 2 Anno Accademico 2008/9
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Il concetto di aplotipo
Sequenze Ripetitive di Dna
Genomica e Bioinformatica
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Cap. 17 Regolazione dell’espressione genica negli Eucarioti. Pp
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
Corso di Laurea in Biotecnologie Sanitarie
Il progetto GENOMA Marta Franceschetti.
Il progetto genoma umano
III LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Ricerca di similarita’ con sequenze genomiche: BLAT.
Uso di Genome Browser per l'annotazione di sequenze genomiche.
CORSO DI BIOLOGIA - Programma
Gene details Annotation Tracks official sequence comparisons SNPs NAVIGATING GENOMES By Genome Browsers.
Alcuni esempi di domande di esame
La vita in codice Prof.ssa Carmela Allocca.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Dip. Scienze Biomolecolari e Biotecnologie
Sequenze e Banche Dati Biologiche
Giulio Pavesi Dipartimento di BioScienze Università di Milano
Annotare i geni Gene xxxx Gene zzzz 3 esoni 7 esoni proteina y
Adriana Maggi DOCENTE DI BIOTECNOLOGIE FARMACOLOGICHE CORSO DI LAUREA SPECIALISTICA IN BIOTECNOLOGIE DEL FARMACO Lezione 2.
Metodi post-genomici in biochimica cellulare. Metodi post-genomici.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
Applicazioni genetica umana e molecolare II parte
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle.
STRUTTURA  FUNZIONE  EVOLUZIONE STRUTTURA  (FUNZIONE)  EVOLUZIONE Organi, tessuti ecc. Geni o segmenti genomici.
Pseudogeni = geni non funzionali
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
A.A CORSO DI BIOINFORMATICA per il CLT in Biotecnologie Sanitarie Università di Padova Docente: Dr. STEFANIA BORTOLUZZI.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 3 Mappe genetiche.
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIMOnline Mendelian Inheritance in Man LOCUSLINKcurated sequence and descriptive information about genetic.
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.
La parola “Bioinformatica”
Allineamento di sequenze
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE
ALLINEAMENTO DI SEQUENZE
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Il progetto genoma umano e gli altri progetti genoma: importanza degli organismi-modello.
A.A CORSO DI BIOINFORMATICA 2 per il CLM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Prof. Giorgio Valle Prof.
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Annotazione strutturale dei genomi
LABORATORIO 2: ANALISI DI RESTRIZIONE DI DNA GENOMICO In questa esercitazione campioni di DNA (es.: da fago λ e da plasmide pET28) verranno digeriti con.
Laurie A. Boyer et al. Cell, Vol. 122, , September 23, 2005.
Geni “cliccabili”. SRS : Ensembl : NCBI : Sanger centre :
Clonaggio funzionale Clonaggio posizionale Conoscenza proteina Malattia genetica Determinazione sequenza amminoac.Mappatura genetica con marcatori polimorfici.
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Proff.
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Identificazione di geni candidati nella regione individuata
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Prof.
Geni o segmenti genomici
Transcript della presentazione:

Docenti: Dr. Stefania Bortoluzzi, Dr Alessandro Coppe Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel Master FSE c /732 Modulo di Bioinformatica 24 ore

IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.

PROGETTO GENOMA UMANO Milestones: ■ 1990: Inizio (U.S. Department of Energy and the National Institutes of Health) ■ Giugno 2000: Completamento della sequenza “working draft” dell’intero genoma umano ■ Febbraio 2001: Pubblicazione prime analisi sul genoma completo ■ Aprile 2003: Completamento della sequenza

Una sequenza viene detta “finita” quando presenta un livello di errore inferiore a 1/10000 basi e non ha gaps. Il Progetto Genoma Umano era complesso dal punto di vista tecnico ma anche dal punto di vista computazionale. L’output di una singola reazione di sequenza (read) = bp  Tutti i singoli frammenti devono essere assemblati in una singola stringa lineare. NCBI fornisce ora l’assembly di riferimento per i 3 principali “portali genomici”: MapWiew Ensembl Genome Browser

La sequenza primaria del genoma non è sufficiente… Annotazione del genoma E’ necessario riportare sull’assembly le informazioni e i dati sperimentali già ottenuti. Riconciliare e integrare l’assembly con le mappe fisiche, genetiche e citogenetiche Gli STS sono mappati sulla sequenza usando e-PCR La corrispondenza con la mappa citogenetica utilizzando FISH sistematica di BAC. L’annotazione dei geni è attuata con metodi leggermente diversi dai 3 “genome browser” –L’NCBI allinea mRNA di RefSeq, mRNA di GenBank utilizzando MegaBlast. –Ensembl allinea tutte le proteine umane note di SP/Trembl utilizzando un suo algoritmo –UCSC allinea mRNA di Refseq e GenBank e dalle ultime release SP/Trembl con BLAT

Annotazione dei geni ab initio, in base a “sensori”, funzioni che tentano di dedurre la presenza di una caratteristica genica in base a motivi o proprietà statistiche del DNA. –Sensori per TSS (G+C) –Sensori per siti splicing (AG-GT) –Sensori che misurano la composizione in basi di esoni putativi L’output dei vari sensori è combinato per generare un “modello genico” metodi basati sulla similarità: l’allineamento di una regione genomica con un cDNA o un EST sono una buona evidenza. Lo splicing alternativo complica l’interpretazione degli allineamenti tra DNA genomico, cDNA e ESTs I dati di similarità sono incompleti: trascritti poco espressi o espressi transientemente sono assenti… I programmi di ultima generazione come Grail/Exp, Genie EST, GenomeScan combinano predizioni ab inizio con dati di similarità ottenendo risultati migliori

Viral Genomes

ESERCITAZIONE UTILIZZO DI NCBI GENOMIC BIOLOGY

3 milioni di basi in formato testo = nessuna utilita’ Servono: Annotazione dell’informazione sulla sequenza Possibilita’ di recuperare velocemente la sequenza di regioni specifiche del genoma in base a criteri di Contenuto di informazione Caratteristiche di sequenza Genomi disponibili Human Homo sapiens assembly 99% delle regioni contenenti geni accuratezza 99.99% 2.84 Gb finite “highly contiguous” Mouse Rat Fugu Fruitfly C. Elegans C. Briggsae Yeast SARS Zoo UCSC Genome Browser Sistema per la “navigazione” della sequenza e dell’annotazione di genomi, che permette la visualizzazione dell’informazione a “diverso ingrandimento” ed il recupero di porzioni di sequenza con associate le informazioni di annotazione, come: Geni noti e geni predetti ESTs, mRNAs Isole CpG assembly gaps e coverage, bande cromosomiche Omologia con altri genomi …

UCSC Genome Browser Molte possibilita’ per la ricerca di una regione specifica: chr7 un cromosoma intero 20p13 una regione (banda p13 del cr. 20) chr3: il primo milione di basi del cr. 3 dal ptel D16S3046 regione intorno al marcatore (100,000 basi per lato) RH18061;RH80175 regione tra i due marcatori AA regione genomica che si allinea con la sequenza con questo GB accession number PRNP regione del genoma che comprende il gene PRNP NM_ NP_ (LLID) Oppure di liste di regioni: pseudogene mRNA Lists transcribed pseudogenes, but not cDNAs homeobox caudal Lists mRNAs for caudal homeobox genes zinc finger Lists many zinc finger mRNAs huntington Lists candidate genes associated with Huntington's disease

Categorie di annotazione: Mapping and Sequencing Tracks Genes and Gene Prediction Tracks mRNA and EST Tracks Expression and Regulation Comparative Genomics ENCODE Tracks Variation and Repeats Genome Browser

Known Genes Hide Genome Browser: display mode

Known Genes Dense Genome Browser: display mode

Known Genes Squish Genome Browser: display mode

Known Genes Pack Genome Browser: display mode

Known Genes Full Genome Browser: display mode

Genome Browser Categorie di annotazione: Expression and Regulation 1.CpG Islands 2.FirstEF 3.NCI60 4.GNF Ratio 5.Affymetrix U133 6.Affymetrix U95

CpG Islands, ISOLE CpG Regioni in cui seqenze CpG sono significativamente piu’ frequenti che nel resto del genoma. Associate ai geni, soprattutto agli housekeeping. Di solito si trovano vicino ai TSS, associate ai promotori. Nei vertebrati le sequenze CpG sono rare, e le C nelle isole CpG tendono ad essere metilate e, nel tempo, le C metilate tendono a mutare a T per deaminazione spontanea. Percio’ sono rare e di solito “vengono mantenute solo per ragioni regolative”. Metodo: Finestra a scorrimento per dinucleotidi (punteggio +17 per CG, -1 tutti gli altri) e successiva identificazione dei segmenti con punteggi massimali. Poi, per ogni segmento, calcolo contenuto in GC (>= 50%), lunghezza (> 200), e rapporto tra frazione di dinucleotide CG osservato e atteso in base al contenuto in GC del segmento (> 0.6).

GNF Gene Expression Atlas Ratios Using Affymetrix GeneChips Dati d’espressione ottenuti dall’analisi di Affymetrix GeneChips GNF (The Genomics Institute of the Novartis Research Foundation). I colori mostrano il segnale medio tra diversi esperimenti su scala logaritmica: colore scuro  segnale forte.

FirstEF: First-Exon and Promoter Prediction Predizioni del programma First Exon Finder: primi esoni, promotori e isole CpG. Due predizioni consecutive a distanza inferiore a 1000 bp sono rappresentate come primi esoni alternativi. Metodo: FirstEF is a 5' terminal exon and promoter prediction program. It consists of different discriminant functions structured as a decision tree. The probabilistic models are optimized to find potential first donor sites and CpG-related and non-CpG-related promoter regions based on discriminant analysis.

Genome Browser Categorie di annotazione: Comparative Genomics 1.Mouse Tight 2.Mouse Chain 3.Mouse Net 4.Rat Chain 5.Rat Net 6.Fugu Blat 7.Chimp Chain 8.Chimp Net 9.Chimp Deletions 10.Chimp Diff 11.Human/Mouse/Rat 12.3x Reg Potential 13.2x Reg Potential

Genome Browser Mouse Net Mouse Net è la traccia che mostra l’insieme degli allineamenti ottimali tra il genoma umano e quello di topo, ottenuti attraverso BLASTZ. BOX = ungapped alignments LINEE = gaps

Genome Browser Mouse Net

Genome Browser 3-Way Regulatory Potential Human (hg16), Mouse (mm3), Rat (rn3) Traccia che mostra il punteggio RP (3-Way Regulatory Potential) lungo la sequenza in esame, computato in base all’analisi dell’allineamento multiplo di regioni ortologhe dei genomi di uomo topo e ratto. Il punteggio RP si basa sulla comparazione delle frequenze di brevi pattern negli allineamenti in regioni regolative e non (modelli Markoviani).

Genome Browser 3-Way Regulatory Potential Human (hg16), Mouse (mm3), Rat (rn3)

Genome Browser Categorie di annotazione: Variation and Repeats 1.Variation and Repeats 2.SNPs 3.Overlap SNPs 4.Random SNPs 5.Affy 120K SNPs 6.Affy 10K SNPs 7.RepeatMasker 8.Simple Repeats 9.Self Chain

Genome Browser SNPs, Simple Nucleotide Polymorphisms Traccia che mostra diversi tipi di polimorfismi: SNPs propri, inserzioni e delezioni, duplicazioni polimorfismi osservati in base alla comparazione di cloni, polimorfismi inclusi nei kits per il Genotyping dell’Affimetrix (10K e 120K).

ESERCITAZIONE UTILIZZO DI UCSC Genome Borwser

<> ENCODE Overview Encyclopedia Of DNA Elements, launced in September 2003, to identify all functional elements in the human genome sequence. Three project phases: pilot project, technology development, planned production phase. GOALS of the first two phases of the ENCODE project: to identify a suite of approaches that will allow the comprehensive identification of all the functional elements in the human genome. assess the abilities of different approaches to be scaled up for an effort to analyze the entire human genome and to find gaps in our ability to identify functional elements in genomic sequence. Determine the identity and precise location of all of the protein- encoding and non-protein-encoding genes in the human genome, as will the identities and locations of other functional elements including promoters and other transcriptional regulatory sequences and determinants of chromosome structure and function, such as origins of replication. To date, much remains unknown about these functional elements in the human genome. A comprehensive encyclopedia of all of these features is needed to fully utilize the sequence to better understand human biology, to predict potential disease risks, and to stimulate the development of new therapies to prevent and treat these diseases.

ESERCITAZIONE UTILIZZO DI ENSEMBL