Annotazione strutturale dei genomi

Slides:



Advertisements
Presentazioni simili
Geni costitutivi e non costitutivi
Advertisements

GENE: segmento di DNA che trasporta l’informazione per un determinato
RICERCA DI SIMILARITA’ IN BANCHE DATI
Bioinformatica Corso di Laurea specialistica in Informatica RNA: trascrizione e maturazione 21/03/2011.
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Lez 7 Processamento dell’RNA negli eucaroti: RNA splicing
Genetica medica genoma umano e geni
Riconoscimento di forme
SINTESI PROTEICA.
BASI DI DATI BIOLOGICHE - 3
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Corso di ingegneria genetica
Sottolineare i diversi elementi chimici presenti nei nucleotidi
TRASCRIZIONE del DNA.
TRASCRIZIONE del DNA.
Organizzazione del genoma umano III
Verifica della espressione dei geni predetti Al fine di verificare che i geni predetti siano effettivamente trascritti si può fare una ricerca in banca.
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
La Sintesi Proteica.
Introduzione alla bioinformatica
Metodi basati sulle similitudini per dedurre la funzione di un gene
Espressione genica.
Genomica e Bioinformatica
Allineamento Metodo bioinformatico che date due o più sequenze ne mette in evidenza similarità/diversità, supponendo che le sequenze analizzate abbiano.
Analisi della struttura primaria delle proteine
Riassumendo Ci sono diverse modalità con cui un gene può produrre trascritti alternativi Inizi alternativi della trascrizione Terminazioni alternative.
Semi-Supervised Learning
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia
Corso di Laurea in Biotecnologie Sanitarie
In questa lezione ci occuperemo
Il progetto genoma umano
III LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Ricerca di similarita’ con sequenze genomiche: BLAT.
CORSO DI BIOLOGIA - Programma
CORSO DI BIOLOGIA - Programma
Alcuni esempi di domande di esame
Tutorial per l’utilizzo di k ScanProsite
CORSO DI BIOLOGIA - Programma
Teoria della Complessità Concetti fondamentali
PROTEINE: “TRASCRIZIONE” e “TRADUZIONE”
Dip. Scienze Biomolecolari e Biotecnologie
Sequenze e Banche Dati Biologiche
AVVISO Il materiale riportato in queste diapositive è di esclusiva proprietà del Prof. Liborio Stuppia. La pubblicazione.
DNA – REPLICAZIONE (1) Semiconservativa: Catene genitrici
Annotare i geni Gene xxxx Gene zzzz 3 esoni 7 esoni proteina y
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Informatica e Bioinformatica – A. A Un altro grande database è UniProt, The Universal Protein Resource ( nel quale.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
TRADUZIONE del RNA.
Pseudogeni = geni non funzionali
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
La parola “Bioinformatica”
Allineamento di sequenze
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
POSTGENOMICA O GENOMICA FUNZIONALE
Una volta stabilito che un insieme di proteine sono tra di loro omologhe posso procedere ad un allineamento multiplo. Il programma più usato a questo scopo.
Allineamento di sequenze Perché è importante? Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che.
Il progetto genoma umano e gli altri progetti genoma: importanza degli organismi-modello.
I cambiamenti della sequenza del DNA: Evoluzione
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione.
Clonaggio per espressione e clonaggio funzionale
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
Geni “cliccabili”. SRS : Ensembl : NCBI : Sanger centre :
Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Allineamenti Multipli Problema Durante l’evoluzione i residui importanti per il mantenimento della struttura e della funzione sono conservati. Come riconoscere.
Genetica diretta e Genetica inversa: approcci sperimentali classici e metodologie recenti per lo studio della funzione dei geni.
Transcript della presentazione:

Annotazione strutturale dei genomi Programmi utilizzati per la predizione genica in sequenze di DNA genomico Overview: http://linkage.rockefeller.edu/wli/gene/

Sistemi di annotazione Confronto di cDNA (EST)con sequenze genomiche Metodi predittivi - Ab initio - Homology Based

A cosa servono i metodi predittivi? Una notevole percentuale dei geni identificati nell’ambito dei progetti di sequenziamento genomico codificano per proteine precedentemente sconosciute. Da ciò deriva la necessità di metodi computazionali per predire la struttura dei nuovi geni, in modo da annotare rapidamente le sequenze genomiche ed avere una guida per la validazione sperimentale.

Cosa bisogna predire? Esoni interni (-exon---gt---intron-----ag--exon---) Primo esone (sequenza 5’ UTR) Ultimo esone (sequenza 3’ UTR) Esoni unici Siti di splicing alternativo Promotori (TATA e CAAT boxes) Segnali di poliadenilazione (AAUAAA) ATG di inizio STOP codon Se la sequenza non è completa può essere necessario predire i singoli esoni.

Metodi utilizzabili per l’annotazione delle sequenze genomiche Comparativi (programmi di allineamento) Content-based: analizzano le proprietà globali delle sequenze in esame Site-based: analizzano la presenza o assenza di specifiche sequenze segnale (pattern o consensus)

I metodi content-based usano le coding-statistics, e valutano: Lunghezza degli esoni e degli introni Codon usage Frequenza di tutti i possibili esameri in una particolare cornice di lettura Frequenza di particolari triplette in dipendenza dal contesto (adiacenti a donor e acceptor site)

I metodi site-based usano signal sensors, valutando la presenza di: Siti di legame per fattori trascrizionali Consensus promotori CpG islands Splice donor e acceptor consensus Branch site Translation start consensus Poly-A signals

Impossibile utilizzare un unico metodo Siccome i singoli parametri hanno un valore predittivo molto basso, tutti i programmi di predizione utilizzano varie combinazioni degli approcci content- e site-based. Alcuni programmi integrano anche un approccio comparativo. La combinazione è fondamentale se si vuole arrivare alla predizione di una struttura genica completa.

Esempio: MZEF valuta nove variabili Lunghezza dell’esone Probabilitá per un nucleotide di essere una transizione esone-introne (frequenza esameri in una sliding window di ± 54 nt). Probabilitá per un nucleotide di essere una transizione introne-esone. Preferenza posizione-dipendente triplette 5’ss Preferenza posizione-dipendente triplette 3’ss Punteggio branch site nella window -54/-3 Preferenza esameri forward versus reverse strand Preferenza esameri esone vs introne Preferenza esameri esone vs introne per uno specifico frame

La determinazione della struttura genica è fondamentalmente un problema decisionale.

Livelli di predizione Nucleotide level = assegnazione di ogni nucleotide ad uno degli stati possibili (ad esempio esone vs. introne). Exon level = predizione di tutto un esone. Gene level = predizione di tutto il gene

Approccio comune: l’apprendimento Qualunque sia il modello matematico utilizzato per la predizione, sia le coding statistics che i modelli delle sequenze segnale vengono appresi da un training set, che condiziona pesantemente l’efficienza dei programmi nel riconoscimento di diverse sequenze.

Per una valutazione dei diversi programmi bisogna considerare: Sensibilitá e specificitá a livello nucleotidico Sensibilitá e specificitá a livello esonico Proporzione di esoni non predetti Proporzione di esoni predetti erroneamente Proporzione di predizioni parziali Rogic, S., Mackworth, A. K., and Ouellette, F. B. (2001). Evaluation of gene-finding programs on mammalian sequences. Genome Res 11, 817-32.

Strumenti matematici utilizzati per la costruzione del modello Hidden Markov Models (HMM) Neural networks Linear discriminant functions Quadratic discriminant functions Dynamic programming Combinazione dei vari strumenti

Funzioni discriminanti lineari versus quadratiche

Parametri che possono influire sulla bontá delle predizioni Contenuto di G+C Lunghezza esoni Tipo di esoni

Contenuto G+C Categorie composizionali L1, L2, H1, H2, H3, progressivo aumento % G+C L1+L2 60% del genoma umano, H1+H2 30%, H3 5%. Densitá genica relativa: L1+L2 4%, H1+H2 20%, H3 76%. Le zone L1-L2 codificano proteine piú grandi, e i geni hanno piú introni e piú lunghi. La maggior parte dei porgrammi ha piú difficoltá a predire geni nelle zone A+T rich, per alcuni i parametri della ricerca possono essere regolati in base alla composizione.

Lunghezza esoni La lunghezza degli esoni interni segue una distribuzione approssimativamente gaussiana con picco tra 100 e 170 bp. Gli esoni piú piccoli vengono mancati molto facilmente dai diversi programmi. Gli esoni grandi vengono difficilmente mancati, ma spesso sono predetti in modo non accurato.

Tipo di esoni Interni (donor + acceptor site) Esterni (solo donor o acceptor, sequenze UTR) Unici (né donor né acceptor, sequenze UTR)

Programmi: GRAIL GRAIL: http://compbio.ornl.gov/Grail-1.3/ Basato su reti neurali che valutano il potenziale esonico di finestre di lunghezza fissa (100 bp). La versione 2 valuta anche l’informazione contestuale, ed è adatta alle predizioni delle strutture geniche, oltre ai singoli esoni. X-GRAIL. GRAIL EXP: http://grail.lsd.ornl.gov/grailexp/ Basato su GRAIL, include anche database search per raffinare il modello.

Programmi basati su HMM Genescan: http://genes.mit.edu/GENSCAN.html GenomeScan: http://genes.mit.edu/genomescan.html TwinScan: http://genes.cs.wustl.edu HMMgene: http://www.cbs.dtu.dk/services/HMMgene/ GeneMark.hmm: http://genemark.biology.gatech.edu/GeneMark/

GeneScan, GenomeScan, TwinScan

Altri programmi Quadratic discriminant analysis MZEF: http://argon.cshl.org/genefinder Quadratic discriminant analysis FGENES: http://genomic.sanger.ac.uk/gf/gf.shtml Linear discriminant analysis + dynamic programming Genie: http://www.fruitfly..org/seq_tools/genie.html Neural networks + HMM GeneMachine: http://genome.nhgri.nih.gov/genemachine/ Combination of programs

Il problema del primo esone e del promotore: First Exon Finder Basato su funzioni discriminanti quadratiche Suddivide i geni in due gruppi, quelli con promotore CpG related e non CpG related. Costruzione di database di primi esoni suddivisi nei due gruppi, utilizzato per istruire il programma. FirstEF: http://rulai.cshl.org/tools/FirstEF/ Promoter inspector http://www.genomatix.de/software_services/software/products.html

Esercitazione Data la sequenza GeneBank n. AC002467 Eseguire una predizione degli esoni e/o della struttura genica con i programmi GRAIL, Genescan, HMMgene e MZEF Valutare la concordanza tra le predizioni Valutare se i geni predetti da Genescan hanno un corrispettivo nella GeneBank Valutare se la predizione del secondo gene trovato con Genescan può essere migliorata con il programma Genomescan sapendo che la proteina codificata è omologa alla sequenza GB n. XM_092977

Esercitazione Data la sequenza GeneBank n. AC002467 5. Valutare se l’annotazione della sequenza genomica depositata in banca dati (NCBI e Ensembl) corrisponde alla predizione effettuata con genescan Cercare potenziali promotori con i programmi FirstEF e PromoterInspector Annotare la sequenza utilizzando il programma GeneMachine, includendo l’informazione dei potenziali promotori trovati

Compito Data la sequenza del file Esercizio2.txt Eseguire una predizione degli esoni e/o della struttura genica con il programma Genescan (gli altri sono facoltativi). Valutare se i geni predetti da Genescan hanno un corrispettivo identico nella GeneBank. Valutare se la predizione del terzo gene trovato con Genescan può essere migliorata con il programma Genomescan sapendo che la proteina codificata è omologa alla sequenza AF021935 (MRCKaa.txt). Utilizzando le risorse disponibili in banca dati, valutare se il gene è effettivamente trascritto.

Compito Data la sequenza del file Esercizio2.txt 5. Assemblate tutte le informazioni ottenibili con i programmi di predizione e le evidenze sperimentali sui trascritti reali per produrre quella che ritenete la sequenza aminoacidica più corretta (fornirla sotto forma di file FASTA). Determinare i dominii funzionali da cui è costituita la proteina Utilizzando le informazioni disponibili sul gene umano e sugli ortologhi in altre specie (in particolare topo), provare a predire la funzione della proteina.