La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Annotazione strutturale dei genomi

Presentazioni simili


Presentazione sul tema: "Annotazione strutturale dei genomi"— Transcript della presentazione:

1 Annotazione strutturale dei genomi
Programmi utilizzati per la predizione genica in sequenze di DNA genomico Overview:

2 Sistemi di annotazione
Confronto di cDNA (EST)con sequenze genomiche Metodi predittivi - Ab initio - Homology Based

3 A cosa servono i metodi predittivi?
Una notevole percentuale dei geni identificati nell’ambito dei progetti di sequenziamento genomico codificano per proteine precedentemente sconosciute. Da ciò deriva la necessità di metodi computazionali per predire la struttura dei nuovi geni, in modo da annotare rapidamente le sequenze genomiche ed avere una guida per la validazione sperimentale.

4 Cosa bisogna predire? Esoni interni (-exon---gt---intron-----ag--exon---) Primo esone (sequenza 5’ UTR) Ultimo esone (sequenza 3’ UTR) Esoni unici Siti di splicing alternativo Promotori (TATA e CAAT boxes) Segnali di poliadenilazione (AAUAAA) ATG di inizio STOP codon Se la sequenza non è completa può essere necessario predire i singoli esoni.

5 Metodi utilizzabili per l’annotazione delle sequenze genomiche
Comparativi (programmi di allineamento) Content-based: analizzano le proprietà globali delle sequenze in esame Site-based: analizzano la presenza o assenza di specifiche sequenze segnale (pattern o consensus)

6 I metodi content-based usano le coding-statistics, e valutano:
Lunghezza degli esoni e degli introni Codon usage Frequenza di tutti i possibili esameri in una particolare cornice di lettura Frequenza di particolari triplette in dipendenza dal contesto (adiacenti a donor e acceptor site)

7 I metodi site-based usano signal sensors, valutando la presenza di:
Siti di legame per fattori trascrizionali Consensus promotori CpG islands Splice donor e acceptor consensus Branch site Translation start consensus Poly-A signals

8 Impossibile utilizzare un unico metodo
Siccome i singoli parametri hanno un valore predittivo molto basso, tutti i programmi di predizione utilizzano varie combinazioni degli approcci content- e site-based. Alcuni programmi integrano anche un approccio comparativo. La combinazione è fondamentale se si vuole arrivare alla predizione di una struttura genica completa.

9 Esempio: MZEF valuta nove variabili
Lunghezza dell’esone Probabilitá per un nucleotide di essere una transizione esone-introne (frequenza esameri in una sliding window di ± 54 nt). Probabilitá per un nucleotide di essere una transizione introne-esone. Preferenza posizione-dipendente triplette 5’ss Preferenza posizione-dipendente triplette 3’ss Punteggio branch site nella window -54/-3 Preferenza esameri forward versus reverse strand Preferenza esameri esone vs introne Preferenza esameri esone vs introne per uno specifico frame

10 La determinazione della struttura genica è fondamentalmente un problema decisionale.

11 Livelli di predizione Nucleotide level = assegnazione di ogni nucleotide ad uno degli stati possibili (ad esempio esone vs. introne). Exon level = predizione di tutto un esone. Gene level = predizione di tutto il gene

12 Approccio comune: l’apprendimento
Qualunque sia il modello matematico utilizzato per la predizione, sia le coding statistics che i modelli delle sequenze segnale vengono appresi da un training set, che condiziona pesantemente l’efficienza dei programmi nel riconoscimento di diverse sequenze.

13 Per una valutazione dei diversi programmi bisogna considerare:
Sensibilitá e specificitá a livello nucleotidico Sensibilitá e specificitá a livello esonico Proporzione di esoni non predetti Proporzione di esoni predetti erroneamente Proporzione di predizioni parziali Rogic, S., Mackworth, A. K., and Ouellette, F. B. (2001). Evaluation of gene-finding programs on mammalian sequences. Genome Res 11,

14 Strumenti matematici utilizzati per la costruzione del modello
Hidden Markov Models (HMM) Neural networks Linear discriminant functions Quadratic discriminant functions Dynamic programming Combinazione dei vari strumenti

15 Funzioni discriminanti lineari versus quadratiche

16 Parametri che possono influire sulla bontá delle predizioni
Contenuto di G+C Lunghezza esoni Tipo di esoni

17 Contenuto G+C Categorie composizionali L1, L2, H1, H2, H3, progressivo aumento % G+C L1+L2 60% del genoma umano, H1+H2 30%, H3 5%. Densitá genica relativa: L1+L2 4%, H1+H2 20%, H3 76%. Le zone L1-L2 codificano proteine piú grandi, e i geni hanno piú introni e piú lunghi. La maggior parte dei porgrammi ha piú difficoltá a predire geni nelle zone A+T rich, per alcuni i parametri della ricerca possono essere regolati in base alla composizione.

18 Lunghezza esoni La lunghezza degli esoni interni segue una distribuzione approssimativamente gaussiana con picco tra 100 e 170 bp. Gli esoni piú piccoli vengono mancati molto facilmente dai diversi programmi. Gli esoni grandi vengono difficilmente mancati, ma spesso sono predetti in modo non accurato.

19 Tipo di esoni Interni (donor + acceptor site)
Esterni (solo donor o acceptor, sequenze UTR) Unici (né donor né acceptor, sequenze UTR)

20 Programmi: GRAIL GRAIL: Basato su reti neurali che valutano il potenziale esonico di finestre di lunghezza fissa (100 bp). La versione 2 valuta anche l’informazione contestuale, ed è adatta alle predizioni delle strutture geniche, oltre ai singoli esoni. X-GRAIL. GRAIL EXP: Basato su GRAIL, include anche database search per raffinare il modello.

21 Programmi basati su HMM
Genescan: GenomeScan: TwinScan: HMMgene: GeneMark.hmm:

22 GeneScan, GenomeScan, TwinScan

23 Altri programmi Quadratic discriminant analysis
MZEF: Quadratic discriminant analysis FGENES: Linear discriminant analysis + dynamic programming Genie: Neural networks + HMM GeneMachine: Combination of programs

24 Il problema del primo esone e del promotore: First Exon Finder
Basato su funzioni discriminanti quadratiche Suddivide i geni in due gruppi, quelli con promotore CpG related e non CpG related. Costruzione di database di primi esoni suddivisi nei due gruppi, utilizzato per istruire il programma. FirstEF: Promoter inspector

25 Esercitazione Data la sequenza GeneBank n. AC002467
Eseguire una predizione degli esoni e/o della struttura genica con i programmi GRAIL, Genescan, HMMgene e MZEF Valutare la concordanza tra le predizioni Valutare se i geni predetti da Genescan hanno un corrispettivo nella GeneBank Valutare se la predizione del secondo gene trovato con Genescan può essere migliorata con il programma Genomescan sapendo che la proteina codificata è omologa alla sequenza GB n. XM_092977

26 Esercitazione Data la sequenza GeneBank n. AC002467
5. Valutare se l’annotazione della sequenza genomica depositata in banca dati (NCBI e Ensembl) corrisponde alla predizione effettuata con genescan Cercare potenziali promotori con i programmi FirstEF e PromoterInspector Annotare la sequenza utilizzando il programma GeneMachine, includendo l’informazione dei potenziali promotori trovati

27 Compito Data la sequenza del file Esercizio2.txt
Eseguire una predizione degli esoni e/o della struttura genica con il programma Genescan (gli altri sono facoltativi). Valutare se i geni predetti da Genescan hanno un corrispettivo identico nella GeneBank. Valutare se la predizione del terzo gene trovato con Genescan può essere migliorata con il programma Genomescan sapendo che la proteina codificata è omologa alla sequenza AF (MRCKaa.txt). Utilizzando le risorse disponibili in banca dati, valutare se il gene è effettivamente trascritto.

28 Compito Data la sequenza del file Esercizio2.txt
5. Assemblate tutte le informazioni ottenibili con i programmi di predizione e le evidenze sperimentali sui trascritti reali per produrre quella che ritenete la sequenza aminoacidica più corretta (fornirla sotto forma di file FASTA). Determinare i dominii funzionali da cui è costituita la proteina Utilizzando le informazioni disponibili sul gene umano e sugli ortologhi in altre specie (in particolare topo), provare a predire la funzione della proteina.


Scaricare ppt "Annotazione strutturale dei genomi"

Presentazioni simili


Annunci Google