Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche e browsers - Confronti fra genomi - Variabilità genomica: banche dati mutazioni e SNP
Progetti di sequenziamento
Banche dati genomiche Cromosoma n Annotazioni Tipo Id Cromosoma Inizio ATCTACACTACTCTCTGGGGCTACA..........GCGTACTAGTTAGCTAGCTGATCGA | | | | | 1 10 20 143.456.710 143.456.720 Annotazioni Tipo Id Cromosoma Inizio Fine Filamento Gene AGS_23GH I 10012534 10018434 FHD_34GH IV 10103466 10112347 II Promotore HHTRE_EE 23423933 23424233 SNP A/G IX 34234723 - Esone GFDDD_22 267567545 267568667
Visualizzazione annotazioni 10x
Browser genomici 200 Mb 1 Mb 10 Kb 200 bp
Individuazione geni Metodi sperimentali Metodi bioinformatici Metodi Estrinseci Metodi Intrinseci Confronto più genomi
ATGCTACTACGGATAGTATAGATGA Struttura di un gene Start codon Stop codon 5’ ATGCTACTACGGATAGTATAGATGA 3’ Promoter Procarioti Eucarioti gene medio 30K = 5' UTR 750 bp + 6 esoni 150 bp + 5 introni 5000 bp + 3' UTR 450 bp
Metodi estrinseci Genoma Proteina no 5', 3' e promotori 3' UTR 5' UTR Genoma Proteina no 5', 3' e promotori Proteina Omologa mancano esoni, diff.giunzioni cDNA 5' UTR 3' UTR no promotori 3' UTR manca regione 5' EST Altro Genoma 5' UTR 3' UTR Uniprot Allineamento Trascritti cDNA, EST
Annotazione geni
Schemi di lettura 3' 2' 1' senso antisenso 4' 5' 6'
Schemi di lettura aperti TAA, TGA o TAG ATG ORF
Composizione di un genoma Procarioti Eucarioti Dimensioni max 10M 10G % Codificante 85% 1-3% Geni con introni - 95% Numero introni 0-80 Lunghezza introni 3-100.00bp Predizione 99% 50%
Metodi intrinseci - Individuazione di contenuto - Individuazione di segnali
Contenuto regioni codificanti - Frequenze aminoacidiche - Frequenze dipeptidi - Preferenze per codoni diversi - Preferenza per G e C terminali in eucarioti superiori - Terza base tende ad essere la stessa Batterio shewanella
= Copie/Totale Nucleotidi Frequenze esanucleotidi 1 Gb Intero Genoma 1.01 Gb Sequenze non Codificanti 10 Mb Sequenze codificanti Ricerca Esanucleotide AAATGA 500.000 Copie 10.000 Copie Frequenza AAATGA = Copie/Totale Nucleotidi Frequenza Codificanti fC 0.1% fN 0.05% Frequenza Non Codificanti Punteggio AAATGA = log (fC/fN) = +0.3
Punteggio di una posizione Regione di 30 nucleotidi ATGATGTAGATCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGAATGATGTCTCGT AAATGA = +0.3 AATGAC = +2.1 ATGACT = -0.1 TGACTC = +1.5 GACTCT = ... ........................ CTAGCT = +0.2 TAGCTG = +3.1 PUNTEGGIO POSIZIONE "A" = MEDIA DEGLI ESANUCLEOTIDI = +1.9 TCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGA punteggio "C" = +1.8 TCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGA punteggio "T" = +1.6 ......
Ricerca regioni codificanti Punteggio della posizione +5 +4 +3 +2 +1 -1 -2 -3 -4 -5 Posizione nella sequenza Regione non codificante Regione non codificante ATGTAGATCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGAATGATGTCTCGT Regione codificante ? ? Regioni a punteggio non significativo Dove inizia e dove termina la regione codificante?
Siti di splicing 99% Esone Introne Esone --gaggcatcag|GTttgtagac-----A-----tgtgtttcAG|tgcacccact-- --ccgccgctga|GTgagccgtg-----A-----tctattctAG|gacgcgcggg-- --tgtgaattag|GTaagaggtt-----A-----atatctacAG|atggagatca-- --ccatgaggag|GTgagtgcca-----A-----ttatttgcAG|gtatgagacg-- Sito di ramificazione Sito donatore di splicing 99% Sito accettore di splicing
Segnali + contenuto Fine esone Inizio esone Regione non codificante Regione codificante Introne Introne Esone
Frame di lettura e esoni Fine esone 1 Introne Inizio esone 2 ...-ACT-TAA-ATG-ACT-CTGTGGGGATCGATCGAGCTAGA-ATA-GCT-GCT-GAT-... Splicing Rna Maturo ...-ACT-TAA-ATG-ACT-CTA-ATA-GCT-GCT-GAT-... ...-ACT-TAA-ATG-ACT-CTGTGGGGATCGATCGAGCTAGAC-ATA-GCT-GCT-GAT-... Giunzione scorretta ...-ACT-TAA-ATG-ACT-CTAC-ATA-GCT-GCT-GAT-... Frame shift Esone 1 Introne 1 Introne 2 Esone 2 Esone 3 ...-AGA-ACT-CTGTC..CCAGAC-ATA-...-GCG-GAGTG....CTAGA-ATA-CTG-... Esone falso Rna Maturo ...-AGA-ACT-CTA-ATA-CTG-...
Costruzione modello gene
Costruzione modello gene
Costruzione modello gene
Costruzione modello gene
Costruzione modello gene
Difficoltà - Numero di esoni: Distrofina 79 in 2.3 Mb - Lunghezza introni: Distrofina più di 100Kb più del 99% del gene - Esoni corti: Solo 3bp in Arabidopsis. - Vicini a estremità: 1bp dall'inizio codoni start e stop interrotti - Geni sovrapposti: in 3'-UTR , ma anche in introni. - mRna policistronici anche in Eucarioti. - Introni in regioni non codificanti 5' e 3' UTR - Splicing alternativo 35-60% geni umani ha più di un prodotto - Siti splicing non canonici - Siti multipli inizio trascrizione - Siti alternativi inizio traduzione ACG Arabidopsis, CUG uomo
Prestazioni attuali R = Esoni Reali P = Esoni Predetti Intero gene: Esoni Mancati R = Esoni Reali M P = Esoni Predetti C S C C Esoni Sbagliati Esoni Corretti Sensitività = C/R 78 % Selettività = C/P 81 % Mancati = M/R 9% Sbagliati = S/P 5% Intero gene: Arabidopsis 50%-66% Mammiferi 15-20% Previsione +ricerca mirata sta diventando alternativa a sequenziamento cloni cDNA random.
Allineamenti di 2 genomi Uomo-topo 40% conservato solo 2% codificante
Allineamento con un genoma annotato
Allineamenti di due genomi non annotati - Distinzione coding/ non-coding Rapporto mut. sinonime e non sinonime Indels con cambio di frame O indels che recuperano il frame perso Introne Esone Introne
Allineamenti multipli
Ricerca promotori - Analisi del contenuto - Analisi dei segnali - Allineamento di più genomi
Analisi del Contenuto - Isole CpG 300-3000bp : (70% p. umani ne contiene) - Previsioni di ripiegabilità, stabilità e curvatura del DNA - Diverse fequenze di parole nucleotidiche
Analisi dei Segnali - TATA box a -30 dal TSS - Banche dati promotori eucariotici - Overpredizione di 1000 volte dei TFBS
Allineamento di genomi Allineamento geni ortologhi (no paraloghi)