Genomica Andrea G. B. Tettamanzi
Genomica e riconoscimento dei geni nucleotidi lettere codoni parole geni paragrafi cromosomi libri genoma enciclopedia Problema: come “leggere” il genoma?
Il genoma dei procarioti Risposta agli stimoli = alterazione livelli di espressione dei geni Funzioni dei geni nei procarioti: 32 geni o più: capacità di produrre e replicare il DNA 100 – 150 geni: fabbricazione delle proteine “strutturali” 30 geni o più: generazione e immagazzinamento dell’energia Insieme minimo: 256 – 300 geni.
Struttura di un gene nei procarioti operatore promotore terminatore Traduzione (mRNA -> Proteina) Open Readin Frame (ORF) Trascrizione (DNA -> mRNA) 1
Promotori e operatori (E. coli) Fattore σ Tipo di gene Sequenza a –35 Sequenza a –10 σ70 Generale TTGACA TATAAT σ32 (σH) Shock termico TCTCxCCCTTGAA CCCCATxTA σ54 (σN) Stress azoto CTGGCAC TTGCA σ28 (σF) Sintesi flagelli CTAAA CCGATAT σ38 (σS) Fase stazionaria CGTCAA CTxxTATAAT σ20 (σFecl) Trasp. Fe-dicitr. TGGAAA TGTAAT σ24 (σE) Proteine extra-citoplasmiche GAACTTC TCTGA
Open Reading Frame (ORF) Codone iniziale: AUG (codifica anche la metionina) Tre codoni “terminatori”: UAA, UAG, UGA Probabilità di occorrenza “casuale”: 3/64 = 4,69% ORF = sequenza di codoni non interrotta da terminatori Probabilità che una sequenza di N codoni non contenga terminatori: (61/64)N N = 60 confidenza = 95% che sia un ORF Sequenza di Shine-Delgarno: 5’-AGGAGGU-3’ poco a monte del primo codone
Terminatori di trascrizione “intrinseci” G C A A U C C C G A A A U U A G G G C U U U U U U Regione ricca di CG nel gambo U U U U Catena di U
Frequenza delle coppie G/C FG/C + FA/T = 1 Nei procarioti, 25% < FG/C < 75% Ciascuna frequenza è caratteristica di una specie Trasferimento orizzontale di geni Distorsioni nell’utilizzo di codoni
Il genoma degli eucarioti Eccezionalmente più complesso Organismi multicellulari, differenziazione cellulare Enormi quantità di DNA “spazzatura” Specie Dim. del genoma (Mb) Numero di geni Lievito 13 6 241 Caenorhabditis el. 100 18 424 Arabidopsis 130 25 000 Moscerino della frutta 180 13 601 Pesce zebra 1 700 ? Homo sapiens 3 000 45 000
Struttura dei geni negli eucarioti Trovare i geni è più difficile che trovare un ago in un pagliaio Una delle grandi sfide della Bioinformatica I migliori tentativi fino ad ora si basano su Reti neurali (GrailEXP, “http://compbio.ornl.gov/grailexp/”) Programmazione dinamica (GenScan, “http://genes.mit.edu/GENSCAN.html”) Tassi di predizione comunque inferiori al 50%!
Elementi promotori Esistono tre RNA polimerasi negli eucarioti: I, II e III Ciascuna riconosce un insieme distinto di promotori: RNA polimerasi I trascrive RNA ribosomici e riconosce promotori semplici tra –45 e +20; RNA polimerasi II trascrive geni che codificano proteine e riconosce promotori molto complessi posti tra –25 e molto più a monte; RNA polimerasi III trascrive tRNA ed altri piccoli RNA e riconosce promotori semplici tra +50 e +100 Ogni gene eucariotico ha un suo promotore unico e distinto Promotori riconosciuti da RNA polimerasi II si compongono di promotori basali + altri promotori a monte a cui si legano altre proteine. Stima di circa 5 promotori a monte
RNA polimerasi II Non riconosce direttamente i promotori Fattori di trascrizione basali: Proteina TATA-legante (TBP) Almeno 12 fattori associati alla TBP (TAF) Questi catalizzano il legame con l’RNA polimerasi II Promotori contengono una “box” 5’-TATAWAW-3’ (W = A/T) alla posizione –25 Sequenza iniziatrice alla posizione +1: 5’-YYCARR-3’ (Y = C/T, R = G/A)
Open reading frame (ORF) DNA -> RNA eterogeneo (hnRNA) -> mRNA Il passaggio hnRNA -> mRNA consiste in: Incappucciamento: alterazioni chimiche all’estremità 5’ Splicing (= giuntaggio?): rimozione degli “introni” Poliadenilazione: sostituzione dell’estremità 3’ con un’estensione di circa 250 basi A non presenti nella sequenza del gene Introni/Esoni Esistono almeno 8 tipi diversi di introni Quello associato in modo predominante ai geni che codificano proteine segue la “regola GU-AG” (cioè: introne = GU*AG) Esistono delle regole ben precise che determinano la rimozione precisa degli introni Splicing alternativo
Isole di CpG Abbondanza relativa del dinucleotide CG Normalmente questa abbondanza è solo il 20% di quella casuale Picchi di abbondanza lunghi 1-2 kb all’estremità 5’ di molti geni “Isole di CpG”, da –1500 a +500, con abbondanza casuale Spiegazione: processo di metilazione Metilazione fa sì che un dinucleotide CG abbia una grande probabilità di mutarsi nel dinucleotide TG
Isocore Regioni in cui l’abbondanza relativa di G/C si mantiene costante Il genoma è un mosaico di varie isocore Il genoma umano ne contiene 5: H3: 54% di G/C H2: 49% di G/C H1: 46% di G/C L2: 42% di G/C L1: 39% di G/C Associate a differenze funzionali: H3: 3 – 5% del genoma umano, 80% dei geni di housekeeping L1 + L2: 66% del genoma umano, 85% dei geni specifici dei tessuti
Analisi dell’espressione genica DNA Microarray Technology