I Genomi Eucariotici 97 genomi eucariotici completati (Ottobre 2008). La scelta dei genomi da sequenziare è dettata da vari criteri: Organismi modello.

I Genomi Eucariotici 97 genomi eucariotici completati (Ottobre 2008). La scelta dei genomi da sequenziare è dettata da vari criteri: Organismi modello facilità di manipolazione (lievito, Drosophila, C. elegans, Ciona, Danio) modelli di studio per malattie umane (scimpanzé, topo, ratto) Specie parassite e patogene di interesse per la salute/ economia umana Identificazione di marcatori molecolari utili per la diagnosi della patologia o per identificare target per la messa a punto di nuovi farmaci (es. Plasmodium, tripanosomi, etc.) Organismi “filogeneticamente interessanti - Organismi chiave per comprendere la storia evolutiva di un gruppo tassonomico (es. anfiosso, Ciona) Proprietà intrinseche del genoma - genoma relativamente piccolo rispetto ad altri organismi evolutivamente vicini, come per Arabidopsis thaliana e Fugu rubripes)

Distribuzione filogenetica dei progetti genomici nei Metazoi
I Genomi Eucariotici Distribuzione filogenetica dei progetti genomici nei Metazoi amphioxus

Dimensioni dei Genomi Eucariotici
viruses plasmids bacteria fungi plants algae insects mollusks reptiles birds mammals 104 108 105 106 107 1011 1010 109 Il Genoma umano è costituito da circa 3 miliardi di bp e contiene un numero di geni (ancora imprecisato) pari a circa 25,000. bony fish amphibians

Dimensioni e numero di cromosomi di varie specie eucariotiche
In celeste i genomi interamente sequenziati

I Genomi degli Eucarioti:contenuto di DNA
Il contenuto totale di DNA del genoma aploide è chiamato valore C ed è specifico per ogni organismo. Negli eucarioti si osserva una notevole variazione nella quantità del DNA (da pg nel microsporidio parassita Encephalitozoon intestinalis a 1400 pg nell’ameba Chaos chaos (una differenza di più di 600,000 volte). Tra gli animali il più piccolo è il nematote Meloydogine graminicola (0.03 pg) mentre il più grande è il pesce Protopterus aethiopicus ( pg). Il valore C subisce ampie variazioni all’interno di uno stesso phylum. (Saccone & Pesole, Handbook of Comparative Genomics, pg. 42)

I Genomi degli Eucarioti:contenuto di DNA
La più alta variabilità del C-value si osserva nei Protozoi e nelle Angiosperme. Noto il C-value è possibile calcolare le dimensioni del genoma in termini del numero di paia di basi. 1 bp ~ 650 Da  x 10-9 pg/bp [1012 x (650/6.023x1023)] Nbp = C-value (pg) / x 10-9 (pg/bp) da:

I Genomi degli Eucarioti: contenuto in DNA
Si osserva che il contenuto totale di DNA negli eucarioti e quindi la dimensione del genoma è correlata alla complessità dell’organismo (ad es., il genoma umano è più grande di quello degli insetti che è a sua volta più grande di quello funghi). Esistono però diverse eccezioni: es. il genoma di X. laevis è grande quanto quello dei mammiferi; altri anfibi hanno un genoma circa 50 volte più grande del genoma umano; tra le piante, il genoma di Zea Mais (5000 Mbp) è più grande di quello umano. In genere, per un dato raggruppamento tassonomico, la dimensione minima del genoma è approssimativamente proporzionale alla complessità dell’organismo

Paradosso del valore C La mancanza di correlazione tra la complessità genetica/morfologica di un organismo e le dimensioni del suo genoma è definita Paradosso del valore C. Il Paradosso del valore C è spiegato considerando: le dimensioni dei geni discontinui (numero - grandezza introni) La quantità di DNA ripetitivo, che rappresenta il componente più abbondante della porzione di DNA non codificante dei genomi eucariotici

Come misurare la Complessità biologica ?
La complessità biologica può essere “misurata” in diversi modi, ad es. sulla base della diversità di tipi cellulari, della complessità dei circuiti del cervello,……o del n° teorico di stati dell’espressione genica. Ipotizzando N geni umani e supponendo che ciascuno possa essere presente in due soli stati, ON o OFF, il numero di possibili stati sarebbe pari a 2N. In questo modo si potrebbe anche calcolare quanto un organismo è più complesso di un altro. 25,000 geni nel genoma umano Complessità = 225,000 Se si calcola la complessità solo sul numero di geni, non vi sono differenze macroscopiche nella complessità negli eucarioti. da: Claverie JM, Science :1255

Complessità Fenotipica
Il numero di tipi cellulari presenti in ciascun organismo può costituire un indice affidabile del livello di complessità di un organismo. Nell’uomo si stima vi siano circa 400 tipi cellulari. Se si calcola la complessità solo sul numero di geni, non vi sono differenze macroscopiche nella complessità negli eucarioti. da: Rokas A, Ann. Rev. Genet :251

Complessità genotipica vs fenotipica
Incremento del numero di costituenti (es. geni proteici) Nuove architetture proteiche (arrangiamenti lineari di domini proteici) Incremento della complessità del trascrittoma e del proteoma rispetto al genoma - uso di siti di inizio della trascrizione multipli - splicing alternativi - siti alternativi di poliadenilazione - modifiche post-traduzionali delle proteine Incremento della complessità delle reti di regolazione genica (es. sviluppo di meccanismi fini di regolazione dell’espressione genica nei metazoi grazie alla struttura modulare dei promotori) Le regioni non-codificanti del genoma concorrono alla complessità genotipica e fenotipica di un organismo.

I Genomi degli Eucarioti: numero di cromosomi
Come per il contenuto di DNA, anche il numero e le dimensioni dei cromosomi è molto variabile tra gli eucarioti. (125 Mbp) (180 Mbp) (97 Mbp) (3000 Mbp) (13 Mbp)

I Genomi degli Eucarioti: Mappe di sintenia
Human chromosome Uno specifico cromosoma di un organismo normalmente risulta omologo a tratti genomici diversi su più cromosomi di un altro organismo. Ad esempio il cromosoma 1 umano presenta omologia con estese regioni genomiche (>100 kbp) di 8 diversi cromosomi di topo. Mouse chromosome In tali regioni, dette “regioni sinteniche”, si osserva una sostanziale corservazione dell’ordine genico. Mouse chromosome Immagine tratta da:

I Genomi degli Eucarioti: numero di cromosomi
Non si osserva correlazione tra le dimensioni del genoma e il numero dei cromosomi, e tra il numero dei cromosomi e la complessità dell’organismo. Ad esempio, tra gli invertebrati, S. cerevisiae ha un genoma di 13 Mbp organizzato in 16 cromosomi mentre D. melanogaster ha un genoma di 180 Mbp, organizzato in 4 cromosomi; tra i vertebrati, lo zebrafish (Danio rerio) ha un genoma di 1700 Mbp, organizzato in 25 cromosomi, 2 cromosomi più dell’uomo.

I Genomi degli Eucarioti:
Eucromatina ed Eterocromatina Eucromatina: regioni cromosomiche non condensate, attivamente trascritte e ad alta densità genica (fibre 30 nm). Eterocromatina: (facoltativa o costitutiva): cromatina mediamente o altamente condensata e generalmente non trascritta, ad alta percentuale di sequenze ripetute e contenuto di geni relativamente basso. Comprende regioni telomeriche e centromeriche. L’eterocromatina, il rDNA satellite e altre regioni con DNA altamente ripetuto sono essenzialmente escluse da progetti genomici per difficoltà di clonaggio, sequenziamento e assemblaggio. In una tipica cellula di mammifero il contenuto di eterocromatina è pari a circa il 10%. in Drosophila melanogaster costituisce il 34% del genoma totale. Brown TA, Genomi 2, Fig, 2.8)

I Genomi degli Eucarioti:Compattezza
I genomi degli eucarioti hanno una densità genica molto ridotta. In media, i geni codificanti per proteine occupano solo il 2-4% dell’intero genoma. La scarsa compattezza del genoma nucleare è dovuta alla struttura discontinua dei geni, con introni che nei mammiferi possono raggiungere dimensioni intorno a kpb (ed oltre) e alla presenza di elementi ripetuti. I geni eucariotici sono monocistronici, tuttavia strutture simili agli operoni batterici sono state descritte in C. elegans. Densità genica in un segmento di 50 kbp

Compattezza di alcuni genomi eucariotici
Proprietà del genoma S.cerevisiae D.melanogaster H. sapiens Densità genica (numero medio di geni per Mb) 479 79 11 Introni per gene (media) 0,04 3 9 % del genoma occupata dalle ripetizioni intersperse 3,4% 12% 44%

Assenza di correlazione tra numero di geni e dimensione del genoma negli eucarioti
Number of genes in prokaryotes (up to 8000) Genome size in prokaryotes (up to 9 Mb)

Composizione in basi dei genomi eucariotici
I genomi eucariotici mostrano una minore variabilità nel contenuto in G+C rispetto ai genomi procariotici (25-75%), anche se differenze si possono osservare sia all’interno che tra i diversi phyla. I genomi eucariotici mostrano normalmente una marcata simmetria composizionale, come i genomi procariotici (i valori osservati di ATskew e GCskew sono tipicamente <0,01). Contenuto in G+C di alcuni genomi nucleari eucariotici

Le isole CpG La metilazione di citosine ad opera di DNA metil-transferasi è una delle più comuni modificazioni epigenetiche osservate nei genomi eucariotici. Nei vertebrati e nelle piante risulta metilato rispettivamente il 10% e il 30% delle citosine. Le citosine metilate sono generalmente quelle presenti nel dinucleotide 5’-CpG-3’ (anche 5’-CNG-3’ nelle piante). La 5-metil-citosina è successivamente soggetta a deaminazione formando timina. Il risultato di questo processo è che il dinucleotide CpG è generalmente evitato nel genoma dei vertebrati e delle piante. Nel genoma umano la frequenza osservata di CpG è circa 1/5 di quella attesa. Le isole CpG sono regioni ipometilate del genoma che mostrano una insolita abbondanza del dinucleotide CpG. Tipiche di vertebrati. La metilazione del DNA reprime la attività genica, quindi isole 5’CpG3’ sono non-metilate nei geni attivamente trascritti.

Isole CpG Si possono distiguere due tipi di metilazione: 1) di mantenimento, che ripristina il pattern di metilazione in seguito alla replicazione; 2) de novo, che modifica il pattern di metilazione del genoma. Queste attività sono a carico di metilasi diverse (nei mammiferi: Dnmt1, mantenimento; Dnmt3a, Dnmt3b, de novo). Le isole CpG sono localizzate nella regione del promotore di circa il 50% dei geni umani, la maggior parte dei quali di tipo costitutivo (housekeeping, espressi in molti tessuti diversi). Uno studio su larga scala condotto sul genoma di A. thaliana (risoluzione di 35 bp) ha mostrato che circa il 19% del genoma è metilato. La maggior pare delle regioni metilate è localizzata nell’eterocromatina, incluso il centromero. I livelli più elevati di metilazione sono osservati in corrispondenza di pseudogeni e geni non espressi. Il 5% dei geni espressi ha un promotore metilato. I geni con promotore metilato tendono ad essere espressi in modo tessuto specifico. Vedi: Brown TA, Genomi 2 (§ 8.2); Skipper M., Nature Rev. Gen. 7: 827 (2006)

CpG Obs/Exp = f (CG) / f (C) x f (G)
Isole CpG Nota la sequenza genomica è possibile predire la localizzazione delle isole GpG con programmi bioinformatici. La definizione operativa che viene comunemente utilizzata per la definizione di un’isola CpG nei mammiferi è la seguente: - L > 200 bp - C+G% > 50% - CpG Obs/Exp > 0.6 CpG Obs/Exp = f (CG) / f (C) x f (G)

La porzione non codificante dei genomi eucariotici
4.7 Mb 12.1 Mb 100 Mb 3000 Mb L’annotazione funzionale delle porzioni non-codificanti del genoma è una delle sfide principali dell’era post-genomica.

Che cosa è un GENE L’avvento dell’era genomica ha messo in crisi la tradizionale definizione di GENE, tuttora molto dibattuta. Lewin B. Il Gene VIII Segmento di DNA coinvolto nella produzione di una catena polipeptidica, comprende regioni (leader e coda) che precedono e seguono la regione codificante, oltre alle sequenze intercalate (introni) tra i singoli elementi codificanti (esoni). Brown T.A. Genomi 2 Un segmento di DNA contenente informazioni biologiche, che codifica per una molecola di RNA e/o proteina. Ambedue queste definizioni non possono essere considerate corrette alla luce delle attuali conoscenze. Ovviamente, se non ci si accorda sulla definizione di gene, non è possibile determinarne il numero, anche assumendo di disporre della annotazione completa del genoma.

Definizione di GENE Per giungere ad una definizione il più possibile corretta di GENE è necessario conoscerne le caratteristiche principali. Un gene può utilizzare diversi promotori La trascrizione di un gene si può arrestare in corrispondenza di diversi terminatori I trascritti espressi da un gene possono subire splicing alternativo che generano trascritti che differiscono sia nelle regioni non tradotte (5’ e 3’UTR) che nella regione codificante Il gene per tp73L codifica per 10 trascritti alternativi, e utilizza 2 promotori e 3 diversi terminatori della trascrizione (predizione ottenuta dal programma ASPIC).

I geni possono essere sovrapposti
I geni possono essere sovrapposti tra loro, nello stesso orientamento o in orientamento opposto, o anche essere completamente contenuti in altri geni. L’introne 26 del gene neurofibromatosis type I (NF1) contiene 3 geni diversi nell’orientamento opposto (OMGP, EVI2A, EVI2B). vedi:

Definizione di GENE Per cercare di giungere ad una definizione appropriata dobbiamo anche considerare la complessità dei trascritti espressi: Alcuni trascritti vengono originati dalla ligazione di diverse molecole di RNA attraverso il meccanismo del transplicing Si possono formare trascritti chimerici in seguito alla cotrascrizione di geni disposti in tandem

Uno stesso gene può esprimere proteine con funzioni opposte: l’esempio dell’attività della Caspasi 9 (CASP9) La forma costitutiva della proteina (CASP9, 9 esoni, 416 aa) induce apoptosi. Essa contiene un Caspase recruitment domain (CARD) e un dominio caspasi Peptidase_C14. L’isoforma più corta della proteina (CASP9S, 5 esoni, 266 aa) contiene un dominio Caspase recruitment domain (CARD) e un dominio tronco della Peptidase_C14. Questa isoforma è priva dell’attività proteasica e agisce da inibitore dell’apoptosi.

Uno stesso gene può codificare per proteine indirizzate a diversi compartimenti cellulari: l’esempio del gene NFS1 La proteina codificata dal gene NFS1 fornisce zolfo inorganico ai cluster ferro-zolfo rimuovendo lo zolfo dalla cisteina, e formando alanina nel processo. Questo gene utilizza siti di inizio alternativi della traduzione per generare una isoforma mitocondriale ed una isoforma citoplasmatica. La selezione del sito di inizio della traduzione è regolata dal pH citosolico. L’isoforma che codifica per la proteina mitocondriale (457 aa) contiene un peptide segnale e un dominio aminotrasnferasico. L’altra isoforma, che deriva sa un sito di inizio alternativo della trascrizione codifica per una proteina più corta (397 aa) priva del peptide segnale ma contenente il dominio aminotransferasico.

Uno stesso gene può codificare trascritti soggetti ad un diverso meccanismo di regolazione post-trascrizionale: l’esempio di SLC11A2 expression Il gene SLC11A2 (divalent cation transporter) codifica per (almeno) due diverse isoforme, solo una delle quali risponde alla concentrazione del ferro (i.e. i livelli della proteina aumentano sensibilmente in seguito alla carenza di ferro). Responsabile del mecanismo di regolazione è un “Iron Responsive Element (IRE)” nella regione 3’UTR presente solo in una delle due isoforme. IRE Nell’uomo il trascritto contenente l’IRE (16 exons) codifica per una proteina di 561 aa (NM_000617). Il trascritto privo di IRE (17 exons) non è presente nella banca RefSeq e codifica per una proteina di 568 aa. IRE La stessa situazione si verifica nel topo, The same occurs in mouse, where the only RefSeq entry is the IRE-less isoform (NM_008732). Il meccanismo di risposta al ferro appare specifico del tipo cellulare.

Definizione di GENE Nuova definizione:
Una specifica regione di DNA, la cui trascrizione è regolata da uno o più promotori e altri elementi di controllo trascrizionale che contiene l’informazione per la sintesi di proteine e RNA non codificanti funzionali, tra loro correlati per la condivisione di informazione genetica (con un tratto di sequenza genomica in comune) a livello dei prodotti finali (proteine o ncRNA). In questo modo è possibile associare al gene specifiche coordinate genomiche che coincidono con il sito di inizio della trascrizione più a monte e il sito di terminazione più a valle. Gene

Una nuova definizione operativa di gene
DNA A C A B C A C Due trascritti, un gene: i prodotti funzionali finali si sovrappongono a livello genomico. I due trascritti sono “geneticamente correlati” in quanto una mutazione nella regione di sovrapposizione avrebbe effetti su entrambi. Al fine di valutare se due trascritti sono geneticamente correlati è necessario conoscere la localizzazione della regione codificante. In alternativa, questa può essere predetta attraverso una serie di approcci bioinformatici.

Una nuova definizione operativa di gene
DNA A B C H Due trascritti, due geni: i prodotti funzionali finali non si sovrappongono a livello genico, mentre si osserva sovrapposizione a livello delle regioni 5’UTR. I due trascritti non sono “geneticamente correlati” in quanto nessuna mutazione può avere effetto su entrambi i prodotti finali. Una mutazione localizzata nella regione 5’UTR può modulare il livello di espressione di un gene, esattamente come una mutazione a livello di un promotore o di una regione enhancer. See: Denoeud et al., Prominent use of distal 5' transcription start sites and discovery of a large number of additional exons in ENCODE regions, GENOME RESEARCH (2007) .. “ Our results also suggest that genes are using the promoter(s) of other neighboring genes in specific cells and developmental stages, … Consistently, we observe that 6.2% (46/738) of the new 5’ends .. are shared by several genes, a proportion very likely to be underestimated..”

Definizione di GENE X Y A B C H D E F DNA genes spliced transcripts
1 A B C H D E F 2 4 2/3 3 DNA genes spliced transcripts products G chimeric transcript

Genoma nucleare umano (Nature, 431: , 2005) (da: Molecular Biololgy of the Cell, Fig. 4.17) La porzione codificante rappresenta l’1-2% del genoma (geni codificanti per proteine, tRNA e rRNA. La porzione non-codificante è costituita da sequenze uniche e sequenze ripetute. Queste si suddividono in: 1) ripetizioni intersperse LINEs, SINEs, LTR, trasposoni a DNA); e 2) ripetizioni in tandem (blocchi ripetuti in tandem dei centromeri e dei telomeri, micro- e mini-microsatelliti, duplicazioni segmentali). La distribuzione degli elementi ripetuti varia trai i cromosomi, con alcuni cromosomi che contengono anche il 90% di DNA non codificante

Porzione codificante del genoma eucariotico
- geni codificanti per proteine, in copia singola geni codificanti per proteine, organizzati in famiglie geniche geni per rRNA, tRNA ed istoni, organizzati in unità ripetute in tandem geni per ncRNA Ridondanza genetica del genoma nucleare I geni organizzati in famiglie geniche sono tra loro omologhi, e derivano da un evento di duplicazione genica o di retrotrasposizione mediata da RNA. I membri di una famiglia genica all’interno di uno stesso genoma sono detti paraloghi, e normalmente si specializzano acquisendo funzioni distinte.

Organizzazione genica negli eucarioti
I geni eucariotici sono monocistronici Eccezioni: Unità di trascrizione policistroniche risolte in mRNA maturi monocistronici per trans-splicing (es in tripanosomi, nematodi, platelminti); uso di IRES, reinizio della traduzione o frameshift traduzionale I geni eucariotici non mostrano nessuna evidente relazione tra localizzazione e l’attività funzionale (functional clustering) o con l’espressione spazio-temporale Eccezioni: Raggruppamento di geni con funzione correlata, quali geni Hox, geni per emoglobine e geni per immunoglobuline (duplicazioni in tandem?)

Organizzazione genica negli eucarioti
Alcuni geni eucariotici sono policistronici Taxon Entità Tripanosomi (Euglenozoa) tutti gli RNA Cnidari alcuni RNA Platelminti (Metazoa Acoelomata) pochi RNA Nematodi (Metazoa Pseudocoelomata) molti RNA Ciona intestinalis/Oikopleura dioica molti RNA Il processamento del precursore policistronico è associato al Trans Splicing delle estremità 5’ degli mRNA e alla poliadenilazione delle estremità 3’ per generare i trascritti monocistronici. Bilateria * Acoelomata: Platyhelminthes (flatworms) * Coelomata: Deuterostomia, Protostomia * Pseudocoelomata: Acanthocephala (thorny-headed worms) Cycliophora Gastrotricha (gastrotrichs) Kinorhyncha Micrognathozoa Nematoda (roundworms) Nematomorpha (horsehair worms) Rotifera (rotifers) Cnidari non sono Bilateria Eukaryota; Euglenozoa; Kinetoplastida; Trypanosomatidae

Geni codificanti per proteine
geni presenti in unica copia (single-copy genes) geni omologhi presenti in copie multiple ed organizzati in famiglie geniche I membri di una stessa famiglia genica possono essere localizzati in unico cluster, dispersi, o localizzati in più cluster: Geni in cluster: -globin (7), growth hormone (5), Class I HLA heavy chain (20),…. Geni dispersi: Pyruvate dehydrogenase (2), Aldolase (5), PAX (>12),.. Geni localizzati in più cluster: HOX (38 – 4), Histones (61 – 2), Olfactory receptors (>900 – 25),…

La struttura dei geni eucariotici
Nel genoma umano non si osserva una distribuzione omogenea dei geni. La più alta densità genica si osserva nel chr 19, mentre il chr 13 e Y mostrano la più bassa densità. GENE introne introne esone esone esone TSS TRASCRIZIONE mRNA TRADUZIONE 5’UTR CDS 3’UTR 3’UTR Caratteristiche dei geni umani

La struttura dei geni eucariotici
I geni eucariotici presentano una grande varietà di strutture e dimensioni. Ad esempio nel genoma umano: Il più piccolo: tRNAGLU (69 bp) Il più grande: Distrofina (2.4 Mb, la sua trascrizione richiede circa 16h) Il numero di esoni può variare da 1 (geni privi di introni come molti geni per ncRNA, interferoni, istoni, ribonucleasi, HSP, GPCR, ecc.) sino a 363 (Titina). Le dimensioni degli esoni e degli introni sono estremamente variabili. A fronte di esoni costituiti da pochi nucleotidi, l’esone più grande è presente nel gene per ApoB (7.6 kbb). Anche le dimensioni degli introni possono variare da pochi nucleotidi fino a 800 kbp (gene WWOX). Le proteine codificate possono variare nelle dimensioni da pochi residui (piccoli ormoni) sino a molte migliaia (Titina, aa).

Splicing Alternativo Lo splicing alternativo aumenta in modo considerevole la complessità del trascrittoma (e quindi del proteoma).

Splicing Alternativo Oltre il 90% dei geni umani è in grado di esprimere più di un trascritto (ed è quindi soggetto a splicing alternativo). Le diverse isoforme di splicing possono avere specificità a livello di tessuto, di condizione fisiologica, o patologica. (Pesole et al., dati non pubblicati)

La struttura dei geni eucariotici: introni
IHGSC, Nature : , Tab. 35 I geni umani contengono introni mediamente più lunghi dei geni di C.elegans o Drosophila.

La funzione dei geni eucariotici
La funzione di una grossa frazione dei geni umani rimane sconosciuta

Geni per ncRNAs I genomi eucariotici codificano per un gran numero di RNA non codificanti proteine (ncRNA). Circa il 30% dei trascritti identificati nel topo risulta non codificante per proteine. snoRNA: Processing e modificazione di rRNA nel nucleolo. I C/D box snoRNA sono responsabili della metilazione a livello del 2’-O-ribosio ( siti), gli H/ACA snoRNA guidano la pseudouridinazione sito-specifica (95 siti). snRNA: ricchi in U, numerati U1, U2, U3, etc. RNA coinvolti nello splicing (U1, U2, U4, U6…), presenti in copie multiple.

Geni codificanti i tRNA
I singoli geni codificanti per i tRNA sono presenti in copie multiple nel genoma. Nella sequenza del genoma umano, sono stati individuati 497 geni per tRNA, che rappresentano 49 specie di tRNA sulla base dell’anticodone (21 isoaccettori). I geni per tRNA sono dispersi nel genoma ma sono organizzati in cluster: più del 50% sono localizzati sul cromosoma 6 (140 geni in una regione di 4Mpb) e sul cromosoma 1. Altri cromosomi hanno meno di 10 geni per tRNA. Il numero di geni per tRNA risulta correlato con le dimensioni degli oociti. IHGSC, Nature : , Tab. 35

Geni codificanti gli rRNA
I geni codificanti per per gli rRNA 28S, 5,8S e 18S sono organizzati in un’unità trascrizionale ripetuta in tandem. Nel genoma umano, le ripetizioni sono organizzate in 5 cluster di circa copie presenti sul braccio corto dei cromosomi 13,14,15, 21 e 22. I geni l’rRNA 5S sono organizzati in unità ripetute che formano un cluster di ~ geni in prossimità dell’estremità telomerica del cromosoma 1

Geni codificanti i miRNA
La banca dati MirBase colleziona tutti i miRNA noti: che nell’uomo sono circa 700.

Famiglie geniche Le famiglie geniche sono componenti comuni di tutti i genomi eucariotici, soprattutto di quelli degli organismi complessi, dove la formazione delle famiglie geniche è considerata una strategia utilizzata dal genoma nucleare per specializzare il ruolo funzionale di alcuni geni, sia per quanto riguarda il profilo di espressione che per quanto riguarda il ruolo funzionale delle proteine espresse. Le famiglie geniche possono andare incontro a contrazioni o espansioni (relazioni “uno a molti” o “molti a molti”)

Famiglie geniche Le famiglie geniche possono essere generate attraverso diversi meccanismi: poliploidizzazione del genoma duplicazione di segmenti genomici (famiglia dei geni omeotici) duplicazione di un singolo gene (geni per a e b globine) retrotrascrizione

Duplicazioni geniche: poliploidizzazione (2R)
Due “Round” di duplicazioni genomiche nei progenitori dei vertebrati, probabilmente una subito prima e una subito dopo la diversificazione degli Agnatha (lampreda e affini). R2 R1 Wolfe, 2001 Nature Review 2: One to four Vertebrati Invertebrati Sintenie; cluster di geni Hox esaploidi Duplicazioni genomiche dedotte

Duplicazioni geniche: poliploidizzazione (2R)
Successivamente alla duplicazione genomica possono intervenire eventi di acquisto e perdita di geni che modificano la struttura dei cluster. Fig 2 da Wolfe 2001 Nature Reviews 2:

Famiglia dei geni omeotici
Il Cluster di geni Hox è quadruplicato nei mammiferi rispetto a Drosophila Drosophila Vertebrati Evoluzione della famiglia dei geni omeotici attraverso un processo a due stadi: 1) nel primo stadio, eventi di duplicazione in cis del gene primordiale hanno prodotto i diversi componenti del cluster negli invertebrati 2) nel secondo stadio, eventi di duplicazione in trans dell’intero cluster hanno prodotti cluster multipli Nei vertebrati, la duplicazione genica è stata accompagnata da perdita di geni

Famiglia dei geni per le globine
Progenitore proto-a Progenitore proto-b Cromosoma 22 Cromosoma 16 Cromosoma 11

Produzione di due copie identiche di un gene
Destino geni duplicati Duplicazione genica Produzione di due copie identiche di un gene Delle due copie, una continua a svolgere la propria funzione, l’altra può andare incontro a diversi destini Il gene duplicato, non essendo sottoposto alla stessa pressione selettiva del gene ancestrale, può accumulare mutazioni casuali Il gene duplicato mantiene la stessa funzione del gene ancestrale (istoni) Gene redundancy L’accumulo di mutazioni porta all’inattivazione del gene duplicato, trasformandolo in pseudogene (pseudogeni delle a e b globine) L’accumulo di mutazioni fa sì che il gene duplicato possa acquisire una nuova funzione utile per l’organismo (le nuove funzioni acquisite possono diventare specie-specifiche)

Duplicazioni intra-geniche
Nuove funzioni geniche possono essere acquisite mediante riarrangiamento di segmenti genici codificanti per domini proteici strutturali 2 meccanismi: - duplicazione dei domini - rimescolamento dei domini

Duplicazioni intra-geniche
Esempio di duplicazione di domini strutturali: gene per il collagene a2 di tipo I 338 ripetizioni Gly-X-Y, presenti in 42 dei 52 esoni del gene. Ogni esone codifica per un numero completo di ripetizioni. Evoluzione del gene mediante duplicazione degli esoni che ha portato alla ripetizione di domini strutturali Esempio di rimescolamento dei domini strutturali: gene per l’attivatore del plasminogeno tissutale TPA 4 esoni codificanti domini strutturali diversi: 1° esone simile a quelli della fibronectina, proteina che lega la fibrina, 2° esone codifica per un dominio tipico dei fattori di crescita 3° e 4° esone codificano per strutture kringle (legano i coaguli di fibrina) presenti nel gene per plasminogeno

Pseudogeni Talvolta la copia di un gene non è funzionale, ovvero non viene trascritta in RNA, o viene trascritta in un RNA non funzionale. Le copie inattive di un gene vengono dette pseudogeni. Gli pseudogeni possono essere classificati in: 1) non processati; 2) processati. Nel primo caso il gene inattivo è originato dal gene funzionale e contiene la tipica struttura in esoni ed introni. La copia genica può essere completa o parziale. Gli pseudogeni di questo tipo si formano con maggiore probabilità nelle regioni pericentromeriche. Gli pseudogeni processati sono privi di introni in quanto derivano dalla retrotrasposizione di mRNA (retropseudogeni). Il numero di copie di retropseudogeni è correlato al livello di espressione del gene da cui derivano.

Pseudogeni La Trascrittasi Inversa codificata da elementi LINE può retrotrascrivere un mRNA in cDNA che successivamente può essere integrato a caso in un cromosoma. Se sul sito di inserimento è casualmente presente un promotore il retrogene può essere eventualmente espresso e diventare funzionale. Normalmente, questo non accade e lo pseudogene comincia ad accumulare mutazioni casuali che distruggono la ORF funzionale (frameshifts, codoni di stop).

Pseudogeni Nel genoma umano sono stati descritti ~8.000 pseudogeni (~5.000 nel genoma del topo). Il maggior numero di pseudogeni processati deriva da geni per proteine ribosomiali; altri gruppi derivano da geni che codificano per proteine che legano il DNA e l’RNA, per molecole strutturali ed enzimi metabolici. Molti pseudogeni derivano da geni a cui non è stata attribuita una funzione. Oltre al livello di espressione dei geni, altri fattori gene-specifici sono responsabili dell’origine degli pseudogeni, quali la lunghezza o il loro contenuto in G+C.

Ripetizioni in tandem: Duplicazioni segmentali
Le duplicazioni segmentali sono ripetizioni di segmenti genomici comunemente osservate in genomi di animali e piante, non riconducibili a elementi trasponibili, di lunghezza ≥10 kbp e identità ≥90%. Queste possono essere anche molto estese come nel cromosoma Y umano che presenta un blocco ripetuto di 1.45 Mbp. La porzione eucromatica del genoma umano contiene circa il 5,3% di duplicazioni segmentali che sono classificate in : -duplicazioni inter-cromosomiche, segmenti che si sono duplicati tra cromosomi non omologhi; -duplicazioni intra-cromosomiche, segmenti duplicati all’interno di un particolare cromosoma. Duplicazione segmentali Gap Vedi:

Ripetizioni in tandem: Duplicazioni segmentali
Le duplicazioni segmentali sono localizzate in prevalenza nelle regioni adiacenti ai centromeri, mentre raramente coinvolgono le regioni più distali di ciascun braccio dei cromosomi. Sono di grande interesse in campo medico in quanto sono regioni che mostrano una particolare predisposizione a riarrangiamenti con conseguenti effetti fenotipici. Sono note varie malattie genetiche correlate a queste regioni (es. sindrome DiGeorge, Charcot-Marie-Tooth, etc.). Possono essere originate da: 1. Crossing over diseguale durante la meiosi 2. Scambio diseguale tra cromatidi fratelli

Copy Number Variations (CNV)
Le duplicazioni segmentali sono una importante fonte di variabilità genetica tra individui nella popolazione umana. Dato che si estendono su più geni, portano alla variazione del numero di copie di determinati geni tra diversi individui. E’ oggi possibile fare studi su larga scala di queste varianti strutturali del genoma mediante specifiche piattaforme di microarray. Uno studio su 270 individui di 4 popolazioni ha identificato circa 1500 CNVs. I CNV sono responsabili di variazioni del livello di espressione genica e possono essere associati a specifici tratti fenotipici e/o patologici (es. HIV, cancro della mammella, autismo, malattie auto-immuni). Nature 444: , 2006

Microsatelliti e Minisatelliti
I microsatelliti sono costituiti da unità di ripetizione lunghe da 1 a 10 pb, ripetute in tandem volte, che formano raggruppamenti molto corti, <150pb, di tipo (A)n, (CA)n, (CGG)n, ecc. Sono anche detti SSR (simple sequence repeats). Le ripetizioni possono essere perfette o presentare piccole variazioni. I minisatelliti sono costituiti da unità più lunghe (da 11 a 100pb) ripetute in tandem volte che formano raggruppamenti di lunghezza fino a 20kb Gli SSR costituiscono circa il 3% del genoma umano. Sono molto importanti nello studio delle malattie genetiche in quanto mostrano un elevato grado di polimorfismo nella popolazione umana. Da: Lander et al. Nature 2001, 409: 860

Gli SSR possono formarsi attraverso un meccanismo di scivolamento della replicazione
Gli SSR sono presenti con una frequenza di almeno uno ogni circa 2 kb del genoma. Si originano da vari meccanismi tra cui il più importante è lo scivolamento della DNA polimerasi durante la replicazione.

Microsatelliti: Genetic Fingerprint
Caratteristiche degli SSRs Polimorfismo di lunghezza: DNA fingerprinting Spesso adoperati come marcatori genetici per la mappatura di geni associati a patologie.

Microsatelliti e malattie genetiche
I microsatelliti, ed in particolare le ripetizioni di triplette sono associati a varie malattie genetiche (vedi Cummings and Zoghbi, ARGHG 2000).

Regioni Telomeriche Il DNA telomerico consiste di centinaia di copie di un motivo ripetuto in tandem, ricco in T e G, che nell’uomo e in altri vertebrati è 5’-TTAGGG-3’. Il DNA telomerico identifica le estremità dei cromosomi e impedisce l’accorciamento dei cromosomi ad ogni evento di replicazione.

Regioni Centromeriche
Il centromero, in metafase, appare costituito da una specie di strozzatura laddove i due cromatidi fratelli sono uniti. Nei primati, il centromero è costituito da monomeri ripetuti in tandem, ognuno dei quali e' approssimativamente lungo 171 bp. La ripetizione dei monomeri costituisce il cosiddetto DNA alfoide o alfa satellite. Il DNA alfoide forma dei blocchi che rappresentano una porzione cospicua del genoma umano (>60 Mbp), ma che sono ancora poco rappresentati nelle sequenze genomiche ottenute nell’ambito del progetto di sequenziamento. Le differenze di sequenza fra alfoidi di cromosomi diversi sono sufficienti a dare ad una sequenza alfoide una alta specificità per il cromosoma da cui deriva.

Metodi Bioinformatici per l’individuazione di SSR

Porzione non codificante:Ripetizioni intersperse
Costituite da sequenze di DNA ripetute, disperse in tutto il genoma. Sono definite anche Elementi mobili del DNA, perché derivano da elementi trasponibili (sequenze di DNA che si muovono o sono duplicate da una posizione ad un’altra nel genoma) Classe I o Retrotrasposoni si originano per eventi di retrotrasposizione, attraverso un intermedio ad RNA elementi LTR LINEs: long interspersed nuclear elements SINEs: short interspersed nuclear elements Classe II o Trasposoni a DNA si originano attraverso un intermedio a DNA, secondo meccanismo di trasposizione conservativa o replicativa

Retrotrasposoni La caratteristica di tutti i retrotrasposoni è la presenza di brevi ripetizioni dirette alle estremità 3’ e 5’ , copia della sequenza del sito d’integrazione.

Ripetizioni Intersperse nel Genoma Umano
Gli elementi ripetuti interspersi costituiscono cirva il 45% del genoma umano. LINE (Long interspersed nuclear elements) L1, L2, L3 LINE ( ~21% del genoma, ~100,000 copie) SINE (Short interspersed nuclear elements) Alu (~10,7% del genoma, ~1,200, 000 copie) MIR, MIR3 (~3% del genoma, ~500,000 copie) Elementi LTR (Long Terminal Repeats) ERV, MalR (8% del genoma, ~500,000 copie) Transposoni a DNA MER1 (Charlie), MER2 (Tigger), others (2,8% del genoma, ~350, 000 copie)

Elementi LTR Gli elementi LTR o retrotrasposoni virali (6-7kb) presentano analogie con i retrovirus. Caratteristici degli invertebrati (piante, funghi, insetti) dove sono presenti in gran numero di copie Elementi Ty in S. cerevisiae mancano del gene env e non elementi copia in Drosophila possono formare particelle virali pb

LINEs:long interspersed nuclear elements
promotore Pol II RNA binding anche endonucleasi ripetizioni dirette Gli elementi LINEs o trasposoni non-LTR hanno una lunghezza di circa 6-7kb, contengono un promotore per l’RNA polimerasi II (derivano da trascritti della l’RNA pol II), una o due ORF e un segnale di poliadenilazione all’estremità 3’. ORF1 codifica per una proteina a funzione ignota ( lega l’RNA?), ORF2 codifica per un’enzima che possiede sia un’attività di trascrittasi inversa (RT), simile a quella dei retrovirus e dei retrotrasposoni virali, che un’attività di DNA endonucleasi (EN). Vi sono tre famiglie principali di elementi LINES: L1 (incluse copie tuttora attive e moltissime copie inattive troncate all’estremità 5’); L2 e L3 (inattive). Le copie attive inserendosi in punti critici del genoma possono inattivare dei geni con conseguente insorgenza di patologie. Le LINEs si inseriscono preferibilmente nelle regioni eucromatiche ricche in A+T. 6-7kb

Meccanismo di trasposizione degli elementi LINEs
Generazione di un trascritto LINE full-length a partire dal promotore. ORF1 e ORF2 vengono tradotte e legano il LINE mRNA. 5’ ’ orf1 orf2 3. Il complesso LINE mRNA/ORF1/ORF2 si sposta nel nucleo, dove l’attività endonucleasica di ORF2 taglia il dsDNA. L’estremità libera al 3’ (sul DNA) funge da innesco per la retrotrascrizione a partire dal 3’UTR. 5’ ’ orf1 orf2 5’ ’ 3’ 5’ Il sito di taglio di ORF1 è TTTT A, e questo spiega l’integrazione preferenziale nelle regioni genomiche ricche in AT. Dato che la LINE RT ha una bassa processività molte delle copie integrate sono tronche (solo 1/100 è completa).

SINEs: short interspersed nuclear elements
B A AAAA SINE Gli elementi SINEs sono elementi non-autonomi, hanno una lunghezza compresa tra 0.1 e 0.4 kb. Hanno un promotore (interno) per L’RNA polimerasi III (derivano da trascritti della l’RNA pol III), e una regione ricca in A all’estremità 3’ ma non contengono un segnale di poliadenilazione. Gli elementi SINEs non contengono alcuna ORF codificante per una trascrittasi inversa, ma sono in grado di trasporre utilizzando la trascrittasi inversa sintetizzata da altri retroelementi (trasposizione LINEs-dipendente).

SINEs: short interspersed nuclear elements
Gli elementi SINEs sono distribuiti ad alta densità nelle regioni ricche in CG del genoma (isocore H), perché hanno un più elevato contenuto C+G (~57%) rispetto agli elementi LINEs ( 40%). Nel genoma dei primati sono presenti tre differenti famiglie di elementi SINEs: l’elemento Alu, ancora attivo, e gli elementi inattivi MIR e Ther2/MIR3. L’elemento Alu, il più comune nei primati, è lungo 0,3kb; è presente in circa di copie nel genoma umano e rappresenta quindi oltre il 10% di tutto il genoma. Presenta una regione ricca in A/T all’estremità 3’, coinvolta nel meccanismo di retrotrasposizione. Le sequenze Alu sono localizzate a monte o a valle dei geni, negli introni, nelle regioni 5’ e 3’ non tradotte dell’mRNA. Non è noto il loro ruolo funzionale, nonostante siano molto diffuse nel genoma di tutti i primati. Le sequenze Alu presentano analogie con l’RNA 7SL, componente di una particella ribonucleoproteica coinvolta nel meccanismo di secrezione dei polipeptidi di nuova sintesi attraverso le membrane del reticolo endoplasmatico. Si ritiene che il primo elemento Alu si è originato per un evento di retrotrascrizione di una molecola di RNA 7SL e successiva integrazione della copia nel genoma.

Meccanismo di retroposizione dell’elemento Alu
Si pensa che il taglio al sito di inserimento sia opera della L1 endonucleasi Target-primed reverse transcription (TPRT) Il promotore pol III è necessario ma non sufficiente per la trascrizione che richiede anche sequenze fiancheggianti appropriate. La maggior parte degli elementi Alu integrati non è attiva in quanto non viene integrata in un contesto favorevole e muta rapidamente sia nelle sequenze CpG che nella regione ricca in A. da: Batzer and Deininger, Nature Rev. Gen. 3:370380, 2002)

Evoluzione e classificazione degli elementi Alu
Gli elementi Alu sono classificati in sottofamiglie che si differenziano per l’epoca della loro integrazione nel genoma, dalle più antiche (Sx, J) alle più recenti (Yc1, etc.). da: Batzer and Deininger, Nature Rev. Gen. 3:370380, 2002)

Danni genomici indotti da Alu
Numerose patologie sono provocate dall'integrazione casuale di Alu (Neurofibromatosi, haemophilia, sindrome di Apert, ecc.) o da ricombinazione disuguale (diabete di tipo II, sindrome di Lesch–Nyhan, malattia di Tay–Sachs, ipercolesterolemia familiare, α-thalassaemia, ecc.).

Trasposoni a DNA I Trasposoni a DNA sono elementi mobili distinti in due categorie: Trasposoni a DNA che si spostano replicandosi: una copia rimane nel sito originale, mentre la nuova copia si inserisce altrove nel genoma Trasposoni a DNA che si spostano in maniera conservativa, da un sito all’altro del genoma senza aumentare il numero di copie Sono caratterizzati da una sequenza codificante la trasposasi contenente introni, fiancheggiata da ripetizioni terminali invertite, simili a quelle dei trasposoni batterici. Sono meno comuni negli eucarioti (3% nel genoma umano, raggruppati in 7 classi principali) rispetto ai retrotrasposoni. I più noti sono gli Elementi Ac e Ds del granturco, i primi elementi mobili identificati negli anni 50 da B. McClintock e gli elementi P di Drosophila. Traspongono mediante il meccanismo di trasposizione conservativa

Funzione degli elementi ripetuti
Punti caldi per ricombinazione (duplicazioni, inversioni, traslocazioni; creazione di nuovi geni per shuffling esonici) Alterazione della espressione genica in quanto portatori di segnali trascrizionali (es. promotori e enhancer di LTR; promotori di Alu; siti di terminazione deboli della trascrizione di elementi L1; segnali di poliadenilazione) Presenza in geni per proteine (Le Alu contengono siti criptici di splicing; fonte di domini proteici; contributo a variabilità delle proteine) Reclutamento come elementi regolatori (es. BC200 di primati deriva da Alu monomerica) Fonte di pseudogeni processati (ritorno in vita come lunghi esoni? Come nuovi geni? ) Fonte di plasticità del genoma e quindi ruolo attivo nel rimodellamento genomico (riarrangiamenti cromosomici, reshuffling di geni, etc)

Identificazione Bioinformatica di elementi ripetuti
RepBase colleziona gli elementi ripetuti noti in una serie di organismi

I Genomi Eucariotici 97 genomi eucariotici completati (Ottobre 2008). La scelta dei genomi da sequenziare è dettata da vari criteri: Organismi modello.

Presentazioni simili

Presentazione sul tema: "I Genomi Eucariotici 97 genomi eucariotici completati (Ottobre 2008). La scelta dei genomi da sequenziare è dettata da vari criteri: Organismi modello."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

I Genomi Eucariotici 97 genomi eucariotici completati (Ottobre 2008). La scelta dei genomi da sequenziare è dettata da vari criteri: Organismi modello.

Presentazioni simili

Presentazione sul tema: "I Genomi Eucariotici 97 genomi eucariotici completati (Ottobre 2008). La scelta dei genomi da sequenziare è dettata da vari criteri: Organismi modello."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back