Come e quanto varia il genoma umano? Quali sono le conseguenze di queste variazioni?
In che cosa consistono le differenze tra genomi? Se si confrontano genomi di individui diversi li si trova identici per > 99.5% In che cosa consistono le differenze tra genomi?
Variazioni su piccola e su larga scala I cambiamenti su piccola scala interessano un solo gene Si riteneva che le variazioni su larga scala fossero molto svantaggiose e quindi rare. Negli ultimi anni si è invece scoperto che sono piuttosto comuni Scherer et al (2007)-Nat Genet. 39: S7–15.
Sequenziamento del genoma umano: 1990–2003
Studio della variabilità umana, i primi progetti: HapMap e1000 genomi
Il progetto 1000 genomi principale è stato preceduto da tre studi pilota: 180 campioni (da 4 popolazioni) a bassa copertura (4x) 2 triplette (padre-madre-figlio) a elevata copertura (20-60x) 1000 regioni geniche a elevata copertura in 900 campioni
Progetto 1000 genomi principale sequenziamento di 2500 individui 500 da ciascuna delle 5 aree geografiche principali (5-7 popolazioni per ciascuna area geografica) Aree geografiche Europa, Africa, America, Asia orientale e Asia meridionale
Cambiamenti di un singolo nucleotide Nel genoma umano sono presenti > 40 milioni di SNS (ca.10 milioni sono polimorfiche)
12 291 000 bp diverse dalla sequenza di riferimento 2007 – genoma di Craig Venter 3.2 milioni di SNP ca. 300 000 indel (da 1 a 571 bp) allo stato eterozigote Ca. 560 000 indel (1-82 711 bp) allo stato omozigote 90 grandi inversioni 62 varianti di sequenza a elevato no. di copie 12 291 000 bp diverse dalla sequenza di riferimento Genoma umano 3 x 109 bp differenze con il genoma di riferimento: 12.3 x 106/ 6 x 109 = 0.002
Le variazioni a singolo nucleotide sono molto più numerose delle CNV, ma interessano un no. di nt. << inferiore 75% SNV vs 25% CNV
Quali effetti sul fenotipo? La variazione più piccola interessa un singolo nucleotide (sostituzioni o inserzioni/delezioni) Quali effetti sul fenotipo?
Variazioni di una o poche basi che si verificano in sequenze codificanti SNS-Samesense (SS) o sinonime (S) SNS-MisSense (MS) o non sinonime (NS) SNS-non senso Inserzioni o delezioni di poche bp (indel) Inversioni di poche bp (inv)
Esempi di mutazione SS o sinonima AAA (Lys) AAG (Lys) CUA (Leu) UUA (Leu) Le SNV in 1° e in 2° posizione sono quasi sempre del tipo Non Sinonima, mentre quelle sono NS solo in 1 caso su 3 Esempi di mutazione MS o Non Sinonima Sostituzione della 1a base del codone: AAA (Lys) CAA (Gln) Sostituzione della 2a base del codone: AAA (Lys) ACA (Thr) Sostituzione della 3a base del codone: AAA (Lys) AAC (Asn)
Esempio di mutazione Non Senso TGG (Trp) TGA (stop)
Inserzioni di pochi nt
Formazione di un codone di STOP subito a valle della delezione di 1 nt
mRNA con codoni di STOP che cadono prima dell’ultimo esone sono instabili e vengono degradati meccanismo attraverso il quale viene impedita la produzione di ‘monconi polipeptidici’ che potrebbero essere dannosi per la cellula
NMD Nonsense-Mediated Decay = degradazione mediata da codoni non-senso Gli mRNA arrivano nel citoplasma ancora legati, in corrispondenza dei punti di splicing, a complessi proteici (EJC = Exon Junction Complex) che vengono rimossi solo durante il primo round di traduzione mRNA da cui non vengano rimossi gli EJC sono instabili e vengono degradati
Strachan e Read – Genetica Molecolare Umana, Zanichelli, 2012 Frecce verdi formazione di codoni di STOP prematuri prima dell’ultimo esone, mRNA instabili > non produzione di ‘tronconi polipeptidici’ Frecce rosse formazione di codoni di STOP prematuri nell’ultimo esone, mRNA stabili > produzione di ‘tronconi polipeptidici’. In genere comportano conseguenze fenotipiche più gravi
E le SNS che interessano regioni non codificanti?
Le conseguenze sono più difficili da prevedere Mutazioni che alterano il processo di splicing
Rimozione degli introni dal trascritto primario Strachan e Read – Genetica Molecolare Umana, Zanichelli, 2012
Sequenze introniche importanti per lo splicing Strachan e Read – Genetica Molecolare Umana, Zanichelli, 2012 Enahancer di splicing esoniche o introniche
SNP come vengono studiati
alcuni SNP (ca. 10%) sono RFLP (Restriction Fragment Length Polymorphism) polimorfismi (bi-allelici) in cui i due alleli differiscono per la dimensione dei frammenti generati da una reazione di digestione enzimatica DNA genomico BamHI BamHI* 6.4kb 14.6kb
ENZIMI DI RESTRIZIONE Enzimi che riconoscono brevi sequenze di DNA in corrispondenza delle quali tagliano entrambi i filamenti La sequenza riconosciuta ha generalmente una lunghezza di 4-8 bp ed è palindroma rispetto ad un asse di simmetria (la stessa sequenza di basi è presente su entrambi i filamenti quando questi vengono letti in direzione 5’- 3’);
PCR (Polymerase Chain Reaction) Tecnica in grado di amplificare in maniera altamente specifica una regione di DNA di cui si conoscono le sequenze fiancheggianti L’amplificazione è di tipo esponenziale: ad ogni ciclo il numero di molecole di DNA bersaglio (tratto di DNA compreso tra i due primers) raddoppia. In una PCR di 30 cicli per ogni molecola di DNA inizialmente presente se ne formeranno 230, cioè un numero dell’ordine di 109
PCR Ogni ciclo consta di 3 fasi: denaturazione (temp. 94° C) appaiamento dei primer (a una temp. che dipende dalla lunghezza e dalla composizione in basi dei primer ) sintesi dei nuovi filamenti (temp. 72°C)
Per una reazione di PCR sono necessari: primer (forward e reverse) dNTP (deossinucleotidi trifosfati: dATP, dCTP, dGTP e dTTP) DNA polimerasi resistente alle alte temperature (spesso Taq polimerasi, estratta da Thermus acquaticus) Buffer appropriato MgCl2 La reazione avviene in un termociclatore cioè in un blocco di alluminio che può essere riscaldato e raffreddato rapidamente
Digestione del prodotto della PCR RFLP inizialmente sono stati studiati utilizzando il Southern blot: procedimento lungo, costoso e che richiede notevoli quantità di DNA di partenza Oggi si studiano accoppiando la PCR alla digestione enzimatica, i prodotti di digestione vengono separati su gel di agarosio e visualizzati su un transilluminatore DNA genomico BamHI BamHI* 6.4kb 14.6kb BamHI* 0.4kb 0.7kb Digestione del prodotto della PCR con BamHI elettroforesi
BamHI* 200 bp 400 bp 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 M 600 bp 400 bp 200 bp
ARMS - Amplification Refractory Mutation System PCR con primer allele-specifici ARMS - Amplification Refractory Mutation System Per ciascun campione si effettuano due reazioni di PCR. Un primer è comune ad entrambe le reazioni, l’altro è presente in due versioni che differiscono per il solo nucleotide all’estremità 3’: uno si appaia alla sequenza normale, l’altro a quella mutata Nelle reazioni di PCR viene inclusa anche una seconda coppia di primer che amplifica una regione di dimensioni differenti da quella in esame (controllo positivo di PCR)
Omozigoti allele 1 amplificazione con primer 1 positiva, con primer 2 negativa Omozigoti allele 2 amplificazione con primer 1 negativa, con primer 2 positiva Eterozigoti amplificazione con primer 1 positiva, con primer 2 positiva In alcuni casi è possibile disegnare i primer in modo da effettuare le due reazioni allele-specifiche in un’unica provetta
Molti metodi si basano sull’ibridazione tra filamenti di DNA
DOT BLOT Reazioni di PCR vengono immobilizzate su due distinte membrane di nitrocellulosa o nylon Le membrane vengono sottoposte a trattamento denaturante e messe in contatto con la soluzione contenente una sonda ASO (Allele Specific Oligonucleotide) marcata: una delle due membrane viene fatta reagire con il probe wild-type l’altra con quello mutante Si eseguono dei lavaggi per eliminare le sonde che non si sono ibridate perché non perfettamente complementari al DNA target Tramite autoradiografia si evidenziano i campioni che si sono appaiati in maniera perfetta con il probe
Esperimento di Dot Blot L’ibridazione è fatta in condizioni tali che il legame tra la sonda e il DNA può avvenire solo se esiste una perfetta complementarietà tra le due sequenze, il mal appaiamento anche di un solo nt. non consente tale legame
Molto spesso si utilizza il REVERSE DOT BLOT (RDB): le sonde oligonucleotidiche non sono marcate e vengono fissate sulla membrana, mentre il DNA bersaglio viene marcato e fornito in soluzione Il legame tra il DNA bersaglio (marcato) e l’oligonucleotide specifico attaccato alla membrana indica la presenza della sequenza specifica nel bersaglio
Esperimento di Reverse Dot Blot per saggiare 6 diverse mutazioni Ogni filtro è ibridato con il DNA di un soggetto
RDB multiplo: analisi di 36 mutazioni CF Strip A 19 mutazioni CF Strip B 17 mutazioni CF Sonde mutate Sonde mutate Sonde normali Sonde normali
Saggi TaqMan in RT-PCR 3’ 5’
Genotipizzazione con sonde TaqMan Omozigote per l’allele 1 Eterozigote 1-2 Omozigote per l’allele 2
MICROARRAY PER LA DETERMINAZIONE DEL GENOTIPO Microarray di oligonucleotidi (della lunghezza di 20-25 nucleotidi) sintetizzati in vitro, ciascuna sonda è presente nelle due forme alleliche Il DNA da analizzare viene amplificato, marcato con una sostanza fluorescente ed ibridato su questi supporti Dopo lavaggio la fluorescenza emessa viene letta ed interpretata da un apposito software
GeneChip Contiene ca. 1 800 000 sonde 1 000 000 per polimorfismi del tipo SNP 800 000 per polimorfismi del tipo CNV (Copy Number Variation)
STR con effetti fenotipici patologici MALATTIE DA ESPANSIONE (instabile) DI BREVI TRATTI RIPETUTI
La base molecolare di queste malattie consiste nella ripetizione abnorme di un microsatellite o STR (Short Tandem Repeat) Cosa sono i microsatelliti o STR ? Regioni di genoma in cui una breve sequenza di basi (da 1 a 5 bp), detta repeat, viene ripetuta un certo numero di volte Molto spesso questi loci sono variabili: nella popolazione esistono alleli con un diverso numero di repeat La differenza tra gli alleli è quindi un differenza di lunghezza
Gli alleli vengono in genere indicati con un numero che corrisponde al numero di ripetizioni dell’unità di base Esempio: gli alleli 13 e 14 di un microsatellite del tipo CA (figura A) differiscono l’uno dall’altro per due basi: l’allele 13 presenta il dinucleotide CA ripetuto 13 volte (per un totale di 26 bp), mentre nell’allele 14 esso è ripetuto 14 volte (in totale 28 bp) Ciascun sito STR è indicato con una sigla (D number) D6S282 D = DNA; 6 = l’STR considerato sta sul cromosoma 6;
Gli STR sono in genere polimorfismi multi-allelici
Probabile meccanismo di generazione di nuovi alleli STR
Nelle malattie da espansione Alleli normali l’unità base è presente un numero di volte limitato (anche se variabile da allele ad allele) Alleli patologici l’unità base è presente un numero di volte molto maggiore Esempio: nella Corea di Huntington gli alleli normali contengono il trinucleotide CAG ripetuto 11-36 volte, gli alleli patologici lo presentano 40-120 volte CAG 40-120 CAG CAG CAG CAG gene HD 11-36 CAG CAG CAG
anticipazione dell’età di insorgenza e In pedigree in cui segregano malattie dovute ad espansioni nucleotidiche si osservano, in generazioni successive della stessa famiglia, anticipazione dell’età di insorgenza e aumento della gravità dei sintomi clinici Per alcune malattie queste caratteristiche erano state evidenziate già nei primi decenni del secolo scorso
I 54a 1 2 II 56a 41a 46a 1 2 3 4 5 6 Il no. all’interno del simbolo dei soggetti affetti indica l’età di insorgenza della malattia III 18a 42a 1 2 3
Entrambi i fenomeni sono spiegati dalle seguenti osservazioni: l’entità dell’espansione è direttamente collegata alla gravità della malattia e alla sua età di insorgenza il tratto espanso è soggetto ad instabilità meiotica (e anche mitotica) i portatori di un allele espanso producono con frequenza elevata gameti con un numero di ripetizioni ancora più elevato Esempio individuo con un allele con un tratto (CAG)48 ha un’elevata probabilità di formare gameti con (CAG)>48
I 48/28 31/30 54a 1 2 28/30 48/30 II 54/31 29/27 28/30 50/31 56a 41a 46a 1 2 3 4 5 6 I no. accanto ai soggetti affetti indicano il no. di ripetizioni dell’unità di base III 28/32 62/30 54/30 18a 42a 1 2 3
La prima dimostrazione che l’espansione di un microsatellite può essere causa di patologie risale all’inizio degli anni ’90 Oggi si conoscono una ventina di malattie dovute a questo meccanismo mutazionale
Quali le cause dell’instabilità mitotica e meiotica Quali le cause dell’instabilità mitotica e meiotica? Poco note (la lunghezza del tratto necessario per la formazione di hairpin coincide con la lunghezza dei frammenti di Okazaki; ruolo della regione fiancheggiante, fattori sesso-specifici, ecc.)
Le malattie da espansione possono essere suddivise in 3 categorie sulla base di: regione genica in cui si trova il tratto ripetuto (codificante o non codificante) e meccanismo molecolare alla base della patogenicità (perdita di funzione, produzione di una proteina con nuove caratteristiche, produzione di mRNA con nuove funzioni)
Nat Rev Genet (2005) 6: 743-755
1. Malattie in cui il gene contiene l’espansione in una regione NON codificante (nel 5’ UTR per FRAXA e FRAXE e nel 1° introne per FRDA) e in cui il meccanismo patogenetico è la perdita di funzione l’unità ripetuta è diversa da gene a gene il range di espansione patologico è molto elevato (centinaia o addirittura migliaia di copie)
2. Malattie in cui il gene contiene l’espansione in una regione NON codificante (nel 5’ UTR o nel 1° introne) e il meccanismo patogenetico è la produzione di un mRNA con nuove caratteristiche l’unità ripetuta è diversa da gene a gene il range di espansione patologico è molto elevato (centinaia o addirittura migliaia di copie)
3. Malattie in cui il gene contiene l’espansione in una regione codificante sono malattie neurodegenerative l’unità base ripetuta è sempre CAG (codone che codifica per Glutamina malattie da poli-glutamine) sono a trasmissione Autosomica Dominante (tranne SBMA) il meccanismo patogenetico è l’acquisizione di funzione da parte della proteina mutata
Variazioni su piccola e su larga scala Scherer et al (2007)-Nat Genet. 39: S7–15.
Risultati inattesi questo tipo di variabilità è piuttosto comune A metà del primo decennio di questo secolo si è cominciata ad indagare la variabilità che coinvolge tratti di genoma di > 1 kb Risultati inattesi questo tipo di variabilità è piuttosto comune
Sul supporto solido sono fissate le sonde a singolo filamento, i due DNA sono marcati con fluorofori diversi: Segnale rosso ibridazione solo con DNA del controllo (delezione nel DNA del paziente) Segnale verde ibridazione solo con DNA del paziente (duplicazione) Segnale giallo ibridazione con entrambi i DNA
sequenziamento del genoma di 2500 individui dati sulle Structural Variants (SV) derivati dal progetto 1000 genomi- Phase 3: sequenziamento del genoma di 2500 individui MEI = Mobile Element Insertions NUMT = NUclear MiTochondrial Insertions mCNV = multiallelic Copy Number Variations