Genomica strutturale
Interesse primario della GENOMICA è di: a) Determinare la SEQUENZA COMPLETA dei genomi di interesse b) Identificare quanti più polimorfismi (VARIANTI ALLELICHE) possibili, presenti nei genomi Emblematico per le importantissime applicazioni della genomica è stato il PROGETTO GENOMA UMANO
Sistemi per la MAPPATURA DEI GENI Il metodo più classico è quello dell’ASSOCIAZIONE tra marcatori genetici, ciò prevede: L’ assegnazione di geni a determinati cromosomi (la più semplice è risultata l’associazione con il cromosoma X) 2. La prova genetica che più geni siano assieme sullo STESSO CROMOSOMA 3. Il calcolo della distanza tra due loci ASSOCIATI allo stesso cromosoma mediante la frequenza di ricombinazione Con questo sistema dell’ASSOCIAZIONE genetica classica, solo un limitato numero di geni umani sono stati MAPPATI sui cromosomi
Le tecniche del DNA ricombinante hanno cambiato il concetto genetico di locus Mendel e Morgan identificavano un locus genetico deducendo la sua esistenza da diversi fenotipi dovuti ad alleli differenti Nella GENETICA MODERNA il concetto di locus (inteso come “concetto FISICO”) può essere separato dal concetto di gene (identificabile con una “funzione” o fenotipo)
La costruzione di mappe genetiche (di ASSOCIAZIONE), citologiche e fisiche è alla base del sequenziamento dei genomi Le mappe genetiche a bassa densità sono costruite sulla base di frequenze di ricombinazione 1cM= 1UM=1% ricombinazione. Le mappe GENETICHE a bassa densità sono costruite sulla base di frequenze di ricombinazione -> 1cM = 1UM = 1% frequenza di ricombinazione. Le mappe genetiche ad alta densità, con marcatori spaziati da brevi intervalli, vengono costruite utilizzando dei marcatori molecolari come RFLP. Le mappe GENETICHE ad alta densità, con marcatori spaziati da brevi intervalli, vengono costruite utilizzando dei MARCATORI MOLECOLARI come RFLP. Le mappe citologiche sono basate sul bandeggio dei cromosomi. Le mappe CITOLOGICHE sono basate sul bandeggio dei cromosomi. Le mappe fisiche come le mappe di restrizione sono basate sulle distanze molecolari che separano i vari siti sul DNA. Le mappe FISICHE, sono basate sulle distanze effettive espresse come: numero di coppie di basi distanze tra i siti di restrizione sul DNA (mappe di restrizione) posizioni e distanze tra sequenze nucleotidiche uniche chiamate sequenze “etichetta” o STS (Sequence Target Sites) localizzazioni dei cloni genomici sovrapposti (“contig”) a coprire una regione cromosomica Le mappe fisiche specificano le localizzazioni dei cloni genomici sovrappopsti o contig e sequenze nucleotidiche uniche chiamate STS
Esempio di associazione con marcatori genetici: la sindrome Nail-Patella (NPS) È una sindrome che interessa le unghie (ipoplasia) e la rotula (riduzione o assenza) Si trasmette come un carattere autosomico dominante 00 BO BO BO B0 B0 00 00 0 B0 00 00 00 I II 1 2 1 2 3 4 5 6 7 8 9 10 11 È stato determinato il gruppo sanguigno (sistema AB0) degli individui sani e malati della famiglia La maggior parte delle volte che è presente il gruppo sanguigno B, che mappa sul cromosoma 9 in posizione 9q34, si presenta la malattia (tranne che in soli due casi II3 3 II5); questo sta ad indicare che il locus che determina la sindrome NPS è associato al locus del sistema ABO e quindi MAPPA sul cromosoma 9 in vicinanza della posizione 9q34. Quanto sono vicini lo si può definire dalla frequenza di ricombinazione. Esiste un parametro che si chiama LOD-SCORE che indica se l’ipotesi che i due loci siano associati è statisticamente probabile (LOD SCORE = +3 ->le probabilità dell’associazione sono di 1000:1, questo è il valore minimo di LOD SCORE per stabilire l’associazione tra due geni); poi mediante la FREQUENZA di RICOMBINAZIONE se ne stabilisce la distanza
Correlazione tra mappa GENETICA, CITOLOGICA e FISICA di un cromosoma 0 20 50 80 100 125 150 Gene X RFLP 1 RFLP 2 RFLP 3 Gene Y Gene Z MAPPA GENETICA (cM) MAPPA CITOLOGICA 0 25 50 75 100 125 150 MAPPA FISICA (megabasi) Eco RI Sst I Hind III Mappa di restrizione Kb 0 5 10 Kb 0 500 1000 STS 1 STS 2 STS 3 Mappa di STS Kb 0 500 1000 Clone YAC 1 2 3 4 Mappa di “contig” La mappa fisica per eccellenza corrisponde alla “sequenza completa” della regione genomica interessata!!! MAPPE FISICHE
Molti loci genomici si presentano “polimorfici” Se si clonasse e si sequenziasse la STESSA REGIONE cromosomica di circa 250kb che comprende un gene responsabile di una malattia, da due cromosomi omologhi della maggior parte degli individui SANI, si troverebbe una differenza ogni 1000bp, cioè circa 250 differenze. Si potrebbe sospettare che uno sia l'allele selvatico, mentre l'altro un allele mutante. Nessuna delle differenze riscontrate ha però necessariamente un effetto sulla funzione reale del gene in esame; entrambi gli omologhi potrebbero avere, infatti, un'attività selvatica. I genetisti considerano queste variazioni trovate in qualsiasi punto del genoma come "alleli" alternativi di un locus. Quando in un locus di DNA esistono 2 o più alleli il locus si considera POLIMORFICO . (Un allele per essere considerato UN POLIMORFISMO e non una MUTAZIONE deve avere una frequenza maggiore di 1/100, nella popolazione ). Se questo locus polimorfico è poi usato per studi di malattie o di mappature è detto “marcatore del DNA”. I loci polimorfici nell'uomo potrebbero essere più di 100 milioni e questa è una enorme riserva di potenziali marcatori del DNA.
MARCATORI MOLECOLARI per MAPPE GENETICHE Sono utili sia per le analisi di ASSOCIAZIONE con geni responsabili di malattie, sia per determinare le frequenze di ricombinazione tra questi marcatori e i geni delle malattie. SNPs ( Single Nucleotide Polymorphism) MINISATELLITI o VNTR (Variable Number Tandem Repeat) MICROSATELLITI o STR (Simple Tandem Repeat) Altre modificazioni
Caratteristiche dei MARCATORI MOLECOLARI Sono dei veri MARCATORI GENETICI Corrispondono a posizioni definite nel genoma e mostrano variabilità da un individuo ad un altro Le differenti forme, che corrispondono alla stessa posizione sul genoma sono FORME ALLELICHE e vengono trasmesse secondo le regole MENDELIANE Nell’ ETEROZIGOTE i due alleli sono entrambi riconoscibili : si tratta quindi di ALLELI CODOMINANTI
Gli SNPs sono polimorfismi di sequenza Classi di polimorfismi del DNA Classe Dimensione totale del locus Numero di alleli Numero di loci nella popolazione Frequenza di mutazione Uso SNPs Singola coppia di basi 2 100 milioni Mappatura di associazione Microsatelliti o STR con ripetizioni di 1-6 basi da 5 a 50 volte 30-300 bp da 2 a 10 200.000 Mappatura di associazione e genotipizzazione Minisatelliti o VNTR con ripetizioni di 20-200 basi da 50 a 200 volte 1000-20000 bp 30.000 10-9 10-3 10-3 Gli SNPs sono polimorfismi di sequenza del DNA, i microsatelliti ed i minisatelliti sono polimorfismi di lunghezza del DNA
Polimorfismi del singolo nucleotide (SNPs) È noto che ogni 1000 basi circa nel DNA (fatto da circa 3 miliardi di nucleotidi) ve ne è una che è DIVERSA in diversi individui. Ciò che cambia, la maggior parte delle volte, è un singolo nucleotide, queste variazioni individuali sono chiamate “Polimorfismi del Singolo Nucleotide” (o SNPs). 1000 Genomes A Deep Catalog of Human Genetic Variation Sono noti già alcuni milioni di SNPs e recentemente si sono conclusi dei progetti che prevedevano di sequenziare singoli genomi di individui (almeno 1000) e uno di questi progetti si chiama “1000 genomi”.
Nature 2012 http://www.nature.com/nature/journal/v491/n7422/pdf/nature11632.pdf La maggior parte degli SNPs si verificano in "loci anonimi” (sequenze non codificanti). E comunque possibile che gli SNPs possano anche alterare la sequenza codificante di un gene con cambi nella composizione aminoacidica di proteine. I polimorfismi del DNA possono essere usati come marcatori molecolari
SNPs ( Single Nucleotide Polymorphism) La più semplice ed anche la più utile classe di polimorfismi si origina dalla sostituzione di una singola coppia di basi. Questo tipo di cambiamenti possono essere indotti da sostanze chimiche mutagene, oppure da errori durante la replicazione (forme tautomeriche delle basi) e sono denominate polimorfismi di singoli nucleotidi o SNP (snips). Quasi tutti gli snips sono biallelici. Il sequenziamento della stessa regione genomica da individui diversi permette l'identificazione di un elevato numero di SNPs. Esiste un'associazione (il consorzio internazionale per gli SNPs) che da Dicembre del 2001 ha identificato e mappato più di 5 milioni di SNPs umani. Nonostante sia possibile che gli SNPs possano alterare la sequenza aminoacidica di proteine, la maggiore parte degli snips si verificano in "loci anonimi".
Microsatelliti o STR Sono elementi di DNA composti di sequenze semplici da 1 a 6 basi ripetute in tandem da 5 a 50 volte. I microsatelliti si originano spontaneamente da eventi casuali, che inizialmente producono una breve sequenza ripetuta 4 o 5 volte. Dopo che si è originato, un microsatellite può espandersi in una sequenza più lunga a causa dell'appaiamento errato che può verificarsi durante la replicazione del DNA ("balbuzie durante la replicazione”).
Microsatelliti o STR Sono elementi di DNA composti di sequenze semplici da 1 a 6 basi ripetute in tandem da 5 a 50 volte. I microsatelliti si originano spontaneamente da eventi casuali, che inizialmente producono una breve sequenza ripetuta 4 o 5 volte. Dopo che si è originato, un microsatellite può espandersi in una sequenza più lunga a causa dell'appaiamento errato che può verificarsi durante la replicazione del DNA ("balbuzie durante la replicazione”). Diversamente dagli SNPs che sono biallelici e non cambiano dopo che si sono originati, i microsatelliti continuano a cambiare generando alleli multipli. La frequenza dei nuovi alleli è più alta della frequenza di mutazione di un singolo nucleotide, allo stesso tempo è sufficientemente bassa da fare in modo che i cambiamenti non avvengano nel corso di poche generazioni, anche in famiglie molto grandi e per ciò possono essere usati come MARCATORI, abbastanza stabili e altamente polimorfici del DNA negli studi di associazione.
Minisatelliti o VNTR Furono scoperti nel 1980 da Alec Jeffreys, che scoprì per primo che tra individuo ed individuo esistevano delle variazioni che che riguardavano sequenze ripetute migliaia di volte, che chiamò appunto minisatelliti. Questi loci tendono ad essere altamente polimorfici. Ogni 5-10 loci nel genoma c'è un MINISATELLITE Utilizzando diverse sequenze di minisatelliti come sonde di ibridazione si può avere direttamente una visione globale di tutto il genoma (“DNA fingerprint”).
per il riconoscimento delle DIFFERENZE GENOTIPICHE tra gli individui Altre modificazioni: delezioni, duplicazioni e inserzioni in loci non ripetuti Eventi mutazionali casuali possono causare anche una vasta categoria di eventi che espandono o contraggono la lunghezza di un locus non ripetuto. Le piccole delezioni o duplicazioni si possono generare durante la ricombinazione meiotica Le piccole inserzioni, che vanno da centinaia a migliaia di basi, possono essere causate da ELEMENTI TRASPONIBILI che si integrano casualmente nel genoma. SNPs, microsatelliti, minisatelliti e delezioni inserzioni in loci non ripetuti forniscono le basi per la MAPPATURA GENETICA ed anche, più in generale, per il riconoscimento delle DIFFERENZE GENOTIPICHE tra gli individui (“DNA fingerprint”).
Genotipizzazione di un individuo Un approccio generale per determinare il GENOTIPO di un individuo ad un particolare locus polimorfico dovrebbe consistere nell' estrarre il DNA genomico dall'individuo, ottenere cloni rappresentativi del locus, sequenziare il DNA. Questo approccio, fino a qualche tempo fa, sarebbe stato molto dispendioso in termini di tempo, soldi e lavoro. Ora con le nuove tecniche di sequenziamento di nuova generazione (Next Generation Sequencing o NGS), questo è possibile con costi limitati e con piccoli margini di errore. Ma per tutte le analisi fatte fino a qualche tempo fa è stato necessario ricorrere a strategie diverse che hanno permesso di analizzare centinaia di migliaia di campioni per gli scopi, per esempio, di GENOTIPIZZAZIONE o di MAPPATURA DEI GENOMI. Queste strategie sono usate anche attualmente in specifiche circostanze
IDENTIFICAZIONE DIRETTA DEGLI SNPs Tecniche per una DIRETTA rivelazione dei polimorfismi del DNA, e quindi per una determinazione diretta del GENOTIPO Si tratta di strategie diverse che permettono di analizzare centinaia di migliaia di campioni per scopi come la GENOTIPIZZAZIONE o la MAPPATURA DEI GENOMI IDENTIFICAZIONE DIRETTA DEGLI SNPs (se la sostituzione nucleotidica riguarda un SITO DI RESTRIZIONE polimorfico): 1)Tecniche del Southern blot (RFLP) 2)Tecnica della amplificazione del DNA mediante PCR
Rilevare un SNP ad un sito di restrizione mediante RFLP Marker Omozigote allele SNP 1 ETEROZIGOTE 5 kb 3 kb Omozigote allele SNP2 Frammento di 3 kb riconosciuto dalla sonda Sito di restrizione POLIMORFICO per EcoRI Allele SNP1 GAATTC CTTAAG GAA TTC CT T AAG sonda Eco RI Eco RI Eco RI Allele SNP2 GAATTC CTTAAG GAG TTC CT C AAG sonda Eco RI Frammento di 5kb riconosciuto dalla sonda
Rilevare un SNP mediante amplificazione con PCR Se l’ SNP riguarda un sito di restrizione POLIMORFICO e se è nota la sequenza che si trova ai lati del sito di restrizione, il polimorfismo può essere determinato attraverso la PCR in 3 passaggi: 1) amplificazione della regione polimorfica compresa tra i due primers (alcune centinaia di coppie di basi) 2) esposizione del prodotto di amplificazione all'enzima di restrizione per cui il sito è polimorfico 3) analisi dei frammenti ottenuti su gel di agarosio. Allele emoglobina A normale Glu Pro CCT GAG GAG GGA CTC CT C Upper primer Lower primer amminoacido n. 6 modificato Sito MstII Sito di restrizione assente Allele emoglobina S anemia falciforme (in questo caso l’SNP riguarda una sequenza CODIFICANTE) Val Pro Glu CCT GTG GAG GGA CAC CT C Eterozigote Omozigote S Omozigote A 500 bp 300 bp 200 bp La lunghezza totale del frammento amplificato è di circa 500 bp -> se il sito è presente (allele A, normale) si produrranno due frammenti di 200 e 300 bp; se il sito è assente (allele S, mutato) si produrrà un unico frammento di 500 bp
Trasmissione ereditaria di un allele RFLP associato ad un carattere che si trasmette come un carattere AUTOSOMICO DOMINANTE L’esame dell’albero ed il Southern indicano che i figli colpiti hanno ereditato un cromosoma che porta l’allele A. Se questa modalità viene confermata in grandi famiglie ed in più generazioni, l’allele mutato relativo alla PATOLOGIA è localizzato sullo stesso cromosoma dell’allele A. sonda
Strategia per associare un RFLP o un altro MARCATORE polimorfico ad un locus cromosomico che può essere responsabile di una malattia È necessario disporre di : una famiglia numerosa con più generazioni in cui sia presente e trasmessa una patologia genetica una raccolta di sequenze clonate che rilevi gli RFLP (almeno una per ogni cromosoma umano). Si costruisce un albero genealogico per determinare le modalità di trasmissione del carattere e per identificare i membri colpiti. Si analizzano poi i marcatori RFLP specifici dei singoli cromosomi, nei componenti della famiglia. Se la patologia genetica ed il marcatore RFLP specifico del cromosoma vengono ereditati insieme in varie generazioni, la patologia genetica e l'RFLP devono essere vicini sullo stesso cromosoma.
Mappatura di un gene associato ad una malattia mediante RFLP GENiTORE A con la malattia X Mutazione responsabile della malattia X a localizzazione sconosciuta Cromosoma del genitore che ha la malattia Durante le meiosi dell’individuo, ce ne saranno alcune in cui non avverrà la ricombinazione ed altre in cui questa avverrà e ci saranno nuove combinazioni di alleli Per ogni cromosoma umano sono attualmente disponibili decine di marcatori RFLP In seguito alla FECONDAZIONE molti individui della generazione successiva presentano la malattia X ed i marcatori RFLP c Ogni volta che si eredita la malattia sul cromosoma 6 è presente il marcatore RFLP c; quando c’è l’allele c’ l’individuo è sano!
Formazione di un nuovo allele per la “ balbuzie” della DNA polimerasi 5’ 3’ Allele con (CA)15 G T G T G T G T G T G T G T G T GT G T G T G T G T G T G C G C A C A C A C A C A C A C A C A C A C A C A C A C A C A 3’ 5’ A C C A C A C A C A C A C A G T G T G T G T G T G T DNA polimerasi Filamento nuovo G T G T G T G T G T G T G T G T G 3’ 5’ A C C A C A C A C A C A G T G T G T G T G T G T G T G T GT G T G T G T G T G T G 3’ 5’ La DNA polimerasi fa una pausa; all’estremità del filamento di nuova sintesi la doppia elica si “apre” A C C A C A C A C A C A C A C A G T G T G T G T G T G T G T G T GT G T G T G T G T G T G 3’ 5’ Per caso, i due filamenti si riappaiano fuori registro G T G T G T G T G T G T G T GT G T G T G T G T G T C G A C A C A C A C A C A C A C A C A C A C A C A C A C T 3’ 5’ Completamento della replicazione Riparazione del DNA nel filamento stampo G T G T G T G T G T G T G T G T GT G T G T G T G T G T G C G C A C A C A C A C A C A C A C A C A C A C A C A C A C A T A C A Nuovo allele (CA)17 3’ 5’