Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoLodovico Baldini Modificato 11 anni fa
1
Come si sequenzia un genoma
2
DNA Genomico Approccio tradizionale: sequenziamento gerarchico (clone by clone) Sequenziamento genomico DNA genomico Subclonaggio in vettori BAC e costruzione del minimum tiling path (MTP) tramite BAC fingerpriting Subclonaggio di ogni BAC dell'MTP in vettori plasmidici Sequenziamento BIDIREZIONALE (paired-end) di ogni sub-libreria 'reads' BAC1 BAC2 BAC3
3
Frammenti casuali corti (2.0 kb, clonati in plasmide) Ricostruzione computazionale della sequenza genomica=ASSEMBLAGGIO DEL GENOMA Approccio whole genome shotgun Sequenziamento genomico DNA genomico Sequenziamento automatico BIDIREZIONALE (paired-end) 'reads'
4
Sequenziamento genomico Frammenti casuali corti (2.0-10.0 kb, clonati in plasmide), di lunghezza media 35-40Kbp (es. fosmidi) e lunghi 80-150Kbp (BAC) Ricostruzione computazionale della sequenza genomica utilizzando informazioni di mappa fisica e sequenziamento di alcuni cloni BAC mappati Approccio misto DNA genomico Sequenziamento automatico BIDIREZIONALE (paired-end) 'reads'
5
3'5' 3' 5' 3' Primer FORWARD Primer REVERSE INSERTO DI DNA Seq 1 Seq 2 Read di 700-750bp 3' Read di 700-750bp 5'3' 5' PER OGNI INSERTO DI DNA VENGONO PRODOTTE DUE SEQUENZE UNITE DA UNA DISTANZA NOTA Denaturazione Sequenziamento ciclico Distanza nota Approccio whole genome shotgun
6
Shotgun sequencing: introdotto da F. Sanger nel 1975, per 25 anni il solo metodo utilizzato per sequenziare i genomi Implementato da Ansorge et al. introducendo il concetto di PAIRED-END reads, cioè del sequenziamento di entrambe le estremità dei frammento della libreria Le reads al forward e al reverse (le due direzioni di lettura di un inserto) si utilizzano per unire insieme due contigs introducendo un vincolo di vicinanza e anche di direzione
7
Contig (it. contiguo): tratto di sequenza assemblato senza discontinuità. Scaffolds: serie di due o più contigs uniti da lunghi inserti le cui estremità sono in diversi contig ma di cui non si conosce la regione centrale. Contig Scaffold
8
20000 frammenti di 1,6-2 kb 30000 saggi di sequenziamento 11,6 Mb di sequenza totale (copertura 6.5X) 30 ore per assemblare la sequenza su un calcolatore con 512 Mb di RAM Sequenziamento del genoma di Hemophilus Influenzae (1.8 Mb) Il primo genoma sequenziato con l'approcccio whole genome shotgun Craig Venter et al, 1995
9
Per dimostrare che era possibile sequenziare un genoma complesso con il metodo shotgun, e che avrebbe potuto sequenziare il genoma umano in 2 anni, nel 1998 Venter ha sequenziato il genoma di Drosophila in soli 6 mesi, in collaborazione con il consorzio pubblico Inizialmente si stimava che la sequenza sarebbe stata completa nel 2005, poi nel 2003. La combinazione dellapproccio del consorzio pubblico con quello di Venter hanno portato alla pubblicazione di due sequenze (più o meno indipendenti) del genoma umano nel 2000
10
Genome coverage E dato dalla combinazione delle lunghezze di tutti gli inserti in una genoteca diviso il contenuto 1C dellorganismo per il quale la libreria è stata costruita. Formula: W = NI/G (W=coverage), N=numero totale di cloni che compongono una genoteca, I=lunghezza media in paia di basi degli inserti, G=1C grandezza del genoma (in paia di basi) dellorganismo dal quale la libreria è stata preparata Supponiamo di avere costruito una library BAC per la vite (Vitis vinifera) 1C DNA content = 480.000.000 pb 50,000 cloni con dimensione media degli inserti 110.000 pb W = (50,000 cloni x 110.000 pb)/480.000.000 pb W = 11.5X La libreria contiene una quantità di DNA 11.5 volte la quantità di DNA di in un genoma (=11.5 genomi equivalenti) Con una copertura 3X, la possibilità di trovare una particolare sequenza genomica nella libreria è approssimativamente 95% Aumentando la copertura a 5X aumenta la probabilità che quella libreria sia rappresentativa di un intero genoma Generalmente una copertura da 7-12X è ritenuta ottimale in entrambi gli approcci
11
La ricostruzione della sequenza del genoma: lassemblaggio dei frammenti Copertura del genoma con una ridondanza di 7-12 volte (copertura 7-12X) Le reads si sovrappongono in modo da ricostruire la sequenza completa del genoma
12
Difficoltà.... Errori di sequenza: 1-2% delle basi sono sbagliate (errore intrinseco alla tecnologia di sequenziamento) Sequenze ripetute Tempo di computazione: proporzionale al numero di reads (decine di milioni di sequenze da assemblare!)
13
Vantaggi e svantaggi dei due approcci Sequenziamento gerarchico: Vantaggi: cè una mappa fisica di BAC che pone dei vincoli quindi assemblaggio è più facile; la sequenza risultante è di più alta qualità; Svantaggi: devo costruire una libreria BAC e una mappa fisica (fase preparatoria lunga e di difficile coordinazione tra laboratori partecipanti) Whole genome shotgun: Vantaggi: non costruisco una mappa fisica Svantaggi: difficoltà nel risolvere le ripetizioni; computazionalmente problema più complesso; ottengo una sequenza DRAFT del genoma
14
Programmi per assemblare genomi TIGR (Sutton et al., Genome Science and Tecnology, 1:9-19, 1995) CAP3 (Huang and Madan, Genome Research, 9(9):866-877, 1999) PCAP (Huang et al., Genome Research, 13: 2164-2170, 2003) Celera assembly (Myers et al., Science, 287(5461):2196-2204, 2000) Phrap, P. Green, http://www.phrap.org (2002)http://www.phrap.org Jazz (Aparicio et al., Science, 297: 1301-1310, 2002) Arachne (Batzoglou et al., Genome Research, 12 (1): 177-189, 2002 e Jaffe et al., Genome Research, 13 (1): 91-96, 2003) Phusion (Mullikin and Ning, Genome Research, 13 (1): 81-90, 2003)
15
ARACHNE: assemblare un genoma 1. Trimming 2. Overlapping 3. Assembly 4. Scaffolding and repeats solving 5. Consensus sequence construction 6. Sequence verification: completness, accuracy, validity Obiettivo: assemblare quante più possibile sequenze uniche basandosi sulla sovrapposizione (overlap) tra sequenze fino al punto in cui la maggior parte dei buchi di sequenza (gaps) sono dovuti a sequenze ripetute o a sequenze che non sono rappresentate nella libreria shotgun (es. alcune regioni del genoma non si clonano)
16
1. Trimming I pezzi di sequenza dei vettori di clonaggio, di DNA genomico di E. cloni (contaminante delle preparazioni plasmidiche) e dei genomi cloroplastico (piante) e mitocondriale vengono eliminati. Elimina le regioni terminali delle sequenze, generalmente di bassa qualità.
17
2. Overlapping: ricerca delle sequenze che si sovrappongono Ogni sequenza deve essere confrontata con tutte le altre sequenze come fa Blast nella ricerca di omologia di sequenza (in teoria N 2 /2 comparazioni, N=numero di sequenze) RICHIEDE UNA ENORMITA DI TEMPO ARACHNE: ogni sequenza viene divisa in k-meri di lunghezza fissa (k=24). Viene creata una tabella per ogni sequenza contenente tutti i possibili k-meri di quella sequenza. La tabella è ordinata in modo che tutti i k-meri identici siano consecutivi
18
2. Overlapping: ricerca delle sequenze che si sovrappongono Il programma identifica tutte le istanze di paia di sequenze che condividono uno o più k-meri Fonde assieme i k-meri condivisi e estende gli allineamenti, dove possibile TACATAGATTAGAGAGATTACT GA TAGTTAGATTAGAGAGATTACTAGA
19
2. Overlapping: ricerca delle sequenze che si sovrappongono TACATAGATTAGAGAGATTACTAGA Corregge gli errori usando allineamenti multipli e tenendo conto di quale è la base sovrarappresentata nelle posizioni problematiche e dei valori di qualità (Phred scores) della base e di quelle immediatamente vicine TACATAGATTAGAGAGATTATTAGA TACATAGATTAGAGAGATTACTAGA C: 20 C: 35 T: 10 C: 35 C: 40 C: 20 C: 35 C: 30 C: 35 C: 40 Da un punteggio di penalità agli allineamenti Accetta solo gli allineamenti con penalità bassa # reads con C>T
20
3. Assemblaggio delle reads in contigs La sovrapposizione tra sequenze per costruire i contigs viene determinata grazie al vincolo delle paired-end: a) Arachne cerca istanze di due cloni di dimensione dellinserto simile in cui loverlap sia presente ad entrambe le estremità Inserto1_End1Inserto1_End2 Inserto2_End1 Inserto2_End2
21
3. Assemblaggio delle reads in contigs b) Le istanze vengono poi concatenate costruendo complessi di queste sovrapposizioni
22
3. Assemblaggio delle reads in contigs Regione ripetuta (zona potenzialmente assemblata in modo sbagliato o misassembled) Assembla le reads fino a potenziali confini con sequenze ripetute: COSTRUISCE GLI UNTIGS= tratti di sequenza unici nel genoma (o tratti di sequenza ripetuta che sono sufficientemente diversi da riuscire ad assemblarsi in contigs unici)
23
3. Assemblaggio delle reads in contigs: i contigs ripetuti Sono contigs in cui sequenze praticamente identiche ma provenienti da regioni diverse del genoma Si riconoscono perchè: Sono costituiti da un numero esagerato di sequenze (copertura elevatissima) Presentano legami conflittuali con più contigs che non si sovrappongono Scartati nella prima fase di creazione dei supercontigs
24
4. Unione dei contigs a formare i supercontigs (o scaffolds) Trova tutti i legami tra unitigs utilizzando il vincolo forward-reverse di ogni sequenza Gli unitigs vengono ordinati e direzionati costituendo i supercontigs Gli unitigs vengono connessi in modo incrementale (condizione necessaria 2 legame tra contigs) Contig_1 Contig_2Contig_3 Contig_4 Supercontig=lista ordinata e orientata di contigs, intervallata da gaps gap
25
4. Unione dei contigs a formare i supercontigs (o scaffolds) Riempie i gaps nei supercontigs con un contig o cammini di contigs ripetuti gap
26
5. Costruzione della sequenza consensus Arachne converte gli allineamenti effettuati inizialmente a due a due (pairwise) in un allineamento multiplo TACATAGATTAGAGAGATTACT GATTCGATCAGA CTA TACATAGATTAGAGAGATTACTCGATTCGATCAGAACTA TAC TAGATTAGAGAGATAACTCGATTCGATCAGAACTA TACATAGATTAGAGAGATTACTCGATTCGATCAGAACTA TACATAGATTAGAGAGATTACTCGATTCGATCACAACTA TACATAGATTAGAGAGATTACTCGATTCGATCAGAACTA Deriva ciascuna base consensus sulla base di un voto pesato
27
Qualità di un assemblaggio Misure comuni di qualità sono: numero e grandezza dei contigs Pochi contigs grandi sono meglio che molti piccoli contigs Vero perchè ci saranno meno gaps ma maggiore probabilità di errori nellassemblaggio N50 = corrisponde alla grandezza del più corto supercontig (o contig) in un sottoinsieme che rappresenta la metà della dimensione dell'assemblaggio
28
Verifica della bontà dellassemblaggio La valutazione della veridicità della sequenza dellintero genoma viene fatta a 3 livelli: Completezza: limitata dalla possibilità di clonare e sequenziare regioni ad altissima ripetitività Genomi microbici (piccole dimensioni): piccoli gaps dellordine di 1 Kpb difficili da chiudere Genomi eucariotici (grandi): lunghi tratti di regioni eterocromatiche mancano Accuratezza: ambiguità in sequenza verificabili tramite punteggi di probabilità Risolti aumentando la copertura in sequenza nella regione Validità: Problema non triviale Risoluzione: Comparare lassemblaggio con i dati provenienti da mappe genetiche e mappe fisiche pre- esistenti Usare metodi per misurare la consistenza interna dellassembaggio come: Verificare la corretta distanza tra paired-end reads di cloni di differente dimensione
29
Ancorare gli scaffolds ai cromosomi Approccio di ePCR (PCR elettronica) permette di ancorare marcatori molecolari (Sequence Tagged Sites-STS, Espressed Sequence Tags-EST) posizionati su mappe di ricombinazione GR0568 0,0 GR0176 7,2 BA0025 17,6 BA0003 21,1 F20236b 21,8 IN0126 23,4 GR0409 24,4 GR0280 25,5 F20681 26,1 E39/M49-114 26,7 E32/M62-282 30,5 F20236a 33,7 Chr 10 Mappa genetica Mappa fisica
30
Finishing 1.Processo di trasformazione da una sequenza draft in una sequenza contigua quanto più accurata possibile (accuratezza di 1 errore ogni 10,000 bp) Processo manuale controllo delle posizioni dove i programmi non ti riescono a chiamare la base corretta 2. Riempimento dei buchi di sequenza (GAP) disegno di primers spcifici, PCR e sequenziamento 3. Garantire una copertura adeguata in tutte le regioni Usare primer specifici per regioni specifiche
31
Stato del genoma umano 234 gaps rimangono nella parte eucromatica del genoma 17 milioni di basi (0.5%) I centromeri e i telomeri non sono stati sequenziati Sarebbe necessaria una nuova tecnologia ~ 45% del genoma umano consiste in ripetizioni intersperse Transposon derived (LINEs, SINEs) 3 – 4% duplicazioni segmentali (> 1kb, > 90% simili), ~ 40% si crede sia assemblato in modo sbagliato Famiglie multigeniche Grande numero di donatori anonimi hanno dato il DNA ma la maggior parte del DNA viene da un singolo individuo Varianti strutturali individuali duplicazioni, delezioni, inversioni, translocazioni…
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.