Come si sequenzia un genoma. DNA Genomico Approccio tradizionale: sequenziamento gerarchico (clone by clone) Sequenziamento genomico DNA genomico Subclonaggio.

Slides:



Advertisements
Presentazioni simili
CORSO DI RECUPERO CONTROLLI AUTOMATICI Prof. Filippo D’Ippolito
Advertisements

Laboratorio Processi Stocastici
I numeri naturali ….. Definizione e caratteristiche
Sistema di riferimento sulla retta
Proprietà degli stimatori
File System Cos’è un File System File e Directory
Informatica Generale Alessandra Di Pierro
RICERCA DI SIMILARITA’ IN BANCHE DATI
ODE PROBLEMA DI CAUCHY IN 1-D Sia f : I x RR, I  R.
Hash Tables Indirizzamento diretto Tabelle Hash Risoluzioni di collisioni Indirizzamento aperto.
BASI DI DATI BIOLOGICHE - 3
INTRODUZIONE AL SEQUENZIAMENTO DI NUOVA GENERAZIONE
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
Corso di ingegneria genetica
Algoritmi e Strutture Dati
Identificazione delle attività
Algoritmi e Strutture Dati
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Problemi e algoritmi Anno Accademico 2009/2010.
Evoluzione del genoma Lezione 13 By NA.
STATISTICA a.a LA STATISTICA INFERENZIALE
MODELLAZIONE DELLA RISPOSTA NON LINEARE
Cenni di teoria degli errori
Studente Claudia Puzzo
Il concetto di aplotipo
Algoritmi.
Clonaggio funzionale Clonaggio posizionale
CARATTERISTICHE VETTORE PLASMIDICO DI CLONAGGIO

Amplificazione DNA Clonaggio PCR.
Verso la costruzione di una cellula artificiale
Unità Didattica 2 I Linguaggi di Programmazione
Num / 36 Lezione 9 Numerosità del campione.
Intelligenza Artificiale Algoritmi Genetici
Apprendimento Automatico Calcolo Evoluzionistico Stefano Cagnoni.
Topo verde E stato brevettato un topo transegenico contenente nel suo genoma una proteina umana che diventa verde fuorescente a contatto con altre proteine.
Sequenze Ripetitive di Dna
Compattamento del DNA nei cromosomi
METODI E CONTROLLI STATISTICI DI PROCESSO
Strutture periodiche discrete: introduzione del vincolo di periodicità e studio della ricostruzione da due proiezioni. A. Del Lungo, A. Frosini, M.Nivat,
Il sequenziamento genico
Elementi di Informatica di base
C). Chimica del DNA i). Forze che influenzano la stabilità della doppia elica del DNA interazioni idrofobiche - stabilizzano dentro idrofobiche e fuori.
Perché Real-Time? Real time PCR Analisi PCR quantitativa
CLONAGGIO DNA RICOMBINANTE: DUE MOLECOLE DI DNA VENGONO
Clonaggio: vettori plasmidici
Il progetto GENOMA Marta Franceschetti.
Il progetto genoma umano
Atzeni, Ceri, Paraboschi, Torlone Basi di dati McGraw-Hill,
La vita in codice Prof.ssa Carmela Allocca.
Il Genoma umano.
Metodi matematici per economia e finanza. Prof. F. Gozzi
Cosa sono i GENI I geni rappresentano l’unità strutturale e funzionale della genetica Un gene è una successione lineare di unità chimiche semplici (nucleotidi)
PERCEZIONE Processo psicologico di creazione di un’immagine interna del mondo esterno.
=produzione di molte copie identiche del frammento di DNA
Lezione mercoledì 13 Marzo 2011 corso vettori biologici II Biotec industriali ore 14:00 -16:00 aula 6A.
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
Il Problema del Commesso Viaggiatore. Traveling Salesman’s Problem (TSP) Un commesso viaggiatore deve visitare un certo numero di città Conosce la distanza.
Bit singolo e burst u un canale che trasmette voce tollera bene gli errori distribuiti uniformemente –perche’ errori singoli hanno effetti simili al rumore.
La Drosophila è un ottimo sistema modello:
Tecniche della Biologia Molecolare
Il progetto genoma umano e gli altri progetti genoma: importanza degli organismi-modello.
POLIMERASE CHAIN REACTION (PCR)
Sistema di ricerca Entrez Insieme di banche dati contenenti svariati tipi di informazioni biomediche, interrogabile mediante un’unica interfaccia Concetto.
LABORATORIO 2: ANALISI DI RESTRIZIONE DI DNA GENOMICO In questa esercitazione campioni di DNA (es.: da fago λ e da plasmide pET28) verranno digeriti con.
Clonaggio funzionale Clonaggio posizionale Conoscenza proteina Malattia genetica Determinazione sequenza amminoac.Mappatura genetica con marcatori polimorfici.
Predizione della Struttura Terziaria. Perchè predire la struttura terziaria? In cifre: – sequenze proteiche –~ 30,000 strutture, ~ 7,000.
MARCATORE genetico  carattere mendeliano che può essere utilizzato per seguire la segregazione di una particolare regione cromosomica lungo un pedigree.
Identificazione di geni candidati nella regione individuata
Costruzione di librerie di cDNA
Clonaggio funzionale Clonaggio posizionale
Transcript della presentazione:

Come si sequenzia un genoma

DNA Genomico Approccio tradizionale: sequenziamento gerarchico (clone by clone) Sequenziamento genomico DNA genomico Subclonaggio in vettori BAC e costruzione del minimum tiling path (MTP) tramite BAC fingerpriting Subclonaggio di ogni BAC dell'MTP in vettori plasmidici Sequenziamento BIDIREZIONALE (paired-end) di ogni sub-libreria 'reads' BAC1 BAC2 BAC3

Frammenti casuali corti (2.0 kb, clonati in plasmide) Ricostruzione computazionale della sequenza genomica=ASSEMBLAGGIO DEL GENOMA Approccio whole genome shotgun Sequenziamento genomico DNA genomico Sequenziamento automatico BIDIREZIONALE (paired-end) 'reads'

Sequenziamento genomico Frammenti casuali corti ( kb, clonati in plasmide), di lunghezza media 35-40Kbp (es. fosmidi) e lunghi Kbp (BAC) Ricostruzione computazionale della sequenza genomica utilizzando informazioni di mappa fisica e sequenziamento di alcuni cloni BAC mappati Approccio misto DNA genomico Sequenziamento automatico BIDIREZIONALE (paired-end) 'reads'

3'5' 3' 5' 3' Primer FORWARD Primer REVERSE INSERTO DI DNA Seq 1 Seq 2 Read di bp 3' Read di bp 5'3' 5' PER OGNI INSERTO DI DNA VENGONO PRODOTTE DUE SEQUENZE UNITE DA UNA DISTANZA NOTA Denaturazione Sequenziamento ciclico Distanza nota Approccio whole genome shotgun

Shotgun sequencing: introdotto da F. Sanger nel 1975, per 25 anni il solo metodo utilizzato per sequenziare i genomi Implementato da Ansorge et al. introducendo il concetto di PAIRED-END reads, cioè del sequenziamento di entrambe le estremità dei frammento della libreria Le reads al forward e al reverse (le due direzioni di lettura di un inserto) si utilizzano per unire insieme due contigs introducendo un vincolo di vicinanza e anche di direzione

Contig (it. contiguo): tratto di sequenza assemblato senza discontinuità. Scaffolds: serie di due o più contigs uniti da lunghi inserti le cui estremità sono in diversi contig ma di cui non si conosce la regione centrale. Contig Scaffold

20000 frammenti di 1,6-2 kb saggi di sequenziamento 11,6 Mb di sequenza totale (copertura 6.5X) 30 ore per assemblare la sequenza su un calcolatore con 512 Mb di RAM Sequenziamento del genoma di Hemophilus Influenzae (1.8 Mb) Il primo genoma sequenziato con l'approcccio whole genome shotgun Craig Venter et al, 1995

Per dimostrare che era possibile sequenziare un genoma complesso con il metodo shotgun, e che avrebbe potuto sequenziare il genoma umano in 2 anni, nel 1998 Venter ha sequenziato il genoma di Drosophila in soli 6 mesi, in collaborazione con il consorzio pubblico Inizialmente si stimava che la sequenza sarebbe stata completa nel 2005, poi nel La combinazione dellapproccio del consorzio pubblico con quello di Venter hanno portato alla pubblicazione di due sequenze (più o meno indipendenti) del genoma umano nel 2000

Genome coverage E dato dalla combinazione delle lunghezze di tutti gli inserti in una genoteca diviso il contenuto 1C dellorganismo per il quale la libreria è stata costruita. Formula: W = NI/G (W=coverage), N=numero totale di cloni che compongono una genoteca, I=lunghezza media in paia di basi degli inserti, G=1C grandezza del genoma (in paia di basi) dellorganismo dal quale la libreria è stata preparata Supponiamo di avere costruito una library BAC per la vite (Vitis vinifera) 1C DNA content = pb 50,000 cloni con dimensione media degli inserti pb W = (50,000 cloni x pb)/ pb W = 11.5X La libreria contiene una quantità di DNA 11.5 volte la quantità di DNA di in un genoma (=11.5 genomi equivalenti) Con una copertura 3X, la possibilità di trovare una particolare sequenza genomica nella libreria è approssimativamente 95% Aumentando la copertura a 5X aumenta la probabilità che quella libreria sia rappresentativa di un intero genoma Generalmente una copertura da 7-12X è ritenuta ottimale in entrambi gli approcci

La ricostruzione della sequenza del genoma: lassemblaggio dei frammenti Copertura del genoma con una ridondanza di 7-12 volte (copertura 7-12X) Le reads si sovrappongono in modo da ricostruire la sequenza completa del genoma

Difficoltà.... Errori di sequenza: 1-2% delle basi sono sbagliate (errore intrinseco alla tecnologia di sequenziamento) Sequenze ripetute Tempo di computazione: proporzionale al numero di reads (decine di milioni di sequenze da assemblare!)

Vantaggi e svantaggi dei due approcci Sequenziamento gerarchico: Vantaggi: cè una mappa fisica di BAC che pone dei vincoli quindi assemblaggio è più facile; la sequenza risultante è di più alta qualità; Svantaggi: devo costruire una libreria BAC e una mappa fisica (fase preparatoria lunga e di difficile coordinazione tra laboratori partecipanti) Whole genome shotgun: Vantaggi: non costruisco una mappa fisica Svantaggi: difficoltà nel risolvere le ripetizioni; computazionalmente problema più complesso; ottengo una sequenza DRAFT del genoma

Programmi per assemblare genomi TIGR (Sutton et al., Genome Science and Tecnology, 1:9-19, 1995) CAP3 (Huang and Madan, Genome Research, 9(9): , 1999) PCAP (Huang et al., Genome Research, 13: , 2003) Celera assembly (Myers et al., Science, 287(5461): , 2000) Phrap, P. Green, (2002) Jazz (Aparicio et al., Science, 297: , 2002) Arachne (Batzoglou et al., Genome Research, 12 (1): , 2002 e Jaffe et al., Genome Research, 13 (1): 91-96, 2003) Phusion (Mullikin and Ning, Genome Research, 13 (1): 81-90, 2003)

ARACHNE: assemblare un genoma 1. Trimming 2. Overlapping 3. Assembly 4. Scaffolding and repeats solving 5. Consensus sequence construction 6. Sequence verification: completness, accuracy, validity Obiettivo: assemblare quante più possibile sequenze uniche basandosi sulla sovrapposizione (overlap) tra sequenze fino al punto in cui la maggior parte dei buchi di sequenza (gaps) sono dovuti a sequenze ripetute o a sequenze che non sono rappresentate nella libreria shotgun (es. alcune regioni del genoma non si clonano)

1. Trimming I pezzi di sequenza dei vettori di clonaggio, di DNA genomico di E. cloni (contaminante delle preparazioni plasmidiche) e dei genomi cloroplastico (piante) e mitocondriale vengono eliminati. Elimina le regioni terminali delle sequenze, generalmente di bassa qualità.

2. Overlapping: ricerca delle sequenze che si sovrappongono Ogni sequenza deve essere confrontata con tutte le altre sequenze come fa Blast nella ricerca di omologia di sequenza (in teoria N 2 /2 comparazioni, N=numero di sequenze) RICHIEDE UNA ENORMITA DI TEMPO ARACHNE: ogni sequenza viene divisa in k-meri di lunghezza fissa (k=24). Viene creata una tabella per ogni sequenza contenente tutti i possibili k-meri di quella sequenza. La tabella è ordinata in modo che tutti i k-meri identici siano consecutivi

2. Overlapping: ricerca delle sequenze che si sovrappongono Il programma identifica tutte le istanze di paia di sequenze che condividono uno o più k-meri Fonde assieme i k-meri condivisi e estende gli allineamenti, dove possibile TACATAGATTAGAGAGATTACT GA TAGTTAGATTAGAGAGATTACTAGA

2. Overlapping: ricerca delle sequenze che si sovrappongono TACATAGATTAGAGAGATTACTAGA Corregge gli errori usando allineamenti multipli e tenendo conto di quale è la base sovrarappresentata nelle posizioni problematiche e dei valori di qualità (Phred scores) della base e di quelle immediatamente vicine TACATAGATTAGAGAGATTATTAGA TACATAGATTAGAGAGATTACTAGA C: 20 C: 35 T: 10 C: 35 C: 40 C: 20 C: 35 C: 30 C: 35 C: 40 Da un punteggio di penalità agli allineamenti Accetta solo gli allineamenti con penalità bassa # reads con C>T

3. Assemblaggio delle reads in contigs La sovrapposizione tra sequenze per costruire i contigs viene determinata grazie al vincolo delle paired-end: a) Arachne cerca istanze di due cloni di dimensione dellinserto simile in cui loverlap sia presente ad entrambe le estremità Inserto1_End1Inserto1_End2 Inserto2_End1 Inserto2_End2

3. Assemblaggio delle reads in contigs b) Le istanze vengono poi concatenate costruendo complessi di queste sovrapposizioni

3. Assemblaggio delle reads in contigs Regione ripetuta (zona potenzialmente assemblata in modo sbagliato o misassembled) Assembla le reads fino a potenziali confini con sequenze ripetute: COSTRUISCE GLI UNTIGS= tratti di sequenza unici nel genoma (o tratti di sequenza ripetuta che sono sufficientemente diversi da riuscire ad assemblarsi in contigs unici)

3. Assemblaggio delle reads in contigs: i contigs ripetuti Sono contigs in cui sequenze praticamente identiche ma provenienti da regioni diverse del genoma Si riconoscono perchè: Sono costituiti da un numero esagerato di sequenze (copertura elevatissima) Presentano legami conflittuali con più contigs che non si sovrappongono Scartati nella prima fase di creazione dei supercontigs

4. Unione dei contigs a formare i supercontigs (o scaffolds) Trova tutti i legami tra unitigs utilizzando il vincolo forward-reverse di ogni sequenza Gli unitigs vengono ordinati e direzionati costituendo i supercontigs Gli unitigs vengono connessi in modo incrementale (condizione necessaria 2 legame tra contigs) Contig_1 Contig_2Contig_3 Contig_4 Supercontig=lista ordinata e orientata di contigs, intervallata da gaps gap

4. Unione dei contigs a formare i supercontigs (o scaffolds) Riempie i gaps nei supercontigs con un contig o cammini di contigs ripetuti gap

5. Costruzione della sequenza consensus Arachne converte gli allineamenti effettuati inizialmente a due a due (pairwise) in un allineamento multiplo TACATAGATTAGAGAGATTACT GATTCGATCAGA CTA TACATAGATTAGAGAGATTACTCGATTCGATCAGAACTA TAC TAGATTAGAGAGATAACTCGATTCGATCAGAACTA TACATAGATTAGAGAGATTACTCGATTCGATCAGAACTA TACATAGATTAGAGAGATTACTCGATTCGATCACAACTA TACATAGATTAGAGAGATTACTCGATTCGATCAGAACTA Deriva ciascuna base consensus sulla base di un voto pesato

Qualità di un assemblaggio Misure comuni di qualità sono: numero e grandezza dei contigs Pochi contigs grandi sono meglio che molti piccoli contigs Vero perchè ci saranno meno gaps ma maggiore probabilità di errori nellassemblaggio N50 = corrisponde alla grandezza del più corto supercontig (o contig) in un sottoinsieme che rappresenta la metà della dimensione dell'assemblaggio

Verifica della bontà dellassemblaggio La valutazione della veridicità della sequenza dellintero genoma viene fatta a 3 livelli: Completezza: limitata dalla possibilità di clonare e sequenziare regioni ad altissima ripetitività Genomi microbici (piccole dimensioni): piccoli gaps dellordine di 1 Kpb difficili da chiudere Genomi eucariotici (grandi): lunghi tratti di regioni eterocromatiche mancano Accuratezza: ambiguità in sequenza verificabili tramite punteggi di probabilità Risolti aumentando la copertura in sequenza nella regione Validità: Problema non triviale Risoluzione: Comparare lassemblaggio con i dati provenienti da mappe genetiche e mappe fisiche pre- esistenti Usare metodi per misurare la consistenza interna dellassembaggio come: Verificare la corretta distanza tra paired-end reads di cloni di differente dimensione

Ancorare gli scaffolds ai cromosomi Approccio di ePCR (PCR elettronica) permette di ancorare marcatori molecolari (Sequence Tagged Sites-STS, Espressed Sequence Tags-EST) posizionati su mappe di ricombinazione GR0568 0,0 GR0176 7,2 BA ,6 BA ,1 F20236b 21,8 IN ,4 GR ,4 GR ,5 F ,1 E39/M ,7 E32/M ,5 F20236a 33,7 Chr 10 Mappa genetica Mappa fisica

Finishing 1.Processo di trasformazione da una sequenza draft in una sequenza contigua quanto più accurata possibile (accuratezza di 1 errore ogni 10,000 bp) Processo manuale controllo delle posizioni dove i programmi non ti riescono a chiamare la base corretta 2. Riempimento dei buchi di sequenza (GAP) disegno di primers spcifici, PCR e sequenziamento 3. Garantire una copertura adeguata in tutte le regioni Usare primer specifici per regioni specifiche

Stato del genoma umano 234 gaps rimangono nella parte eucromatica del genoma 17 milioni di basi (0.5%) I centromeri e i telomeri non sono stati sequenziati Sarebbe necessaria una nuova tecnologia ~ 45% del genoma umano consiste in ripetizioni intersperse Transposon derived (LINEs, SINEs) 3 – 4% duplicazioni segmentali (> 1kb, > 90% simili), ~ 40% si crede sia assemblato in modo sbagliato Famiglie multigeniche Grande numero di donatori anonimi hanno dato il DNA ma la maggior parte del DNA viene da un singolo individuo Varianti strutturali individuali duplicazioni, delezioni, inversioni, translocazioni…