Next Generation Sequencing Giulio Pavesi University of Milano

Slides:



Advertisements
Presentazioni simili
Primary Italian Saying How You Are.
Advertisements

Centro Internazionale per gli Antiparassitari e la Prevenzione Sanitaria Azienda Ospedaliera Luigi Sacco - Milano WP4: Cumulative Assessment Group refinement.
Giovanni Falcone & Paolo Borsellino.
Cache Memory Prof. G. Nicosia University of Catania
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
TIPOLOGIA DELLE VARIABILI SPERIMENTALI: Variabili nominali Variabili quantali Variabili semi-quantitative Variabili quantitative.
Watson et al. , BIOLOGIA MOLECOLARE DEL GENE, Zanichelli editore S. p
Sequenze Ripetitive di Dna
Guardate le seguenti due frasi:
Present Perfect.
Passato Prossimo. What is it?  Passato Prossimo is a past tense and it is equivalent to our:  “ed” as in she studied  Or “has” + “ed” as in she has.
Bioinformatic Analysis of Chromatin Genomic Data
Next Generation Sequencing
Giulio Pavesi Dipartimento di BioScienze Università di Milano
Corso di Genomica a.a lezione laurea magistrale Biotecnologia Industriale Giovedì 20 Gennaio 2011 aula 6A orario : Martedì ore
PINK FLOYD DOGS You gotta be crazy, you gotta have a real need. You gotta sleep on your toes. And when you're on the street. You gotta be able to pick.
Ontologia AA F. Orilia. Lez. 16 Discussione dell'approccio controfattualista di lewis condotta da Antonio De Grandis.
BOOTS OF SPANISH LEATHER – Written by Bob Dylan, performed by Nanci Griffith.
GLI INTERROGATIVI.
STRUTTURA  FUNZIONE  EVOLUZIONE STRUTTURA  (FUNZIONE)  EVOLUZIONE Organi, tessuti ecc. Geni o segmenti genomici.
Computational analysis of data by statistical methods
Accoppiamento scalare
Viruses.
SUMMARY Interconnection of quadripoles RIEPILOGO Interconnessione di quadripoli RIEPILOGO Interconnessione di quadripoli.
The “Mille Miglia” The Mille Miglia was a long distance car race, made ​​on roads open to traffic that was disputed in Italy twenty-four times from 1927.
Next Generation Sequencing (NGS) Illumina HiSeq 2000: 150 milioni di frammenti di 100 bp in una settimana. 1)Assemblaggio di genomi de novo 2)Analisi della.
Laurie A. Boyer et al. Cell, Vol. 122, , September 23, 2005.
Buon giorno, ragazzi oggi è il quattro aprile duemilasedici.
Il principio della ChIP: arricchimento selettivo della frazione di cromatina contenente una specifica proteina La ChIP può anche esser considerata.
Il principio della ChIP: arricchimento selettivo della frazione di cromatina contenente una specifica proteina La ChIP può anche esser considerata.
STMan Advanced Graphics Controller. What is STMan  STMan is an advanced graphic controller for Etere automation  STMan is able to control multiple graphics.
Fonti del diritto internazionale (art. 38 Statuto CIG)
Silvia Minardi, Pavia 14 December maps and directions hours.
Nessuno può servire due padroni:perché, o amerà l’uno e odierà l’altro oppure preferirà il primo e disprezzerà il secondo. Non potete servire Dio e i.
MSc in Communication Sciences Program in Technologies for Human Communication Davide Eynard Facoltà di scienze della comunicazione Università della.
What time does the plane leave? At 12:45 1.
Organizzazione e Formazione per l’arresto cardiaco in ospedale Overview Epidemiologia dell’ arresto intraospedaliero Criticita’ organizzative Applicazioni.
Do You Want To Pass Actual Exam in 1 st Attempt?.
Problema T1 30 settembre Andrea Chierici CDG T1.
Oggi è giovedì il dodici settembre 2013
Bioinformatica Scienza osservativa o deduttiva?
APA INTRODUCTION Scopo: presentare il problema studiato e descrivere la strategia di ricerca utilizzata. L’introduzione tipicamente inizia con la formulazione/statement.
Dichiarazione dei servizi di sito nel GOCDB
PROGETTO SOCRATES Dante Alighieri Primary School Classes 2A-B-C GENERAL OBJECTIVES: -To increase the motivation and the pleasure for reading -To pass.
From 8 to 80 boxes. From FBSNG to Condor CPU Satura !
Gigi Cosentino - LNL 20 ottobre 2016
I geni eterocronici I geni eterocronici sono geni di “identità
Highlights del meeting ESPP di Cracovia Settembre 2012 (FISICA DI G1)
AusTel by taha.a.
Bubble Sort.
PROBLEMA: Lo slow shaper, o comunque qualcosa tra preamplificatore e ADC, mostra un guadagno almeno dieci volte inferiore a quello dichiarato per MAROC3.
Adolf Luther Born 1912 in Krefeld, Germany. Died 1990 Krefeld.
giovedì, 12 ottobre matrimonio o convivenza?
Geni o segmenti genomici
A million ways to say “the”
Complessi basali delle RNA polimerasi eucariotiche
Il condizionale.
La Grammatica Italiana Avanti! p
Sezione distesa di un cromosoma One level of regulation of transcription in eukaryotes is to affect the state of packing of nucleosomes. The 30 nm.
Proposal for the Piceno Lab on Mediterranean Diet
General Office for Airspace
I materiali metallici sono perfetti?
Preliminary results of DESY drift chambers efficiency test
CdS 2017: embargo fino a TAUP2017
Complessi basali delle RNA polimerasi eucariotiche
TITLE [CENTURY GOTHIC, 35] TITLE [CENTURY GOTHIC, 35]
TITLE [CENTURY GOTHIC, 35] TITLE [CENTURY GOTHIC, 35]
Transcript della presentazione:

Next Generation Sequencing Giulio Pavesi University of Milano

Next generation sequencing vs Sanger sequencing

Next Generation Sequencing Applicazioni: Applicazioni: Sequenziamento de novo di genomi Sequenziamento de novo di genomi Risequenziamento di genomi per identificazione di varianti Risequenziamento di genomi per identificazione di varianti Metagenomica Metagenomica Sequenziamento e quantificazione di trascrittomi Sequenziamento e quantificazione di trascrittomi Sequenziamento di “campioni” di DNA/RNA (estratti secondo diversi criteri) Sequenziamento di “campioni” di DNA/RNA (estratti secondo diversi criteri)

“Epigenetica” L'epigenetica (dal greco επί, epì = "sopra" e γεννετικός, gennetikòs = "relativo all'eredità familiare") si riferisce a quei cambiamenti che influenzano il fenotipo senza alterare il genotipo, ed è una branca della genetica che descrive tutte quelle modificazioni ereditabili che variano l’espressione genica pur non alterando la sequenza del DNA L'epigenetica (dal greco επί, epì = "sopra" e γεννετικός, gennetikòs = "relativo all'eredità familiare") si riferisce a quei cambiamenti che influenzano il fenotipo senza alterare il genotipo, ed è una branca della genetica che descrive tutte quelle modificazioni ereditabili che variano l’espressione genica pur non alterando la sequenza del DNA Che cosa c’entra il sequenziamento del DNA con qualcosa che *non* riguarda la sequenza del DNA?!?!?! Che cosa c’entra il sequenziamento del DNA con qualcosa che *non* riguarda la sequenza del DNA?!?!?!

“Nucleosome” The nucleosome core particle consists of approximately 147 base pairs of DNA wrapped in 1.67 left- handed superhelical turns around a histone octamer The nucleosome core particle consists of approximately 147 base pairs of DNA wrapped in 1.67 left- handed superhelical turns around a histone octamer Octamer: 2 copies each of the core histones H2A, H2B, H3, and H4 Octamer: 2 copies each of the core histones H2A, H2B, H3, and H4 Core particles are connected by stretches of "linker DNA", which can be up to about 80 bp long Core particles are connected by stretches of "linker DNA", which can be up to about 80 bp long

The histone code Example H3K4me3 Example H3K4me3 H3 is the histone H3 is the histone K4 is the residue that is modified and its position (K lysine in position 4 of the sequence) K4 is the residue that is modified and its position (K lysine in position 4 of the sequence) me3 is the modification (three- methyl groups attached to K4) me3 is the modification (three- methyl groups attached to K4) If no number at the end like in H3K9ac means only one group If no number at the end like in H3K9ac means only one group

Different chromatin states Chromatin structure (and thus, gene expression) depend also on the post-translational modifications associated with histones forming nuclesomes

“ChIP” If we have the “right” antibody, we can extract (“immunoprecipitate”) from living cells the protein of interest bound to the DNA If we have the “right” antibody, we can extract (“immunoprecipitate”) from living cells the protein of interest bound to the DNA And - we can try to identify which were the DNA regions bound by the protein And - we can try to identify which were the DNA regions bound by the protein Can be done for transcription factors Can be done for transcription factors But can be done also for histones - and separately for each modification But can be done also for histones - and separately for each modification

TF ChIP Histone ChIP ChIP- Seq

Many cells- many copies of the same region bound by the protein

After ChIP Identification of the DNA fragment bound by the protein Sequencing Size selection: only fragments of the “right size” (200 bp) are kept

So - if we found that a region has been sequenced many times, then we can suppose that it was bound by the protein, but…

Only a short fragment of the extracted DNA region can be sequenced, at either or both ends (“single” vs “paired end” sequencing) for no more than 35 (before) / 50 (yesterday) / 100 (now) bps Thus, original regions have to be “reconstructed”

Read Mapping Each sequence read has to be assigned to its original position in the genome Each sequence read has to be assigned to its original position in the genome A typical ChIP-Seq experiment produces from 6 (before) to 100 million (now) reads of and more base pairs for each sequencing “lane” (Solexa/Illumina) A typical ChIP-Seq experiment produces from 6 (before) to 100 million (now) reads of and more base pairs for each sequencing “lane” (Solexa/Illumina) There exist efficient “sequence mappers” against the genome for NGS read There exist efficient “sequence mappers” against the genome for NGS read

Read Mapping “Typical” (actual sequence) TTTGAATATATTGAGAAAATATGACCATTTTT +12_10_2007_SequencingRun_3_1_119_647 (“quality” scores)

“Peak finding” The critical part of any ChIP-Seq analysis is the identification of the genomic regions that produced a significantly high number of sequence reads, corresponding to the region where the protein (nucleosome) of interest was bound to DNA The critical part of any ChIP-Seq analysis is the identification of the genomic regions that produced a significantly high number of sequence reads, corresponding to the region where the protein (nucleosome) of interest was bound to DNA Since a graphical visualization of the “piling” of read mapping on the genome produces a “peak” in correspondence of these regions, the problem is often referred to as “peak finding” Since a graphical visualization of the “piling” of read mapping on the genome produces a “peak” in correspondence of these regions, the problem is often referred to as “peak finding” A “peak” then marks the region that was enriched in the original DNA sample A “peak” then marks the region that was enriched in the original DNA sample

“Peak finding” Peaks: How tall? How wide? How much enriched?

“Peak finding” The main issue: the DNA sample sequenced (apart from sequencing errors/artifacts) contains a lot of “noise” The main issue: the DNA sample sequenced (apart from sequencing errors/artifacts) contains a lot of “noise” Sample “contamination” - the DNA of the PhD student performing the experiment Sample “contamination” - the DNA of the PhD student performing the experiment DNA shearing is not uniform: open chromatin regions tend to be fragmented more easily and thus are more likely to be sequenced DNA shearing is not uniform: open chromatin regions tend to be fragmented more easily and thus are more likely to be sequenced Repetitive sequences might be artificially enriched due to inaccuracies in genome assembly Repetitive sequences might be artificially enriched due to inaccuracies in genome assembly Amplification pushed too much: you see a single DNA fragment amplified, not enriched Amplification pushed too much: you see a single DNA fragment amplified, not enriched As yet unknown problems, that anyway seem to produce “noisy” sequencings and screw the experiment up As yet unknown problems, that anyway seem to produce “noisy” sequencings and screw the experiment up

ChIP-Seq histone data Histone modifications tend to be located at preferred locations with respect to gene annotations/transcribed regions Histone modifications tend to be located at preferred locations with respect to gene annotations/transcribed regions Hence, enrichment can be assessed in two ways Hence, enrichment can be assessed in two ways Enrichment with respect a the control experiment and peak identification Enrichment with respect a the control experiment and peak identification “Local” enrichment in given regions with respect to gene annotations “Local” enrichment in given regions with respect to gene annotations Promoters (active/non active) Promoters (active/non active) Upstream of transcribed/non transcribed genes Upstream of transcribed/non transcribed genes Within transcribed/not transcribed regions Within transcribed/not transcribed regions Enhancers, whatever else Enhancers, whatever else

Esperimento Eseguire una ChIP-Seq per diverse modificazioni istoniche, partendo da quelle più “classiche” Eseguire una ChIP-Seq per diverse modificazioni istoniche, partendo da quelle più “classiche” Verificare: Verificare: Se ciascuna modifica ha una sua localizzazione “preferenziale” sul genoma o rispetto ai geni (es. nel promotore, nella regione trascritta, etc.) Se ciascuna modifica ha una sua localizzazione “preferenziale” sul genoma o rispetto ai geni (es. nel promotore, nella regione trascritta, etc.) Se ciascuna modifica è “correlata” in qualche modo alla trascrizione/espressione dei geni Se ciascuna modifica è “correlata” in qualche modo alla trascrizione/espressione dei geni

Genome wide histone modifications maps through ChIP-Seq Barski et.al - Cell , 2007 Barski et.al - Cell , histone lysine and arginine methylations in CD4+ T cells 20 histone lysine and arginine methylations in CD4+ T cells H3K27 H3K27 H3K9 H3K9 H3K36 H3K36 H3K79 H3K79 H3R2 H3R2 H4K20 H4K20 H4R3 H4R3 H2BK5 H2BK5 Plus: Plus: Pol II binding Pol II binding H2A.Z (replaces H2A in some nucleosomes) H2A.Z (replaces H2A in some nucleosomes) insulator-binding protein (CTCF) insulator-binding protein (CTCF)

Genome wide histone modifications maps through ChIP-Seq

Esperimento ChIP-Seq associata a una particolare modificazione (es, H3K4me3) ChIP-Seq associata a una particolare modificazione (es, H3K4me3) Domanda: la modificazione è “correlabile” alla trascrizione dei geni? Domanda: la modificazione è “correlabile” alla trascrizione dei geni? Ovvero, la modificazione “marca” particolari nucleosomi rispetto all’inizio della trascrizione, o alla regione trascritta Ovvero, la modificazione “marca” particolari nucleosomi rispetto all’inizio della trascrizione, o alla regione trascritta Esempio: potrebbero esserci modificazioni che: Esempio: potrebbero esserci modificazioni che: Marcano l’inizio della trascrizione Marcano l’inizio della trascrizione Marcano tutta e solo la regione trascritta Marcano tutta e solo la regione trascritta “Silenziano” particolari loci genici impedendo la trascrizione “Silenziano” particolari loci genici impedendo la trascrizione Non c’entrano nulla con la trascrizione vera e propria e sono localizzate altrove Non c’entrano nulla con la trascrizione vera e propria e sono localizzate altrove

Esperimento Sequenze ottenute da ChIP-Seq per la modificazione studiata Sequenze ottenute da ChIP-Seq per la modificazione studiata Input: coordinate genomiche delle posizioni in ciascuna delle sequenze mappa (vedi file di esempio) Input: coordinate genomiche delle posizioni in ciascuna delle sequenze mappa (vedi file di esempio) Input: coordinate genomiche dei geni RefSeq annotati Input: coordinate genomiche dei geni RefSeq annotati Un nucleosoma marcato dalla modificazione dovrebbe corrispondere a un “mucchietto” di read che si sovrappongono (“picco”) Un nucleosoma marcato dalla modificazione dovrebbe corrispondere a un “mucchietto” di read che si sovrappongono (“picco”) Andiamo a contare, nucleosoma per nucleosoma, quanto alto è il “mucchietto”, ovvero quanti read sono associabili al nucleosoma Andiamo a contare, nucleosoma per nucleosoma, quanto alto è il “mucchietto”, ovvero quanti read sono associabili al nucleosoma

Nucleosoma Esempio: se si trovasse la modifica nel nucleosoma a monte del TSS dei geni trascritti, troveremmo un “mucchietto” così Modificazione

Nucleosoma Esempio: se si trovasse la modifica nei nucleosomi associati alle regioni trascritte, troveremmo “mucchietti” così Modificazione

“Inizi della trascrizione” Tecniche di laboratorio come il “CAGE” (Cap-Analysis-Gene-Expression) permettono: Tecniche di laboratorio come il “CAGE” (Cap-Analysis-Gene-Expression) permettono: L’esatta mappatura del 5’ degli RNA sul genoma, ovvero localizzare gli esatti TSS L’esatta mappatura del 5’ degli RNA sul genoma, ovvero localizzare gli esatti TSS Quantificare il livello di trascritto prodotto a partire da ciascuno del TSS identificati Quantificare il livello di trascritto prodotto a partire da ciascuno del TSS identificati Poiché cerchiamo la precisa localizzazione delle modifiche istoniche rispetto ai TSS, è importante localizzare anche i TSS con precisione Poiché cerchiamo la precisa localizzazione delle modifiche istoniche rispetto ai TSS, è importante localizzare anche i TSS con precisione