“System Biology”: un nuovo paradigma per la biologia molecolare.

Slides:



Advertisements
Presentazioni simili
Malattie genetiche monogeniche
Advertisements

Geni costitutivi e non costitutivi
IL PROGETTO GENOMA UMANO (HGP)
GENE: segmento di DNA che trasporta l’informazione per un determinato
Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
STRUTTURA DUPLICAZIONE SINTESI DELLE PROTEINE
BASI DI DATI BIOLOGICHE - 3
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
On the sources of convergence: A close look at the Spanish regions (Angel de la Fuente) A cura di De Rose Daniela A.A
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
La Sintesi Proteica.
Micro RNA (miRNA) Piccole molecole di RNA (20-22 nt)
RNA interference Premio NOBEL 2006 Fire e Mello.
Bioinformatica Andrea G. B. Tettamanzi.
Sequenze Ripetitive di Dna
Espressione genica.
Bioinformatics Da wikipedia: Involve the use of techniques including:
È stimato che oggi sulla terra sono presenti
Ivana Calarco DIFFERENZIAMENTO 29/03/2017.
Cap. 17 Regolazione dell’espressione genica negli Eucarioti. Pp
I differenti tipi cellulari di un organismo multicellulare differiscono nettamente sia nella struttura che nella funzione Le differenze tra un neurone.
CORSO DI BIOLOGIA - Programma
CORSO DI BIOLOGIA - Programma
DNA --> RNA --> Proteine
PROTEINE: “TRASCRIZIONE” e “TRADUZIONE”
La vita in codice Prof.ssa Carmela Allocca.
A.A CORSO INTEGRATO DI INFORMATICA E BIOINFORMATICA per il CLT in BIOLOGIA MOLECOLARE Scuola di Scienze, Università di Padova Docenti: Dr.
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Dip. Scienze Biomolecolari e Biotecnologie
Annotare i geni Gene xxxx Gene zzzz 3 esoni 7 esoni proteina y
Il DNA è il materiale ereditario e non le proteine Pneumococco
Metodi post-genomici in biochimica cellulare. Metodi post-genomici.
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
Esempio di utilizzo del programma BLAST disponibile all’NCBI
Divisione in gruppi di tre persone
Metodi Quantitativi per Economia, Finanza e Management Lezioni n° 7-8.
Corso di laurea specialistica magistrale Biotecnologia aula 6a ore corso di genomica a.a. 2009/10 lezione martedì 15 Dicembre 2009 lezione.
TRADUZIONE del RNA.
STRUTTURA  FUNZIONE  EVOLUZIONE STRUTTURA  (FUNZIONE)  EVOLUZIONE Organi, tessuti ecc. Geni o segmenti genomici.
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
Un problema multi impianto Un’azienda dispone di due fabbriche A e B. Ciascuna fabbrica produce due prodotti: standard e deluxe Ogni fabbrica, A e B, gestisce.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.
Cenni di Bioinformatica
Accoppiamento scalare
Dal neolitico al Xxi secolo.
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
Transcription termination RNA polymerase I terminates transcription at an 18 base terminator sequence. RNA polymerase III terminates transcription in poly(U)
SUMMARY Time domain and frequency domain RIEPILOGO Dominio del tempo e della frequenza RIEPILOGO Dominio del tempo e della frequenza.
SUMMARY Quadripoles and equivalent circuits RIEPILOGO Quadripoli e circuiti equivalenti RIEPILOGO Quadripoli e circuiti equivalenti.
POSTGENOMICA O GENOMICA FUNZIONALE
La trascrizione del DNA
STRUTTURA DUPLICAZIONE SINTESI DELLE PROTEINE
Laurie A. Boyer et al. Cell, Vol. 122, , September 23, 2005.
La Fabbrica delle Proteine
1 FIRB 2003 LIBI: Laboratorio Internazionale di Bioinformatica Unità di Ricerca: UNIMI 6 Gruppi di Ricerca: G. Pesole C. Gissi G. Pavesi D. Horner F. Mignone.
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Il principio della ChIP: arricchimento selettivo della frazione di cromatina contenente una specifica proteina La ChIP può anche esser considerata.
Genetica diretta e Genetica inversa: approcci sperimentali classici e metodologie recenti per lo studio della funzione dei geni.
Geni o segmenti genomici
Transcript della presentazione:

“System Biology”: un nuovo paradigma per la biologia molecolare. Michele Caselle Università degli studi di Torino – INFN

Indice Idee guida Breve ripasso di Biologia Molecolare “System Biology”, Biologia computazionale e Bioinformatica Breve ripasso di Biologia Molecolare Le innovazioni degli ultimi anni: Genomica, Trascrittomica, Proteomica Esempi di applicazioni La regolazione genica L’evoluzione

Le idee guida: System biology e Biologia computazionale 3

La biologia computazionale Coi termini “Biologia Computazionale” o “Bioinformatica” si intende tutto ciò che riguarda l’analisi di dati biologici con metodi provenienti dalla matematica / fisica / statistica / computer-science I dati biologici (sia sequenze che annotazioni) sono raccolti in enormi banche dati “open access”. Tra questi dati e’ nascosta molta piu’ informazione di quanto non sia già stato pubblicato. Esiste la possibilità di ottenere risultati anche molto importanti senza che si debba fare un singolo esperimento, semplicemente rileggendo in modo originale risultati sperimentali esistenti.

System Biology Tre strumenti fondamentali Teoria delle reti: E’ sbagliato pensare alle funzioni in termini di singolo gene o singola proteina. Le funzioni complesse coinvolgono sempre molti geni in interazione tra loro. Modelli: Queste reti possono però essere scomposte in circuiti elementari (“network motifs”) che possono essere descritti in modo quantitativo usando equazioni differenziali o stocastiche Ontologie: E’ pero’ indispensabile cercare di standardizzare e quantificare le informazioni di tipo medico o biologico. Le ontologie sono il tentativo di miglior successo in questa direzione 5

La genomica moderna: networks Le proteine (geni) dentro una cellula formano un network. La risposta di una cellula ad un certo stimolo è una risposta “globale”, non di singole unità separate. H.Jeong et al. Nature, 411 (2001) 41 6

Network motifs Esempio: SIM (Single Input Module) (a) realizzazione sperimentale: la biosintesi dell’arginina b) Soluzione del circuito: al variare di X (regolatore) i geni vengono attivati in tempi diversi a seconda della loro soglia di attivazione. R.Milo et al. Science 298 (2002) 824 7

La genomica moderna: Gene Ontology Gene Ontology è un modello per l’unificazione di dati biologici. Lo scopo di GO è di costruire un vocabolario controllato per la descrizione di: - Molecular function - Biological process - Cellular component di un certo gene. I vocabolari sono organizzati in un network gerarchico. The G.O. Consortium Nature Genet. 25 (2000) 25 8

La Biologia Molecolare “Classica” 9

La cellula Ogni organismo vivente è composto da una o più cellule. Ogni cellula può essere vista come una macchina complessa che esegue delle istruzioni scritte e memorizzate nel proprio genoma.

Il DNA Il genoma di un qualunque organismo è costituito da una lunghissima molecola di DNA.

Il DNA Una molecola di DNA è formata da quattro tipi diversi di nucleotidi (A, C, G o T), legati tra di loro con legami covalenti a formare una lunga catena orientata. In ogni molecola di DNA, sono presenti due catene appaiate, tenute assieme da legami idrogeno

Le proteine: le macchine del nostro organismo La maggior parte delle funzioni del nostro organismo sono eseguite da proteine. Le proteine sono macromolecole formate da catene di amminoacidi.

L’informazione dentro la cellula Dogma centrale della biologia molecolare

Sintesi delle proteine 15

Il codice genetico Il passaggio dall’alfabeto con cui è scritto il DNA all’alfabeto con cui sono scritte le proteine avviene tramite il codice genetico.

Le novita’ degli ultimi 10 anni Alla fine degli anni ’90  nasce “era genomica” La biologia diventa sempre più quantitativa: sequenziamento dei genomi di interi organismi microarray dati proteomici Gene Ontology

Perche’ si parla di una nuova “era” ? Perchè siamo in presenza di una vera e propria rivoluzione tecnologica : - diminuzione dei costi di sequenziamento, - introduzione di tecnologie high-throughput Aumento della scala tipica degli esperimenti (e del numero di persone coinvolte).

Nuove domande, nuove idee - Perché i geni sono così pochi? A cosa serve il DNA non codificante? Quanto siamo diversi dalle scimmie? Il “dogma centrale” e’ falso: a un gene corrispondono molte proteine (splicing alternativo) L’informazione genetica puo’ andare dal DNA all’RNA (Retrotrasposoni)

La genomica moderna: sequenze Automatizzazione dei processi di sequenziamento del DNA Sequenziamento sistematico di molti organismi. Nascita delle banche dati genomiche > homo_sapiens ACTTTTTTACCCTCGTGTGTTGCAGACTTTTTGCCACTTTTAAAACGCTGACAATTCGACCCTTTCCAAGTGCAAAAAGTGCCAAGATTTACGATAAAATTCCCCCGAGAGACGTGTGCA………

Dimensioni dei genomi (Mb) Procarioti: Mycoplasma Genitalium 0,58 Escherichia Coli 4,64 Eucarioti: Saccaromices cerevisiae 12 Arabidopsis thaliana 100 Drosophila Melanogaster 140 Caenorabditis Elegans 100 Homo Sapiens 3000

Struttura del Genoma La densita’ di sequenze codificanti proteine (o RNA) diventa sempre piu’ bassa man mano che aumenta la complessita’ dell’organismo. E’ molto alta nei Procarioti, media nel lievito, bassissima nell’uomo. La maggior parte del genoma umano ( 99%) non e’ codificante ! Questo DNA non codificante e’ (probabilmente) coinvolto nella regolazione dell’espressione genica.

Struttura dei Geni Un tipico gene umano ha una struttura interna molto complessa: e’ composto da un set di sequenze codificanti (dette esoni) separate da sequenze non codificanti (dette introni). Gli esoni possono essere combinati in molti modi diversi a formare proteine diverse (splicing alternativo)

Il Genoma umano

Ensembl Genome Browser

Zoom !

La trascrittomica: microarray In un esperimento di microarray si misura il livello di espressione (mRNA) di migliaia di geni contemporaneamente gene log2(ratio) timepoints

La proteomica: Studio sistematico della struttura 3D delle proteine mediante X-ray spectroscopy Studio sistematico delle interazioni tra proteine g2(ratio) ts 28

Due esempi di ricerca Il problema della regolazione genica Verifiche dei modelli evolutivi

Esempio: Regolazione genica

Il problema della regolazione genica Sequenza del genoma umano (2001 draft, 2004 finished) 3.2 x 109 bp di DNA ~ 3 % codifica per proteine: i “mattoni elementari” ~ 97 % non codifica: è il “libretto di istruzioni” ~ 25000 “geni”:proteine The starting point of our work is the sequence of the human genome. As you know, some years ago the sequence of the human genome was completed. This is a very simplified picture (in order to make short a very long story ) but, basically, today we know that the landscape of the human genome can be divided in two different parts: - The first part includes the so called “coding” information. We usually call in “genes”, and inside it is stored the information about the construction of our proteins. We can think about it as “machinery of my body”. However, most of the human genome contains sequences with no coding information. This part is really complicated in structure, but, basically, we can say that this part is devoted to the “control of my machinery”. For many reasons, currently the problem of understanding what we call "control of my machinery” is really one of the greatest challenge in post-genomic biology. Our work is essentially a step along this research line. Contiene le sequenze che regolano l’espressione dei geni in proteine

Il problema della regolazione genica La maggioranza dei geni specifica uno o più proteine: “espressi”. L’espressione dei geni coinvolge un intermediario detto messaggero or mRNA. Il processo di espressione inizia con una fase detta “trascrizione” che è accuratamente controllata in ogni tipo cellulare. What does exactly mean "control of my machinery" ? Most of our genes specify one or more protein molecules. When a gene is translated into its protein, we say that the gene is expressed. The genes perform this task using a special item: an RNA intermediate, called messenger or mRNA, that is a copy of the original DNA and that is usually transported out of the nucleus in order to be translated into amminoacids (the corresponding protein). This process is called "transcription" and it one of the main important steps in the control of gene expression. This process is accurately controlled in every cell type. Transcriptional regulation is what I am interested in. Regolazione trascrizionale

Il problema della regolazione genica Negli eucarioti superiori (es: uomo) l’evento di trascrizione è molto complesso In higher eukariotes, the regulation of transcription is a very complex event. If you look at this picture, taken from a very recent review on Nature, you can distinguish the basic items involved in transcription of a certain gene. The DNA is usually packed in a very complex way, called “chromatin”, and, in this situation the DNA sequence is non accessible by the transcriptional machinery. On the other hand, the DNA segment in which the transcription must occur, the situation is something like this: you have the coding segment unpacked, together with the adjacent DNA areas. In particular, in the DNA sequence upstream of the gene, there are different items, usually called TFBS (this guy here, and this other guy here), that are recognized from special proteins called TF and allow the formation of the translation complex and the start of the translation itself by the action of the RNA polymerase II.

Il problema della regolazione genica Negli eucarioti superiori la risposta trascrizionale è organizzata in un network. In higher eukariotes, the regulation of transcription is a very complex event. If you look at this picture, taken from a very recent review on Nature, you can distinguish the basic items involved in transcription of a certain gene. The DNA is usually packed in a very complex way, called “chromatin”, and, in this situation the DNA sequence is non accessible by the transcriptional machinery. On the other hand, the DNA segment in which the transcription must occur, the situation is something like this: you have the coding segment unpacked, together with the adjacent DNA areas. In particular, in the DNA sequence upstream of the gene, there are different items, usually called TFBS (this guy here, and this other guy here), that are recognized from special proteins called TF and allow the formation of the translation complex and the start of the translation itself by the action of the RNA polymerase II.

Il problema della regolazione genica Regolazione trascrizionale: fattori di trascrizione (TF) si accoppiano a particolari DNA motifs (TFBS) localizzati upstream del gene regolato. RNA polymerase II TF Let us have a zoom on this area on the DNA of a certain gene. This is the typical structure of an eukaryotic gene, with its principal components. - DNA - exons divided by introns - upstream / downstream regions - motif upstream ( not one but more copies, different types = modules, both orientation, TSS ) The translation of the gene occurs when the transcription factor TF binds to its specific DNA region (TFBS) and promote the beginning of the transcription initiation complex. EXON 1 INTRON EXON 2 TRASCRITTO PRIMARIO TSS 5’ UPSTREAM 3’ DOWNSTREAM TFBSs

Dove è nascosta l’informazione? Obiettivo: identificare, a partire dalla sola sequenza genomica, dei candidati TFBS ovvero identificare il “vocabolario” di DNA motifs che regolano l’espressione dei geni. TFBS sono di solito corti (5-20 bp di DNA). TFBS sono di solito variabili. TFBS sono di solito dispersi su lunghe distanze( ≥ 15000 bp nel caso umano ). TFBS sono di solito attivi in entrambe le orientazioni. Il rapporo segnale / rumore è molto basso ! With the biological bases previously outlined, this is the problem in which we are interested. Our goal is to develop a computational approach for the identification of transcription factor binding sites. Which are the problem and the difficulties due to this task ? ... Leggere lucido This is the point of my talk: we want to find the items that act as the “control of my machinery”, but the signal to noise ration is extremely low. So we need ideas to perform our task.

Risultati Alla fine si ottiene un “dizionario” di putative TFBSs. That’s the final point: the result of our algorithm is a sort of list, of “dictionary” of words that, according our work-flow, are putative TFBS. Each word is connected to one or more GO term and eventually to a microarray timepoints (see * in the table). Let us now concentrate into 3 points: robustness, validation and prediction.

Il problema della verifica dei modelli evolutivi The starting point of our work is the sequence of the human genome. As you know, some years ago the sequence of the human genome was completed. This is a very simplified picture (in order to make short a very long story ) but, basically, today we know that the landscape of the human genome can be divided in two different parts: - The first part includes the so called “coding” information. We usually call in “genes”, and inside it is stored the information about the construction of our proteins. We can think about it as “machinery of my body”. However, most of the human genome contains sequences with no coding information. This part is really complicated in structure, but, basically, we can say that this part is devoted to the “control of my machinery”. For many reasons, currently the problem of understanding what we call "control of my machinery” is really one of the greatest challenge in post-genomic biology. Our work is essentially a step along this research line.

Il problema della verifica dei modelli evolutivi La verifica di modelli evolutivi può essere eseguita con opportuni algoritmi di allineamento di sequenze. The starting point of our work is the sequence of the human genome. As you know, some years ago the sequence of the human genome was completed. This is a very simplified picture (in order to make short a very long story ) but, basically, today we know that the landscape of the human genome can be divided in two different parts: - The first part includes the so called “coding” information. We usually call in “genes”, and inside it is stored the information about the construction of our proteins. We can think about it as “machinery of my body”. However, most of the human genome contains sequences with no coding information. This part is really complicated in structure, but, basically, we can say that this part is devoted to the “control of my machinery”. For many reasons, currently the problem of understanding what we call "control of my machinery” is really one of the greatest challenge in post-genomic biology. Our work is essentially a step along this research line.

Il problema della verifica dei modelli evolutivi The starting point of our work is the sequence of the human genome. As you know, some years ago the sequence of the human genome was completed. This is a very simplified picture (in order to make short a very long story ) but, basically, today we know that the landscape of the human genome can be divided in two different parts: - The first part includes the so called “coding” information. We usually call in “genes”, and inside it is stored the information about the construction of our proteins. We can think about it as “machinery of my body”. However, most of the human genome contains sequences with no coding information. This part is really complicated in structure, but, basically, we can say that this part is devoted to the “control of my machinery”. For many reasons, currently the problem of understanding what we call "control of my machinery” is really one of the greatest challenge in post-genomic biology. Our work is essentially a step along this research line. Il 96% del genoma umano è uguale nello scimpanzè.

Evoluzione e regolazione Obiettivo: identificare, a partire dalla sola sequenza genomica, i segnali dell’evoluzione dei geni nel tempo e tra i vari organismi e riconoscere i geni “ortologhi”. Usare la conservazione filogenetica per selezionare le regioni funzionalmente importanti del genoma The starting point of our work is the sequence of the human genome. As you know, some years ago the sequence of the human genome was completed. This is a very simplified picture (in order to make short a very long story ) but, basically, today we know that the landscape of the human genome can be divided in two different parts: - The first part includes the so called “coding” information. We usually call in “genes”, and inside it is stored the information about the construction of our proteins. We can think about it as “machinery of my body”. However, most of the human genome contains sequences with no coding information. This part is really complicated in structure, but, basically, we can say that this part is devoted to the “control of my machinery”. For many reasons, currently the problem of understanding what we call "control of my machinery” is really one of the greatest challenge in post-genomic biology. Our work is essentially a step along this research line. Nel genoma umano ci sono sequenze “ultraconservate” che sono state protette dai cambiamenti evolutivi per milioni di anni. In alcuni casi queste sequenze NON sono codificanti. Molto probabilmente hanno un ruolo nella regolazione della espressione genica.

FOXP2 !! Mutazioni (SNPs) nel gene FOXP2 causano severe alterazioni nel linguaggio parlato.

Un esempio più sofisticato: Circuiti di regolazione misti conservati tra topo e uomo 43

Transcription Factors and miRNAs • Regulation of gene expression mainly mediated by: Transcription Factors (TFs): proteins binding to specific recognition motifs (TFBSs) usually short (5-10 bp) and located upstream of the coding region of the regulated gene. MicroRNAs (miRNAs) are a family of small RNAs (typically 21 - 25 nucleotide long) that negatively regulate gene expression at the posttranscriptional level, (usually) thanks to the “seed” region in 3’-UTR regions. In higher eukaryotes, the regulation of transcription is a very complex event. If you look at this picture, taken from a very recent review on Nature, you can distinguish the basic items involved in transcription of a certain gene. The DNA is usually packed in a very complex way, called “chromatin”, and, in this situation the DNA sequence is non accessible by the transcriptional machinery. On the other hand, the DNA segment in which the transcription must occur, the situation is something like this: you have the coding segment unpacked, together with the adjacent DNA areas. In particular, in the DNA sequence upstream of the gene, there are different items, usually called TFBS (this guy here, and this other guy here), that are recognized from special proteins called TF and allow the formation of the transcription initiation complex and the start of the transcription itself by the action of the RNA polymerase II. TFs may have a twofold action on gene transcription. They can either activate transcription or repress it. Wassermann, Nat. Rev. Genetics

Hornstein E, Shomron N, Nat Genet 38 Suppl:S20–4 (2006). Our Project Several methods exist to study, separately TF-related and microRNA-related regulatory networks, but comparable information is lacking to explicitly connect them. The main goal of our project was to infer and then combine the two networks looking in particular for Mixed Feed-Forward Regulatory Loops --> a network motif in which a master Transcription Factor (TF) regulates a miRNA and together with it a set of Joint Target coding genes. In this talk, we report the results of a genome-wide integration study of a transcriptional and post-transcriptional regulatory network, in human, based on a bioinformatic sequence-analysis work. In particular, we focused in the study of functional and statistical properties of a special class of network motifs, the mixed TF/microRNA feed-forward circuits, recently proved to be of significant importance. TF Joint Target miR Hornstein E, Shomron N, Nat Genet 38 Suppl:S20–4 (2006).

Results Human Transcriptional Network --> Fixing 0.1 as FDR level, we obtained a catalogue of 2031 oligos that can be associated to known TFBSs for a total of 115 different TFs. --> target a total of 21159 genes (20972 protein-coding and 187 miRNAs) Human Post-Transcriptional Network --> Fixing 0.1 as FDR level, we obtained a catalogue of 3989 oligos (7-mers). 182 of them turned out to match with at least one seed present in 140 mature miRNAs. --> target a total of 17266 genes Human mixed FFLs catalogue --> We were able to obtain a list of 5030 different “single target circuits”, corresponding to 638 “merged circuits”. --> involving a total of 2625 joint target genes (JTs), 101 TFs and 133 miRNAs. # of JTs ranged from 1 to 38. TF miR JT 1 JT 2 JT …

Functional role of mixed FFLs Depending on the type of transcriptional regulation (excitatory or inhibitory) exerted by the master TF on the miRNA and on the targets, FFLs may be classified as • incoherent (“type I” FFLs), or • coherent (“type II” FFLs).

Type I and II FFLs type I circuits type II circuits TF TF miR miR TF Possible biological role for mixed TF/miRNA network motifs: TF TF miR miR Joint Target Joint Target TF TF miR miR Joint Target Joint Target type I circuits type II circuits

Main role: noise dumping Type I (incoherent) can stabilize the steady state production of a protein by dumping translational and transcriptional fluctuations. In a simple TF-target interaction any fluctuation of master TF could induce a non-linear increase in the amount of its target products. The presence, among the targets, of a miRNA which downregulates the other targets might represent a simple and effective way to control these fluctuations.

Study of protein fluctuations via stochastic equations The only way to address this issue is to describe the FFLs in terms of stochastic equations and to compare the results with those obtained with that of a standard transcription +translation process In both cases fluctuations are proportional to the mean number of proteins produced by a single mRNA. This number is a function of the miRNA-mRNA affinity.

Stochastic equations for gene expression: two steps model. This model assumes that the promoter is always active and so has only two stochastic variables: the number of mRNAs and the number of proteins

The probability of having m mRNAs and n proteins at time t satisfies the master equation:

The corresponding mean value and fluctuations of the number of proteins are: Where b is the mean number of proteins produced by a single mRNA (burst parameter). Fluctuations only depend on the burst parameter b.

Comparison between FFL noise and plane transcription The noise reduction can be traced back to the different efficiency of the mRNA translation in the two cases With this choice of parameters each mRNA produces a mean of 30 proteins while in the FFL this numebr is reduced to about 20. The noise reduction is a function of the miRNA-mRNA affinity

References • D. Cora’, C. Herrmann, C. Dieterich, F. Di Cunto, P. Provero and M. Caselle “Ab initio identification of putative human transcription factor binding sites by comparative genomics.” BMC Bioinformatics 2005, 6:110. • D. Cora’, M. Caselle, F. Di Cunto and P. Provero “Identification of candidate regulatory sequences in mammalian 3’ -UTRs by statistical analysis of oligonucleotide distributions.” BMC Bioinformatics. 2007 May 24;8:174. • D. Cora’, A. Re, D. Taverna and M. Caselle “Genome-Wide Survey of MicroRna-Transcription Factor Feed-Forward Regulatory Circuits in Human” Molecular BioSystems. 2009 Aug; 5(8):854-67.

Thanks to C. Bosia, D. Cora’ Dep. of Theoretical Physics M. El Baroudi University of Torino and M. Osella A. Re CIBIO University of Trento D. Taverna Dep. of Genetics, Biology and Biochemistry and M.B.C. University of Torino