Era PostGenomica Sara Palumbo Laboratorio di Biologia Molecolare, Dipartimento di Patologia Chirurgica, Medica, Molecolare e dell’Area Critica sara.palumbo@for.unipi.it
Era PostGenomica Analisi del trascrittoma per identificare i geni e la loro funzione Analisi del proteoma per identificare le proteine e la loro funzione
Dogma centrale della biologia molecolare GENOMICA TRASCRITTOMICA PROTEOMICA
Studia l’attività dei geni mediante la misura del trascrittoma TRASCRITTOMICA Studia l’attività dei geni mediante la misura del trascrittoma TRASCRITTOMA E’ l’insieme di tutti trascritti, ovvero di RNA messaggero (mRNA), di un organismo
E’ l’insieme di tutte le proteine codificate dai geni di un organismo PROTEOMICA Ha lo scopo di ottenere una lista completa di tutte le proteine presenti nel nostro organismo e di determinarne l’espressione in ogni cellula o tessuto e la funzione PROTEOMA E’ l’insieme di tutte le proteine codificate dai geni di un organismo
Dogma centrale della biologia molecolare: Il DNA contiene l’informazione per sintetizzare le proteine REPLICAZIONE TRASCRIZIONE TRADUZIONE
Dogma centrale della biologia molecolare: Il DNA contiene l’informazione per sintetizzare le proteine SEQUENZA AMINOACIDICA RIBOSOMA RNA DNA Nucleo PROTEINE
Trascrizione della sequenza nucleotidica del DNA in RNA Solo uno dei due filamenti è utilizzato come “stampo” durante la trascrizione: Filamento codificante RNA: Sequenza nucleotidica complementare al filamento codificante del DNA Filamento non codificante Filamento codificante RNA
Come è fatto l’RNA GCUGACUUAACGAAUCGCCACGCGGAAU L’informazione contenuta nel RNA è rappresentata dall’alternanza di 4 lettere C Citosina G Guanina A Adenina U Uracile Basi azotate GCUGACUUAACGAAUCGCCACGCGGAAU
è un acido ribonucleico a singolo filamento Come è fatto l’RNA Appaiamento delle basi azotate C G A U
Differenza tra DNA ed RNA 1. 2. 3.
Tipologie di RNA Che codificano per proteine mRNA (RNA messaggero) trasferisce l’informazione dal DNA al ribosoma dove avviene la sintesi proteica. Solo l’1-4 % dell’intero trascrittoma Che non codificano per proteine: RNA regolatori: funzione regolatrice della traduzione e dello splicing tRNA (RNA transfer) 15 % rRNA (RNA ribosomiali) 80 % snRNA (piccoli RNA nucleari) RNAi (interference RNA): funzione protettiva contro sequenze nucleotidiche esogene (agenti patogeni come parassiti e virus) miRNA (micro RNA) piccole molecole di RNA che inibiscono la traduzione degli mRNA siRNA (small interfering RNA)
Splicing alternativo Da un gene può originare più di un mRNA Da ogni mRNA origina un solo tipo di proteina
Per ogni mRNA si stima essere tradotta una quantità di proteina 1000 volte maggiore
Traduzione della sequenza nucleotidica dell’mRNA in proteine Filamento non codificante Filamento codificante mRNA
Il codice genetico Codoni di stop della sintesi proteica UAA UAG UGA Codoni di stop della sintesi proteica AUG GUG Codoni di inizio della sintesi proteica 64 triplette versus 20 aminoacidi
Hanno tutte lo stesso genoma, perché queste cellule sono così diverse in morfologia e funzione? Fegato Corteccia cerebrale Muscolo liscio a) Perché esprimono stessi geni in quantita’ diversa b) Perche’ esprimono geni diversi
Trascrittoma in tessuti diversi Marta Melé et al. Science 2015
Espressione genica E’ il processo implicato nella sintesi di mRNA e quindi proteine a partire da una sequenza genica E’ un processo molto complesso e finemente regolato che permette ad una cellula di rispondere dinamicamente in risposta a stimoli ambientali in risposta a stimoli della cellula stessa
Misurare l’espressione di un gene significa.... Eseguire una misurazione quantitativa dei trascritti (molecole di mRNA) o delle proteine codificate da quel gene nelle cellule in esame Quantità di proteina Quantità di mRNA Gene
Espressione genica differenziale: valuta le differenze nell’espressione genica tra due trascrittomi cellule trattate con un composto esogeno a confronto con cellule non trattate un tessuto tumorale a confronto con uno sano versus versus
Tecniche per misurare la quantità di mRNA Northen Blotting Real-time PCR Microarray NGS
Rapidi miglioramenti nella misurazione dell’espressione dei geni
Saggio di protezione della Rnasi: Northern Blotting: Tecnica utile al confronto dei livelli di mRNA con un campione di controllo Estrazione di RNA Sonde radioattive Elettroforesi su gel Trasferimento su membrana Visualizzazione con raggi X Ibridazione con sonde radioattive Svantaggio: Scarsa sensibilità Saggio di protezione della Rnasi: Permette di prevenire a degradazione dell’RNA Metodo più sensibile rispetto al northern blotting
PCR (reazione a catena della polimerasi) Tecnologia automatizzata che permette di creare copie multiple (Amplificare) di una sequenza di DNA producendo milioni di copie Per poter sfruttare questa tecnologia nello studio dell’RNA, è necessario per prima cosa, sintetizzare una catena complementare (cDNA) analoga al DNA stampo da cui è stata generata
Microarray centinaia di copie per ogni gene Output cDNA marcato con fluorofori Sul vetrino si trovano depositate le sequenze di tutti i geni noti I microarray possono misurare l’espressione di tutti i geni noti in poche ore
Tecnologia dei microarray Sfrutta la capacità di una data molecola di mRNA di ibridizzare con il DNA stampo da cui è stata generata
Espressione genica differenziale Estrazione di RNA Sintesi di cDNA marcato con fluorofori Loading del cDNA marcato sul vetrino Ibridazione del cDNA marcato con le sequenze presenti sul vetrino
Acquisizione dell’immagine mediante scansione laser Risoluzione spaziale: 2-5 µm Occupazione di memoria: 250 MB-1GB merge
L’intensità della fluorescenza è proporzionale alla quantità di mRNA
Il colore della fluorescenza indica la variazione di espressione rispetto al campione di controllo Aumentata espressione genica Ridotta espressione genica Nessuna differenza nell’ espressione genica
Minimizzazione degli errori potenziali Eseguire repliche sperimentali e biologiche per validare la riproducibilità del dato Eliminare il background (fluorescenza aspecifica) Normalizzare i dati per riportare la varianza dei dati di espressione ad un valore costante e utilizzare fattori di correzione che tengano conto del fatto che segnali intensi corrispondono a varianze maggiori
Repliche Sperimentali: aliquote dello stesso campione Biologiche: campioni diversi provenienti da campioni simili
Analisi computazionale dei dati Gridding dell’immagine Segmentazione Spaziale Per intensità 3. Estrazione dell’intensità di segnale e di background A. media del pixel B. mediana del pixel
Correzione del background Fluorescenza reale dello spot Fluorescenza dello spot misurata Fluorescenza di zone limitrofe allo spot
Estrazione dei risultati Trasformazione dell’informazione di colore in informazione numerica Normalizzazione dei valori numerici: Within array Es. normalizzazione alle espressioni dei controlli Between arrays Es. normalizzazione alle espressioni dei geni housekeeping (geni che hanno espressione costante)
Estrazione ed analisi dei risultati Si ottiene una lista di geni differenzialmente espressi A ciascun gene è associato un fold change medio ed un p value rappresentativo della differenza rispetto al campione di controllo Test statistici: T-test Analisi della varianza (ANOVA) ….
Tabella dei risultati …..
Interpretazione dei dati Analisi di Pathway (Kegg Pathway) Analisi funzionale (Gene Ontology)
Sequenziamento dell’RNA: NGS RNA-Seq Sequenziamento dell’intero trascrittoma Sequenziamento di mRNA Eliminazione di rRNA Selezione dei poly-A RNA Coda di adenine (polyA)
Vantaggi della tecnologia NGS RNA-Seq Fino a 96 campioni allo stesso tempo Fino a 18 campione per fila della Flow cell Altamente sensibile e specifico Altamente riproducibile Costo ridotto di più della metà rispetto ad un tipico esperimento microarray
Protocollo Isolare poly_a RNA Frammentazione RNA: Frammenti di 200 bp Sintesi di cDNA Legame agli adaptors Amplificazione Flow cell and cluster generation Protocollo
Preparazione della Libreria Selezione dell’mRNA Frammentazione dell’mRNA Sintesi del filamento complementare ai frammenti di mRNA Sintesi del frammento complementare ai filamenti neo sintetizzati
Preparazione della Libreria Riparazione delle code Legame degli adaptor ad entrambe le estremità Amplificazione (PCR)
Allineamento delle sequenze alle sequenze in banca dati (NCBI) Sequenziamento Allineamento delle sequenze alle sequenze in banca dati (NCBI)
Proteoma Circa 20.500 geni: > 70.000 proteine Si stima che il corpo umano possa esprimere fino a 2 M di proteine diverse
Come sono fatte le proteine? Sequenza amminoacidica di 20 aminoacidi
Struttura tridimensionale delle proteine Le proteine si differenziano in struttura e funzione grazie a modificazioni chimiche post-trasduzionali
Funzione delle proteine
Proteina Ruolo biologico Determinazione della sequenza amminoacidica Studio della struttura tridimensionale Ricerca dei ligandi Studio dell’ Interazione con altre proteine Ruolo biologico
Tecniche di determinazione della sequenza aminoacidica 1950 Tecnica di sequenziamento di Edman: Tecnica laboriosa e time consuming (un ciclo di 1 ore per ogni aminoacido) che richiede campioni proteici puri Anni 80’ tecniche di spettrometria di massa Anni 90’ sviluppo dei database genomici e proteici e sviluppo della tecnica Peptide mass fingerprinting Spettrometro di massa
Spettrometria di massa Tecnica che misura il rapporto tra massa e carica di frammenti proteici carichi positivamente generati dalla ionizzazione della proteina Camera di ionizzazione Analizzatore Rivelatore Detector che produce un segnale elettrico Computer detector Spettro di massa
Peptide Mass Fingerprinting identifica una proteina scindendola in brevi segmenti peptidici e successivamente deducendo l'identità della proteina confrontando le masse dei peptidi con quelle di un database di riferimento Frammentazione enzimatica della proteina Ionizzazione Spettrometria di massa Allineamento delle sequenze utilizzando datadase + + + + + + Mascot + + + + + + + + + + + + + + + ~10 aminoacidi
Banche dati biologiche Kegg Gene Ontology Pathway Express The Human Protein Atlas Matrix Science
http://www.genome.jp/kegg/ Kegg è un database che raccoglie tutti i dati sui profili di espressione genica ottenuti con la tecnica microarray
http://www.geneontology.org/index.shtml È un progetto che permette di integrare ed elaborare i dati di espressione contenuti nelle banche dati biologiche mediante standardizzazione della terminologia a creare un vocabolario di riferimento. Permette di eseguire un’analisi di tipo funzionale
L'ontologia, una delle branche fondamentali della filosofia, è lo studio dell'essere in quanto tale, nonché delle sue categorie fondamentali. Il termine deriva dal greco ὄντος, òntos (genitivo singolare del participio presente ὤν di εἶναι, èinai, il verbo essere) più λόγος, lògos, letteralmente "discorso sull'essere”
Gene Ontology è organizzato in tre branche volte a determinare: la funzione molecolare (funzione biochimica, es. enzima, recettore…) il ruolo biologico (processo metabolico, es. metabolismo dei lipidi o dei glucidi, apoptosi…) l’ ubicazione cellulare (membrana, citosol, nucleo…)
Input: lista di geni differenzialmente espressi
Pathway Express http://vortex.cs.wayne.edu/projects.htm Mappatura dei geni differenzialmente espressi nei vari pathway molecolari Valutazione della propagazione della perturbazione provocata dalla variazione di espressione genica
Impact factor E’ fornito un valore di ‘impatto’ determinato da: Numero di geni differenzialmente espressi che cadono nello stesso pathway Fold-change dell’espressione dei geni che cadono nello stesso pathway Posizione in sui tali geni cadono nel pathway (a valle o a monte di un processo biologico)
Esempio di pathway
http://www.proteinatlas.org/humanproteome Per esplorare l’espressione genica nel corpo umano Fornisce indicazione sull’associazione a patologie con specifica sulle neoplasie Indica la tipologia di proteina (es. enzima)ed il pathway di appartenenza Suggerisce se la proteina sia target di farmaci http://www.proteinatlas.org/about/media
Mascot Mascot http://www.matrixscience.com/search_form_select.html Per identificare, caratterizzare e quantificare le proteine utilizzando i dati generati da esperimenti di spettrometria di massa NCBInr SwissProt Mascot EST/EMBL