Computational analysis of data by statistical methods

Slides:



Advertisements
Presentazioni simili
Organizzazione del genoma umano I
Advertisements

Geni costitutivi e non costitutivi
IL PROGETTO GENOMA UMANO (HGP)
Progetto genoma umano Il genoma tappe dello studio del genoma umano
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
Biologia.blu B - Le basi molecolari della vita e dell’evoluzione
Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche.
Corso di ingegneria genetica
DROSOPHILA TRANSGENICA
ANALISI DEI GRUPPI seconda parte
LICEO SCIENTIFICO STATALE “LEONARDO da VINCI” di FIRENZE
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte.
Metodi basati sulle similitudini per dedurre la funzione di un gene
STUDIO FUNZIONALE DI UNA PROTEINA ATTRAVERSO
Micro RNA (miRNA) Piccole molecole di RNA (20-22 nt)
Fisiopatologia Prof. Gerolama Condorelli
Bioinformatica Andrea G. B. Tettamanzi.
Array di oligonucleotidi
Espressione genica.
Opinione studenti II anno A-K Per la stragrande maggioranza degli studenti, il bilancio per il II anno A-K, è nettamente positivo. Infatti se vogliamo.
Ivana Calarco DIFFERENZIAMENTO 29/03/2017.
Perché Real-Time? Real time PCR Analisi PCR quantitativa
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
Clonaggio: vettori plasmidici
Cap. 17 Regolazione dell’espressione genica negli Eucarioti. Pp
Trasferimento secondo Southern (Southern blot)
Proteina DNA RNA Fenotipo Citoplasma Nucleo Regolazione trascrizionale
CORSO DI BIOLOGIA - Programma
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS
CORSO DI BIOLOGIA - Programma
analisi di espressione genica sue applicazioni in ambito biomedico
Possibile programma Corso di Biologia applicata Finalit à della biologia applicata applicazioni di metodologie per lo studio della biologia moderna : metodi.
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Dip. Scienze Biomolecolari e Biotecnologie
Espressione genica External input Endogenous input S2
Analisi dei dati di espressione genica ottenuti mediante microarray
Metodi post-genomici in biochimica cellulare. Metodi post-genomici.
Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.
Applicazioni genetica umana e molecolare II parte
Il DNA Trascrizione Traduzione Trascritto primario (pre-mRNA) mRNA
IV LEZIONE Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di sequenze trascritte con sequenze genomiche: BLAT.
GenBank  Database di sequenze all’NIH  14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001)  Crescita esponenziale  International Nucleotide Sequence.
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.
Microarray Technologies
Cenni di Bioinformatica
Dal neolitico al Xxi secolo.
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
Seminari degli studenti
POSTGENOMICA O GENOMICA FUNZIONALE
Tecniche della Biologia Molecolare
Era PostGenomica Sara Palumbo
Definizione di genoteca (o library) di DNA
Ibridazione degli acidi nucleici e
Arrays di acidi nucleici
Clonaggio per espressione e clonaggio funzionale
CLONAGGIO POSIZIONALE
Trascrizione Processo mediante il quale l’informazione contenuta in una sequenza di DNA (gene) viene copiata in una sequenza complementare di RNA dall’enzima.
Jacob, Monod – Parigi,1961 il modello dell’Operon-lac
Microarrays di DNA, cDNA e oligonucleotidi
Definizione di GENETICA
POSTGENOMICA O GENOMICA FUNZIONALE
POSTGENOMICA O GENOMICA FUNZIONALE
Seminari degli studenti
Transcript della presentazione:

Computational analysis of data by statistical methods Metodi per lo studio dell’espressione genica su larga scala: ESTs SAGE Microarray MICROARRAY SAGE EST Computational analysis of data by statistical methods

ESPRESSIONE DEL GENOMA UMANO NELLE CELLULE DIFFERENZIATE Tutte le cellule di un organismo hanno lo stesso corredo genomico L’espressione genica tessuto specifica determina il fenotipo morfo-funzionale dei tipi cellulari e tissutali In ogni cellula differenziata ed in ogni particolare momento dello sviluppo e’ attivo solo un sottoinsieme dei geni

REGOLAZIONE DELL’ESPRESSIONE GENICA Puo’ agire su ciascuno dei livelli che caratterizzano il passare dell’informazione genica dal DNA alle proteine Negli Eucarioti superiori la regolazione dell’espressione genica si svolge principalmente come controllo della trascrizione Principali tipi di regolazione: Controllo epigenetico Controllo trascrizionale Controllo post-trascrizionale

“Large-scale approach” “One-gene approach” Il gene di interesse e’ espresso in un tessuto o in un dato momento dello sviluppo ? Quanto e’ attivo dal punto di vista trascrizionale ? Real Time PCR PCR semiquantitativa Ibridazione DNA genico o cDNA con RNA totale o poly(A)+RNA (Northern blot) Ibridazione in situ “Large-scale approach” Quali geni sono espressi in un tessuto ed in un dato momento dello sviluppo ? Quanto ciascuno di essi e’ attivo dal punto di vista trascrizionale ? Profilo d’espressione del genoma (TRASCRITTOMA)

METODI PER LO STUDIO SU LARGA SCALA DELL’ESPRESSIONE GENICA Sequenziamento sistematico di ESTs da librerie di cDNA SAGE (Serial Analysis of Gene Expression) cDNA microarrays

EST EST SEQUENCING mRNA of different genes cDNA LIBRARY

ESTIMATE OF THE LEVEL OF EXPRESSION OF A GIVEN GENE UniGene Human Release Statistics Total sequences in clusters: 3115711 Total number of clusters sets: 95928 22094 sets contain at least one known gene 94710 sets contain at least one EST 20876 sets contain both genes and ESTs ESTIMATE OF THE LEVEL OF EXPRESSION OF A GIVEN GENE Sample of 12919 ESTs corresponding to 4460 genes/trascripts eg. Rhodopsin: 65 retina ESTs  65 / 12919 = 0.503%

SAGE Serial Analysis of Gene Expression SAGE è un metodo sperimentale ideato per utilizzare i vantaggi del sequenziamento su larga scala per avere informazioni quantitative di espressione genica (Velculescu et al. 1995, Zhang et al, 1997) Con questa tecnica e’ possibile stimare il livello d’espressione di ciascun gene, attraverso la misura del numero di volte in cui la TAG che lo rappresenta compare in un campione abbastanza grande di TAGs sequenziate a partire dal messaggero del tessuto in analisi Tag to Gene mapping  Gene to Tag mapping Consiste nel sequenziamento da messaggeri cellulari di brevi oligonucleotidi, che fungono da etichette di sequenza (TAG)

SAGE una sequenza di 9 paia di basi permette di identificare 49 (262144) diversi trascritti (una "tag" viene ottenuta da una posizione specifica di ogni trascritto). le "tag" possono essere unite insieme in serie, a costituire lunghe molecole di DNA, che vengono clonate e sequenziate. il numero di volte in cui una singola "tag" viene osservata permette di quantificare l'abbondanza del messaggero identificato nella popolazione dei messaggeri e, indirettamente, il livello di espressione del gene corrispondente.

Esperimenti di Microarray Permettono l’analisi dell’espressione di migliaia di geni simultaneamente

MICROARRAY

GeneChip Affymetrix Ibridizzazione della sonda marcata Scansione del GeneChip con scanner laser

Analisi dell’immagine MICROARRAY Analisi dell’immagine Identificazione della posizione degli spot Costruzione di un’area locale intorno ad ogni spot Calcolo dell’intensità di ogni singolo spot Calcolo del background locale

MICROARRAY Elaborazione dei dati

EST SAGE MICROARRAY

Matrice dei risultati con più condizioni sperimentali … Cond. m Gene 1 x11 x12 x1m Gene 2 x21 x22 x2m Gene n xn1 xn2 xnm Quali geni sono differenzialmente espressi ? Quali e quanti geni sono coespressi?

Obiettivi dell’analisi saranno… Identificazione geni differenzialmente espressi Identificazione pattern di espressione comuni Identificazione di geni co-espressi con geni di funzione nota

CLUSTER ANALISI Il CLUSTERING o analisi cluster o analisi di raggruppamento è un insieme di tecniche di analisi multivariata dei dati volte al raggruppamento di elementi omogenei. Un insieme di oggetti grande e disomogeo viene classificato in una serie limitata di gruppi omogeneei, ovvero “vicini” in accordo con una specifica misura di distanza.

CLUSTER ANALISI Come si effettua una cluster analisi? Si parte dalla matrice dei dati X di dimensione nxp e la si trasforma in una matrice nxn di dissimilarità o di distanze tra le n coppie di osservazioni (vettori di p elementi). Si sceglie poi un algoritmo che definisca le regole su come raggruppare le unità in sottogruppi sulla base delle loro similarità. Lo scopo e’ di identificare un cero numero di gruppi tali che gli elementi appartenenti ad un gruppo siano – in qualche senso – piu’ simili tra loro che non agli elementi appartenenti ad altri gruppi.

CLUSTER ANALISI Misura di similarita’ Linking method DUE STEPS: Diverse misure Standardizzazione dei dati Linking method criterio per stabilire i gruppi Metodi gerarchici e non gerarchici

I geni sono punti nello spazio: CLUSTER ANALISI Identificazione di gruppi di geni con profili di espressione simili Simili rispetto a cosa ? distanza Definizione di I geni sono punti nello spazio: punti vicini nello spazio sono raggruppati insieme

m = 3 Ogni riga è un punto in uno spazio di m dimensioni Var. 1 Var. 2 … Var. m 1 x11 x12 x1m n xn1 xn2 xnm Ogni riga è un punto in uno spazio di m dimensioni m = 3 n punti in uno spazio di m dimensioni Var 2 Var 3 Var 1

Ogni profilo può essere inserito in un grafico … Livelli vs. Pattern Var. 1 Var. 2 … Var. m 1 x11 x12 x1m n xn1 xn2 xnm Ogni profilo può essere inserito in un grafico … 1 X 2 Variabili 1 2 3 4 m

Correlazione di Pearson Distanza euclidea Correlazione di Pearson

1- Data Matrix PROBESET/GENE CD34 Eritroblasti Mieloblasti MKC Monoblasti Monociti Neutrofili Eosinofili GC00U921857_at -1.0 1.2 1.1 -1.1 -0.2 GC00U922066_at -0.5 -0.9 GC00U990452_at 1.0 0.0 GC00U990575_at 0.1 GC00U990668_at 0.3 -0.3 -1.2 GC00U990680_at -0.8 0.2 GC00U990706_at -0.1 0.4 0.9 GC01M033561_at GC01M035219_at 0.5 GC01M035470_at GC01M035671_at GC01M035737_at -0.4 GC01M035952_at 1.3 GC01M035958_at GC01M036333_at

2- Data representation

3-Distance and linking method selection

4 - Result

Pearson QT clustering Insieme disomogeneo di 40 geni 6 cluster, gruppi omogenei