La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.

Presentazioni simili


Presentazione sul tema: "AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis."— Transcript della presentazione:

1 AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis

2 VI LEZIONE Introduzione all'analisi di dati d'espressione genica. Metodi per lo studio dellespressione genica su larga scala. Profili e matrici d'espressione. Ricerca di geni co-espressi e di geni differenzialmente espressi.

3 Metodi per lo studio dellespressione genica su larga scala: 1. Basati su ibridazione: Microarray/Chip 2. Basati su conteggio di sequenze: EST sequencing, SAGE, e deep sequencing di librerie di cDNA MICROARRAY SAGEEST Computational analysis of data by statistical methods Deep seq. CHIP

4 ESPRESSIONE DEL GENOMA UMANO NELLE CELLULE DIFFERENZIATE Tutte le cellule di un organismo hanno lo stesso corredo genomico Lespressione genica tessuto specifica determina il fenotipo morfo-funzionale dei tipi cellulari e tissutali In ogni cellula differenziata ed in ogni particolare momento dello sviluppo e attivo solo un sottoinsieme dei geni

5 REGOLAZIONE DELLESPRESSIONE GENICA Puo agire su ciascuno dei livelli che caratterizzano il passare dellinformazione genica dal DNA alle proteine Negli Eucarioti superiori la regolazione dellespressione genica si svolge principalmente come controllo della trascrizione Principali tipi di regolazione: Controllo epigenetico Controllo trascrizionale Controllo post-trascrizionale

6 One-gene approach Il gene di interesse e espresso in un tessuto o in un dato momento dello sviluppo ? Quanto e attivo dal punto di vista trascrizionale ? Profilo despressione del genoma (TRASCRITTOMA) Quali geni sono espressi in un tessuto ed in un dato momento dello sviluppo ? Quanto ciascuno di essi e attivo dal punto di vista trascrizionale ? Large-scale approach Real Time PCR PCR semiquantitativa Ibridazione DNA genico o cDNA con RNA totale o poly(A)+RNA (Northern blot) Ibridazione in situ

7 METODI PER LO STUDIO SU LARGA SCALA DELLESPRESSIONE GENICA BASATI SUL SEQUENZIAMENTO Sequenziamento sistematico di ESTs da librerie di cDNA Sequenziamento sistematico con metodi di terza generazione di librerie di cDNA SAGE (Serial Analysis of Gene Expression)

8 mRNA of different genes cDNA LIBRARY SEQUENCING EST Deep seq.

9 ESTIMATE OF THE LEVEL OF EXPRESSION OF A GIVEN GENE Sample of ESTs corresponding to 4460 genes/trascripts eg. Rhodopsin: 65 retina ESTs 65 / = 0.503% UniGene Human Release Statistics Total sequences in clusters: Total number of clusters sets: sets contain at least one known gene 94710sets contain at least one EST 20876sets contain both genes and ESTs EST

10 SAGE Serial Analysis of Gene Expression SAGE è un metodo sperimentale ideato per utilizzare i vantaggi del sequenziamento su larga scala per avere informazioni quantitative di espressione genica (Velculescu et al. 1995, Zhang et al, 1997) Con questa tecnica e possibile stimare il livello despressione di ciascun gene, attraverso la misura del numero di volte in cui la TAG che lo rappresenta compare in un campione abbastanza grande di TAGs sequenziate a partire dal messaggero del tessuto in analisi Tag to Gene mapping Gene to Tag mapping Consiste nel sequenziamento da messaggeri cellulari di brevi oligonucleotidi, che fungono da etichette di sequenza (TAG) SAGE

11 una sequenza di 9 paia di basi permette di identificare 49 (262144) diversi trascritti (una "tag" viene ottenuta da una posizione specifica di ogni trascritto). le "tag" possono essere unite insieme in serie, a costituire lunghe molecole di DNA, che vengono clonate e sequenziate. il numero di volte in cui una singola "tag" viene osservata permette di quantificare l'abbondanza del messaggero identificato nella popolazione dei messaggeri e, indirettamente, il livello di espressione del gene corrispondente. SAGE

12 Esperimenti di Microarray Permettono lanalisi dellespressione di migliaia di geni simultaneamente MICROARRAY DUE CANALI

13 MICROARRAY DUE CANALI

14 Microarray a 2 canali

15

16

17 GeneChip Affymetrix SINGOLO CANALE Ibridizzazione della sonda marcataScansione del GeneChip con scanner laser

18 Microarray a 1 canale

19

20

21

22

23 Affymetrix Genechips 5'3' Sequence Probes Perfect Match Mismatch probe-pairs per gene

24 Analisi immagine Normalizzazione Clustering Espressione differenziale Interpretazione biologica

25 Analisi dellimmagine Identificazione della posizione degli spot Costruzione di unarea locale intorno ad ogni spot Calcolo dellintensità di ogni singolo spot Calcolo del background locale MICROARRAY GeneChip Affymetrix SINGOLO CANALE

26 Elaborazione dei dati MICROARRAY GeneChip Affymetrix SINGOLO CANALE

27 MICROARRAY SAGEEST Deep seq. CHIP

28 Matrice dei risultati: righe = geni, colonne = condizioni sperimentali Cond. 1Cond. 2 … Cond. m Gene 1 x 11 x 12 …x 1m Gene 2 x 21 x 22 …x 2m …………… Gene n x n1 x n2 …x nm Quali geni sono differenzialmente espressi ? Quali e quanti geni sono co-espressi?

29 Obiettivi dellanalisi saranno… Identificazione geni differenzialmente espressi Identificazione pattern di espressione comuni Identificazione di geni co-espressi con geni di funzione nota

30 Schema sperimentale semplice: Dati despressione in colon normale e carcinoma Domanda biologica: Quali geni sono differenzialmente espressi nel confronto ?

31 GENI DIFFERENZIALMENTE ESPRESSI Fold Change: un primo criterio puo essere quello di identificare i geni la cui espressione nei due gruppi di campioni considerati varia di una certa proporzione (raddoppia, dimezza, …) fold change = 2 Molti falsi positivi I geni poco espressi risultano differenzialmente espressi anche3 con variazioni non significative Fold Change: un primo criterio puo essere quello di identificare i geni la cui espressione nei due gruppi di campioni considerati varia di una certa proporzione (raddoppia, dimezza, …) fold change = 2 Molti falsi positivi I geni poco espressi risultano differenzialmente espressi anche3 con variazioni non significative Selezione basata sui p-values associati a Test T: si applica un test statistico per il confronto delle medie di due campioni a ciascun gene; ogni gene risulta associato ad una probabilità (di essere differenzialmente espresso) Si esegue uno stesso test statistico molte volte, serve una correzione Selezione basata sui p-values associati a Test T: si applica un test statistico per il confronto delle medie di due campioni a ciascun gene; ogni gene risulta associato ad una probabilità (di essere differenzialmente espresso) Si esegue uno stesso test statistico molte volte, serve una correzione Uso di metodi basati su permutazioni (SAM) e FDR

32 Schema sperimentale piu complesso: Dati despressione in piu condizioni Domanda biologica: Posso identificare gruppi di geni espressi in modo simile ?

33 CLUSTER ANALISI Il CLUSTERING o analisi cluster o analisi di raggruppamento è un insieme di tecniche di analisi multivariata dei dati volte al raggruppamento di elementi omogenei. Un insieme di oggetti grande e disomogeo viene classificato in una serie limitata di gruppi omogeneei, ovvero vicini in accordo con una specifica misura di distanza.

34 DUE STEPS: Misura di similarita Diverse misure Standardizzazione dei dati Linking method criterio per stabilire i gruppi Metodi gerarchici e non gerarchici CLUSTER ANALISI

35 Si parte dalla matrice dei dati X di dimensione nxp e la si trasforma in una matrice nxn di dissimilarità o di distanze tra le n coppie di osservazioni (vettori di p elementi). Si sceglie poi un algoritmo che definisca le regole su come raggruppare le unità in sottogruppi sulla base delle loro similarità. Lo scopo e di identificare un cero numero di gruppi tali che gli elementi appartenenti ad un gruppo siano – in qualche senso – piu simili tra loro che non agli elementi appartenenti ad altri gruppi. I geni sono punti nello spazio: punti vicini nello spazio sono raggruppati insieme CLUSTER ANALISI

36 Distanza euclidea Correlazione di Pearson CLUSTER ANALISI

37 1- Data Matrix PROBESET/GEN ECD34 Eritroblas ti Mieloblas tiMKC Monoblas tiMonocitiNeutrofiliEosinofili GC00U921857_at GC00U922066_at GC00U990452_at GC00U990575_at GC00U990668_at GC00U990680_at GC00U990706_at GC01M033561_at GC01M035219_at GC01M035470_at GC01M035671_at GC01M035737_at GC01M035952_at GC01M035958_at GC01M036333_at

38 2- Data representation

39 3-Distance and linking method selection

40 Pearson QT clustering Insieme disomogeneo di 40 geni 6 cluster, gruppi omogenei

41 4 - Result


Scaricare ppt "AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis."

Presentazioni simili


Annunci Google