La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte.

Presentazioni simili


Presentazione sul tema: "Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte."— Transcript della presentazione:

1 Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

2 Orario di ricevimento Stefano Forte Lunedi e Mercoledi – Ufficio 34 dipartimento di Matematica e Informatica (Sopra box bidelli) Tel

3 Le immagini -Acquisizione di 2 immagini (una per ogni lunghezza donda/dye) -In fase di acquisizione si cerca di bilanciare i due canali. -Identificazione degli spots (corrispondente ad matrice testuale 2d tramite una griglia di spots) -Calcolo e sottrazione del background -Flaging automatico e manuale delle immagini -Produzione dei log ratios Log Sample1 Sample2

4 Preprocessing dei Dati Dai raw data dobbiamo estrarre linformazione. Per evitare di estrarre informazioni sbagliate dobbiamo cercare di eliminare linfluenza dellerrore sperimentale Nella cellula (condizione reale) sample1sample2 Gene A 30 Gene B Gene C Nei risultati (condizione dedotta) sample1sample2 Gene A 3045 Gene B Gene C = Il sample2 viene sovrastimato di 1,5 volte. Per riportare i valori alla normalità basta dividere ogni valore per 1,5 NORMALIZZAZIONE

5 Preprocessing dei Dati Normalizzazione: processing dei dati allinterno della stessa ibridazione. Standardizzazione (o Normalizzazione tra gli array) : processing dei di tutti gli esperimenti (rende i dati paragonabili tra loro e quindi utilizzabili nello stesso processo di analisi)

6 Normalizzazione Perché normalizzare? R G Ibridazione dello stesso campione su due canali Lallontanamento dalla linea x=y è dovuto a errori random e sistematici

7 Normalizzazione Normalizzare i dati provenienti da una ibridazione self-to-self è banale, ma come ci si comporta con i dati di un esperimento in cui ogni canale (od ogni array nel caso della standardizzazione) rappresenta una diversa sorgente? Selezione dei geni per BIAS correction TUTTI I GENI Assunzione: la maggior parte dei geni sono espressi in maniera uguale nelle cellule paragonate, mentre solo una piccola parte dei geni è differenzialmente espressa (<20%). Geni Housekeeping Assunzione: sulla base della conoscenza biologica un set di geni può essere considerato come egualmente espresso nei campioni comparati. Spiked-in controls Alcuni controlli vengono immessi nei campioni a concentrazioni note per tarare il sistema Invariant set Un set di geni viene individuato come costante senza nessuna conoscenza biologica di partenza.

8 Metodi di normalizzazione 1)Normalizzazione globale (SCALING) Un singolo fattore di normalizzazione (k) è calcolato per il bilanciamento dei chip o dei canali. X i norm = k*Xi In questo modo si equalizza la media delle intensità 2) Normalizzazione intensità dipendente (Lowess o Loess - Locally Weighted Linear Regression) Invece di un singolo fattore si utilizza una funzione che compensa i bias intesità-dipendenti.

9 I vantaggi di Lowess La normalizzazione globale è inefficace nella correzione degli errori intesità- dipendenti. Il grafico evidenzia come lutilizzo di un singolo parametro non è sufficiente allo scopo. A M = log(Cy3/Cy5) Low intensities M<0: Cy30: Cy3>Cy5

10 Software Tools Bioconductor: pacchetto di applicazioni per il preprocessing e lanalisi dei dati microarray per lambiente statistico open source R BRB: plugin per Excel. Interfaccia intuitiva, facile da usare ma meno potente e customizzabile.

11 Analisi dei dati Cosa vogliamo sapere dai nostri dati? 1)Quali geni sono responsabili delle differenze tra la condizione A e la condizione B (geni differenzialmente espressi) 2)Quali geni si muovono insieme, nella modalità di espressione, allinterno di uno stesso campione (geni coespressi) 3)Esiste un classificatore che ci permette di riconoscere su base molecolare una data condizione?

12 Analisi dei dati Da cosa partiamo?

13 Clustering Metodiche per il raggruppamento dei geni (e dei campioni) che mostrano un comportamento simile dal punto di vista dellespressione. Il Clustering gerarchico raggruppa i geni ed i campioni in gruppi via via sempre più stretti contenenti geni via via sempre più simili nellespressione. E possibile quindi identificare una gerarchia ed un grado di parentela tra i diversi gruppi ottenuti.

14 Clustering Due geni che mostrano un pattern di espressione genica simile si possono considerare coespressi. Ci sono evidenze che molti geni funzionalmente correlati sono coespressi. Ad esempio geni codificanti per elementi di un complesso proteico solitamente hanno simili pattern di espressione. Geni coespressi possono dare informazioni sui meccanismi regolatori. Se un sistema regolativo controlla due o più geni questi risulteranno essere coespressi.

15 Clustering Una situazione ideale

16 La matrice di espressione è una rappresentazione dei dati da un certo numero di esperimenti di miroarray. Each element is a log ratio (usually log 2 (Cy5 / Cy3) ) Red indicates a positive log ratio, i.e, Cy5 > Cy3 Green indicates a negative log ratio, i.e., Cy5 < Cy3 Black indicates a log ratio of zero, i. e., Cy5 and Cy3 are very close in value Exp 1Exp 2Exp 3Exp 4Exp 5Exp 6 Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 Gene 6 Gray indicates missing data

17 Expression Vectors - Il vettore di epressione genica è una lista che riporta tutti i valori di espressione di un dato gene su un set di esperimenti (praticamente una riga della matrice di espressione).

18 I vettori di espressione come punti nello spazio di espressione Experiment 1 Experiment 2 Experiment 3 Similar Expression Exp 1Exp 2Exp 3 G1G1 G2 G3 G4 G

19 Distanza e similarità -the ability to calculate a distance (or similarity, its inverse) between two expression vectors is fundamental to clustering algorithms -distance between vectors is the basis upon which decisions are made when grouping similar patterns of expression -selection of a distance metric defines the concept of distance

20 La distanza è unamisura (inversa) della similarità tra geni. Exp 1Exp 2Exp 3Exp 4Exp 5Exp 6 Gene A Gene B x 1A x 2A x 3A x 4A x 5A x 6A x 1B x 2B x 3B x 4B x 5B x 6B Some distances: (MeV provides 11 metrics) 1.Euclidean: i = 1 (x iA - x iB ) Manhattan: i = 1 |x iA – x iB | 6 3. Pearson correlation p0p0 p1p1

21 Clustering gerarchico (HCL) HCL is an agglomerative clustering method which joins similar genes into groups. The iterative process continues with the joining of resulting groups based on their similarity until all groups are connected in a hierarchical tree. (HCL-1)

22 Hierarchical Clustering g8g1g2g3g4g5g6g7 g1g8g2g3g4g5g6g7g1g8g4g2g3g5g6 g1 is most like g8 g4 is most like {g1, g8} (HCL-2)

23 g7g1g8g4g2g3g5g6 g1g8g4g2g3g5g7 g6g1g8g4g5g7g2g3 Hierarchical Clustering g5 is most like g7 {g5,g7} is most like {g1, g4, g8} (HCL-3)

24 g6g1g8g4g5g7g2g3 Hierarchical Tree (HCL-4)

25 Hierarchical Clustering Durante la decisione della gerarchia devono essere prese delle decisioni in merito ai clusters da collegare tra di loro. Calcolare la distanza tra due punti è facile (ad esempio usando la distanza euclidea), ma come calcolo la distanza tra due clusters? O tra un punto ed un cluster? Le regole che governano questi problemi sono i metodi di linkage. (HCL-5)

26 Agglomerative Linkage Methods Linkage methods are rules or metrics that return a value that can be used to determine which elements (clusters) should be linked. Three linkage methods that are commonly used are: Single Linkage Average Linkage Complete Linkage (HCL-6)

27 Cluster-to-cluster distance is defined as the minimum distance between members of one cluster and members of the another cluster. Single linkage tends to create elongated clusters with individual genes chained onto clusters. D AB = min ( d(u i, v j ) ) where u A and v B for all i = 1 to N A and j = 1 to N B Single Linkage (HCL-7) D AB

28 Cluster-to-cluster distance is defined as the average distance between all members of one cluster and all members of another cluster. Average linkage has a slight tendency to produce clusters of similar variance. D AB = 1/(N A N B ) ( d(u i, v j ) ) where u A and v B for all i = 1 to N A and j = 1 to N B Average Linkage (HCL-8) D AB

29 Cluster-to-cluster distance is defined as the maximum distance between members of one cluster and members of the another cluster. Complete linkage tends to create clusters of similar size and variability. D AB = max ( d(u i, v j ) ) where u A and v B for all i = 1 to N A and j = 1 to N B Complete Linkage (HCL-9) D AB

30 Comparison of Linkage Methods SingleAve.Complete (HCL-10)

31 Il K-means è un algoritmo non gerarchico di clustering. Raggruppa gli elementi in clusters omogenei ma non genera delle relazioni di parentela tra gli elementi o tra i clusters. Questo algoritmo ha bisogno di avere una conosceza a- priori del numero di clusters da produrre. K-Means / K-Medians Clustering (KMC)– 1

32 1. Specificare il numero dei clusters, ad esempio Assegnare, in maniera casuale, ogni punto ad un cluster. G1G2G3G4G5G6G7G8G9G10G11G12G13 K-Means / K-Medians Clustering (KMC)– 1

33 K-Means Clustering – 2 3. Calcolare media o mediana degli elementi in ogni cluster. 4. Riassegnare gli elementi a cluster in modo tale che ogni elemento venga assegnato al cluster il cui valore medio o mediano è il più vicino al valore di quel elemento. G1G2G3G4G5G6 G7 G8G9G10 G11 G12 G13 5. Ripetere i passi 3 e 4 finche i geni si stabilizzano (non cambiano più cluster da una iterazione ad unaltra) o finchè si raggiunge un numero massimo di iterazioni stabilito dallutente. K-Means / K-Medians is most useful when the user has an a-priori hypothesis about the number of clusters the genes should group into.


Scaricare ppt "Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte."

Presentazioni simili


Annunci Google