Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte.

Slides:



Advertisements
Presentazioni simili
Primary Italian Saying How You Are.
Advertisements

ANALISI DEI CLUSTER (metodo kmeans)
Questionario genitori - Scuola dellinfanzia Anno scolastico 2011/12 Questionari consegnati ai genitori ….. Questionari restituiti 115 Via Berlinguer N°
The mole.
Capitolo 8 Array Lucidi relativi al volume: Java – Guida alla programmazione James Cohoon, Jack Davidson Copyright © The McGraw-Hill Companies srl.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA
Routing Crediti Parte delle slide seguenti sono adattate dalla versione originale di J.F Kurose and K.W. Ross (© All Rights Reserved)
Sistemi di supporto alle decisioni 4. Clustering
ANALISI CONFORMAZIONALE
ANALISI CONFORMAZIONALE
Ingrandimento: rapporto immagine / oggetto
Apprendimento Non Supervisionato
ANALISI DEI GRUPPI seconda parte
D2I - Tema 3 Analysis and comparison of methods and algorithms for data mining.
Physically-based Animations of 3D Biped Characters with Genetic Algorithms Università di Roma La Sapienza Relatore: Prof. Marco Schaerf Correlatore: Ing.
BRISCOLA GO ON AVANTI. Storia I giochi di carte hanno le origini più disparate e vengono collocati in differenti epoche, la Briscola risale al La.
COMPUTER-AIDED PROCESS PLANNING
Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte.
Queuing or Waiting Line Models
JavaScript: Array JavaScript: Array.
Chapter 14, Hastie , Tibshirani and Friedman
1 Sede, 11 luglio 2007 Emanuele Baldacci, Chief Economist Mercati globali: mind the gap!
MINISTERO DELL ISTRUZIONE,DELLUNIVERSITA E DELLA RICERCA DIREZIONE DIDATTICA STATALE V.A. Ferrentino ROCCAPIEMONTE (Salerno) Anno scolastico 2010/2011.
Struttura di un neurone
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
CLUSTERING WITH WEKA Branca Stefano Dosi Clio Gnudi Edward William.
Efficient Region- Based Image Retrieval di Roger Weber e Michael Mlivoncic Swiss Federal Institute of Technology (ETH) Presentazione di Laura Galli, Mauro.
Frequency Domain Processing
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS
Classificazione (aka Cluster Analysis)
LM FOTOCHIMICA E MATERIALI MOLECOLARI
L’enhancement di immagini mammografiche
La “Gene Ontology” Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato.
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani.
Espressione genica External input Endogenous input S2
White Biotechnology is an emerging field within modern biotechnology that serves sustainability in industry. It uses microorganisms like yeasts, moulds.
Demonstrating Possession
Corso di finanza e mercati finanziari internazionali I rischi finanziari Prof. Vittorio de Pedys, ESCP Europe, Unito.
Ontologia AA F. Orilia. Lez. 16 Discussione dell'approccio controfattualista di lewis condotta da Antonio De Grandis.
Metodi Quantitativi per Economia, Finanza e Management Lezioni n° 7-8.
Taccani1 7.4 Identification ANALISI DEI PERICOLI Hazard Analysis Identificazione Valutazione Misure di Controllo Control Measures Assessment.
Un problema multi impianto Un’azienda dispone di due fabbriche A e B. Ciascuna fabbrica produce due prodotti: standard e deluxe Ogni fabbrica, A e B, gestisce.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Docente: Dr. Stefania Bortoluzzi Dipartimento di Biologia Universita' di Padova viale G. Colombo 3, 35131, Padova Tel
AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.
Microarray Technologies
Accoppiamento scalare
IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.
16 maggio 2006Master in economia e politica sanitaria - Simulazione per la sanità 1 _NetLogo _______________________________________ Impariamo ad usare.
SUMMARY Time domain and frequency domain RIEPILOGO Dominio del tempo e della frequenza RIEPILOGO Dominio del tempo e della frequenza.
Jojo was a man who thought he was a loner But he knew it wouldn't last. Jojo left his home in Tucson, Arizona For some California grass. Get back, get.
Each student will be able to ask an adult or stranger: What do you like to do? and What don’t you like to …?
SUMMARY Quadripoles and equivalent circuits RIEPILOGO Quadripoli e circuiti equivalenti RIEPILOGO Quadripoli e circuiti equivalenti.
Analisi del Rischio Clinico
Circuiti matematici con amplificatori operazionali
RIEPILOGO Transistor JFET
Summary Module 1 – Unit 1 (Current, potential difference, resistance) RIEPILOGO Modulo 1 – Unità 1 (Corrente, tensione, resistenza)
Geothermal energy Geothermal energy is a renewable energy and can be obtained by tapping into The heat of the earth's hydrothermal sites. The water that.
SUMMARY Different classes and distortions RIEPILOGO Le diverse classi e le distorsioni RIEPILOGO Le diverse classi e le distorsioni.
Filtri del secondo ordine e diagrammi di Bode
SUMMARY Real operational amplifiers RIEPILOGO Amplificatori operazionali reali RIEPILOGO Amplificatori operazionali reali.
Accesso a ShareGrid mediante VPN ing. Sergio Rabellino Dipartimento di Informatica Università degli Studi di Torino.
SUMMARY Starting systems RIEPILOGO Sistemi di avviamento RIEPILOGO Sistemi di avviamento.
Wind Waves Stewart: Capitolo 16.. Deep- and Shallow-Water Motion.
Buon giorno, ragazzi oggi è il quattro aprile duemilasedici.
UNIVERSITA’ DI MILANO-BICOCCA LAUREA MAGISTRALE IN INFORMATICA Corso di APPRENDIMENTO AUTOMATICO Prof. Giancarlo Mauri Lezione Clustering.
Statistica con Excel Corso di Fisica ed Elementi di Laboratorio ed Informatica CdL Scienze Biologiche AA 2015/2016.
Activity diagrams Data & Control Flows Esempi
Usare Excel per risolvere problemi….. Esercizi…..
Transcript della presentazione:

Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Analisi di Dati di Espressione 6/5/2008 Stefano Forte

Orario di ricevimento Stefano Forte Lunedi e Mercoledi 10.00 – 11.00 Ufficio 34 dipartimento di Matematica e Informatica (Sopra box bidelli) Tel. 095 7383082 email: forte@dmi.unict.it

Le immagini Acquisizione di 2 immagini (una per ogni lunghezza d’onda/dye) In fase di acquisizione si cerca di bilanciare i due canali. Identificazione degli spots (corrispondente ad matrice testuale 2d tramite una griglia di spots) Calcolo e sottrazione del background Flaging automatico e manuale delle immagini Produzione dei log ratios Log Sample1 Sample2

Preprocessing dei Dati Dai raw data dobbiamo estrarre l’informazione. Per evitare di estrarre informazioni sbagliate dobbiamo cercare di eliminare l’influenza dell’errore sperimentale Nella cellula (condizione reale) Nei risultati (condizione dedotta) sample1 sample2 sample1 sample2 Gene A 30 30 = Gene A 30 45 - Gene B 10 30 - Gene B 10 45 - Gene C 50 20 + Gene C 50 30 + Il sample2 viene sovrastimato di 1,5 volte. Per riportare i valori alla normalità basta dividere ogni valore per 1,5 NORMALIZZAZIONE

Preprocessing dei Dati Normalizzazione: processing dei dati all’interno della stessa ibridazione. Standardizzazione (o Normalizzazione tra gli array): processing dei di tutti gli esperimenti (rende i dati paragonabili tra loro e quindi utilizzabili nello stesso processo di analisi)

Normalizzazione Perché normalizzare? R G Ibridazione dello stesso campione su due canali R G L’allontanamento dalla linea x=y è dovuto a errori random e sistematici

Normalizzazione Selezione dei geni per BIAS correction TUTTI I GENI Normalizzare i dati provenienti da una ibridazione self-to-self è banale, ma come ci si comporta con i dati di un esperimento in cui ogni canale (od ogni array nel caso della standardizzazione) rappresenta una diversa sorgente? Selezione dei geni per BIAS correction TUTTI I GENI Assunzione: la maggior parte dei geni sono espressi in maniera uguale nelle cellule paragonate, mentre solo una piccola parte dei geni è differenzialmente espressa (<20%). Geni Housekeeping Assunzione: sulla base della conoscenza biologica un set di geni può essere considerato come egualmente espresso nei campioni comparati. Spiked-in controls Alcuni controlli vengono immessi nei campioni a concentrazioni note per tarare il sistema Invariant set Un set di geni viene individuato come costante senza nessuna conoscenza biologica di partenza.

Metodi di normalizzazione Normalizzazione globale (SCALING) Un singolo fattore di normalizzazione (k) è calcolato per il bilanciamento dei chip o dei canali. Xinorm = k*Xi In questo modo si equalizza la media delle intensità 2) Normalizzazione intensità dipendente (Lowess o Loess - Locally Weighted Linear Regression) Invece di un singolo fattore si utilizza una funzione che compensa i bias intesità-dipendenti.

I vantaggi di Lowess High intensities M>0: Cy3>Cy5 La normalizzazione globale è inefficace nella correzione degli errori intesità-dipendenti. Il grafico evidenzia come l’utilizzo di un singolo parametro non è sufficiente allo scopo. M = log(Cy3/Cy5) Low intensities M<0: Cy3<Cy5 A

Software Tools Bioconductor: pacchetto di applicazioni per il preprocessing e l’analisi dei dati microarray per l’ambiente statistico open source R BRB: plugin per Excel. Interfaccia intuitiva, facile da usare ma meno potente e customizzabile.

Analisi dei dati Cosa vogliamo sapere dai nostri dati? Quali geni sono responsabili delle differenze tra la condizione A e la condizione B (geni differenzialmente espressi) Quali geni si muovono insieme, nella modalità di espressione, all’interno di uno stesso campione (geni coespressi) Esiste un “classificatore” che ci permette di riconoscere su base molecolare una data condizione?

Analisi dei dati Da cosa partiamo?

Clustering Metodiche per il raggruppamento dei geni (e dei campioni) che mostrano un comportamento simile dal punto di vista dell’espressione. Il Clustering gerarchico raggruppa i geni ed i campioni in gruppi via via sempre più stretti contenenti geni via via sempre più simili nell’espressione. E’ possibile quindi identificare una gerarchia ed un grado di “parentela” tra i diversi gruppi ottenuti.

Clustering Due geni che mostrano un pattern di espressione genica simile si possono considerare coespressi. Ci sono evidenze che molti geni funzionalmente correlati sono coespressi. Ad esempio geni codificanti per elementi di un complesso proteico solitamente hanno simili pattern di espressione. Geni coespressi possono dare informazioni sui meccanismi regolatori. Se un sistema regolativo controlla due o più geni questi risulteranno essere coespressi.

Clustering Una situazione ideale

La matrice di espressione è una rappresentazione dei dati da un certo numero di esperimenti di miroarray. Each element is a log ratio (usually log 2 (Cy5 / Cy3) ) Exp 1 Exp 2 Exp 3 Exp 4 Exp 5 Exp 6 Gene 1 Gene 2 Gene 3 Gene 4 Gene 5 Gene 6 Black indicates a log ratio of zero, i. e., Cy5 and Cy3 are very close in value Green indicates a negative log ratio , i.e., Cy5 < Cy3 Gray indicates missing data Red indicates a positive log ratio, i.e, Cy5 > Cy3

Expression Vectors - Il vettore di epressione genica è una lista che riporta tutti i valori di espressione di un dato gene su un set di esperimenti (praticamente una riga della matrice di espressione).

I vettori di espressione come punti nello “spazio di espressione” Exp 1 Exp 2 Exp 3 G1 -0.8 -0.3 -0.7 G2 -0.4 -0.8 -0.7 G3 -0.6 -0.8 -0.4 Similar Expression G4 0.9 1.2 1.3 G5 1.3 0.9 -0.6 Experiment 3 Experiment 2 Experiment 1

Distanza e similarità -the ability to calculate a distance (or similarity, it’s inverse) between two expression vectors is fundamental to clustering algorithms -distance between vectors is the basis upon which decisions are made when grouping similar patterns of expression -selection of a distance metric defines the concept of distance

La distanza è unamisura (inversa) della similarità tra geni. Exp 1 Exp 2 Exp 3 Exp 4 Exp 5 Exp 6 Gene A Gene B x1A x2A x3A x4A x5A x6A x1B x2B x3B x4B x5B x6B p1 Some distances: (MeV provides 11 metrics) Euclidean: i = 1 (xiA - xiB)2 6 p0 Manhattan: i = 1 |xiA – xiB| 6 3. Pearson correlation

Clustering gerarchico (HCL) HCL is an agglomerative clustering method which joins similar genes into groups. The iterative process continues with the joining of resulting groups based on their similarity until all groups are connected in a hierarchical tree. (HCL-1)

Hierarchical Clustering g1 is most like g8 g7 g1 g8 g2 g3 g4 g5 g6 g4 is most like {g1, g8} g7 g1 g8 g4 g2 g3 g5 g6 (HCL-2)

Hierarchical Clustering g5 is most like g7 g6 g1 g8 g4 g2 g3 g5 g7 {g5,g7} is most like {g1, g4, g8} g6 g1 g8 g4 g5 g7 g2 g3 (HCL-3)

Hierarchical Tree g6 g1 g8 g4 g5 g7 g2 g3 (HCL-4)

Hierarchical Clustering Durante la decisione della gerarchia devono essere prese delle decisioni in merito ai clusters da collegare tra di loro. Calcolare la distanza tra due punti è facile (ad esempio usando la distanza euclidea), ma come calcolo la distanza tra due clusters? O tra un punto ed un cluster? Le regole che governano questi problemi sono i metodi di linkage. (HCL-5)

Agglomerative Linkage Methods Linkage methods are rules or metrics that return a value that can be used to determine which elements (clusters) should be linked. Three linkage methods that are commonly used are: Single Linkage Average Linkage Complete Linkage (HCL-6)

for all i = 1 to NA and j = 1 to NB Single Linkage Cluster-to-cluster distance is defined as the minimum distance between members of one cluster and members of the another cluster. Single linkage tends to create ‘elongated’ clusters with individual genes chained onto clusters. DAB = min ( d(ui, vj) ) where u Î A and v Î B for all i = 1 to NA and j = 1 to NB DAB (HCL-7)

DAB = 1/(NANB) S S ( d(ui, vj) ) Average Linkage Cluster-to-cluster distance is defined as the average distance between all members of one cluster and all members of another cluster. Average linkage has a slight tendency to produce clusters of similar variance. DAB = 1/(NANB) S S ( d(ui, vj) ) where u Î A and v Î B for all i = 1 to NA and j = 1 to NB DAB (HCL-8)

for all i = 1 to NA and j = 1 to NB Complete Linkage Cluster-to-cluster distance is defined as the maximum distance between members of one cluster and members of the another cluster. Complete linkage tends to create clusters of similar size and variability. DAB = max ( d(ui, vj) ) where u Î A and v Î B for all i = 1 to NA and j = 1 to NB DAB (HCL-9)

Comparison of Linkage Methods Single Ave. Complete (HCL-10)

K-Means / K-Medians Clustering (KMC)– 1 Il K-means è un algoritmo non gerarchico di clustering. Raggruppa gli elementi in clusters omogenei ma non genera delle relazioni di parentela tra gli elementi o tra i clusters. Questo algoritmo ha bisogno di avere una conosceza a-priori del numero di clusters da produrre.

K-Means / K-Medians Clustering (KMC)– 1 1. Specificare il numero dei clusters, ad esempio 5. 2. Assegnare, in maniera casuale, ogni punto ad un cluster. G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12 G13

K-Means Clustering – 2 3. Calcolare media o mediana degli elementi in ogni cluster. 4. Riassegnare gli elementi a cluster in modo tale che ogni elemento venga assegnato al cluster il cui valore medio o mediano è il più vicino al valore di quel elemento. G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12 G13 5. Ripetere i passi 3 e 4 finche i geni si stabilizzano (non cambiano più cluster da una iterazione ad un’altra) o finchè si raggiunge un numero massimo di iterazioni stabilito dall’utente. K-Means / K-Medians is most useful when the user has an a-priori hypothesis about the number of clusters the genes should group into.