Bioinformatica Microarray

Slides:

Advertisements

Presentazioni simili

LE FUNZIONI REALI DI VARIABILE REALE

Advertisements

Macchine di Percezione

SCOPO: Determinare condizioni locali di equilibrio al fine di ottenere quello globale del sistema Problema: Flussi uscenti dalla cella centrale verso le.

FUNZIONI REALI DI DUE VARIABILI REALI

Dati, istruzione e pseudocodice

Sistemi di Classificazione usando NCD

Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.

Laboratorio Processi Stocastici

Bioinformatica Classificazione

Bioinformatica Predizione della struttura secondaria dell’RNA – MFOLD

Bioinformatica Pictar – miRanda - TargetScan – miRiam

Dr. Giuseppe Pigola – Bioinformatica Dr. Giuseppe Pigola –

Sistemi di supporto alle decisioni 2. Features space

1 Istruzioni, algoritmi, linguaggi. 2 Algoritmo per il calcolo delle radici reali di unequazione di 2 o grado Data lequazione ax 2 +bx+c=0, quali sono.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°8

Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.

Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.

BASI DI DATI BIOLOGICHE - 3

APPLICAZIONI DI GENETICA UMANA E MOLECOLARE

TEORIA RAPPRESENTAZIONALE DELLA MISURA

Apprendimento Non Supervisionato

Apprendimento di funzioni algebriche

Computational Learning Theory and PAC learning

Analisi e sintesi di circuiti combinatori

8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.

Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.

Alberi di Ricorrenza Gli alberi di ricorrenza rappresentano un modo conveniente per visualizzare i passi di sostitu- zione necessari per risolvere una.

BIOINGEGNERIA S. Salinari Lezione 4.

CORSO DI MODELLI DI SISTEMI BIOLOGICI

Introduzione alla programmazione ll

Modelli simulativi per le Scienze Cognitive Paolo Bouquet (Università di Trento) Marco Casarotti (Università di Padova)

Studente Claudia Puzzo

Analisi delle corrispondenze

Analisi dei gruppi – Cluster Analisys

Lezione 8 Numerosità del campione

Intelligenza Artificiale Algoritmi Genetici

CALCOLO EVOLUZIONISTICO. In ogni popolazione si verificano delle mutazioni. Le mutazioni possono generare individui che meglio si adattano allambiente.

Array di oligonucleotidi

DEFINIZIONE DI NUOVE FUNZIONI & STRATEGIE DI COMPOSIZIONE La capacità di definire nuove funzioni permette: di definire nuove operazioni di introdurre variabili.

Metodi numerici per equazioni differenziali ordinarie Laboratorio di Metodi Numerici a.a. 2008/2009.

Software usati in proteomica

Biologia Computazionale - Algoritmi

Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,

Radix-Sort(A,d) // A[i] = cd...c2c1

Perché Real-Time? Real time PCR Analisi PCR quantitativa

Programma Impostazione di un nuovo Progetto

Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.

Milano, 17 Dicembre 2013 Informatica B Informatica B Matlab Laboratorio del 14/01/2014 Responsabili di laboratorio: Gianluca Durelli:

Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.

Rete di Hopfield applicata al problema del TSP Federica Bazzano

Sottospazi vettoriali

DATA MINING PER IL MARKETING

Espressione genica External input Endogenous input S2

Flusso delle informazioni biologiche. In ogni istante della propria vita ogni cellula umana contiene: 46 cromosomi ( geni) mRNA diversi.

Strumenti statistici in Excell

Computational analysis of data by statistical methods

Computational analysis of data by statistical methods

AN EXAMPLE FROM MORE ADVANCED BIOINFORMATICS Gene expression data analysis.

Cenni di Bioinformatica

Dal neolitico al Xxi secolo.

IV LEZIONE Dati d'espressione genica: ESTs SAGE Microarray NCBI GEO.

POSTGENOMICA O GENOMICA FUNZIONALE

Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.

Parsing ricorsivo discendente Il parsing ricorsivo discendente (recursive descent parsing) è un metodo di tipo top-down che può essere facilmente codificato.

Lezione n° 10 Algoritmo del Simplesso: - Coefficienti di costo ridotto - Condizioni di ottimalità - Test dei minimi rapporti - Cambio di base Lezioni di.

1 TEORIA DELLA PROBABILITÁ. 2 Cenni storici i primi approcci alla teoria della probabilità sono della metà del XVII secolo (Pascal, Fermat, Bernoulli)

Definizione di GENETICA

Transcript della presentazione:

Bioinformatica Microarray Dr. Giuseppe Pigola – pigola@dmi.unict.it

Microarray A parte poche eccezioni, ogni cellula del nostro organismo contiene un set completo di cromosomi composti da geni identici. In una specifica cellula, solo una parte di questi geni è attiva, e sono proprio i diversi gruppi di geni attivi che conferiscono proprietà specifiche ad ogni tipo cellulare. Per “espressione genetica” si intende la produzione di proteina da parte di un gene (la trascrizione delle informazioni contenute sul DNA nell’mRNA che a sua volta viene tradotto nelle proteine che provvedono alle funzioni di base delle cellule). Il tipo e la quantità di mRNA prodotto ci dicono quanto un gene sia espresso. Ad esempio una alterazione dell’espressione genica può indicare la presenza di una malattia. Bioinformatica

Microarray Normalization Image analysis Biological question Differentially expressed genes Sample class prediction etc. Experimental design Microarray experiment Image analysis Normalization Estimation Testing Clustering Discrimination Biological verification and interpretation Bioinformatica

Microarray Analizzare l’espressione genica vuol dire analizzare la quantità di mRNA o di proteine prodotte da una cellula in un particolare momento. I Microarray, chiamati anche DNA chip, permettono l’analisi dell’espressione di migliaia di geni con un singolo esperimento. Il principio alla base dell’analisi dell’espressione genica consiste nel confronto di campioni diversi, ad esempio tessuti sani o malati per studiare l’espressione genica in una determinata malattia. Bioinformatica

Microarray Le molecole di mRNA si legano selettivamente, attraverso l’appaiamento delle basi, ad una sequenza di DNA complementare; Migliaia di sequenze di DNA a singolo filamento vengono posizionate su una griglia microscopica di pochi centimetri, che funge da supporto per l’appaiamento di molecole di mRNA che vengono poste sulla sua superficie (con l’ausilio di robot); Bioinformatica

rapporto di espressione del gene 5 nel paziente 4 Microarray Come già detto si confrontano le espressioni geniche per correlarle a malattie. Un tipico esempio è quello di confrontare l’espressione genica di un certo numero di geni in diversi campioni (=pazienti) appartenenti a diverse classi (=norm vs cancer). rapporto di espressione del gene 5 nel paziente 4 Array1 Array2 Array3 … Bioinformatica

Microarray Una volta preparato il microarray, gli mRNA relativi a determinati geni vengono trattati con dei coloranti fluorescenti (tipicamente Cy3 e Cy5); Dei laser applicati al microarray producono una emissione di colori che indicano l’espressione dei mRNA; A questo punto viene prodotta una immagine RGB: Blu settato a 0; Rosso per le intensità di Cy5; Verde per le intensità di Cy3; Bioinformatica

Microarray PROCESSAMENTO DELL’IMMAGINE Addressing/Gridding: Ad ogni spot è assegnata una coordinata; Segmentation: Classificazione dei pixel (backgroud/spot); Intensity determination: Viene misurata l’intensità di ciascuno spot in relazione all’intensità del backgroud; Bioinformatica

Microarray CREAZIONE DELLA MATRICE DI ESPRESSIONE Il microarray viene rappresentato da una matrice A(i,j) dove: A(i,j) = value_R/value_G Value= Median (Foreground) - Median (Background); Value = Mean (Foreground) - Mean (Background); Bioinformatica

Microarray Software GenPix: Bioinformatica

Microarray Data Mining Una volta ottenuta la matrice che rappresenta il microarray è possibile applicare tecniche di data mining per: Trovare biomarcatori che permettono di individuare una determinata classe (normal/tumor); Classificare un profilo di espressione genica sconosciuta; Bioinformatica

Microarray Data Mining METODI Esistono diverse tecniche di data-mining per la classificazione di dati di espressione genica. Bioinformatica

Microarray Data Mining Una nuova tecnica di data mining per costruire un classificatore: INPUT: Matrice di espressione genica (miRNA); Ridurre i campioni per classe in modo da equlilbrare la generazione dei NFI; Filtraggio di geni differentemente espressi nelle varie classi; Discretizzazione dei dati; Eliminazione dei geni non discriminanti; Costruzione di Maxima Frequent Itemset per ciascuna classe; Estrazione di regole di associazione utilizzate per classificare samples sconosciuti; Validazione del modello tramite KFCV; Bioinformatica

Microarray Data Mining Profiling data Filtering (i.e. discriminant genes) Discretization Binary strategy Model validation (KFCV) Genes patterns (data mining: max freq itemsets) Filtering based on permutation test Bayesian Networks Construction (reverse engineering) Pathway Perturbation microRNAs analysis Superset of robust biomarkers Bioinformatica

Microarray Data Mining Abbiamo N campioni dove xi è un vettore M dimensionale e rappresenta la classe di appartenenza. I geni (miRNA) sono denotati da dove rappresenta i valori di espressione del campione x per il gene (miRNA) m. Bioinformatica

Microarray Data Mining DISCRETIZZAZIONE Al fine di calcolare i Maximal Frequent Itemset dobbiamo prima discretizzare. Ogni valore di gene discretizzato sarà mappato in un Item (quindi i geni-valore sono sostituiti da geni-intervalli) rappresentato da un numero intero; Differenti metodi di discretizzazione possono influenzare l’accuratezza del metodo (supervised- unsupervised, global-local, topdown-bottomup (splitting-merging), etc. etc.; Per discretizzare possiamo usare diversi metodi: Equal Width Interval Bin; Recursive Minimal Entropy Partitioning; Class-Attribute Contingency Coefficient; Unparametrized Supervised Discretization; Iterative Dicotomizer 3 Discretizer; …… Bioinformatica

Microarray Data Mining DISCRETIZZAZIONE: Equal Width Interval Bin Discretizziamo il range di una variabile continua in B bin (contenitori); Dati i livelli d espressione di un gene nel range l’ampieza di ciascun bin è impostata a I limiti confini di ciascun sono impostati a Il metodo è applicato ad ogni gene indipendentemente scegliendo i valori discretizzati nell’insieme A seconda del bin in cui cade un valore continuo Bioinformatica

Microarray Data Mining DISCRETIZZAZIONE: Recursive Minimal Entropy Partitioning Dato l’insieme di livelli di espressione genica per il gene e il confine di partizione Ti, l’entropia della partizione indotta da Ti è Il punto di partizione Ti che minimizza l’entropia verrà scelto e il procedimento proseguirà ricorsivamente finché non si verifica una condizione di stop: Dove Con a,a1,a2 numero di classi nei set Si, Si1,Si2 rispettivamente e N numero di valori del gene in Si (Uguali per tutti i geni). Bioinformatica

Microarray Data Mining DISCRETIZZAZIONE: Recursive Minimal Entropy Partitioning Ordiniamo i valori di Siano x1,x2,…,xM i valori ordinati; Calcoliamo i punti di mezzo Per ciascuno di questi calcoliamo l’entropia e scegliamo come cutting point quello in cui abbiamo minima entropia ottenendo cosi due intervalli; Procediamo ricorsivamente sui due intervalli; x1 x2 x3 x4 ……. T1=(x1+x2)/2 T2=(x2+x3)/2 T3=(x3+x4)/2 ……. Bioinformatica

Microarray Data Mining DISCRETIZZAZIONE: Class-Attribute Contingency Coefficient qir (i = 1,2,...,S, r = 1,2,...,n) numero totale di campioni appartenenti alla classe i-esima che stano nell’intervallo (dr-1,dr]; Mi+ Numero totale di campioni della classe i-esima; M+r Numero totale di campioni che stanno nell’intervallo (dr-1,dr]; n Numero di intervalli; C.J. Tsai, C.-I. Lee, W.-P. Yang. A discretization algorithm based on Class-Attribute Contingency Coefficient. Information Sciences 178:3 (2008) 714-731 Bioinformatica

Microarray Data Mining DISCRETIZZAZIONE: Class-Attribute Contingency Coefficient qir (i = 1,2,...,S, r = 1,2,...,n) numero totale di campioni appartenenti alla classe i-esima che stano nell’intervallo (dr-1,dr]; Mi+ Numero totale di campioni della classe i-esima; M+r Numero totale di campioni che stanno nell’intervallo (dr-1,dr]; n Numero di intervalli; C.J. Tsai, C.-I. Lee, W.-P. Yang. A discretization algorithm based on Class-Attribute Contingency Coefficient. Information Sciences 178:3 (2008) 714-731 Otteniamo i risultati migliori quando i valori continui di ciascuna classe si trovano insieme nello stesso intervallo. Bioinformatica

Microarray Data Mining DISCRETIZZAZIONE: Class-Attribute Contingency Coefficient Bioinformatica

Microarray Data Mining DISCRETIZZAZIONE: Class-Attribute Contingency Coefficient (ESEMPIO) Bioinformatica

Microarray Data Mining DISCRETIZZAZIONE: Unparametrized Supervised Discretizer Definiamo: Pure Value per un attributo: Il valore ha la stessa classe per ogni sua ocorrenza; Impure Value: Altrimenti; CutPoint: Valori che delimitano l’intervallo; Pure Interval: Ogni valore nell’intervallo appartiene alla stessa classe; Impure interval: Altrimenti; Majority class per un intervallo: La classe con più occorrenze; Goodness di un intervallo: La bontà di un intervallo dipende dalla sua purezza; Goodness = (Cardinalità della classe con più elementi nell’intervallo)/(1+rimanenti elementi nell’intervallo) Bioinformatica

Microarray Data Mining DISCRETIZZAZIONE: Unparametrized Supervised Discretizer Algoritmo: Calcolo dei cutpoints iniziali: Massimizzare la purity di ogni intervallo (Questo porta ad avere un numero di intervalli elevato); Refinement: gli intervalli vengono ridotti (facendo una join di intervalli adiacenti) in base alla funzione booleana: Unioncondition(Ii,Ii+1) = [Ii ha la stessa majority class di Ii+1] AND [la goodness dell’unione tra i due intervalli è maggiore della media della goodness di Ii e Ii+1] La condizione viene applicata ad ogni step a tutte le possibili unioni e viene poi fatta la join di quella coppia di intervalli con goodness migliore; Alla fine l’algoritmo darà in output l’insieme di intervalli con goodness migliore; Bioinformatica

Microarray Data Mining DISCRETIZZAZIONE: Iterative Dicotomizer 3 Discretizer Molto simile al metodo dell’entropia; Bioinformatica

Microarray Data Mining DISCRIMINANT GENE FILTERING Se è equamente distribuito tra le classi, esso non contribuirà alla classificazione. Per questo motivo calcoliamo Fissato un threshold TH, definiamo Se tale funzione restituirà false, allora il gene valore non sarà considerato nella costruzione del MFI. Bioinformatica

Microarray Data Mining DISCRIMINANT GENE FILTERING In pratica, dato un valore discretizzato v e una classe k quello che calcoliamo è: Tale valore sarà: 0 se v ha la stessa frequenza nelle varie classi; >1 se v compare di più nella classe k rispetto alle altre; <1 se v compare di più nelle altre classi piuttosto che in k; Bioinformatica

Microarray Data Mining EFRON TEST Significatività statistica; Come per altri casi già visti quantifica (statisticamente) se un valore discretizzato sia discriminante per una classe solo per caso; I valori discretizzati hanno una distribuzione nelle varie classi (ad es. per due classi): Generiamo una distribuzione random dei valori discretizzati nelle varie classi e conteggiamo (count) quante volte otteniamo una occorrenza maggiore a quella reale nella distribuzione random (eseguiamno il test per un certo numero di volte); D1 D2 ….. Dk C1 4 19 …. 12 C2 5 1 10 Bioinformatica

Microarray Data Mining FREQUENT ITEMSETS. Uno dei problemi più importanti in Data Mining e quello delle regole di associazione: Si occupa di identificare relazioni «interessanti» tra itemset, predicendo inoltre associazioni e correlazioni che possono presentarsi i nuovi dati dello stesso tipo; Market Basket Analysis: Analizzare i carrelli della spesa per stabilire quali prodotti vengono venduti assieme; Questo consente di identificare quei prodotti che fanno da traino (e che quindi possono innescare con alta probabilità l’acquisto di altri prodotti); Pannolini  birra; (non vale il viceversa); Marketing: posizionare in modo opportuno i prodotti negli scaffali; Bioinformatica

Microarray Data Mining FREQUENT ITEMSETS. Bisogna affrontare il problema del frequent pattern analysis: individuare un pattern (insieme di item) che si presenta frequentemente nei dati; In generale nel market-basket problem si vogliono estrapolare regole di associazione del tipo: Se un cliente compra x1,x2,…,xk allora probabilmente comprerà anche y; La probabilità minima che pretendiamo si chiama confidenza; Bioinformatica

Microarray Data Mining FREQUENT ITEMSETS. Sia I={i1,i2,…,iN} un insieme di item e sia D un un insieme di transazioni su I. Una transazione è costituita da un sottoinsieme di I; Itemset di lunghezza k sono indicati con k-itemset; Ogni itemset XI ha associato un supporto che indica la frazione di transazioni contenente X; Un itenset X sarà frequente se ha un supporto superiore a una soglia minima data (minsupp) sotto forma di numero (assoluto) o percentuale (relativo); Bioinformatica

Microarray Data Mining FREQUENT ITEMSETS E REGOLE DI ASSOCIAZIONE Gli insiemi frequenti ci permettono di costruire delle regole di associazione (ad es. pannolini birra); Le regole di associazione forniscono delle regole dei tipi IF-THEN Bioinformatica

Microarray Data Mining FREQUENT ITEMSETS E REGOLE DI ASSOCIAZIONE Data una regola di associazione XY possiamo definire il supporto e la confidenza di tale regola come Dove XY significa che i due itemset sono presenti nella stessa transazione; In generale il supporto rappresenta la probabilità che una transazione contenga X e Y cioè p(XY); La confidenza è quindi una probabilità condizionata che indica quanto robusta è una implicazione (bisogna come per supp fissare una soglia minconf); Bioinformatica

Microarray Data Mining FREQUENT ITEMSETS. Impostiamo minsupp = 50% e minconf=50% I prodotti che superano la soglia minsupp sono: Birra 3; Noccioline 3; Pannolini 4; Uova 3; {birra,pannolini} 3; Dall’itemset {birra,pannolini} possiamo tirare fuori le regole di associazione: Entrambe superano la soglia di minsupp; Tutte le transazioni che contengono birra, contengono anche pannolini (conf=100%); Nel viceversa solo il 75% Bioinformatica

Microarray Data Mining APRIORI Monotonicità: Se un insieme S di articoli è frequente, allora anche suo sottoinsieme lo è; L’algoritmo costruisce i singoli insiemi frequenti, a partire da questi costruisce le coppie di insiemi frequenti, dalle coppie costruisce le triple di insiemi frequenti (livelli successivi si procede più velocemente), fino ad arrivare a k-uple di insiemi frequenti in cui non esistono itemset frequenti costituite da k + 1 elementi; Bioinformatica

Microarray Data Mining APRIORI: ESEMPIO Minsupp=2; Ci= candidati; Bioinformatica

Microarray Data Mining APRIORI: PSEUDOCODICE Bioinformatica

Microarray Data Mining INSIEMI FREQUENTI, CHIUSI, MASSIMALI Gli insiemi massimali sono chiusi, e gli insiemi chiusi sono frequenti; Bioinformatica

Microarray Data Mining MAXIMAL FREQUENT ITEMSETS: Dato l’insieme di geni discriminanti discretizzato, estraiamo per ogni classe k l’insieme di itemset massimale (MFI); Per ogni classe k=0,…,K−1, viene calcolato separatamente l’MFI corrispondente MFI(0),MFI(1),…, MFI(K-1) Fissata la classe k MFI(k) sarà composto da un certo numero di itemset frequenti dove il v-esimo sarà della forma mfiv(k)={I1,I2,…,Ij} (ogni item I è un valore discretizzato che indica un gene intervallo); mfiv(k) può essere visto come una regola di associazione nella forma: Bioinformatica

Microarray Data Mining MAXIMAL FREQUENT ITEMSETS: VALUTAZIONE Siano allora date le regole di associazione per ogni classe e un campione sconosciuto (discretizzato): Possiamo allora valutare quante regole vengono soddisfatte, anche parzialmente per ogni classe. Fissata la classe k e la regola rv valutiamo il campione sconosciuto assegnando uno score EVAL cerca di tenere in considerazione il numero di item del campione contenute nella regola insieme alla cardinalità della regola (più grande è la cardinalità più alto sarà lo score). Tale score è normalizzato per la cardinalità dell’itemset. Lo score finale per una data classe sarà allora dato da: Bioinformatica

Microarray Data Mining - Validazione k-Fold Cross-Validation: Il training set è diviso in k gruppi distinti; Si usano k-1 gruppi come training set e il gruppo escluso come test input; Processo iterato per ognuna delle k possibili scelte del gruppo tolto dal training-set; Risultato: Media dei risultati; Leave-one-out Cross-Validation: Si estra un elemento dal set di dati; Il set di dati meno l’elemento verrà usato come training set; L’elemento verrà usato come test input; Processo iterato; Bioinformatica

Microarray Data Mining TOOL Bioinformatica

Microarray Data Mining RISULTATI: LVOCV Ci siamo confrontati con uno dei più recenti ed efficienti metodi oggi conosciuti (ANMM4CBR) su quattro dataset. Dataset ANMM4CBR Nuovo Metodo Leukemia 97.6 1 Colon 86.7 SRBCT 99.7 CGM 70.0 0.982 Yao B, Li S: ANMM4CBR: a case-based reasoning method for gene expression data classication. Algorithms for Molecular Biology 2010, 5:14, [http://www.almob.org/content/5/1/14]. Bioinformatica

Microarray Data Mining RISULTATI: BLIND TEST Dataset ANMM4CBR Nuovo Metodo Leukemia 97.6 0,98 Colon 86.7 1 SRBCT 99.7 CGM 70.0 0.73 Yao B, Li S: ANMM4CBR: a case-based reasoning method for gene expression data classication. Algorithms for Molecular Biology 2010, 5:14, [http://www.almob.org/content/5/1/14]. Bioinformatica