La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

UNIVERSITA DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 13 Clustering.

Presentazioni simili


Presentazione sul tema: "UNIVERSITA DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 13 Clustering."— Transcript della presentazione:

1 UNIVERSITA DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 13 Clustering di dati da microarrays

2 2 4 Introduzione 4 La tecnologia dei DNA microarrays 4 Algoritmi di Clustering 4 algoritmi gerarchici 4 metodo del centroide 4 K-Means 4 Metodi evoluti (CLICK) Sommario

3 3 Cosa si intende per clustering Il clustering è un procedimento che si pone come obiettivo la suddivisione di un insieme di elementi in sottoinsiemi Gli elementi di ogni sottoinsieme sono accomunati da caratteristiche simili

4 4 Dati necessari per il clustering Insieme di elementi da classificare Ogni elemento è specificato da un vettore caratteristico Misura di similarità (o dissimilarità) tra gli elementi Criteri da rispettare: OMOGENEITA: elementi dello stesso cluster hanno alto livello di similarità SEPARAZIONE: elementi di cluster diversi hanno basso livello di similarità

5 5 Cenni matematici (1) Sia N = {e 1, …, e n } un insieme di n elementi, e sia C = {C 1, …, C n } una partizione di N in sottoinsiemi. Ogni sottoinsieme è chiamato cluster e C è detto clustering di N Due elementi e 1 e e 2 sono chiamati mates rispetto a C se sono membri dello stesso cluster in C

6 6 Il clustering in biologia Elementi geni Vettore caratteristico vettore con i livelli di espressione di ogni gene, sotto le diverse condizioni Misura di similarità distanza tra vettori

7 7 Uno dei principali meccanismi di regolazione cellulare è il controllo dellespressione genica che permette alla cellula di coordinare operazioni complesse adattando la concentrazione di proteine alle variazioni dellambiente E possibile identificare gruppi di geni coinvolti in un particolare evento (es. shock termico) sperimentalmente (es. riscaldando la colonia cellulare). Vengono misurati i livelli di mRNA di ogni gene nelle ore successive. Confrontando i dati con i livelli di mRNA tipici di ogni gene, è possibile individuare geni sovra o sottoespressi. Espressione genica

8 8 Tecniche principali per la generazione di livelli di espressione: Microarray cDNA Microarray oligonucleotidici Fingerprint oligonucletidici Si basano tutte su un alto numero di esperimenti Differiscono: per natura indagini e obiettivi per le tecnologie usate

9 9 Microarray cDNA Un insieme di probe univoci (sequenze di DNA a elica singola) vengono immobilizzati su una superificie solida (vetro, nylon, etc.) LmRNA estratto da campioni cellulari viene trattato in modo da generare un campione di cDNA etichettato con una particolare tintura (fluorescente o radioattiva) Il campione viene poi incubato con larray così che ogni probe ibridizza con la molecola di cDNA campione complementare (se presente) Esperimenti con mRNA da diversi campioni possono essere realizzati contemporaneamente, usando tinture diverse o diversi array. I risultati vengono poi confrontati per dare una stima qualitativa dellabbondanza relativa dellmRNA nella popolazione cellulare in esame

10 10 Microarray cDNA

11 11 Libridizzazione non dà una misura quantitativa dellespressione genica: lefficienza nellestrazione di DNA, la sintesi del campione, letichettatura del campione e le reazioni di ibridizzazione variano da campione a campione e tra un gene e laltro. Si può avere solo una stima relativa del tasso di cambiamento della concentrazione di mRNA tra due campioni Matrice dellEspressione Genica Microarray cDNA

12 12 Microarray cDNA

13 13 Algoritmi di clustering - Classificazione Organizzazione dei cluster GERARCHICI NON GERARCHICI Uso di informazioni note, per guidare lalgoritmo SUPERVISIONATI NON SUPERVISIONATI Costruzione della soluzione di clustering AGGLOMERATIVI (si parte dal singolo gene) DIVISIVI (si parte dalla totalità dei geni)

14 14 Clustering Gerarchico Questo approccio prova a collocare gli elementi in input in una struttura gerarchica ad albero, in cui le distanze allinterno dellalbero riflettono le similarità degli elementi. Gli elementi sono localizzati sulle foglie dellalbero Vantaggi: Una figura singola, coerente e globale Intuitivo per i biologi Svantaggi: Non ci sono esplicite partizioni nel cluster Anche per un biologo esperto potrebbe risultare impossibile fare intuizioni semplicemente guardando il grafo ad albero, a causa della dimensione dei dati, e del numero di errori

15 15 Radicato Non radicato Viene impiegata una struttura ad albero Una particolare rappresentazione è il dendrogramma Clustering Gerarchico

16 16 Lalgoritmo di clustering gerarchico fonde cluster simili, e calcola la nuova distanza per i cluster fusi. Se i è clusterizzato con j ed entrambi non sono simili ad r allora D(i,r)=D(j,r) anche se D(i,j)>0. (ricordiamo che D(n,m) è la funzione distanza) Clustering Gerarchico

17 17 Algoritmi presentati Clustering gerarchico Neighbor joining Metodo del centroide Clustering non gerarchico K-means Basati sulla teoria dei grafi: Highly Connected Subgraph (HCS) CLustering Identification via Connectivity Kernels (CLICK) Euristica per un algoritmo polinomiale: Clustering Affinity Search Technique (CAST) Self-Organizing Maps (SOM)

18 18 Clustering gerarchico Può essere supervisionato; è agglomerativo e gerarchico Le soluzioni individuate vengono tipicamente rappresentate con un dendogramma Si procede da una partizione iniziale in cluster singoli ad un merging dei cluster fino a che tutti gli elementi appartengono allo stesso cluster Ogni passo di merge corrisponde allunione di due cluster

19 19 1.Input: la matrice delle distanze D ij 2.Trovare gli elementi r,s tali che: D rs = min ij (D ij ) 3.Fondere i cluster r,s 4.Eliminare gli elementi r,s, e aggiungere un nuovo elemento t con: 5.Ripetere, finché non rimane un solo elemento. Neighbor Joining Algorithm

20 20 Metodo del Centroide Si tratta di un metodo gerarchico aggregativo nel quale la misura di vicinanza tra due cluster viene valutata sulla base della distanza dei relativi centroidi Il centroide di un cluster è il vettore la cui j-esima coordinata è la media aritmetica delle j-esime variabili di tutti gli elementi del cluster in questione

21 21 Si supponga di avere la matrice X di 5 elementi di dimensione 3: x x 2 X = x x x 5 Presi i cluster A = {x 1, x 2 } e B = {x 3, x 4, x 5 }, i loro centroidi sono rispettivamente c(A) = (1, 3, 2.5) e c(B) = (2, 4, 2) e la loro distanza (Manhattan) è d(A,B) = |1-2|+|3-4|+|2.5-2| = 2.5 Esempio

22 22 Metodo del Centroide

23 23 Quindi: inizialmente ogni gene rappresenta un cluster contenente solo sé stesso. Si cercano i 2 cluster r e s con la minima distanza tra loro in modo da fonderli insieme. r viene rimpiazzato con il nuovo cluster mentre s viene eliminato. Le distanze che sono state interessate dalla fusione vengono ricalcolate con la formula mostrata. Si ripetono le fasi 2, 3 e 4 finché il numero totale dei cluster non diviene 1, cioè finché non sono stati presi in considerazione tutti i geni. Vediamo ora un semplicissimo esempio di esecuzione dellalgoritmo, partendo dalla seguente matrice delle distanze: Neighbor Joining Algorithm

24 24 Alla 1° iterazioneper cui si devono fondere i cluster 1 e 2: Alla 2° iterazioneper cui si devono fondere i cluster 3 e 4: Alla 3° iterazione fondiamo i due cluster così ottenuti e otteniamo per cui una matrice con un unico elemento. Lesecuzione quindi termina. Neighbor Joining Algorithm

25 25 Vediamo come avviene la generazione dellalbero (ricordando che i pesi degli archi sono determinati tramite ): Neighbor Joining Algorithm

26 26 Clustering gerarchico (3) Varianti: si basano sul differente Linkage Method usato. Questo metodo è quello utilizzato per calcolare le distanze tra due cluster quando si costruisce il dendrogramma Single Linkage: le distanze sono misurate da ogni membro di un cluster ad ogni membro dellaltro cluster. Si considera come distanza tra i cluster quella minima Average Linkage: la misura della distanza tra due cluster è calcolata come media della distanza di ogni membro del cluster da ogni membro dellaltro Complete Linkage: le distanze sono misurate da ogni membro di un cluster ad ogni membro dellaltro cluster. Si considera come distanza tra i cluster quella massima

27 27 LAverage Linkage è una variante del Neighbor Joining algorithm. Lidea è la stessa ma nel momento in cui calcoliamo le nuove distanze dei cluster creati, vengono prese in considerazione le dimensioni dei cluster che sono stati fusi insieme. 1.Input: La matrice distanza D ij, dimensione del cluster iniziale n r 2.iterazione k: come nel Neighbor Joining algorithm con la differenza che la distanza da un nuovo elemento t è definita attraverso: La misura della distanza tra due cluster è considerata la media della distanza di ogni membro del cluster da ogni membro dellaltro Average Linkage

28 28 Esistono 2 metodi alternativi: Single LinkageComplete Linkage Average Linkage

29 29 Data la seguente matrice delle distanze vediamo un esempio pratico di tutti e tre i metodi sopra citati: Average Linkage

30 30 Il seguente è il dendrogramma relativo al Single Linkage dellesempio riportato sopra. Gli altri due sono differenti ma si ricavano esattamente nello stesso modo. Average Linkage

31 31 Riportiamo la struttura generale del clustering gerarchico: Nellalgoritmo dellAverage Linkage avremo che i parametri assumeranno i seguenti valori: Una struttura generale

32 32 Metodi non gerarchici I metodi non gerarchici mirano a ripartire le n unità della popolazione in k gruppi, fornendo una sola partizione anziché una successione di partizioni tipica dei metodi gerarchici Es.: metodo di Forgy o delle K-Medie o delle aggregazioni dinamiche

33 33 K-means (1) È divisivo e generalmente non supervisionato La soluzione non è visualizzabile attraverso dendogrammi Lalgoritmo K-means assume che il numero k di cluster sia noto Si propone di minimizzare le distanze tra elementi e i centroidi dei cluster loro assegnati

34 34 K-means (2) Algoritmo 1.Si inizia fissando k centroidi iniziali di altrettanti cluster 2.Per ogni gene si calcola la distanza da ciascun centroide e lo si assegna al più vicino 3.Per la partizione provvisoria così ottenuta si ricalcolano i centroidi di ogni cluster (media aritmetica) 4.Per ogni gene si ricalcola la distanza dai centroidi e si effettuano gli eventuali spostamenti tra cluster 5.Si ripetono le operazioni 3 e 4 finché si raggiunge il numero massimo di iterazioni impostate o non si verificano altri spostamenti

35 35 HCS e CLICK I dati di input vengono rappresentati come un grafo di similarità OBIETTIVO: costruzione dei kernel Lalgoritmo partiziona ricorsivamente linsieme corrente di elementi in due sottoinsiemi Prima di una partizione, si considera il sottografo indotto dal corrente sottoinsieme di elementi Se il sottografo soddisfa un criterio di arresto allora viene dichiarato un kernel Altrimenti viene eseguito un taglio minimo pesato su quel sottografo e linsieme viene diviso in due sottoinsiemi separati dal taglio, su cui verrà ripetuta la procedura di costruzione dei kernel Loutput è una lista di kernel che serve come base per gli eventuali cluster

36 36 HCS (1) Costruisce un grafo di similarità non pesato (gli archi in realtà hanno peso 1 o 0) in cui esiste un arco tra due vertici sse la similarità tra i loro corrispondenti elementi supera una soglia predefinita Un HCS è un sottografo indotto H di G il cui valore di taglio minimo eccede |V(H)|/2 Lalgoritmo identifica gli HCS come kernel Possiede due buone proprietà per il clustering: il diametro di ogni cluster che produce è al massimo due ogni cluster è denso almeno la metà di una cricca

37 37 HCS (2) Varianti Iterated-HCS: quando il minimo valore di taglio viene ottenuto da diversi tagli distinti, lalgoritmo HCS ne sceglie uno arbitrariamente. Questo processo potrebbe suddividere piccoli cluster in singoletti. Per superare questo inconveniente, è possibile eseguire diverse (1-5) iterazioni di HCS fino a che nessun nuovo cluster viene trovato Singletons Adoption: i singoletti possono essere adottati dai cluster. Per ogni elemento singolo x si calcola il numero dei vicini presenti in ogni cluster e nellinsieme dei singoletti S. Se il massimo numero di vicini è sufficientemente grande ed è ottenuto da uno dei cluster (piuttosto che da S) allora x viene aggiunto a quel cluster. Questo processo viene ripetuto diverse volte

38 38 HCS (3) Removing Low Degree Vertices: quando il grafo di similarità contiene vertici con grado basso, uniterazione dellalgoritmo di taglio minimo potrebbe semplicemente separare i vertici di grado basso dal resto del grafo. Eliminare i vertici di grado basso da G elimina queste iterazioni e riduce in modo significativo il tempo di esecuzione. Il processo è ripetuto con diverse soglie sul grado

39 39 CLICK Linformazione iniziale è rappresentata dalla matrice nxp dellEspressione Genica M. Ogni riga i di M rappresenta limpronta digitale del gene i-esimo. Lobiettivo dellalgoritmo è quello di determinare cluster di geni tali che i geni in ogni cluster siano altamente simili nellespressione mentre geni in cluster diversi siano dissimili nellespressione. Sulla base di M si costruisce un grafo i cui vertici sono i geni mentre gli archi rappresentano la probabilità che i due vertici dellarco stiano in uno stesso cluster. Ad essa si assegna il valore:

40 40 Lidea dellalgoritmo è la seguente: dato un grafo G si vorrebbe decidere se i suoi vertici rappresentano geni appartenenti ad un solo cluster oppure no. Nel primo caso di dice che G è puro. Per decidere questo si determinano tutti i tagli del grafo G e si valutano le seguenti ipotesi per ogni taglio C del grafo: 4 H0C: il taglio contiene solo geni di uno stesso cluster 4 H1C: il taglio contiene almeno due geni di cluster diversi Se P[H0C]>P[H1C] per ogni taglio C di G allora si dice che G è un kernel Basic-CLICK(G(V,E)) if (V(G)={v}) then sposta v nellinsieme di singoletti R elseif (G è un kernel) then return V(G) else (H,Q,taglio) = Taglio_A_Peso_Minimo(G) Basic-CLICK(H) Basic-CLICK(Q) end if end Le performance di CLICK raffrontate con altri algoritmi di clustering risultano superiori sia in qualità che velocità CLICK: lalgoritmo

41 41 La PCA è una tecnica per la riduzione del numero di variabili casuali che descrivono un fenomeno. Lobiettivo e quello di identificare un sottoinsieme di variabili casuali dalle quali dipende la maggiore varianza (variabilità) del fenomeno y descrive meglio di x la variabilità del fenomeno Analisi Componenti Principali (PCA)

42 42 Matrice di Covarianza input Componente principale i r(i) è lautovettore corrispondente alli-esimo autovalore (i) Il sottospazio generato da r(1), …, r(M), (M

43 43 Obiettivo: mappare vettori x = (x 1,…, x d ) in vettori z = (z 1,…, z M ) con M


Scaricare ppt "UNIVERSITA DI MILANO-BICOCCA LAUREA MAGISTRALE IN BIOINFORMATICA Corso di BIOINFORMATICA: TECNICHE DI BASE Prof. Giancarlo Mauri Lezione 13 Clustering."

Presentazioni simili


Annunci Google