FESR Consorzio COMETA - Progetto PI2S2 Parallellizzazione del Multi Layer Model P-MLM Un nuovo metodo di “pattern discovering” basato su una analisi multistrato Davide Corona°, V. Di Gesù*, Giosuè Lo Bosco*, Luca Pinello*,Guocheng Yuan § *Dipartimento di Matematica e Applicazioni, Universita' degli Studi di Palermo °Istituto Telethon Dulbecco c/o Universita' degli Studi di Palermo § Harvard Medical School,Boston, USA Grid Open Days all’Università di Palermo Palermo,
Palermo, Grid Open Days all’Università di Palermo, Outline Definizione di MLM Possibile proposta di parallellizzazione Applicazione della metodologia a un problema biologico Architettura e prestazioni stimate
Palermo, Grid Open Days all’Università di Palermo, Analisi Multilivello Il metodo proposto per il pattern discovery si basa su un’analisi multilivello del dominio dei dati. L’idea che sta alla base di tale metodo e di tanti altri metodi che utilizzano più viste degli stessi dati (a diversa risoluzione o scala) è che tale strategia permette un’analisi più approfondita. Infatti è possibile concentrarsi con una maggiore precisione sulle aree che si ritiene di maggiore interesse, aree che possono essere individuate a priori con viste a più bassa risoluzione
Palermo, Grid Open Days all’Università di Palermo, Multi Layer Model (MLM) Il MLM è una tecnica di pattern discovery, basato su una tecnica di sogliatura multilivello [1,2]. Per sogliatura si intende una operazione che metta in evidenza gli elementi del segnale di ingresso, f, per cui: Dove p è una condizione definita sugli elementi di f. [1] Davide Corona, Vito Di Gesù, Giosuè Lo Bosco, Luca Pinello, Guo Cheng Yuan “A new Multi-Layers Method to Analyze Gene Expression”, KES 2007, in vol.LNAI 4694, pp , [2] Davide Corona, Marianna Collesano, Vito Di Gesù, Giosuè Lo Bosco, Luca Pinello, Guo-Cheng Yuan, “A Multi-Layer Model to study Genome-Scale Positions of Nucleosomes”, proceedings 6th IWDAA «Livio Scarsi» -Modelling and Simulation in Science, EMFCSC-Series, World Scientific.
Palermo, Grid Open Days all’Università di Palermo, L’idea alla base del MLM L’idea alla base dell’MLM è quella di esplorare il segnale a diverse soglie, in modo da trovare possibili regioni interessanti. In generale: Dove ogni è caratterizzata da una specifica condizione. Le regioni ritenute “interessanti” possono essere utilizzate come input di un algoritmo di classificazione “classico”.
Palermo, Grid Open Days all’Università di Palermo, Più viste dello stesso input
Palermo, Grid Open Days all’Università di Palermo, Perché utilizzare il MLM L’approccio MLM è più accurato e robusto rispetto ad un metodo naive, basato soltanto su una sogliatura statica che fornisce risultati poco accurati soprattutto in presenza di forte rumore nei dati. Accuratezza e robustezza derivano dal fatto che più condizioni, p, consentono di validare la stessa ipotesi su più viste del dato di ingresso. Per tale motivo questo approccio introduce una certa “flessibilità” nel processo di riconoscimento.
Palermo, Grid Open Days all’Università di Palermo, Schema Generale del MLM Segnale di input Funzione di score Preprocessing del segnale Segnale di input Analisi Multi Soglia Preprocessing del segnale Stima del numero di soglie da ritenere interessanti per la scoperta di nuovi pattern Stima del numero di soglie da utilizzare Definizione di un modello per i pattern Classificatore Apprendimento dai dati di input Modello per i pattern interessanti Pattern Discovery Classificazione
Palermo, Grid Open Days all’Università di Palermo, Estrazione delle regioni “interessanti Si considerano un numero di livelli o soglie pari a N e si suddivide l’intervallo [S MIN,S MAX ] in N livelli che indicheremo con l 1, l 2, …, l N. Si considerano quindi i punti di intersezione tra le rette constanti di valore l 1, l 2,..,l N e i vari segmenti del segnale:
Palermo, Grid Open Days all’Università di Palermo, Funzione di score e identificazione dei pattern Ad ogni livello è possibile individuare degli intervalli che indicheremo con Inoltre indicheremo gli estremi del generico intervallo con Dopodiché si preservano gli intervalli che rispettano una specifica regola decisionale per un prefissato numero di soglie L’identificazione dei pattern interessanti avviene utilizzando la funzione di score che andrà ad attribuire un valore di dissimilarità o distanza dal modello creato nella fase di addestramento del MLM.
Palermo, Grid Open Days all’Università di Palermo, I pattern e la loro rappresentazione Un pattern sarà quindi una lista di intervalli: I pattern interessanti devono rispettare una determinata condizione alle varie soglie ad esempio un criterio di permanenza:
Palermo, Grid Open Days all’Università di Palermo, I parametri del MLM I parametri del metodo, qualunque siano il modello e la funzione di score scelta sono quindi: 1.N: che specifica il numero di livelli considerati per “tagliare” il segnale; 2. : la percentuale di permanenza degli intervalli su un certo pattern rispetto al numero totale di livelli considerati.
Palermo, Grid Open Days all’Università di Palermo, Applicazione : individuazione dei nuclesomi da un segnale proveniente da microarray Il problema biologico preso in esame riguarda il posizionamento dei nucleosomi nel DNA. I nucleosomi sono sottounità fondamentali che si ripetono lungo il DNA nella cromatina di tutti gli organismi eucarioti, e costituiscono la sua unità di strutturazione fondamentale. Il loro posizionamento fornisce informazioni utili circa la regolazione del livello di espressione genico nelle cellule.
Palermo, Grid Open Days all’Università di Palermo, Il segnale Per misurare la posizione dei nucleosomi su scala genomica, è stato utilizzato un DNA microarray per identificare le sequenze corrispondenti ai nucleosomi Si ottiene un segnale con un andamento che presenta dei picchi in presenza di nucleosomi
Palermo, Grid Open Days all’Università di Palermo, Risultati ottenuti Si è validato il MLM con un segnale sintentico, ottenendo una percentuale di riconoscimento delle regioni nucleosomiche pari 78%. Inoltre si è confrontato il MLM con una metodologia basata sugli Hidden Markov Model sui dati reali ottenendo un accordo pari al 76% Inoltre il MLM sembra più sensibile alle regioni corrispondenti a segnali deboli, e permette di individuare un’ulteriore categoria di nuclesomi. Metodo Linker MLMNucleosoma MLM Linker HMM Nucleosoma HMM
Palermo, Grid Open Days all’Università di Palermo, Esempio di discovery e classificazione
Palermo, Grid Open Days all’Università di Palermo, Problema biologico e sua dimensione Si intende realizzare un algoritmo parallelo efficiente per l’individuazione delle posizioni dei nucleosomi nel DNA, basandosi sul MLM, al fine di elaborare grandi quantità di dati provenienti da microarray; La dimensione media dei dati provenienti da microarray che si possono produrre al giorno si aggira intorno a 4x10 7 spots/day; Il file contenente il segnale da analizzare, considerando che il segnale è rappresentato da double a 8 byte, si aggirerebbe intorno a 300 MB; Utilizzando la versione seriale su un normale pc (Intel Xeon 2.8Ghz) ciò impiegherebbe circa 5 giorni.
Palermo, Grid Open Days all’Università di Palermo, P-MLM La parallellizzazione del MLM, (supponendo di avere a disposizione n processori) si basa sulla suddivisione del dominio dei dati secondo il paradigma SIMD utilizzando due possibili strategie : 1.Suddivisione del segnale di ingresso in n segmenti con overlap; 2.Suddivisione del segnale di ingresso in n segmenti senza overlap.
Palermo, Grid Open Days all’Università di Palermo, Segmenti con overlap Ogni processore utilizza una regione del segnale che si sovrappone parzialmente con le regioni dei processori adiacenti; Un problema di tale approccio consiste nella determinazione della regione di overlap e nella rimozione dei “duplicati”. L’overlap va scelto accuratamente per ridurre il più possibile i pattern che cadono a cavallo tra due regioni e quindi le comunicazioni tra i processori.
Palermo, Grid Open Days all’Università di Palermo, Segmenti senza overlap Ogni processore elabora gli intervalli della propria regione e comunica al suo successore solo gli eventuali intervalli parziali presenti nella sua regione; Il successore ricostruirà quindi il pattern tenendo conto di tali intervalli parziali. In questo modo si elimina il problema della rimozione dei pattern duplicati che si presenta nel caso di segmenti con overlap, mantenendo nello stesso tempo il livello di comunicazione intra- processori ragionevolmente basso.
Palermo, Grid Open Days all’Università di Palermo, Stima dell’overhead Una stima del costo dell’algoritmo parallelo è: In particolare il paradigma SIMD assicura che il costo dell’overhead sia costante ed indipendente dal numero dei processori; Nel nostro caso l’overhead dipende soltanto dal numero di soglie utilizzate dal MLM (solitamente da 20 a 40 soglie). L’overhead quindi nel caso peggiore consiste nella trasmissione di un vettore di 40 elementi ciascuno di 8 byte (double) dal processore P i al processore P i+1. L’overhead nel caso di segmenti non overlappati risulta costante e comporta soltanto lo spostamento di pochi dati dal processore Pi al processore Pi+1 ;
Palermo, Grid Open Days all’Università di Palermo, Architettura disponibile e stima dei tempi Utilizzando quindi come divisione del dominio dei dati la versione senza overlap, che mantiene bassa la comunicazione tra i processori, ci aspettiamo uno speed-up abbastanza vicino a quello teorico e un algoritmo altamente scalabile; Infatti il tempo di comunicazione si può considerare in prima analisi trascurabile rispetto al tempo di elaborazione di ogni regione; Si intende implementare il software in C servendosi delle librerie MPI; Si intendono utilizzare per testare l’algoritmo 32 macchine con processori dual core AMD OPTERON (~1800 MHz clock) aspettandoci una riduzione del tempo dell’analisi dai 5 giorni sulla macchina seriale a poche ore.
Palermo, Grid Open Days all’Università di Palermo, Any Questions ? Thank you very much for your kind attention!