Www.consorzio-cometa.it FESR Consorzio COMETA - Progetto PI2S2 Parallellizzazione del Multi Layer Model P-MLM Un nuovo metodo di “pattern discovering”

Slides:



Advertisements
Presentazioni simili
Macchine di Percezione
Advertisements

RISPOSTA DI SISTEMI ANELASTICI
LA PROGETTAZIONE DEL MIGLIORAMENTO
Linguaggi di programmazione
RICONOSCIMENTO AUTOMATICO DI DADI DA GIOCO TRAMITE IMAGE PROCESSING
Affidabilita` di un’analisi. Specificita`:
FEM 2010, Roma 13 dicembre 2010 S. Ventre et all, Calcolo Elettromagnetico Intensivo per la soluzione di problemi basati su formulazione integrale Calcolo.
Statistica Descrittiva e Statistica Inferenziale
Quali sono i clienti che l’azienda è in grado di soddisfare?
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Programmazione per Obiettivi
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Algoritmi Paralleli e Distribuiti a.a. 2008/09
Dip. Economia Politica e Statistica
Tra semplicità e complessità Un breve percorso intorno al tema della comprensibilità del mondo Seconda tappa Luca Mari, Università Cattaneo - LIUC
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Stima ed algoritmi di consensus distribuito: considerazioni su IKF
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
BILAYER SEGMENTATION OF LIVE VIDEO
Apprendimento di movimenti della testa tramite Hidden Markov Model
Modelli simulativi per le Scienze Cognitive Paolo Bouquet (Università di Trento) Marco Casarotti (Università di Padova)
Scheduling in GrADS Il progetto GrADS (Grid Application Development Software) ha lo scopo di semplificare lo sviluppo di unapplicazione Grid. Tra le funzionalità
Analisi delle corrispondenze
Notazioni Asintotiche e Ordini di Grandezza delle funzioni
Intelligenza Artificiale Algoritmi Genetici
Intelligenza Artificiale
Fondamenti di Informatica1 Ripetizioni di segmenti di codice Spesso è necessario ripetere più volte uno stesso segmento dell'algoritmo (e.g. I/O, elaborazioni.
CALCOLO EVOLUZIONISTICO. In ogni popolazione si verificano delle mutazioni. Le mutazioni possono generare individui che meglio si adattano allambiente.
In contrapposizione con i metodi convenzionali (hard computing), le tecniche di soft computing non si basano su procedimenti esprimibili in forma chiusa.
Parte I (introduzione) Taratura degli strumenti (cfr: UNI 4546) Si parla di taratura in regime statico se lo strumento verrà utilizzato soltanto per misurare.
Compattamento del DNA nei cromosomi
Opinione studenti II anno A-K Per la stragrande maggioranza degli studenti, il bilancio per il II anno A-K, è nettamente positivo. Infatti se vogliamo.
Cinetica delle reazioni biologiche
© Copyright - Consoli – Trinaistich - Astorina
Quale valore dobbiamo assumere come misura di una grandezza?
TRASDUTTORI E SENSORI.
Radix-Sort(A,d) // A[i] = cd...c2c1
I sistemi di pianificazione e controllo.
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
Un esempio: Calcolo della potenza n-esima di un numero reale
Presentazione Attività di Ricerca Secondo periodo – Aprile-Settembre Ottobre 2008.
Cenni teorici. La corrente elettrica dal punto di vista microscopico
Università degli studi di Padova Dipartimento di ingegneria elettrica
RICERCA PER LA VALUTAZIONE
Algoritmi CHE COS’è UN ALGORITMO di ORDINAMENTO?
Fabio Garufi - TAADF Tecniche automatiche di acquisizione dati Sensori Prima parte.
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
IL CAMPIONE.
DAC A RESISTORI PESATI.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Dipartimento di Ingegneria dell’Informazione Università degli Studi di Parma Intelligenza Artificiale Risoluzione dei Problemi (parte 2) Agostino Poggi.
Computational analysis of data by statistical methods
Computational analysis of data by statistical methods
Intelligenza Artificiale Reti Neurali
Allineamento di sequenze
A.A Roma Tre Università degli studi “Roma Tre” Facoltà di Ingegneria Corso di Laurea in Ingegneria Elettronica Servizi di localizzazione a livello.
Elaborazione statistica di dati
Il ruolo della Comunità:
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Il progetto genoma umano e gli altri progetti genoma: importanza degli organismi-modello.
REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
GdM 2016 Dipartimento geriatrico riabilitativo: dalla formalizzazione dei PDTA al monitoraggio degli Indicatori Alberti Annalisa- USC Qualità 18 aprile.
CARATTERIZZAZIONE E CONFRONTO DEL THROUGHPUT DI RETI WIRELESS PUNTO-PUNTO US-ROBOTICS TURBO PC CARD E 3COM OFFICECONNECT FACOLTA’ DI INGEGNERIA Corso di.
Campionamento procedimento attraverso il quale si estrae, da un insieme di unità (popolazione) costituenti l’oggetto delle studio, un numero ridotto di.
POLITECNICO DI BARI CORSO DI LAUREA IN INGEGNERIA INFORMATICA DIPARTIMENTO DI ELETTRONICA ED ELETTROTECNICA POLITECNICO DI BARI CORSO DI LAUREA IN INGEGNERIA.
Algoritmi Avanzati a.a.2010/2011 Prof.ssa Rossella Petreschi Complessità e Trasportabilità Lezione n°3.
Martedi 8 novembre 2005 Consorzio COMETA “Progetto PI2S2” UNIONE EUROPEA Applicazioni in Ambiente GRID di Casi Industriali di Sistemi Energetici Prof.
FESR Consorzio COMETA - Progetto PI2S2 Integrazione di Fluent su Grid Emanuele Leggio Marcello Iacono Manno - Gianluca Passaro.
Transcript della presentazione:

FESR Consorzio COMETA - Progetto PI2S2 Parallellizzazione del Multi Layer Model P-MLM Un nuovo metodo di “pattern discovering” basato su una analisi multistrato Davide Corona°, V. Di Gesù*, Giosuè Lo Bosco*, Luca Pinello*,Guocheng Yuan § *Dipartimento di Matematica e Applicazioni, Universita' degli Studi di Palermo °Istituto Telethon Dulbecco c/o Universita' degli Studi di Palermo § Harvard Medical School,Boston, USA Grid Open Days all’Università di Palermo Palermo,

Palermo, Grid Open Days all’Università di Palermo, Outline Definizione di MLM Possibile proposta di parallellizzazione Applicazione della metodologia a un problema biologico Architettura e prestazioni stimate

Palermo, Grid Open Days all’Università di Palermo, Analisi Multilivello Il metodo proposto per il pattern discovery si basa su un’analisi multilivello del dominio dei dati. L’idea che sta alla base di tale metodo e di tanti altri metodi che utilizzano più viste degli stessi dati (a diversa risoluzione o scala) è che tale strategia permette un’analisi più approfondita. Infatti è possibile concentrarsi con una maggiore precisione sulle aree che si ritiene di maggiore interesse, aree che possono essere individuate a priori con viste a più bassa risoluzione

Palermo, Grid Open Days all’Università di Palermo, Multi Layer Model (MLM) Il MLM è una tecnica di pattern discovery, basato su una tecnica di sogliatura multilivello [1,2]. Per sogliatura si intende una operazione che metta in evidenza gli elementi del segnale di ingresso, f, per cui: Dove p è una condizione definita sugli elementi di f. [1] Davide Corona, Vito Di Gesù, Giosuè Lo Bosco, Luca Pinello, Guo Cheng Yuan “A new Multi-Layers Method to Analyze Gene Expression”, KES 2007, in vol.LNAI 4694, pp , [2] Davide Corona, Marianna Collesano, Vito Di Gesù, Giosuè Lo Bosco, Luca Pinello, Guo-Cheng Yuan, “A Multi-Layer Model to study Genome-Scale Positions of Nucleosomes”, proceedings 6th IWDAA «Livio Scarsi» -Modelling and Simulation in Science, EMFCSC-Series, World Scientific.

Palermo, Grid Open Days all’Università di Palermo, L’idea alla base del MLM L’idea alla base dell’MLM è quella di esplorare il segnale a diverse soglie, in modo da trovare possibili regioni interessanti. In generale: Dove ogni è caratterizzata da una specifica condizione. Le regioni ritenute “interessanti” possono essere utilizzate come input di un algoritmo di classificazione “classico”.

Palermo, Grid Open Days all’Università di Palermo, Più viste dello stesso input

Palermo, Grid Open Days all’Università di Palermo, Perché utilizzare il MLM L’approccio MLM è più accurato e robusto rispetto ad un metodo naive, basato soltanto su una sogliatura statica che fornisce risultati poco accurati soprattutto in presenza di forte rumore nei dati. Accuratezza e robustezza derivano dal fatto che più condizioni, p, consentono di validare la stessa ipotesi su più viste del dato di ingresso. Per tale motivo questo approccio introduce una certa “flessibilità” nel processo di riconoscimento.

Palermo, Grid Open Days all’Università di Palermo, Schema Generale del MLM Segnale di input Funzione di score Preprocessing del segnale Segnale di input Analisi Multi Soglia Preprocessing del segnale Stima del numero di soglie da ritenere interessanti per la scoperta di nuovi pattern Stima del numero di soglie da utilizzare Definizione di un modello per i pattern Classificatore Apprendimento dai dati di input Modello per i pattern interessanti Pattern Discovery Classificazione

Palermo, Grid Open Days all’Università di Palermo, Estrazione delle regioni “interessanti Si considerano un numero di livelli o soglie pari a N e si suddivide l’intervallo [S MIN,S MAX ] in N livelli che indicheremo con l 1, l 2, …, l N. Si considerano quindi i punti di intersezione tra le rette constanti di valore l 1, l 2,..,l N e i vari segmenti del segnale:

Palermo, Grid Open Days all’Università di Palermo, Funzione di score e identificazione dei pattern Ad ogni livello è possibile individuare degli intervalli che indicheremo con Inoltre indicheremo gli estremi del generico intervallo con Dopodiché si preservano gli intervalli che rispettano una specifica regola decisionale per un prefissato numero di soglie L’identificazione dei pattern interessanti avviene utilizzando la funzione di score che andrà ad attribuire un valore di dissimilarità o distanza dal modello creato nella fase di addestramento del MLM.

Palermo, Grid Open Days all’Università di Palermo, I pattern e la loro rappresentazione Un pattern sarà quindi una lista di intervalli: I pattern interessanti devono rispettare una determinata condizione alle varie soglie ad esempio un criterio di permanenza:

Palermo, Grid Open Days all’Università di Palermo, I parametri del MLM I parametri del metodo, qualunque siano il modello e la funzione di score scelta sono quindi: 1.N: che specifica il numero di livelli considerati per “tagliare” il segnale; 2. : la percentuale di permanenza degli intervalli su un certo pattern rispetto al numero totale di livelli considerati.

Palermo, Grid Open Days all’Università di Palermo, Applicazione : individuazione dei nuclesomi da un segnale proveniente da microarray Il problema biologico preso in esame riguarda il posizionamento dei nucleosomi nel DNA. I nucleosomi sono sottounità fondamentali che si ripetono lungo il DNA nella cromatina di tutti gli organismi eucarioti, e costituiscono la sua unità di strutturazione fondamentale. Il loro posizionamento fornisce informazioni utili circa la regolazione del livello di espressione genico nelle cellule.

Palermo, Grid Open Days all’Università di Palermo, Il segnale Per misurare la posizione dei nucleosomi su scala genomica, è stato utilizzato un DNA microarray per identificare le sequenze corrispondenti ai nucleosomi Si ottiene un segnale con un andamento che presenta dei picchi in presenza di nucleosomi

Palermo, Grid Open Days all’Università di Palermo, Risultati ottenuti Si è validato il MLM con un segnale sintentico, ottenendo una percentuale di riconoscimento delle regioni nucleosomiche pari 78%. Inoltre si è confrontato il MLM con una metodologia basata sugli Hidden Markov Model sui dati reali ottenendo un accordo pari al 76% Inoltre il MLM sembra più sensibile alle regioni corrispondenti a segnali deboli, e permette di individuare un’ulteriore categoria di nuclesomi. Metodo Linker MLMNucleosoma MLM Linker HMM Nucleosoma HMM

Palermo, Grid Open Days all’Università di Palermo, Esempio di discovery e classificazione

Palermo, Grid Open Days all’Università di Palermo, Problema biologico e sua dimensione Si intende realizzare un algoritmo parallelo efficiente per l’individuazione delle posizioni dei nucleosomi nel DNA, basandosi sul MLM, al fine di elaborare grandi quantità di dati provenienti da microarray; La dimensione media dei dati provenienti da microarray che si possono produrre al giorno si aggira intorno a 4x10 7 spots/day; Il file contenente il segnale da analizzare, considerando che il segnale è rappresentato da double a 8 byte, si aggirerebbe intorno a 300 MB; Utilizzando la versione seriale su un normale pc (Intel Xeon 2.8Ghz) ciò impiegherebbe circa 5 giorni.

Palermo, Grid Open Days all’Università di Palermo, P-MLM La parallellizzazione del MLM, (supponendo di avere a disposizione n processori) si basa sulla suddivisione del dominio dei dati secondo il paradigma SIMD utilizzando due possibili strategie : 1.Suddivisione del segnale di ingresso in n segmenti con overlap; 2.Suddivisione del segnale di ingresso in n segmenti senza overlap.

Palermo, Grid Open Days all’Università di Palermo, Segmenti con overlap Ogni processore utilizza una regione del segnale che si sovrappone parzialmente con le regioni dei processori adiacenti; Un problema di tale approccio consiste nella determinazione della regione di overlap e nella rimozione dei “duplicati”. L’overlap va scelto accuratamente per ridurre il più possibile i pattern che cadono a cavallo tra due regioni e quindi le comunicazioni tra i processori.

Palermo, Grid Open Days all’Università di Palermo, Segmenti senza overlap Ogni processore elabora gli intervalli della propria regione e comunica al suo successore solo gli eventuali intervalli parziali presenti nella sua regione; Il successore ricostruirà quindi il pattern tenendo conto di tali intervalli parziali. In questo modo si elimina il problema della rimozione dei pattern duplicati che si presenta nel caso di segmenti con overlap, mantenendo nello stesso tempo il livello di comunicazione intra- processori ragionevolmente basso.

Palermo, Grid Open Days all’Università di Palermo, Stima dell’overhead Una stima del costo dell’algoritmo parallelo è: In particolare il paradigma SIMD assicura che il costo dell’overhead sia costante ed indipendente dal numero dei processori; Nel nostro caso l’overhead dipende soltanto dal numero di soglie utilizzate dal MLM (solitamente da 20 a 40 soglie). L’overhead quindi nel caso peggiore consiste nella trasmissione di un vettore di 40 elementi ciascuno di 8 byte (double) dal processore P i al processore P i+1. L’overhead nel caso di segmenti non overlappati risulta costante e comporta soltanto lo spostamento di pochi dati dal processore Pi al processore Pi+1 ;

Palermo, Grid Open Days all’Università di Palermo, Architettura disponibile e stima dei tempi Utilizzando quindi come divisione del dominio dei dati la versione senza overlap, che mantiene bassa la comunicazione tra i processori, ci aspettiamo uno speed-up abbastanza vicino a quello teorico e un algoritmo altamente scalabile; Infatti il tempo di comunicazione si può considerare in prima analisi trascurabile rispetto al tempo di elaborazione di ogni regione; Si intende implementare il software in C servendosi delle librerie MPI; Si intendono utilizzare per testare l’algoritmo 32 macchine con processori dual core AMD OPTERON (~1800 MHz clock) aspettandoci una riduzione del tempo dell’analisi dai 5 giorni sulla macchina seriale a poche ore.

Palermo, Grid Open Days all’Università di Palermo, Any Questions ? Thank you very much for your kind attention!