FESR Trinacria Grid Virtual Laboratory PROGETTO “MAMMO” Sviluppo e ottimizzazione di algoritmi adattativi, specificatamente di Artificial Intelligence (AI), per l’identificazione di lesioni tumorali in immagini mammografiche; Realizzazione di un database distribuito che possa permettere un ottimale addestramento di sistemi di classificazione.
Location, Meeting, dd.mm.yyyy Supporter e Partner responsabili INFN – sez. CT –AnnaMaria Muoio –Marcello IaconoManno Partner responsabili DIFTER - PA –Manuel Glorioso –Rosario Magro Supporter
Location, Meeting, dd.mm.yyyy La problematica scientifica Indicare la tipologia di applicazione –Trasporto ed esecuzione parallela su GRID di un programma di test per l’analisi di immagini mammografiche (Database Gold Standard) –Realizzazione di una banca dati di immagini mammografiche a livello regionale (SE distribuiti negli ospedali) Scopo dell'applicazione –Velocizzazione dell'esecuzione del programma di analisi –Raccolta di dati medicali ed immagini per il supporto alla diagnosi Aspetti computazionali, risorse necessarie –Capacita' di calcolo: richiesti circa 100 WN –Capacita' di storage: circa 15 GB
Location, Meeting, dd.mm.yyyy Porting dell’applicazione Tipo di interazione con l'utente –Programma di analisi : batch –Banca dati : accesso tramite portale Genius Approfondire tematiche su particolari esigenze di controllo d’accesso –Sicurezza a livello ACL per il singolo utente –Stato dell’arte del progetto Sono stati realizzati gli script di Sottomissione, Controllo e Recupero dei risultati dell'elaborazione delle immagini In fase di studio la banca dati –La versione attuale del middle-ware e' adeguata
Location, Meeting, dd.mm.yyyy Stato delle attivita' progetto “Mammo” Stato delle attivita' –Manuel Glorioso, M. IaconoManno, A. Muoio : completamento jdl e bash scripts (Done) sottomissione programma di analisi (Done) pubblicazione Database (Done) studio struttura metadati (In Progress) studio eventuali migliorie alla sicurezza (In Progress)
Location, Meeting, dd.mm.yyyy Pubblicazione Pubblicazione dati –Filtraggio del Database Gold Standard per il recupero dei pazienti in cui sono state segnalate lesioni patologiche. e' stato sviluppato un bash script per il filtraggio locale del database –Copia e Repliche del database filtrato e sua pubblicazione sul File di catalogo (Server LFC) e' stato sviluppato uno bash script che realizza la copia su uno Storage Element del Database Lesioni, registra i file nel File Catalogue (LFC) e crea le repliche su uno o piu' Storage Element (SE).
Location, Meeting, dd.mm.yyyy Jdl e Scripts Scripts –Script Python + Bash Script
Location, Meeting, dd.mm.yyyy JDL micro –programma di analisi mammo.sh –recupera sul WN i pazienti da procesasre (mammo-file.dat) ed esecuzione di micro mammo-file.dat –Elenco pazienti da procesasre (diverso per ogni gruppo di pazienti da processare) viene creato localmente a partire da liste locali di pazienti. soglieIN.dat –Righe di parametri passate al programma micro finestre1.dat –Risultato dell'elaborazione sui pazienti
Location, Meeting, dd.mm.yyyy Scripts Script di sottomissione –mammo-start.bat realizza la sottomissione simultanea di m job da n pazienti Il numero di job dipende dagli entry nel file mammo.dat in cui sono elencati i file da cui leggere per conoscere i pazienti che il job dovra' processare. Scrive i JobID su un file locale (necessari per lo script di controllo) Script di Recupero –mammo-output.bat realizza il recupero dell'output degli m job da n pazienti che sono stati sottomessi ed effettua un append su un unico file di tutti i risultati dell'elaborazione –mammo-auto-output.bat realizza il recupero automatico dell' output degli m job da n pazienti I Job vengono recuperati a partire dal loro JobID Script di Controllo –mammo-check.bat realizza il controllo dello stato degli m job da n pazienti che sono stati sottomessi V iene controllato lo stato dei job a partire dal loro JobID
Location, Meeting, dd.mm.yyyy Cosa avviene sulla UI mammo-start.bat mammo.file mammo-file.dat job 1 Grid CE job 2 Grid CE job n Grid CE –Script di Sottomissione mammo-start.bat fa uso di script che ciclicamente realizzano la sottomissione del jdl (sempre uguale), infatti tra un job e l'altro l'unico file che varia e' il mammo-file.dat (gruppo di pazienti da processare) che viene incluso nella input sandbox del Job.
Location, Meeting, dd.mm.yyyy Cosa avviene sul CE –mammo.sh mammo.sh e' il primo script ad eseguirsi sul WN di destinazione del Job. Esso legge riga per riga il contenuto di mammo-file.dat e per ogni riga (paziente) effettua le seguenti operazioni. Scarica sul WN il file ima.dat (contiene i nomi delle immagini del paziente) dallo SE su cui e' Pubblicato il Database di Immagini utilizzando il LFC e i LFN's). Avvia il programma “Micro” e processa le singole immagini relative al paziente in corso con l'algoritmo “Micro” utilizzando righe di parametri specificate in soglieIN.dat Appende il risultato dell'elaborazione delle immagini relative al paziente sul file finestre1.dat
Location, Meeting, dd.mm.yyyy Tempi di Elaborazione Previsioni “Micro” su GOLD STANDARD DB = 264 Pazienti = 15Gb e 200 Righe 5 pazienti circa 2:10 ore Previsione suddivisione job 10 Pazienti a Job circa 4:20 ore Job totali da lanciare job da 10 pazienti ciascuno dei quali impiega 4:20 ore 1 Job da 4 Pazienti impiega circa 1:45 ore Tempo complessivo stimato per l'analisi Db 4:20 se si dispone di 27 cpu libere VS 5-6 giorni su singola cpu