La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

17th International Conference on Computing in High Energy and Nuclear Physics 21 - 27 March 2009 Prague Esperienza di un portale “application oriented”

Presentazioni simili


Presentazione sul tema: "17th International Conference on Computing in High Energy and Nuclear Physics 21 - 27 March 2009 Prague Esperienza di un portale “application oriented”"— Transcript della presentazione:

1 17th International Conference on Computing in High Energy and Nuclear Physics 21 - 27 March 2009 Prague Esperienza di un portale “application oriented” per bioinformatici Guido Cuscela INFN-Bari

2 Argomenti Il target: –L’utente –Le applicazioni L’interfaccia web –Caratteristiche –Funzionalità 17th International Conference on Computing in High Energy and Nuclear Physics 21 - 27 March 2009 Prague

3 Il target di JST L’utente: –Non conosce o ha scarsa conoscenza della tecnologia Grid –Non possiede un certificato personale Le applicazioni: –File di input e output di grosse dimensioni –Tempi di esecuzione elevati –Possibilità di suddividere in un numero anche molto elevato di task elementari O(10'000) 17th International Conference on Computing in High Energy and Nuclear Physics 21 - 27 March 2009 Prague

4 Obiettivi Fornire un tool che consenta: –Registrazione dei file di input su SE –Utilizzo di tutte le risorse disponibili alla VO di bioinformatica (bio, biomed) –Monitoring delle proprie sottomissioni –Fault tolerance –Recupero degli output da un link web Ogni interazione con la Grid deve essere trasparente all’utente 17th International Conference on Computing in High Energy and Nuclear Physics 21 - 27 March 2009 Prague

5 Workflow 17th International Conference on Computing in High Energy and Nuclear Physics 21 - 27 March 2009 Prague The user creates the tasks using the GUI A daemon running on the UI check if any Free task has been created The UI daemon submit jobs on the Grid More than one RB used to perform the submission The wrapper requests the TaskListDB for a task to execute updates the task status logs the monitoring information Output registered on a SE chosen in a list of SEs in base to their availability A UI daemon retrieves output from the SEs The daemon send the output to a web server Web Server

6 Funzionalità (1) Il database centrale contiene la “task queue” in modo che tutti i job sottomessi siano uguali (pull mode) Le task vengono create in modo automatico nel db dall’utente con i file di input caricati tramite interfaccia web L’utente decide come suddividere la sua applicazione tramite gli stessi file di input: –Il numero di task determina i job sottomessi a grid –Un numero troppo grande di job può diminuire l’efficienza della sottomissione (fallimenti, latenza WMS, tempi di trasferimento dati non ottimi) –Un numero basso di job determina tempi di esecuzione dei singoli job troppo lunghi e riduce il vantaggio della parallelizzazione 17th International Conference on Computing in High Energy and Nuclear Physics 21 - 27 March 2009 Prague

7 Funzionalità (2) Le applicazioni già disponibili nell’interfaccia suggeriscono all’utente una serie di parametri di default E’ possibile personalizzare il comportamento dell'applicazione in fase di sottomissione

8 Funzionalità (3) L’interfaccia è basata sulle XSLT (trasformate XSL) Le pagine creano un file xml che permette di generare l’eseguibile da sottomettere Il JST riceve dall’interfaccia l’eseguibile e il jdl per effettuare la sottomissione La modularità interfaccia-JST-grid permette di aggiungere facilmente nuove applicazioni: –JST agisce come un wrapper sul moddleware Grid –Piccole modifiche nell’interfaccia per le diverse applicazioni (numero diverso di input, command line …) –Le modifiche all’interfaccia non influenzano il funzionamento di JST e viceversa

9 Input di grosse dimensioni Un “blastx” necessita di un file di input di sequenze FASTA nell’ordine di 10GB Non fattibile caricare i file via http –Limiti di upload –Tempi di upload eccessivi L’unica soluzione è registrare i file su storage element  JST è poi responsabile delle repliche sui closeSE –Tipicamente un utente bioinformatico non sa come eseguire tale procedura –Intervento degli sviluppatori o utilizzo del certificato da parte degli utenti –Limitazioni nel tipo di applicazioni portabili

10 Input di grosse dimensioni-soluzione Necessario fornire agli utenti un modo semplice per traferire i file su SE in modo trasparente Il trasferimento deve: –Disporre di un client per ogni tipo di piattaforma (Windows/MacOS/Linux) –Prevedere un meccanismo di autenticazione –Fornire buone performance su reti con grosse latenze Installato un server WEBDAV per gestire grossi input e il recupero degli output

11 Il server WEBDAV Nel interfaccia l’utente può definire eventuali file da registrare su Grid Occorre fornire: –LFN: logical file name con cui verrà registrato sul catalogo il file (la stringa viene suggerita) –url WEBDAV: indica la destinazione del file da caricare –La sottomissione dei job inizierà solo quando tutti i file necessari saranno caricati sul server Ogni operazione sul server webdav richiede un’autenticazione (stesse credenziali dell’interfaccia di JST)

12 Funzionalità (4) L’utente è guidato fino all’invio della mail che notifica il successo della sottomissione Se è necessario registrare dei file l’utente riceverà la lista e le istruzioni

13 Sottomissione a Grid Uno o più demoni running sulle UI controllano periodicamente il database centrale cercando nuove sottomissioni Se la sottomissione prevede la registrazione di file sulla grid: 1.Vengono recuperati dal db le url e gli lfn dei file 2.Vengono scaricati tutti i file dal server webdav 3.Viene effettuato un lcg-cr dei file su uno SE predefinito Lo scheduling dei job effettua un load balancing –JST tiene traccia dei job sottomessi ai vai CE –Quando viene raggiunta la soglia massima di job in coda ad un CE, questo viene inserito in una black-list fino a quando il numero di job non tornerà sotto soglia

14 Monitoring Tempo vs Task completati(done)

15 Monitoring Task completati Task free Task running

16 Monitoring Distribuzione dei job

17 Recuper dell’output Un demone specifico running sulle UI controlla periodicamente se ci sono sottomissioni completate (tutti i task della sottomissione devono avere stato “done”) Tutti gli output vengono recuperati e caricati sul server WEBDAV Viene inviata una mail all’utente con l’url dell’output

18 Conclusioni Statistiche: –~120000 jobs sottomessi sulla grid italiana –~488 giorni di CPU time –11 siti diversi utilizzati Semplicità di integrazione di nuovi applicativi –Già disponibili: Gene Analogous Finder, CLUSTERING, CSTminer, BLAST, PAML,BLASTX,BLASTN Facilità di integrazione della GUI e di JST in altri portali –JST è già stato utilizzato in passato in portali come GRB e GENIUS WEBDAV ha fornito un modo efficiente per gestire file di grandi dimensioni Completamente mascherata la complessità della grid Non solo le applicazioni di bioinformatica possono essere eseguite con l’interfaccia JST –È necessario che l’applicazione sia suddivisibile in task indipendenti

19 Riferimenti Link: –http://webcms.ba.infn.it/~jst/JST/http://webcms.ba.infn.it/~jst/JST/ –http://webcms.ba.infn.it/cms-software/cms- grid/index.php/Main/JobSubmissionToolhttp://webcms.ba.infn.it/cms-software/cms- grid/index.php/Main/JobSubmissionTool Persone coinvolte: –Guido Cuscela : guido.cuscela@ba.infn.itguido.cuscela@ba.infn.it –Giacinto Donvito: giacinto.donvito@ba.infn.itgiacinto.donvito@ba.infn.it


Scaricare ppt "17th International Conference on Computing in High Energy and Nuclear Physics 21 - 27 March 2009 Prague Esperienza di un portale “application oriented”"

Presentazioni simili


Annunci Google