Job Application Monitoring (JAM) Giacinto Donvito – Marcello Maggi – Giorgio Maggi INFN Bari
Obiettivi del package Fornire un tool “BOSS-LIKE” a tutte le applicazioni sulla Grid. Che sia: User driven Scalabile Facilmente adattabile alle applicazioni più diverse Usare i job “normali” per diagnosticare eventuali problemi: Relativi alla Grid Relativi alla VO (setup dell’environment) Relativi all’applicazione Fornire un tool utilizzabile in un ambiente di “analisi” su Grid (con versioni di codice in rapida evoluzione) * Questa idea è la “gridificazione” dei tool usati per produzioni MonteCarlo dell’esperimento ALEPH al LEP 24-09-2004 Giacinto Donvito
Obiettivi del package (2) Controllare lo stato di un job e dei suoi parametri fondamentali (Data di inizio e fine, sito di destinazione, Worker Node, ecc) Monitorare qualsiasi fase del run del job (copia di input, output, controllo dell’environment, ecc) Monitorare qualsiasi parametro interno all’eseguibile Fornire una base di dati per un’analisi (on flight) “Post-Mortem” dei job Fornire un’infrastruttura che possa contenere qualsiasi parametro che l’utente voglia monitorare Ottenere qualsiasi file di output in tempo reale sulla UI (o su un qualsiasi SE) Possibilità di avere informazioni da jobs che sono “Aborted” (è possibile anche salvare tutto o una parte di un file) 24-09-2004 Giacinto Donvito
Caratteristiche del prototipo La sottomissione attualmente è effettuata tramite un wrapper; si passano in argomento: il jdl la “ClassID” del job (serve per indentificare job appartenenti alla stessa applicazione nel DB, e distinguere le diverse versioni delle applicazioni utilizzate) … Il job invia le informazioni al DB usando un “proxy” installato sul CE, che tramite procollo SOAP, le inoltra al DB (evitando problemi di connettività dei WN e garantendo la scalabilità del sistema) Il controllo dello stato è fatto on-demand, fornendo il solo GridJobID vengono usate le informazioni che il job invia al DB L’output viene ottenuto con la “sicurezza” che solo l’owner del job può recuperare il suo output 24-09-2004 Giacinto Donvito
https://edt003.cnaf.infn.it:9000/koDmvareYyWG_qk7u6f3gA Caratteristiche Standard Parameters User Parameters JOBID classid Status Events Higgs found https://edt003.cnaf.infn.it:9000/koDmvareYyWG_qk7u6f3gA Higg_search_v2 Running 550 3 ….. …. …… 24-09-2004 Giacinto Donvito
Logica di Funzionamento (1) Sottomissione WN Local User Path Job State Class Grid JobID Job Class 24-09-2004 Giacinto Donvito
Logica di Funzionamento (2) Controllo Stato Grid JobID Job Status Custom Information 24-09-2004 Giacinto Donvito
Logica di Funzionamento (3) Controllo Output Files (STDOUT incluso) Cache File Location Information File Cache Request Cache Ack File Trasfer Grid JobID Job Status Location Information 24-09-2004 Giacinto Donvito
Statistica Visione globale del ClassID: tt Dettaglio dei jobs 24-09-2004 Giacinto Donvito
TO DO List Scrivere una libreria C/C++/… (con gSoap) per migliorare l’utilizzo di questo sistema per effettuare il monitoring on-line di valori interni all’eseguibile Costruire un interfaccia grafica per la fruizione delle informazioni in modo semplice e visuale Sostituire il sistema del wrapper per la sottomissione con un programma che usi le API per le operazioni necessarie Scrivere un sistema di analisi “intelligente” per etichettare “good” or “bad” un job. 24-09-2004 Giacinto Donvito