JOB MONITORING Donvito Giacinto INFN-Bari
OUTLINE ● Use-case ● Informazioni utilizzate e metodologie di raccolta per il job monitoring ● Informazioni ancora disponibili ● Come utilizzare le informazioni ● Possibili sviluppi & Requirements
USE-CASE ● Poter conoscere nel più breve tempo possibile lo stato di ogni job eseguito su una farm. ● L'utente ha bisogno di controllare lo stato dettagliato di ogni job e sapere dove essi stanno girando ● E' necessario avere delle informazioni sull'uso delle risorse suddivise per VO ● E' necessario poter effettuare un minimo di debug sul risultato di un job su Grid.
Informazioni utilizzate ● Per PBS: – I log in “/var/spool/pbs/server_priv/accounting” per le informazioni sui job terminati – Il comando “qstat -f” per le informazioni sui job running – Il file di log del globus-gatekeeper per il match fra account locale alla macchina e nome reale dell'utente ● Per LSF: – Il comando “bhist -al -u all -C $today” per i job terminati – I comandi “qstat -al” e “bjobs -l $job_id_run_lsf” per i job running – Il file di log del globus-gatekeeper per il match fra account locale alla macchina e nome reale dell'utente
Sistema di pubblicazione usato Informazioni locali PERL SCRIPT pbs§/C=IT/O=INFN/OU=Personal Certificate/L=Bari/CN=MARIA Certificate/L=IMIPbari/CN=Savino Certificate/L=Bari/CN=giacinto gm$4$apierro$0$0§cms|short^1$1$0$0$0^E$8373$STDIN$cms001$3$pccms17$4$11$0§gridit|i nfinite^1$1$0$1$0^E$5775$STDIN$gridit003$2$gridfirb1$360017$360012$0^R$8371$STDIN$ gridit003$2$pccms20$21943$21951§infngrid|long^1$1$0$0$0^E$8372$STDIN$infngrid003$1$ pccms17$8$83$0§ PARSER PUBBLICAZIONE VIA LDAP...
Sistema di pubblicazione usato (2) ● Lista dei subject trovati ● Statistiche complessive per VO e per coda con l'idicazione di: ● Job finished ● Job successful ● Job failed ● Job running ● Job queued pbs§/C=IT/O=INFN/OU=Personal Certificate/L=Bari/CN=MARIA Certificate/L=IMIPbari/CN=Savino Certificate/L=Bari/CN=giacinto babar|long^0$0$0$1$0^R$1425$STDIN$babarsgm$4$apierro$0$0§ cms|short^1$1$0$0$0^E$8373$STDIN$cms001$3$pccms17$4$11$0§ gridit|infinite^1$1$0$1$0^E$5775$STDIN$gridit003$2$gridfirb1$360017$360012$0^ R$8371$STDIN$gridit003$2$pccms20$21943$21951§ infngrid|long^1$1$0$0$0^E$8372$STDIN$infngrid003$1$pccms17$8$83$0§
Sistema di pubblicazione usato (3) pbs§/C=IT/O=INFN/OU=Personal Certificate/L=Bari/CN=MARIA Certificate/L=IMIPbari/CN=Savino Certificate/L=Bari/CN=giacinto babar|long^0$0$0$1$0^R$1425$STDIN$babarsgm$4$apierro$0$0§ cms|short^1$1$0$0$0^E$8373$STDIN$cms001$3$pccms17$4$11$0§ gridit|infinite^1$1$0$1$0^E$5775$STDIN$gridit003$2$gridfirb1$360017$360012$0^ R$8371$STDIN$gridit003$2$pccms20$21943$21951§ infngrid|long^1$1$0$0$0^E$8372$STDIN$infngrid003$1$pccms17$8$83$0§ ● Statistiche dettagliate per VO e per coda con l'idicazione di: ● Stato del job (Running/Executed/Queued) ● LRMS ID ● Job Name (Da dove viene??) ● Utente locale ● Riferimento per il subject dell'utente ● Nome dell'host su cui è eseguito ● Tempo di CPU utilizzato ● Tempo totale sulla risorsa ● Exit status dell'LRMS
To Do: ● Parametri ancora disponibili: ● Memoria Usata (Reale e Virtuale) ● Data precisa di inizio e fine del job ● Parametri richiesti: ● Il job-id su Grid di ogni job (WMS is working on it!)
Come utilizzare le informazioni ● Accesso via web per l'utente – Viene controllata la presenza del certificato nel browser, quindi vengono mostrati tutti i job di quello specifico utente – Se non c'è un certificato viene mostrato il dettaglio della VO senza l'indicazione dell'utente reale ● Accesso via web per l'amministratore della farm – Può vedere anche i Subject dei job della sua farm (Bisogna pubblicare da qualche parte anche il subject del certificato del syte-admin) ● Grafici e Report on-line sui job di una determinata VO o per utente (presentazione di Antonio)
Sviluppi & Requirements ● Un servizio di monitoring “attivo” dei job (SOAP&DB?) – Fornirebbe un servizio “alla BOSS” a tutti gli utenti ● La possibilità di ottenere frammenti di std-output e std-error prima che i job finiscano ● Feedback from Atlas DC04