Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
Job Application Monitoring (JAM)
Giacinto Donvito – Marcello Maggi – Giorgio Maggi INFN Bari
2
Obiettivi del package Fornire un tool “BOSS-LIKE” a tutte le applicazioni sulla Grid. Che sia: User driven Scalabile Facilmente adattabile alle applicazioni più diverse Usare i job “normali” per diagnosticare eventuali problemi: Relativi alla Grid Relativi alla VO (setup dell’environment) Relativi all’applicazione Fornire un tool utilizzabile in un ambiente di “analisi” su Grid (con versioni di codice in rapida evoluzione) * Questa idea è la “gridificazione” dei tool usati per produzioni MonteCarlo dell’esperimento ALEPH al LEP Giacinto Donvito
3
Obiettivi del package (2)
Controllare lo stato di un job e dei suoi parametri fondamentali (Data di inizio e fine, sito di destinazione, Worker Node, ecc) Monitorare qualsiasi fase del run del job (copia di input, output, controllo dell’environment, ecc) Monitorare qualsiasi parametro interno all’eseguibile Fornire una base di dati per un’analisi (on flight) “Post-Mortem” dei job Fornire un’infrastruttura che possa contenere qualsiasi parametro che l’utente voglia monitorare Ottenere qualsiasi file di output in tempo reale sulla UI (o su un qualsiasi SE) Possibilità di avere informazioni da jobs che sono “Aborted” (è possibile anche salvare tutto o una parte di un file) Giacinto Donvito
4
Caratteristiche del prototipo
La sottomissione attualmente è effettuata tramite un wrapper; si passano in argomento: il jdl la “ClassID” del job (serve per indentificare job appartenenti alla stessa applicazione nel DB, e distinguere le diverse versioni delle applicazioni utilizzate) … Il job invia le informazioni al DB usando un “proxy” installato sul CE, che tramite procollo SOAP, le inoltra al DB (evitando problemi di connettività dei WN e garantendo la scalabilità del sistema) Il controllo dello stato è fatto on-demand, fornendo il solo GridJobID vengono usate le informazioni che il job invia al DB L’output viene ottenuto con la “sicurezza” che solo l’owner del job può recuperare il suo output Giacinto Donvito
5
https://edt003.cnaf.infn.it:9000/koDmvareYyWG_qk7u6f3gA
Caratteristiche Standard Parameters User Parameters JOBID classid Status Events Higgs found Higg_search_v2 Running 550 3 ….. …. …… Giacinto Donvito
6
Logica di Funzionamento (1) Sottomissione
WN Local User Path Job State Class Grid JobID Job Class Giacinto Donvito
7
Logica di Funzionamento (2) Controllo Stato
Grid JobID Job Status Custom Information Giacinto Donvito
8
Logica di Funzionamento (3) Controllo Output Files (STDOUT incluso)
Cache File Location Information File Cache Request Cache Ack File Trasfer Grid JobID Job Status Location Information Giacinto Donvito
9
Statistica Visione globale del ClassID: tt Dettaglio dei jobs
Giacinto Donvito
10
TO DO List Scrivere una libreria C/C++/… (con gSoap) per migliorare l’utilizzo di questo sistema per effettuare il monitoring on-line di valori interni all’eseguibile Costruire un interfaccia grafica per la fruizione delle informazioni in modo semplice e visuale Sostituire il sistema del wrapper per la sottomissione con un programma che usi le API per le operazioni necessarie Scrivere un sistema di analisi “intelligente” per etichettare “good” or “bad” un job. Giacinto Donvito
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.