GridICE attività in corso e sviluppi futuri Gennaro Tortone Bologna, 4 marzo Technical Board INFNGRID
Indice caratteristiche generali novità dellultima release attività in corso developers & tasks sviluppi futuri conclusioni
Caratteristiche generali monitoring (24x7) di risorse/servizi discovery automatico database dati di monitoring fabric sensor interfaccia web
Novità dellultima release (1/6) continuous discovery nella prima versione il processo di discovery, eseguito periodicamente, definiva linsieme totale di risorse e servizi su cui eseguire i singoli plugin contro sviluppo di plugin ad-hoc per il check di ciascuna entità (queue, storage area,...) information aging dei dati presentati
Novità dellultima release (2/6) il nuovo processo di discovery definisce linsieme totale dei InformationServiceURL; ciascun MSU verrà utilizzato da un unico plugin che effettuerà in continuo il monitoring delle metriche e determinerà le transizioni di stato pro plugin unico i dati di monitoring non vengono propagati verso il GIIS informazioni più pronte sulla disponibiltà di un servizio punto di partenza per lo sviluppo del notification service
Novità dellultima release (3/6) monitoring dei servizi è possibile configurare il fabric sensor in modo da fornire informazioni sullo stato dei servizi di base (es. globus- gatekeeper, pbs/lsf,...) è stato sviluppato (E. Ferro) un componente LCFG (gridicecli) che consente di configurare automaticamente il monitoring dei servizi in base al ruolo dellhost (CE, SE, RB, RLS,...)
Novità dellultima release (4/6) web interface performance improvement a seguito di un refactoring del codice PHP e grazie allutilizzo di una versione più aggiornata di PostgreSQL sezioni aggiunte Geo View GRIS View Service View
Novità dellultima release (5/6) distribution linstallazione del GridICE monitoring server è stata automatizzata tramite la creazione di RPM e di uno script di configurazione pochi passi di installazione
Novità dellultima release (6/6) project repository creazione della sezione GridICE allinterno del nuovo software repository infnforge.cnaf.infn.it CVS binary RPM, source RPM documentazione mailing lists bug tracking
Attività in corso (1/8) job monitoring rappresenta un requirement degli esperimenti attualmente il GRIS del CE pubblica il numero di jobs totali/running/waiting per ciascuna coda manca la distribuzione per VO le informazioni relative ai job saranno prelevate da file di accounting output dei comandi sullo stato del LRMS (es. qstat) lassociazione VO – job sarà effettuata in base al gruppo del proprietario del job (es. infngrid, atlas, cms,...) supporto iniziale per PBS
Attività in corso (2/8) Per ciascuna virtual organization today jobs statistics submitted jobs statistics on-going jobs status - finishedJobs - failedJobs - queuedJobs - submittedJobs - exec host - CPU etime - clock etime - runningJobs - waitingJobs per queue
Attività in corso (3/8) OLAP (On-Line Analitical Processing) tecnica che consente di ottenere delle view sintetiche su database con un alto numero di record utilizzo di OLAP sulle tabelle del database di GridICE che contengono i dati di monitoring storici report periodici analisi dati di monitoring
Attività in corso (4/8) documentazione [URGENTE] stesura della documentazione esterna stesura di un FAQ document help on-line per linterfaccia web installazione manuale (senza LCFG) del GridICE sensor
Attività in corso (5/8) interfaccia generica per la generazione di grafici attualmente tramite linterfaccia web è possibile il plotting di grafici relativi a job waiting/running per VO storage space per VO scopo di questa attività è quello di creare uninterfaccia generica per creare dei grafici a partire da qualsiasi set di dati storici contenuti nel database di GridICE; ad esempio: cpu load di un CE/SE/RB network load di un SE/RB utile anche per il troubleshooting di un servizio
Attività in corso (6/8) notifications funzionalità che consente ad un utente (contact) di ricevere delle notifiche (es. mail di avviso) a seguito del verificarsi di una condizione sui dati di monitoring è un problema che ha richiesto unanalisi approfondita al fine di fornire una soluzione abbastanza generica la soluzione proposta è basata su un algoritmo di matchmaking tra documenti XML è in corso la stesura di un documento che comprende analisi del problema descrizione degli use-cases soluzione proposta
Attività in corso (7/8) supporto LCG supporto per il GridICE server del Certification Testbed e Production Testbed profili LCFG Grid.it gestione GridICE server edt002.cnaf.infn.it profili LCFG CMS gestione GridICE server (richiesta) documentazione e supporto per linstallazione manuale del GridICE sensor per i WN supporto per il DC04 ATLAS supporto per il DC2 (richiesta) altri esperimenti (?)
Attività in corso (8/8) papers High-speed Network and Services for Data-Intensive Grids – special issue of Future Generation Computing Systems dedicated to DataTAG [submitted] 3rd Cracow Grid Workshop, October 27-29, 2003 [published]
Development & Tasks
Sviluppi futuri (1/3) network monitoring dopo lintegrazione dello schema relativo al network monitoring in GLUE sarà possibile, tramite GridICE, il monitoring dei vari segmenti di rete plot grafici sullutilizzo della rete raccolta dati di network monitoring per on-line e post- production analysis da parte degli esperimenti
Sviluppi futuri (2/3) common EU-US monitoring schema condivisione delle informazioni di monitoring generate da tool diversi definizione delle modalità di accesso definizione di uno schema comune è necessario prevedere unattività congiunta EU-US ulteriore passo verso linteroperabilità (!)
Sviluppi futuri (3/3) WSRF WSRF rappresenterà lo standard per lutilizzo di risorse distribuite GridICE 2 dovrà essere allineato con WSRF... ciò richiederà studio approfondito di WSRF design di una nuova architettura di monitoring sviluppo dei componenti dellarchitettura sarà possibile riutilizzare solo i modelli concettuali monitoring schema notification model discovery model analysis model
Conclusioni Gennaio 2003 – Gennaio 2004 integrazione in LCG integrazione in Grid.it supporto agli esperimenti (CMS-LCG0, ATLAS) molti passi in avanti sulle funzionalità aggiunte affidabilità dei dati raccolti stabilità dissemination dei risultati (papers, Grid School,...) il manpower resta un problema aperto considerando i vari task di R&D e supporto
graph and analysis provided by: M. Maggi et al. – INFN Bari CMS group GridICE and BOSS: monitoring data analysis of CMS-LCG0 production