FESR Trinacria Grid Virtual Laboratory Rosanna Catania Rita Ricceri INFN Catania 25 Luglio 2006 Grid Monitoring: GridICE – bacct - lsload
2 Catania, Meeting WP1, Obiettivo Monitorare le risorse Grid per ricevere informazioni in tempo reale su: –Caratteristiche e tipologia delle risorse, numero di CPU, memoria, spazio storage, numero di CE,SE,WN.. –Comportamento delle risorse, numero di macchine attive, spazio disponibile, percentuale di job slot usati, percentuale di job eseguiti con successo. –Stato e disponibilità delle risorse, cioè la loro accessibilità a livello regionale, di sito o di VO, numero di job slot a disposizione degli utenti, elenco dei servizi indisponibili.
3 Catania, Meeting WP1, Punti chiave 3 -Sintetizzarli ed ordinarli logicamente 2 - Trasmettere gli eventi 1 - Interrogare le risorse e raggruppare o filtrare secondo dei criteri predefiniti
4 Catania, Meeting WP1, GridICE GridICE è un tool di monitoring distribuito per Grid. Si interfaccia con i sistemi di monitoring locali ed è integrato con il middleware gLite 3.0. Fornisce un’interfaccia web per la visualizzazione delle informazioni, con differenti viste, che aggregano o partizionano i dati a seconda della categoria di utente collegato (VO, GOC, Site). Mantiene lo storico dei dati raccolti per consentire analisi retrospettive.
5 Catania, Meeting WP1, Gli eventi vengono generati da sensori installati sulle macchine. Script perl o programmi c. I dati sono relativi a: –Sistema (ad es. carico sulle CPU, tipo di CPU, memoria) –Servizi Grid (ad es. CE ID, job nelle code) –Rete (ad es. pacchetti persi) –Job (ad es. tempo di CPU) Tutti i sensori collezionano dati in maniera periodica. Gli eventi vengono immagazzinati in un db PostgreSQL per formare statistiche aggregate. I dati estratti dal database vengono codificati in appositi file XML. Questi file vengono tradotti in XSL-XHTML per pubblicare le informazioni aggregate sul web. GridICE
6 Catania, Meeting WP1, Quadro generale –Numero di siti che compongono la Grid e la loro locazione –Quantità di risorse disponibili (n. di CPU, WN, ecc…)
7 Catania, Meeting WP1, Risorse disponibili per una determinata VO –Computing Element sui quali si possono sottomettere dei job –Storage Element disponibili per immagazzinare dati
8 Catania, Meeting WP1, WebTools Bash scripting per elaborare i dati di lsf sullo stato della farm di produzione PHP/SWF Charts per i grafici su web (
9 Catania, Meeting WP1, Farm Monitoring (1/2) ( bacct -u "$LIST_USER" -C "$DATA_START,$DATA_END"
10 Catania, Meeting WP1, Farm Monitoring (2/2) ( r15s -> 15-second CPU run queue length r1m -> 1-minute CPU run queue length 15m -> 15-minute CPU run queue length ut -> CPU load over the last minute (%) pg -> Memory paging rate over the last minute (pages/sec) ls -> Number of current login users it -> Idle time (min) tmp -> Amount of free space (GB) swp -> Amount of free swap space (MB) mem -> Amount of available RAM (MB) io -> Disk I/O rate over the last minute (kB/sec) Lsload -l"