Grid operations Luciano Gaido (INFN-Torino) ( Contributi di A. Cavalli, A. Paolini, A. Pagano) Incontro con i referee di INFN-GRID CNAF, 7 marzo 2007
La gestione della grid Viene fatta dal Regional Operation Center (ROC) italiano. Le attività principali sono: produzione della release InfnGrid certificazione della release distribuzione della release nei siti, supporto agli amministratori locali e certificazione dei siti controllo periodico dello stato delle risorse: checklist a livello ROC italiano Service Availability Monitoring (SAM) test a livello EGEE monitoraggio dello stato delle risorse e dei servizi supporto a livello italiano supporto a livello europeo con la partecipazione ai turni del CIC-on-Duty (COD) Un gruppo di circa 20 persone (Central Management Team), distribuito geograficamente, effettua le attività di controllo con una turnazione settimanale Vari strumenti (tool) sono utilizzati per queste attività, alcuni generali (EGEE), altri specifici del ROC italiano.
Il Regional Operations Center (ROC) italiano E’ uno dei 10 ROC esistenti in EGEE u Operations Coordination Centre (OCC) n Management, oversight of all operational and support activities u Regional Operations Centres (ROC) n providing the core of the support infrastructure, each supporting a number of resource centres within its region u Grid Operator on Duty u Grid User Support (GGUS) n At FZK, coordination and management of user support, single point of contact for users
Supporto EGEE utilizza il sistema di ticketing GGUS (Global Grid User Support) basato su un sw commerciale (Remedy). I vari ROC utilizzano prodotti differenti interfacciati a GGUS in modo bidirezionale; è possibile cioè, mediante l’utilizzo di Web Services: trasferire ticket dal sistema globale a quello regionale trasferire ticket dal sistema regionale a quello globale I gruppi di supporto, a cui verranno reindirizzati i ticket, sono definiti sia in GGUS che nei sistemi regionali. Nel ROC italiano il ticketing systemn utilizzato è basato su Xoops/xHelp.
Il ticketing system del ROC italiano (Xoops/xHelp)
Xoops/xHelp: interfaccia con GGUS
Central Management Team (CMT) Shifts About 20 supporters perform a checking activity composed of 2 shifts per day, from Monday to Friday, with 2 people per shift; for each shift a report is compiled. The main activities are: n Check the grid status, warn about problems, dealing with some of them until they are solved if possible n Certificate sites during deployment phases n Monitor the open tickets, remind the support group members (experts or site managers) in order to have the tickets answered and the problems solved as soon as possible
Central Management Team (CMT) Shifts
Turni
Geographic Failover activity INFN-CNAF coordinates and is an active partner in the Geographic Failover activity of EGEE SA1 Operation: u Geographic distribution of web content via mirror sites is vital to ensure high availability and speed access for a resource u CNAF hosts Geographic Failover Service in a highly effective and inexpensive solution to provide High Availability for mission critical services u the domain gridops.org has been registered to transparently redirect the users whenever one or more grid operation tools become unavailable u Nameservers for gridops.org: n dxcnaf.cnaf.infn.it n nic.grnet.gr
“Replicated” tools Grid is monitored by various tools: n CIC Portal n GSTAT n SAM-SFT n SAM Auto Admin n GRIDICE Every tool is mantained by a different institution
Geo Failover DNS architecture DNS Version: Bind Nsupdate (symmetric ciphers) 60’’ TTL => Switch in 60’’
Failover: web The domain: gridops.org n Registered and available, master at CNAF, slave at GRNET n NSUPDATE enabled n Hosts registered as CNAME (alias) of real names n Short TTLs: the zone configuration has been done to be able to work with very short TTLs. In this way we can quickly remap the “gridops” CNAMEs.
Replication Status u CIC Portal: n Web part: frontend n Lavoiser, a data aggregation and unification service n Oracle database u GGUS: currently not considered – locally done u GOCDB: MySQL done in TW, Web TODO u GSTAT: u SFT/SAME: TODO u SFT ADMIN: (integrated into the CIC Portal)
CIC Operation Portal
Accounting DGAS (Distributed Grid Accounting System) è utilizzato sulla grid di produzione italiana per l’accounting delle risorse: le informazioni sono raccolte in un database (HLR) e possono essere aggregate in vari modi: la granularità arriva fino al singolo job eseguito sulla grid; la confidenzialità delle informazioni è garantita dall’utilizzo di vari livelli di autorizzazione per l’accesso agli Usage Record; l’architettura è completamente distribuita per assicurare flessibilità e scalabilità. Attualmente sono attive 12 HLR di primo livello ed una di secondo livello per l’aggregazione dei dati delle HLR di primo livello. E’ stata sviluppata una interfaccia tra DGAS ed Apel, il sistema attualmente utilizzato per l’accounting sulla grid EGEE.
Accounting A meta’ dicembre 2006 sono stati distribuiti sulla grid di produzione: la patch 898 per CE LCG (log unificato per il gatekeeper) una nuova versione di DGAS che consente di utilizzare le informazioni contenute nel log unificato Questo rende possibile avere informazioni grid complete, cioè: grid job id user DN user FQAN per TUTTI i job, compresi quelli sottomessi a Resource Broker su cui non è implementato DGAS
Accounting In questo momento sono in corso controlli incrociati sui siti principali (T1 e T2) per la validazione del sistema di accounting. Nei siti validati: l’HLR viene connessa a quella di secondo livello (che si trova a Torino, almeno per ora). verrà attivata (a breve) la procedura Dgas2Apel per l’invio automatico dei dati al GOCDB Siti validati finora (tutti con PBS ed 1 solo CE): Frascati Milano Napoli Pisa Torino
Accounting Siti in fase di controllo: Bari (PBS, 2 CE, problemi HLR) Tier-1 (LSF, vari CE) Catania (LSF, 1 CE) -> validato ieri! Controllo incompleto o da iniziare per siti con configurazioni particolari: Legnaro (LSF, log non ruotati) Roma1 (LSF, vari CE e varie registrazioni nel GOCDB)
Alcuni dati ( ) Query effettuata sui siti Catania, Frascati, Milano, Napoli, Pisa e Torino (aggregati)
Alcuni dati ( ) Query effettuata sui siti Catania, Frascati, Milano, Napoli, Pisa e Torino (aggregati)
Accounting I prossimi passi: completamento controlli [2 o 3 settimane?] invio automatico dati al GOCDB nuova feature (lookup table) per la corretta associazione dei job locali ad una VO [prossima settimana] nuovo prototipo di interfaccia web (HLRmon) per l’accesso ai dati di accounting con 4 ruoli possibili (utente, site manager, VO manager, CMT)[fine marzo]
Partecipazione al TPM Dal prossimo aprile parteciperemo alle attività del Ticket Processing Management (TPM) di EGEE con un team di 4 persone: Luca Vaccarossa Alessandro Paolini Sara Bertocco Danilo Dongiovanni Ogni team fa un turno di una settimana (+ un turno di backup) ogni n settimane, dove n è il numero dei team (ora ce ne sono 13)
Partner Activity Review di EGEE A maggio ci sarà l’ultimo turno della Partner Activity Review Dobbiamo presentare lo stato delle attività ed il “consuntivo” per la federazione italiana (INFN+SPACI+ENEA) Per quanto ci riguarda non dovremmo avere particolari problemi, il punto piu’ debole e’ il training.
Assegnazioni 2007 Per quanto riguarda l’inventariabile sono state effettuate le seguenti assegnazioni: Sezionerich.ass.motivo Bari7.55 HA CNAF5540testbed, preview, etc. Catania2.52.5HA Genova107.5potenziamento Milano7.57.5HA Napoli7.57.5HA Padova7.55HA Pisa7.55HA Roma HA Torino107.5HA