Integrazione tier3 in Grid Paolo Veronesi, Luciano Gaido
Agenda Cos’è un sito Grid e cos’è un tier3 Passi necessari per l'inserimento di un nuovo sito Grid MoU infngrid e EGEE/EGI SLD Gestione di un sito Grid: il monitoring i canali di supporto i dati di accounting la security uso promiscuo di risorse di calcolo (job grid, locali e interativi) Manpower e distribuzione dei compiti
Cos’è un sito Grid Un sito Grid è una risorsa di calcolo interconnessa in una infrastruttura distribuita su larga scala che: permette ai propri utenti locali l’accesso ad altre risorse remote; permette l’accesso delle risorse locali (calcolo e/o storage) a utenti remoti attraverso l’installazione di servizi Grid (nel caso in questione i servizi sono forniti dal middleware gLite); Grid può quindi essere vista come una modalità di accesso alle risorse. Cos’è un tier3? Un insieme di risorse con un ruolo ben definito all’interno del computing model di un esperimento. Potrebbe non essere un sito grid, come ci sono siti grid che non sono tierX.
Come diventare un sito Grid Per diventare parte della Grid di produzione italiana, connessa all’infrastruttura di produzione Europea, ci sono un insieme di passi da seguire (burocratici e tecnici) definiti sia a livello Europeo nell’ambito del progetto EGEE, che a livello nazionale per rispondere alle esigenze delle comunità e dei centri di calcolo italiani. Definire una mailing list di contatto con il sito; Definire una mailing list CSIRT (Computer Security Incident Response Team) per le comunicazioni di sicurezza informatica. … La gestione dell’infrastruttura Grid è organizzata a livello nazionale (sia in ambito EGEE che EGI). I legami tra ROC/NOC e i siti sono definiti nel Service Level Description (SLD) prodotto nell’ambito del progetto EGEE (e in fase di aggiornamento in EGI). A livello italiano il SLD è stato recepito e integrato in un MoU che è stato fatto firmare ai responsabili dei siti (il COLG per i siti INFN) e inviato via fax al CNAF.
Metriche nel MoU / SLD Acknowledge != resolved Risorse di calcolo e/o di storage Important note: sites with monthly availability <= 50% for 3 consecutive months are suspended. Acknowledge != resolved EGEE SLD: https://edms.cern.ch/document/860386/ MoU Italiano: https://www.italiangrid.org/sites/default/files/MoU-infngrid.pdf Availability Calculation: https://twiki.cern.ch/twiki/pub/LCG/GridView/Gridview_Service_Availability_Computation.pdf
Gestione di un sito Grid - Monitoring Il monitoring e l’allarmistica dei servizi Grid in un sito sono gestiti attraverso un’istanza di nagios regionale che si occupa di eseguire controlli periodici: Sulla qualità delle informazioni pubblicate; Sulla disponibilita’ dei servizi Grid (calcolo e/o storage) In caso di problemi, viene notificato un allarme al gruppo di turnisti che si occupano di valutarlo ed eventualmente aprire un ticket al sito. I site manager sono tenuti a gestire il ticket secondo le modalità espresse nel MoU e sono invitati a richiedere supporto, ove necessario, al gruppo di supporto regionale.
Gestione di un sito Grid I canali di supporto Un sito può ricevere ticket da: Utenti (locali e remoti); Gruppo delle operations; Il sistema di supporto europeo è gestito via GGUS (Global Grid User Support), punto di accesso unico per tutti gli utenti europei. GGUS è completamente connesso con il sistema di supporto italiano: i site manager italiani riceveranno e potranno gestire tutti i ticket unicamente dal sistema italiano. GGUS: https://gus.fzk.de/pages/home.php Sistema italiano: https://ticketing.cnaf.infn.it
Gestione di un sito Grid I dati di accounting Per ogni sito Grid vengono raccolti dati di accounting: Sulle risorse di calcolo (infrastruttura consolidata) Sulle risorse di storage (molto work in progress) In italia è usato DGAS: infrastruttura gerarchica, raccolta di tutti i dati italiani (visualizzabili via HLRmon) e spedizione dei dati a livello Europeo (visualizzabili da CESGA). DGAS raccoglie i dati dei job Grid e di quelli locali (sottomessi via batch system). Da chiarire l’impatto con l’attività interattiva (vale anche per il monitoring) HLRmon (accounting italiano): https://dgas.cnaf.infn.it CESGA (accounting europeo): http://www3.egee.cesga.es/gridsite/accounting/CESGA/egee_view.php
Gestione di un sito Grid Security Di particolare importanza sono gli aspetti di sicurezza nell’ambito di una infrastruttura di produzione distribuita una vulnerabilità in un sito può ripercuotersi molto velocemente in tutta l’infrastruttura Per esempio le credenziali Grid degli utenti danno accesso ad una pluralità di WN e servizi localizzati nei diversi siti A livello di sito è prevista la presenza di: un Site CSIRT (un gruppo di persone responsabile di gestire prontamente le problematiche di sicurezza) un Site Security Contact (un referente unico, registrato nel GOCDB). A livello di ROC/NOC, analogamente, è presente: un ROC CSIRT un ROC Security Officer. A livello italiano, sono stati stretti rapporti con il CERT del GARR. Egee Security Policies: https://edms.cern.ch/document/931980/3 Incident Response Procedure: https://igi.cnaf.infn.it/grid_operations/grid_security/Incidente_response
Uso promiscuo di risorse di calcolo Diversi siti offrono le proprie risorse sia via Grid che all’utenza locale: CALCOLO: nessun problema sia per i job grid che i job locali che utilizzano il batch system. Da indagare l’impatto con l’attività interattiva. Possibilità di definire policy e share per utenza locale e remota. STORAGE: possibilità di accedere alle risorse di calcolo via SRM o con file system distribuito. Quali sono le richieste e le modalità di accesso per l’attività interattiva? Il CNAF prevede di supportare l’attività interattiva mediante WNoDes, ovvero mediante l'assegnazione di macchine virtuali usando comunque il batch system, soluzione che risolve molte problematiche riguardo al monitoring e all'accounting e che dovrebbe convivere bene con l'utilizzo promiscuo delle risorse grid, locali e interattive
Manpower e distribuzione dei compiti (1/2) Descritti gli aspetti che riguardano la gestione di un sito Grid, è possibile fare un esercizio sul manpower richiesto. Un sito Grid è un insieme di risorse locali accessibile anche via Grid => l’overload è dipendente dalla quantità di risorse che vengono condivise si presumono: 1 site-bdii, 1 CE e/o 1 SE in aggiunta a ciò che è già a disposizione. Definiti i tempi di response e resolution time dei ticket, si raccomanda 1 FTE, distribuito su più persone, in modo tale che possa essere rispettato il MoU anche nei periodi estivi. Un centro di calcolo ha già a che fare con le problematiche di sicurezza, si raccomanda di definire una stretta collaborazione tra il gruppo di security locale e chi gestirà i servizi grid in particolare. Tale collaborazione è formalizzata nel documento Security Management in the Italian ROC disponibile in https://ticketing.cnaf.infn.it/checklist-new/modules/dokuwiki/doku.php?id=security_coord
Manpower e distribuzione dei compiti (2/2) Manpower di VO VO 1 VO 2 VO n Conoscenze condivise MIDDLEWARE Manpower centro di calcolo FARMING (hardware, switch, etc) NB: Il manpower di VO non è detto che sia locale, la collaborazione deve essere formalizzata caso per caso
Link Informazioni per i site manager italiani: http://www.italiangrid.org/grid_operations/site_manager Service Level Description e MoU EGEE SLD: https://edms.cern.ch/document/860386/ MoU Italiano: https://www.italiangrid.org/sites/default/files/MoU-infngrid.pdf Availability Calculation: https://twiki.cern.ch/twiki/pub/LCG/GridView/Gridview_Service_Availability_Computation.pdf SUPPORTO GGUS: https://gus.fzk.de/pages/home.php Sistema italiano: https://ticketing.cnaf.infn.it ACCOUNTING HLRmon (accounting italiano): https://dgas.cnaf.infn.it CESGA (accounting europeo): http://www3.egee.cesga.es/gridsite/accounting/CESGA/egee_view.php SECURITY Security Management in the Italian ROC: https://ticketing.cnaf.infn.it/checklist-new/modules/dokuwiki/doku.php?id=security_coord Egee Security Policies: https://edms.cern.ch/document/931980/3 Incident Response Procedure: https://igi.cnaf.infn.it/grid_operations/grid_security/Incidente_response