Scaricare la presentazione
PubblicatoCorrado Genovese Modificato 6 anni fa
1
Integrazione tier3 in Grid Paolo Veronesi, Luciano Gaido
2
Agenda Cos’è un sito Grid e cos’è un tier3
Passi necessari per l'inserimento di un nuovo sito Grid MoU infngrid e EGEE/EGI SLD Gestione di un sito Grid: il monitoring i canali di supporto i dati di accounting la security uso promiscuo di risorse di calcolo (job grid, locali e interativi) Manpower e distribuzione dei compiti
3
Cos’è un sito Grid Un sito Grid è una risorsa di calcolo interconnessa in una infrastruttura distribuita su larga scala che: permette ai propri utenti locali l’accesso ad altre risorse remote; permette l’accesso delle risorse locali (calcolo e/o storage) a utenti remoti attraverso l’installazione di servizi Grid (nel caso in questione i servizi sono forniti dal middleware gLite); Grid può quindi essere vista come una modalità di accesso alle risorse. Cos’è un tier3? Un insieme di risorse con un ruolo ben definito all’interno del computing model di un esperimento. Potrebbe non essere un sito grid, come ci sono siti grid che non sono tierX.
4
Come diventare un sito Grid
Per diventare parte della Grid di produzione italiana, connessa all’infrastruttura di produzione Europea, ci sono un insieme di passi da seguire (burocratici e tecnici) definiti sia a livello Europeo nell’ambito del progetto EGEE, che a livello nazionale per rispondere alle esigenze delle comunità e dei centri di calcolo italiani. Definire una mailing list di contatto con il sito; Definire una mailing list CSIRT (Computer Security Incident Response Team) per le comunicazioni di sicurezza informatica. … La gestione dell’infrastruttura Grid è organizzata a livello nazionale (sia in ambito EGEE che EGI). I legami tra ROC/NOC e i siti sono definiti nel Service Level Description (SLD) prodotto nell’ambito del progetto EGEE (e in fase di aggiornamento in EGI). A livello italiano il SLD è stato recepito e integrato in un MoU che è stato fatto firmare ai responsabili dei siti (il COLG per i siti INFN) e inviato via fax al CNAF.
5
Metriche nel MoU / SLD Acknowledge != resolved
Risorse di calcolo e/o di storage Important note: sites with monthly availability <= 50% for 3 consecutive months are suspended. Acknowledge != resolved EGEE SLD: MoU Italiano: Availability Calculation:
6
Gestione di un sito Grid - Monitoring
Il monitoring e l’allarmistica dei servizi Grid in un sito sono gestiti attraverso un’istanza di nagios regionale che si occupa di eseguire controlli periodici: Sulla qualità delle informazioni pubblicate; Sulla disponibilita’ dei servizi Grid (calcolo e/o storage) In caso di problemi, viene notificato un allarme al gruppo di turnisti che si occupano di valutarlo ed eventualmente aprire un ticket al sito. I site manager sono tenuti a gestire il ticket secondo le modalità espresse nel MoU e sono invitati a richiedere supporto, ove necessario, al gruppo di supporto regionale.
7
Gestione di un sito Grid I canali di supporto
Un sito può ricevere ticket da: Utenti (locali e remoti); Gruppo delle operations; Il sistema di supporto europeo è gestito via GGUS (Global Grid User Support), punto di accesso unico per tutti gli utenti europei. GGUS è completamente connesso con il sistema di supporto italiano: i site manager italiani riceveranno e potranno gestire tutti i ticket unicamente dal sistema italiano. GGUS: Sistema italiano:
8
Gestione di un sito Grid I dati di accounting
Per ogni sito Grid vengono raccolti dati di accounting: Sulle risorse di calcolo (infrastruttura consolidata) Sulle risorse di storage (molto work in progress) In italia è usato DGAS: infrastruttura gerarchica, raccolta di tutti i dati italiani (visualizzabili via HLRmon) e spedizione dei dati a livello Europeo (visualizzabili da CESGA). DGAS raccoglie i dati dei job Grid e di quelli locali (sottomessi via batch system). Da chiarire l’impatto con l’attività interattiva (vale anche per il monitoring) HLRmon (accounting italiano): CESGA (accounting europeo):
9
Gestione di un sito Grid Security
Di particolare importanza sono gli aspetti di sicurezza nell’ambito di una infrastruttura di produzione distribuita una vulnerabilità in un sito può ripercuotersi molto velocemente in tutta l’infrastruttura Per esempio le credenziali Grid degli utenti danno accesso ad una pluralità di WN e servizi localizzati nei diversi siti A livello di sito è prevista la presenza di: un Site CSIRT (un gruppo di persone responsabile di gestire prontamente le problematiche di sicurezza) un Site Security Contact (un referente unico, registrato nel GOCDB). A livello di ROC/NOC, analogamente, è presente: un ROC CSIRT un ROC Security Officer. A livello italiano, sono stati stretti rapporti con il CERT del GARR. Egee Security Policies: Incident Response Procedure:
10
Uso promiscuo di risorse di calcolo
Diversi siti offrono le proprie risorse sia via Grid che all’utenza locale: CALCOLO: nessun problema sia per i job grid che i job locali che utilizzano il batch system. Da indagare l’impatto con l’attività interattiva. Possibilità di definire policy e share per utenza locale e remota. STORAGE: possibilità di accedere alle risorse di calcolo via SRM o con file system distribuito. Quali sono le richieste e le modalità di accesso per l’attività interattiva? Il CNAF prevede di supportare l’attività interattiva mediante WNoDes, ovvero mediante l'assegnazione di macchine virtuali usando comunque il batch system, soluzione che risolve molte problematiche riguardo al monitoring e all'accounting e che dovrebbe convivere bene con l'utilizzo promiscuo delle risorse grid, locali e interattive
11
Manpower e distribuzione dei compiti (1/2)
Descritti gli aspetti che riguardano la gestione di un sito Grid, è possibile fare un esercizio sul manpower richiesto. Un sito Grid è un insieme di risorse locali accessibile anche via Grid => l’overload è dipendente dalla quantità di risorse che vengono condivise si presumono: 1 site-bdii, 1 CE e/o 1 SE in aggiunta a ciò che è già a disposizione. Definiti i tempi di response e resolution time dei ticket, si raccomanda 1 FTE, distribuito su più persone, in modo tale che possa essere rispettato il MoU anche nei periodi estivi. Un centro di calcolo ha già a che fare con le problematiche di sicurezza, si raccomanda di definire una stretta collaborazione tra il gruppo di security locale e chi gestirà i servizi grid in particolare. Tale collaborazione è formalizzata nel documento Security Management in the Italian ROC disponibile in
12
Manpower e distribuzione dei compiti (2/2)
Manpower di VO VO 1 VO 2 VO n Conoscenze condivise MIDDLEWARE Manpower centro di calcolo FARMING (hardware, switch, etc) NB: Il manpower di VO non è detto che sia locale, la collaborazione deve essere formalizzata caso per caso
13
Link Informazioni per i site manager italiani:
Service Level Description e MoU EGEE SLD: MoU Italiano: Availability Calculation: SUPPORTO GGUS: Sistema italiano: ACCOUNTING HLRmon (accounting italiano): CESGA (accounting europeo): SECURITY Security Management in the Italian ROC: Egee Security Policies: Incident Response Procedure:
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.