L’infrastruttura grid italiana nel contesto internazionale Luciano Gaido INFN-Torino IV Corso di formazione INFN per amministratori di siti GRID Catania, 13-17 dicembre 2010
La Grid di produzione italiana E’ una delle più vaste in europa e nel mondo Conosciuta come INFN-GRID, Grid.IT e IGI IGI (Italian Grid Initiative) è ora una Joint Research Unit (JRU), ma è in fase di costituzione come entità effettiva (è una National Grid Initiative – NGI)
Le Grid
Le e-Infrastrutture a livello europeo European Data Grid (EDG) Primo sviluppo middleware e realizzazione di testbed Enabling Grid for E-sciencE (EGEE) I-II-III Dal prototipo all’infrastruttura di produzione European Grid Infrastructure (EGI) L’infrastruttura Grid diventa sostenibile ruolo chiave delle National Grid Initiative (NGI)
Da non dimenticare…
The EGI-InSPIRE Project Integrated Sustainable Pan-European Infrastructure for Researchers in Europe A 4 year project with €25M EC contribution Project cost €69M Total Effort ~€330M Staff ~ 170FTE Funded Un-Funded Project Partners (48) EGI.eu, 37 NGIs, 2 EIROs, 8 AP
Scalable Community Interactions USERS VOs EGI.eu Training Events Trainers Apps. DB EGI Helpdesk NGI User Community Board Virtual Research Community VOs USERS VOs Virtual Research Commmuity USERS VRC Helpdesk ESFRI Project Other Helpdesk Virtual Research Community VOs NGI Helpdesk
Struttura del progetto NA3 30.5 FTE/anno SA1 105 FTE/anno (erano 183.5 in EGEE-III) SA2 10.1 FTE/anno SA3 20.2 FTE/anno (ma solo per 3 anni) JRA1 6.8 FTE/anno
Da EGEE-III ad EGI-InSPIRE – Middleware engineering by external providers (EP) – Integration, Testing and certification by a collaboration between EP and EGI SA2 – Operational Tools by JRA1 EGEE-III – Middleware engineering by JRA1 – Integration, Testing and certification by SA3
Il supporto al middleware • Supporto di I livello: responsabilità di SA1 attività: assistenza al deployment e alla configurazione turni a livello nazionale Supporto di II livello: responsabilità di SA2 (TSA2.5: Deployed Middleware Support Unit - DMSU) attività: fornire supporto per il tuning dei componenti o patch per problemi minori • Supporto di III livello: responsabilità degli External Provider attività: effettuare il debug e risolvere i bug noti, tenendo traccia dei problemi mediante il ticketing system centrale (GGUS)
Workflow del supporto
Interfacce verso i Software Provider (SP) • Technology Coordination Board – Forum for strategic technology guidance with members representing: • EGI.eu technical team • Prime External SPs • Users aka supported Virtual Research Communities • Resource Providers • Service Level Agreements Negotiated and Monitored in the Middleware Coordination Board (MCB) • 2nd to 3rd level support interface Day to day interface for support issues Second level support, the DMSU, provides a flexible interface between independent projects
Le Networking Activities (NA)
Operations Scopo principale: continuare la gestione, mantenimento e supporto dell’infrastruttura Grid, sostendendo l’espansione dell’infrastruttura Si articola in due attività distinte: SA1: Operations Attori principali: le NGI (National Grid Infrastructures) e una struttura di coordinamento centrale: EGI.eu JRA1: Operational tools maintenance e iprovement dei tool esistenti maggiore automazione/regionalizzazione
SA1: Operations Objectives Operation of a secure, reliable European-wide production grid infrastructure federated from national grid initiatives and EIROs (European International Research Organizations), that is integrated and interoperates with other grids worldwide. It will: Provide users with a secure infrastructure through the establishment of the operational security teams Validate new releases of the middleware and operational tools through a coordinated staged roll-out to sites Establish the monitoring services needed to manage the production grid infrastructure Provide a central accounting infrastructure Operate the EGI Helpdesk, integrated with national instances, to provide support to users and Grid operators
SA1: Operations EGEE-III: le operations erano gestite da 10 Regional Operations Centres (ROC) in un contesto “federativo” a parte qualche eccezione (tra cui l’Italia) un ROC raggruppava più nazioni (infrastrutture) EGI: Una infrastruttura per nazione (NGI) Un Operations Centre per NGI (salvo eccezioni) Per l’Italia il ROC è distribuito (centro principale a Bologna: CNAF)
JRA1: Operational tools Objectives: evolution of the operational tools used by the production infrastructure, including: ongoing maintenance and further development of the deployed operational tools development of the operational tools to support a national deployment model (tool regionalisation) Accounting for the use of different resources within the production infrastructure Providing an integrated operations portal for the staff running the production infrastructure
Strumenti a disposizione degli amministratori di risorse e servizi fondamentali per l’attività quotidiana vari tipi di tool con obiettivi e ‘scope’ differenti possono esistere implementazioni diverse (es. Apel vs DGAS per accounting) necessaria ‘integrazione’
Monitoring: GStat EGI-InSPIRE - EGEE UF5
Monitoring: MyEGI (1) EGI-InSPIRE - EGEE UF5
Monitoring: MyEGI (2)
Accounting… uso delle risorse Job per regione e data (ultimo anno) [portale EGI @ CESGA]
Accounting… uso delle risorse CPU Time (HepSpec 2006) per regione e data (ultimo anno) [portale EGI @ CESGA]
Accounting… uso delle risorse CPU Time (HS06) in Italia per VO e data (ultimo anno) [portale EGI @ CESGA]
Accounting… uso delle risorse CPU Time (HS06) in Italia per sito e data (ultimo anno) [portale EGI @ CESGA]
Accounting… uso delle risorse CPU Time (HS06) in Italia per sito e data (Nov2010) [portale EGI @ CESGA] CPU Time (HS06) in Italia per VO e data (Nov2010) [portale EGI @ CESGA]
Accounting: il tool italiano (DGAS+HLRmon)
Availability/Reliability Risultati per Novembre 2010 Sono calcolate ogni mese in base ai risultati dei test di Nagios (SAM test)
Internal groups and boards Security Policy Group (SPG) development and maintenance of security policies that define the expected behaviour of sites and users to ensure a secure distributed computing infrastructure (NGIs, sites, application communities) Software Security Group (SSG) has representatives from the software providers contributing software to EGI in order to ensure a common coherent approach to the security frameworks. Security Coordination Group (SCG) coordination between the NGI operational security groups, the software security groups, the security policy activities both inside EGI and in other infrastructures and projects User Services Advisory Group (USAG) has representatives from the user communities to feedback to the EGI.eu on the user facing operations tools and support processes. Operational Tools Advisory Group (OTAG) has representatives from the NGI/EIRO Operations Centres and provides feedback on the operational tools and how they need to be adapted in response to EGI‘s requirements.
Sicurezza molto importante la violazione di un sito può avere un impatto enorme sull’intera infrastruttura creato a livello centrale un team per gestire e segnalare gli incidenti di sicurezza (EGI-CSIRT: Computer Security Incident Response Team) CSIRT regionali in ogni nazione in italia stretta collaborazione con il GARR-CERT
Per concludere.. la Grid è in continua evoluzione: improvement e ‘unificazione’ del middleware aumento del numero dei siti nuovi utenti con nuove applicazioni molto importanti le scuole Grid riorganizzaizone delle operation su base nazionale è in costante aumento l’uso dell’infrastruttura Grid necessario raggiungere la sostenibilità (IGI) necessaria apertura verso nuovi paradigmi (es. Cloud Computing)
Domande?