Integrazione tier3 in Grid Paolo Veronesi, Luciano Gaido

Slides:



Advertisements
Presentazioni simili
Comitato Tecnico sullInteroperabilità MUR, L. Merola.
Advertisements

R. Brunetti INFN - Torino. Contenuti Cosa e’ uno CSIRT Gestione della sicurezza in EGI/IGI e IGI-CSIRT Servizi ed attivita’ previste Collaborazione con.
Overview del middleware gLite Guido Cuscela INFN-Bari II Corso di formazione INFN su aspetti pratici dell'integrazione.
Stato Unità Gestione Operativa Paolo Veronesi. Stato revisione blueprint I task oggetto dell’Unita’ Gestione Operativa Personale afferente all’Unita’
R. Brunetti – INFN Torino WS. Sicurezza CNAF Bologna dicembre
Monitoraggio siti COMETA “Promemoria” Danilo Reitano.
IL blueprint e le esigenze per il progetti internazionali (EMI e EGI- InSPIRE) L. Gaido, INFN Torino Riunione del Comitato di Coordinamento IGI Roma, 12.
Giuseppe Andronico CCR-WS10 Santa Tecla, 18 Maggio 2010 Introduzione MPI & GPU.
Il nuovo portale del TT B. Checcucci A. Alaimo F. Cantini Bruno Checcucci Roma, 5/6/2013.
EGEE is a project funded by the European Union under contract IST L'infrastruttura di produzione attuale A. Cavalli - INFN- CNAF D. Cesini.
EGI-InSPIRE RI EGI-InSPIRE EGI-InSPIRE RI Gruppo CNAF (2010/2011) 7/10/2016 CdC 03/12/
+ Call di Big Data (EINFRA- 1). + La call … + + Cosa abbiamo in mano (come INFN) 1. L’infrastruttura 1 Tier Tier2 O(25000) cores O(20) PB di Disco.
EGEE is a project funded by the European Union under contract IST Il Sistema di Supporto nel ROC-IT Riccardo Brunetti INFN-Torino Riunione.
Introduzione alla Sicurezza Informatica ISIS ”C. Facchinetti” - Castellanza ( VA) 7 Maggio 2012.
HLRmon per IGI: nuove funzionalità Enrico Fattibene INFN – CNAF
Alessandro De Salvo Status dei Tier2 di ATLAS Alessandro De Salvo
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Procedura di certificazione di un sito
SCoPE - Stato dei Lavori
PNSD - Modulo D3A marzo 2017 Piattaforma e risorse educative aperte (OER) per la costruzione di contenuti digitali - G Suite For Education - Storage.
Summary di (quasi) tutti gli utenti non presentati…
Sistema di Autenticazione unica (Single-Sign-On) (azione #8)
Come accedere ai servizi di Trigrid
Riunione INFN – Bologna, 17 January 2013
Gruppo Web Tools Dael Maselli (LNF) Commissione Calcolo e Reti
IGI BLUEPRINT LAVORI IN CORSO
Monitoring e loadbalancing dei servizi Grid
INFN-Bari.
Comput-ER l'infrastruttura di calcolo distribuito in Emilia Romagna
l’organizzazione di IGI
Attività su middleware Grid e sua evoluzione
Risultati ultimi mesi Piano di lavoro prossimi mesi Reclutamento
Problemi aperti Luciano Gaido (INFN - Torino)
PNSD - Modulo D1A 27 aprile 2017 Piattaforme di e-­learning e cloud:​ installazione e gestione (azione #22) Prof. Rocca Marcello
Sistema di Autenticazione unica (Single-Sign-On) (azione #8)
HLRmon: visualizzazione di dati di accounting
Nuovo sito della Commissione Calcolo e Reti
Guido Cuscela INFN-Bari
Dichiarazione dei servizi di sito nel GOCDB
PNSD - Modulo M5 e M11 Ravenna
Attivita’ e compiti del Servizio Impianti Calcolo e Reti
Sezione di Napoli GRID-PACS Commissione Calcolo Richieste 2008 Napoli.
Sicurezza e Grid Computing
GridFlex: gestione di software
Come accedere ai servizi Trigrid e ottenere Supporto
Introduzione alla sessione sull’analisi per gli esperimenti LHC
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
PNSD - Modulo M6 Faenza 6 settembre 2017
L’infrastruttura grid italiana nel contesto internazionale
(Breve) Riassunto del workshop WLCG
PI2S2 Regional Operation Centre Sistema di Supporto Sistema di Monitoring Rita Ricceri Consorzio Cometa Tutorial per Site Administrator Messina,
Grid Monitoring: bacct - lsload
Agenda CE IGI
Luciano Gaido (INFN - Torino) Workshop CCR/INFNGRID – Palau
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
PNSD - 24 ottobre 2017 Piattaforma e risorse educative aperte (OER) per la costruzione di contenuti digitali - G Suite For Education - Storage e repository.
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Risultati del questionario sui servizi middleware aggiuntivi
PNSD - Modulo M6 Lugo 4 settembre 2017
Sistema di Autenticazione unica (Single-Sign-On) (azione #8)
Come si acquisiscono queste informazioni?
IGI e l’impatto sui servizi calcolo
CRM per PMI Attualmente, molte PMI italiane non utilizzano strumenti a supporto del processo di Customer Relationship Management (CRM), rendendo non strutturata.
INFN-Grid DI PRODUZIONE grid-use-model grid.infn.it
IT SECURITY Controllo di accesso
PNSD novembre 2017 Piattaforma e risorse educative aperte (OER) per la costruzione di contenuti digitali - G Suite For Education - Storage e repository.
Evolution of Information Modeling and Discovery of Grid Resources
Trinacria Grid Virtual Laboratory
CLOUD.
Transcript della presentazione:

Integrazione tier3 in Grid Paolo Veronesi, Luciano Gaido

Agenda Cos’è un sito Grid e cos’è un tier3 Passi necessari per l'inserimento di un nuovo sito Grid MoU infngrid e EGEE/EGI SLD Gestione di un sito Grid: il monitoring i canali di supporto i dati di accounting la security uso promiscuo di risorse di calcolo (job grid, locali e interativi) Manpower e distribuzione dei compiti

Cos’è un sito Grid Un sito Grid è una risorsa di calcolo interconnessa in una infrastruttura distribuita su larga scala che: permette ai propri utenti locali l’accesso ad altre risorse remote; permette l’accesso delle risorse locali (calcolo e/o storage) a utenti remoti attraverso l’installazione di servizi Grid (nel caso in questione i servizi sono forniti dal middleware gLite); Grid può quindi essere vista come una modalità di accesso alle risorse. Cos’è un tier3? Un insieme di risorse con un ruolo ben definito all’interno del computing model di un esperimento. Potrebbe non essere un sito grid, come ci sono siti grid che non sono tierX.

Come diventare un sito Grid Per diventare parte della Grid di produzione italiana, connessa all’infrastruttura di produzione Europea, ci sono un insieme di passi da seguire (burocratici e tecnici) definiti sia a livello Europeo nell’ambito del progetto EGEE, che a livello nazionale per rispondere alle esigenze delle comunità e dei centri di calcolo italiani. Definire una mailing list di contatto con il sito; Definire una mailing list  CSIRT (Computer Security Incident Response Team) per le comunicazioni di sicurezza informatica. … La gestione dell’infrastruttura Grid è organizzata a livello nazionale (sia in ambito EGEE che EGI). I legami tra ROC/NOC e i siti sono definiti nel Service Level Description (SLD) prodotto nell’ambito del progetto EGEE (e in fase di aggiornamento in EGI). A livello italiano il SLD è stato recepito e integrato in un MoU che è stato fatto firmare ai responsabili dei siti (il COLG per i siti INFN) e inviato via fax al CNAF.

Metriche nel MoU / SLD Acknowledge != resolved Risorse di calcolo e/o di storage Important note:  sites with monthly availability  <= 50%  for 3 consecutive months are suspended. Acknowledge != resolved EGEE SLD: https://edms.cern.ch/document/860386/ MoU Italiano: https://www.italiangrid.org/sites/default/files/MoU-infngrid.pdf Availability Calculation: https://twiki.cern.ch/twiki/pub/LCG/GridView/Gridview_Service_Availability_Computation.pdf

Gestione di un sito Grid - Monitoring Il monitoring e l’allarmistica dei servizi Grid in un sito sono gestiti attraverso un’istanza di nagios regionale che si occupa di eseguire controlli periodici: Sulla qualità delle informazioni pubblicate; Sulla disponibilita’ dei servizi Grid (calcolo e/o storage) In caso di problemi, viene notificato un allarme al gruppo di turnisti che si occupano di valutarlo ed eventualmente aprire un ticket al sito. I site manager sono tenuti a gestire il ticket secondo le modalità espresse nel MoU e sono invitati a richiedere supporto, ove necessario, al gruppo di supporto regionale.

Gestione di un sito Grid I canali di supporto Un sito può ricevere ticket da: Utenti (locali e remoti); Gruppo delle operations; Il sistema di supporto europeo è gestito via GGUS (Global Grid User Support), punto di accesso unico per tutti gli utenti europei. GGUS è completamente connesso con il sistema di supporto italiano: i site manager italiani riceveranno e potranno gestire tutti i ticket unicamente dal sistema italiano. GGUS: https://gus.fzk.de/pages/home.php Sistema italiano: https://ticketing.cnaf.infn.it

Gestione di un sito Grid I dati di accounting Per ogni sito Grid vengono raccolti dati di accounting: Sulle risorse di calcolo (infrastruttura consolidata) Sulle risorse di storage (molto work in progress) In italia è usato DGAS: infrastruttura gerarchica, raccolta di tutti i dati italiani (visualizzabili via HLRmon) e spedizione dei dati a livello Europeo (visualizzabili da CESGA). DGAS raccoglie i dati dei job Grid e di quelli locali (sottomessi via batch system). Da chiarire l’impatto con l’attività interattiva (vale anche per il monitoring) HLRmon (accounting italiano): https://dgas.cnaf.infn.it CESGA (accounting europeo): http://www3.egee.cesga.es/gridsite/accounting/CESGA/egee_view.php

Gestione di un sito Grid Security Di particolare importanza sono gli aspetti di sicurezza nell’ambito di una infrastruttura di produzione distribuita una vulnerabilità in un sito può ripercuotersi molto velocemente in tutta l’infrastruttura Per esempio le credenziali Grid degli utenti danno accesso ad una pluralità di WN e servizi localizzati nei diversi siti A livello di sito è prevista la presenza di: un Site CSIRT (un gruppo di persone responsabile di gestire prontamente le problematiche di sicurezza) un Site Security Contact (un referente unico, registrato nel GOCDB). A livello di ROC/NOC, analogamente, è presente: un ROC CSIRT un ROC Security Officer. A livello italiano, sono stati stretti rapporti con il CERT del GARR. Egee Security Policies: https://edms.cern.ch/document/931980/3 Incident Response Procedure: https://igi.cnaf.infn.it/grid_operations/grid_security/Incidente_response

Uso promiscuo di risorse di calcolo Diversi siti offrono le proprie risorse sia via Grid che all’utenza locale: CALCOLO: nessun problema sia per i job grid che i job locali che utilizzano il batch system. Da indagare l’impatto con l’attività interattiva. Possibilità di definire policy e share per utenza locale e remota. STORAGE: possibilità di accedere alle risorse di calcolo via SRM o con file system distribuito. Quali sono le richieste e le modalità di accesso per l’attività interattiva? Il CNAF prevede di supportare l’attività interattiva mediante WNoDes, ovvero mediante l'assegnazione di macchine virtuali usando comunque il batch system, soluzione che risolve molte problematiche riguardo al monitoring e all'accounting e che dovrebbe convivere bene con l'utilizzo promiscuo delle risorse grid, locali e interattive

Manpower e distribuzione dei compiti (1/2) Descritti gli aspetti che riguardano la gestione di un sito Grid, è possibile fare un esercizio sul manpower richiesto. Un sito Grid è un insieme di risorse locali accessibile anche via Grid => l’overload è dipendente dalla quantità di risorse che vengono condivise si presumono: 1 site-bdii, 1 CE e/o 1 SE in aggiunta a ciò che è già a disposizione. Definiti i tempi di response e resolution time dei ticket, si raccomanda 1 FTE, distribuito su più persone, in modo tale che possa essere rispettato il MoU anche nei periodi estivi. Un centro di calcolo ha già a che fare con le problematiche di sicurezza, si raccomanda di definire una stretta collaborazione tra il gruppo di security locale e chi gestirà i servizi grid in particolare. Tale collaborazione è formalizzata nel documento Security Management in the Italian ROC disponibile in https://ticketing.cnaf.infn.it/checklist-new/modules/dokuwiki/doku.php?id=security_coord

Manpower e distribuzione dei compiti (2/2) Manpower di VO VO 1 VO 2 VO n Conoscenze condivise MIDDLEWARE Manpower centro di calcolo FARMING (hardware, switch, etc) NB: Il manpower di VO non è detto che sia locale, la collaborazione deve essere formalizzata caso per caso

Link Informazioni per i site manager italiani: http://www.italiangrid.org/grid_operations/site_manager Service Level Description e MoU EGEE SLD: https://edms.cern.ch/document/860386/ MoU Italiano: https://www.italiangrid.org/sites/default/files/MoU-infngrid.pdf Availability Calculation: https://twiki.cern.ch/twiki/pub/LCG/GridView/Gridview_Service_Availability_Computation.pdf SUPPORTO GGUS: https://gus.fzk.de/pages/home.php Sistema italiano: https://ticketing.cnaf.infn.it ACCOUNTING HLRmon (accounting italiano): https://dgas.cnaf.infn.it CESGA (accounting europeo): http://www3.egee.cesga.es/gridsite/accounting/CESGA/egee_view.php SECURITY Security Management in the Italian ROC: https://ticketing.cnaf.infn.it/checklist-new/modules/dokuwiki/doku.php?id=security_coord Egee Security Policies: https://edms.cern.ch/document/931980/3 Incident Response Procedure: https://igi.cnaf.infn.it/grid_operations/grid_security/Incidente_response