EGI-InSPIRE RI EGI-InSPIRE EGI-InSPIRE RI Gruppo CNAF (2010/2011) 7/10/2016 CdC 03/12/2010 1
EGI-InSPIRE RI NomeProgettoScadenza contratto PM su EGI Bencivenni M.EGEE/EGI10/ Cesini D.EGEE/EGI10/ Cristofori A.EGEE/EGI10/ Dongiovanni D.EGEE/EMI10/2011- Fattibene E.EGEE/EGI10/ Ferrari T.CNAFStaff- Misurelli G.EGEE/EGI10/ Paolini A.EGEE/EGI10/ Veronesi P.EGEE/EGI10/ Personale 2010/2011 CdC 03/12/2010
EGI-InSPIRE RI Attività 2010 – EGEE ERA Gestione Servizi Centrali Turni Controllo GRID Sviluppo HLRMON Sviluppo WMSMonitor TPM/COD Supporto Utenti/site manager ROC Management Partecipazione WorkingGroups: MPI/TCB/OAT Gestione sala macchine zona Grid: - Operation - R&D -Altri progetti Acquisti HW, cablaggi, installazioni OS, macchine virtuali, certificati, monitoring Preprod e testbed IGI CSIRTEGI Design Preparazio ne scuole Grid, Web PROGETTO EGEE ATTIVITA’ INTERNE CdC 03/12/2010 Reperib. Operation Reper. Infrastrutt ura Test DGAS Servizi nazionali (VOIP) Portali: - IGI - altri progetti - CNAF
EGI-InSPIRE RI Attività 2010 – EGI ERA Gestione Servizi Centrali Turni Controllo GRID Sviluppo HLRMON Sviluppo WMSMonitor TPM Supporto Utenti/sitema nager (DMSU) NGI Management Partecipazione WorkingGroups: MPI/OSCT/OTAG Gestione sala macchine zona Grid: - Operation - R&D -Altri progetti Acquisti HW, cablaggi, installazioni OS, macchine virtuali, certificati, monitoring Early Adoption IGI CSIRTEGI-JRA1 Servizi nazionali (VOIP) Portali: - IGI - altri progetti - CNAF Reperib. Operation Reper. Infrastrutt ura DUCK Comput -er Preparazio ne scuole Grid PROGETTO EGI ATTIVITA’ INTERNE CdC 03/12/2010 Test DGAS
EGI-InSPIRE RI Coordinamento e rapporti con i siti ~60 e con EGI –phone conference NGI_IT e EGI Statistiche Grid –segnalazione e followup problemi Gestione problemi che impattano su più siti –coordinamentoe e pianificazione deployment (baby-sitting) Definizioni procedure operationali in NGI_IT e EGI Burocrazia del progetto –Quartely report, milestones Gestione sondaggi da EGI NGI Management Veronesi Paolini CdC 03/12/2010
EGI-InSPIRE RI Gestione Servizi Centrali wms002 wms006 CMS WMS/LB CLUSTER ANALYSIS (prod-wms- cms-analysis) PROD (prod-wms- cms-prod) wms011 wms012 wms015 wms017 egee-rb-09 prod-wms-02 wms003 wms005 wms014 prod-wms-01 wms1 CNAF CTCT BABA CTCT lb001 lb004 lb007 lb008 lb011 lb001 prod-lb-01 lb-01 lb1 lb010 wms001 wms016 ATLAS WMS/LB CLUSTER (prod-wms- atlas) CNAF lb002 lb004 egee-rb-02 ALICE WMS/LB CLUSTER (prod-wms- alice) CNAF lb005 egee-rb-09 MULTIVO WMS/LB CLUSTER (prod-wms- multi) glite-rb-00 gridit-wms-01 egee-wms-01 prod-wms-01 CNAF lb009 prod-lb-01 albalonga PDPD gridrb gridlb FEFE wms010 CNAF lb007 LHCB WMS/LB CLUSTER (prod-wms- lhcb) wms004 CNAFCNAF CDF WMS/LB CLUSTER (prod-wms-cdf) lb005 wms018 CNAF SPARE WMS/LB CLUSTER Not inalias prod-wms-01 prod-lb-01 PDPD Cristofori Veronesi Paolini Misurelli Ridondanza: DNS load balancing Client round robin Doppie alimentazioni Alta affidabilita’ raggiunta anche grazie a miglioramenti dell’ infrastruttura Cluster WMS/LB (CNAF, PD, BA, FE, CT) NAGIOS nazionale –partecipazione sistema allarmistica CNAF Cluster BDII (CNAF e PD) LFC FTS && HLR (Tier1) Cluster VOMS (CNAF e PD) Sito INFN-CNAF –Pubblicazione servizi centrali CdC 03/12/2010
EGI-InSPIRE RI Supporto e Turni Turni Controllo GRID Tutti (Cesini dispensato per impegni JRA1) Media di 140 tckt/mese nel 2010 assegnati a NGI_IT da GGUS - 93 aperti dai nostri turnisti Più circa 100 ticket interni 10 turnisti in turni settimanali da due persone - controllo stato della grid italiana - apertura ticket in caso di problemi - site certification - gestione ticket aperti CdC 03/12/2010
EGI-InSPIRE RI TPM & DMSU Supporto Utenti/sitema nager (DMSU) TPM TPM (ticket process managers): smistatore! Primo livello Secondo livello Service support: operations, NGI, VOSupport, Security Management,… DMSU: Supporto m/w Coinvolti in WMS, FTS, BDII, MPI, DGAS Italy and Germany are involved in the Ticket Processing Managers (TPM) activity: CdC 03/12/2010 Paolini Bencivenni Cristofori Cesini Veronesi Tutti i turnisti OTTIMIZZAZIONE: turnisti TPM coincidono con quelli ROD
EGI-InSPIRE RI HLRMON Sviluppo HLRMON Fattibene Nuova versione in produzione sul server italiano ( Plot con dati aggregati per ruolo VOMS, CA e tipo di job (Grid o locali) Varieta’ di metriche: num di job, CPU/WallTime, CPU efficiency Vista con dati aggregati per disciplina Viste specifiche per WLCG aggiornati con i dati pledged comunicati dai referee e con dati di storage accounting Nuova istanza installata per HellasGrid ( Paper pubblicato tra i proceedings della conferenza ISGC2010 Sviluppi attuali Possibilita’ di filtrare ruoli VOMS Possibilita’ di filtrare gli utenti per istituto o sezione (dal DN) Ottimizzazione query per dati con dettagli degli utenti Help online CdC 03/12/2010
EGI-InSPIRE RI Test DGAS Fattibene Cristofori Veronesi Test del prototipo DGAS con trasporto dei record con ActiveMQ Prototipo realizzato dal product team di DGAS Broker installato a Torino Attivita’ di test svolta al CNAF Installazione e configurazione del testbed (1 CE, 1 HLR standard, 1 HLR ActiveMQ) Run di diversi test allo scopo di verificare (con e senza SSL): Comunicazione CE – HLR Ciclo completo di accounting Integrita’ dei dati Affidabilita’ e robustezza del servizio Durata: circa 2 mesi CdC 03/12/2010
EGI-InSPIRE RI WMSMonitor Sviluppo WMSMonitor Cesini, Dongiovanni (sensori e collettori) Fattibene (interfaccia web) Nel 2010 – ristrutturazione e nuova architettura basata su ActiveMQ Cesini/Dongiovanni non riescono a dedicargli il tempo necessario Attivita’ in estrema sofferenza Monitor di cluster distribuiti di WMS/LB utile sistema di gestione e allarmistica alta affidabilità del cluster raggiunta tramite aggiornamento automatico di alias DNS basato su metriche di stato CdC 03/12/2010
EGI-InSPIRE RI Attivita’ Sicurezza IGI CSIRT Definizione attività di IGI Computer Security Incident Response –Eredità dell’esperienza nella partecipazione nei gruppi info-sec di EGEE e di EGI –Basate sulle linee guida specificate da ENISA (agenzia EU info-sec) –Sinergie attivate con GARR-CERT –Molta formazione mirata su questo tipo di attività Certificazioni ad hoc (OSSTMM, ISO27002) Eventi TERENA TRANSIT Misurelli CdC 03/12/2010
EGI-InSPIRE RI EA & WG Early Adoption Partecipazione WorkingGroups: MPI/OSCT/OTAG Early Adopter: Wms Argus Cream Nagios MPI Bencivenni Misurelli Cristofori Paolini Partecipazione ai seguenti WG: OTAG OSCT MPI WG Site Certification WG OLA WG L’ effort assegnato dal progetto a mala pena copre phone conference e Attività spot – però quando serve massima priorità CdC 03/12/2010
EGI-InSPIRE RI EGI-JRA1 Activity leadership del WP7 (Cesini) Sviluppo Accounting for different resource types (Veronesi/Cristofori) Operation Portal - including Ops Dashboard (CNRS) EGI Helpdesk - GGUS (KIT) Grid Conf. DB - GOCDB (RAL) Accounting Repository (RAL) Accounting Portal (CESGA) SAM/MyEGI monitoring framework based on NAGIOS (CERN/SRCE) Metrics Portal (CESGA) Cesini Veronesi Cristofori CdC 03/12/2010
EGI-InSPIRE RI Attivita’ correnti NomeAttvita’TASK EGI PM EGI Bencivenni Marco Sviluppo e gestione portale IGITSA1.412 Supporter per nuove applicazioni e nuovi utenti - application porting incluso comput-er (DUCK) TNA3.38 Supporto di MPI su gridTSA2.54 TPM & ROD (Turni di controllo)TSA1.722 Early adopter ARGUS (da passare a Misurelli) e MPITSA1.32 TOTALE su EGI48 Partecipazione alle attività del progetto comput-er (DUCK) per portale interna Sviluppo gestione servizi nazionali e interni CNAF (Portali e VOIP). Gestione tool per EMI (wiki, forge, sito liferay...) interna MPI working groups e integrazione componenti infninterna CdC 03/12/2010
EGI-InSPIRE RI Attivita’ correnti NomeAttvita’TASK EGI PM EGI Cesini Daniele Activity leadership del WP7 (JRA1) di EGI-Inspire: sviluppo dei tool operazionali. Coordinatore OTAG (Operational Tools Advisory Group) TJRA1.124 TPM & ROD (Turni di controllo)TSA1.716 Supporto WMS in DMSUTSA2.54 TOTALE su EGI44 Responsabile sviluppo tool operazionali per infngrid interna Sviluppo WMSMonitor (sensori e collettore)interna Acquisti HW e richieste finanziamento gruppo grid al CNAFInterna Partecipazione alle attività del progetto comput-er (DUCK) interna Reperibilita’ Operationinterna Responsabile servizio operativo CdC 03/12/2010
EGI-InSPIRE RI Attivita’ correnti NomeAttvita’TASK EGI PM EGI Cristofori Andrea Supporto accounting (DGAS) per l’infrastruttura di produzione e per il T1 TSA1.512 Sviluppo Accounting for different resource types TJRA Gestione cluster WMS/LBTSA1.89 Early adopter WMS and DGASTSA1.32 Supporto II livello WMS in DMSUTSA2.54 TPM & RODTSA1.70 TOTALE su EGI40 Tester DGASinterna Responsabile gestione sala macchine zona gridInterna Gestione tool ausiliari: wiki, forge, agenda, openVAS, etcInterna CdC 03/12/2010
EGI-InSPIRE RI Attivita’ correnti NomeAttvita’TASK EGI PM EGI Fattibene Enrico Sviluppatore HLRMON: interfaccia web del sistema di accounting (rendicontato come uso) TSA1.59 Sviluppatore WMSMonitor: interfaccia web (rendicontato come uso) TSA1.415 Tester DGAS / Roll-out of DGAS accounting system with ActiveMQ TSA1.32 TPM & ROD (Turni di controllo)TSA1.722 TOTALE su EGI48 Coadiuva Bencivenni nello sviluppo portaliinterna Supporter per l’infrastruttura di produzione di DGAS Interna CdC 03/12/2010
EGI-InSPIRE RI Attivita’ correnti NomeAttvita’TASK EGI PM EGI Misurelli Giuseppe Responsabile monitoring infrastruttura italiana di produzione e del sito INFN-CNAF tramite NAGIOS e Operational Dashboard Security monitoring Rappresentate italiano in OTAG Nagios Early Adopter TSA1.421 Coinvolto nella attività di security e procedure di incident response per i siti grid ARGUS Early Adopter TSA1.23 TPM & ROD (turni di controllo)TSA1.720 Supporter per nuove comunità (es. ENMR) TNA3.3 4 TOTALE su EGI48 IGI CSIRT (con CdC 03/12/2010
EGI-InSPIRE RI Attivita’ correnti NomeAttvita’TASK EGI PM EGI Paolini Alessandro Gestione servizi core (voms,bdii,lfc..)TSA1.89 Coordinatore nazionale del personale italiano coinvolto nelle attività della DMSU (Deployed Middleware Support Unit TSA2.512 VOMS Early AdopterTSA1.32 TPM & ROD (turni di controllo)TSA1.724 TOTALE su EGI47 Responsabile del supporto utenti e sitemanager di INFNGRID Interna Supporter di secondo livello per l’infrastruttura grid nazionale Interna Certificatore dei nuovi siti in produzione e controllore dei dati di availability/reliability per i siti in produzione Interna CdC 03/12/2010
EGI-InSPIRE RI Attivita’ correnti NomeAttvita’TASK EGI PM EGI Veronesi Paolo Gestione servizi core (BDII, LFC,FTS,MYPROXY)TSA1.89 Supporto accounting (DGAS) per l’infrastruttura di produzione e per il T1 TSA1.56 Sviluppo Accounting for different resource types TJRA Operation Manager tecnico (NOC Manager)TSA1.412 Supporto FTS/BDII in DMSUTSA2.58 TOTALE su EGI48 Monitoring e gestione sala macchine zona grid del CNAF interna Coinvolto nelle attività del progetto comput-er (DUCK) in qualità di esperto tecnico per installazione/gestione siti interna Supporter per nuovi utenti, nuove applicazioni, nuovi siti interna Reperibilita’ Operation interna CdC 03/12/2010
EGI-InSPIRE RI Criticita’ WMSMonitor sta morendo vista l’impossibilità di 2 sviluppatori su 3 (Cesini, Dongiovanni) a dedicargli il tempo necessario In ottica IGI, l’attività di IGI-CSIRT sulle politiche di sicurezza e incident response andrebbe rafforzata. Gestione sala macchine: il gruppo Grid operation ha sempre gestito il parco macchine anche per il gruppo ricerca e sviluppo (non solo del CNAF) e per tutti i progetti Grid più piccoli con hw al cnaf (etics, omii, etc) – avere un aiuto dal gruppo R&D in questa attività sarebbe utile. CdC 03/12/2010
EGI-InSPIRE RI Conclusioni Il gruppo grid e’ ora composto da 7 persone tutte con contratti a tempo determinato al 100% su EGI Nel 2010 ha continuato a svolgere sia attivita’ esterne per i progetti europei che interne per l’INFN/IGI/CNAF –E’ impossibile mappare tutte le attivita’ su task EGI –Formalmente non tutto il lavoro svolto può essere rendicontato ad EGI Il 2010 ha visto il passaggio da EGEE a EGI –non ha significato uno stravolgimento delle attivita’ eccezioni: gestione cluster WMS/LB, activity leadership di egi-JRA1, testbed La gestione della Grid di produzione (servizi centrali, coordinamento, supporto) e’ continuata senza grossi problemi e con buoni risultati CdC 03/12/2010