Infrastruttura GRID di produzione e i T2 Cristina Vistoli Cnaf
Infrastruttura Grid di Produzione Comprende 39 ‘resource centers’: tutti i siti sono accessibili attraverso i servizi (Resource Broker) di Grid 25 siti fanno parte della infrastruttura EGEE/LCG registrati nel GOCDB 14 siti aggiuntivi sono accedibili solo dai servizi italiani
844 Production Infrastructure: Resources 438
INFNGRID deployment status: resources
INFNGRID deployment status: services
INFNGRID deployment status: services
INFNGRID deployment status: services
INFNGRID features It is essentially LCG with some additional features: Features/customizations already present in the previous releases: new Network Monitor profile improved support for LSF and MPI support for additional VOs (managed via LDAP VO server): babar, zeus support for the additional VOs (managed via VOMS server): infngrid, cdf, gridit, compchem, planck, bio, enea, theophys, ingv, inaf, virgo, argo support for MPI jobs via home syncronisation with scp with hostbased authentication DGAS (DataGrid Accounting System) new customizations: support for ARGO VO
I T2 e la Grid di produzione –I Tier2 sono in sedi che gia’ sono parte della infrastruttura GRID di produzione –Obiettivo principale della organizzazione a supporto della infrastruttura GRID Fornire release di middleware stabile, certificata, documentata e con procedure automatiche di installazione adatte alle complessita’ delle farm Controllo delle installazioni, delle configurazioni dell’efficenza dei servizi Grid Collaborare con i site manager Fornire supporto agli utenti Garantire supporto agli esperimenti e promuovere l’integrazione dei servizi specifici di esperimeno nei servizi comuni
I T2 e la Grid di produzione –I siti T2 sono già parte della infrastruttura ma l’organizzazione per il supporto deve adattarsi alla scala di dimensioni previste –Devono essere approfondite le compentenze locali attraverso il coinvolgimento nei progetti –Continuo aggiornamento sulle evoluzioni del middleware di Grid e sui servizi di esperimento –Le responsabilità operative sono distribuite –Ma….. si deve garantire qualità e affidabilità complessiva dell’infrastruttura adeguata alle esigenze di un utilizzo in produzione per gli esperimenti
EGEE/LCG EGEE SA1 garantisce l’operatività dell’infrastruttura di grid per LCG La nostra partecipazione in EGEE/SA1 consiste in: –Gestione dei servizi generali di Grid (broker risorse, gestione dei cataloghi di File, monitoring e accounting dell’utilizzo, VOMS…) –Sviluppo o adattamento di strumenti di controllo –Produzione della release di middleware e relativa documentazione –Controllo e certificazione delle configurazini e della funzionalità dei siti –Supporto agli utenti –Supporto agli esperimenti per l’integrazione in Grid
I T2 in Grid I T2 e in generale i siti della grid di produzione devono: fornire supporto sistemistico per le installazioni e configurazioni del middleware nelle vaie sedi Rispondere prontamente ai problemi operativi Fornire supporto agli utenti e agli esperimenti Partecipare ai turni di controllo dei servizi Grid della infrastruttura nel suo complesso Contribuire con almeno un FTE in SA1 per: – garantire distribuzione delle competenze e aggiornamento – maggiore affidabilita e qualita’ del supporto
Support First level support: Italian ROC shifts –The Italian ROC provides geographically based local front line support to Virtual Organization, Users and Resources Centres –Provided through daily shifts –Check list to be covered during the shift –Periodic (every 15 days) phone conference ROC/CIC teams and site managers –ROC report to GDA Shitf example, weekly based: Second level support: CIC on Duty –Weekly shift –CIC tools
Release and documentation Release and documentation : –Documentation: site installation guide, release notes…. –Software repository –Site management guide –FRY is a tool developed by the Release and Documentation group of SA1 Italian ROC to perform quickly a set of basic test on all the grid elements (CE, SE, RB, WN,...). The idea is to increase the speed and reliability of the release certification phase, performing a "standard" set of tests to verify automatically configuration/setup troubles (daemons, permission and ownership of some directories,...). –DGAS checklist [new] DGAS developers produced this document to check if DGAS configuration is ok: –UiPNP –Installation of LCG 2.6 on IA64
Release and documentation
Central Management Team Site Certification The CMT is responsible of the certification: checking the functionalities of a site before to join the site to the production grid. In particular checks: –GIIS' information consistence – Local jobs submission (LRMS) –Grid submission with Globus (globus-job-run) –Grid submission with the ResorceBroker –ReplicaManager functionalities In order to certificate a site the CMT uses dedicated grid services – RB: gridit-cert-rb.cnaf.infn.it BDII: gridit-cert-rb.cnaf.infn.it In this way we avoid to have an uncertificate site in the production grid. The same grid services should be used for test activities. The procedure is described in the following document: CMT's site certification procedure [PDF]CMT's site certification procedure
VO supportate
Job status 10/oct/
Job report dal 3 al 16 ottobre 2005 SiteJob INFN-T181032,00 INFN-PADOVA6954,00 INFN-FIRENZE3545,00 INFN-LNL-22672,00 INFN-ROMA12472,00 INFN-CNAF2132,00 INFN-NAPOLI2080,00 INFN-BOLOGNA1687,00 INFN-MILANO1515,00 INFN-FERRARA1263,00 INFN-PISA21183,00 INFN-TORINO1053,00 INFN-CAGLIARI1049,00 INFN-ROMA1-VIRGO866,00 INFN-ROMA2799,00 SNS-PISA648,00 INFN-PISA604,00 INFN-FRASCATI487,00 INFN-PERUGIA447,00 SPACI-NAPOLI-IA64442,00 INFN-TRIESTE442,00 INFN-BOLOGNA-CMS381,00 INFN-Roma1-CMS202,00 CNR-ILC-PISA103,00 SPACI-LECCE-IA6479,00 INFN-ROMA372,00 INAF-Trieste53,00 INFN-LECCE49,00 INFN-GENOVA47,00
Job report dal 3 al 16 ottobre 2005 SiteJob INFN-PADOVA6954,00 INFN-FIRENZE3545,00 INFN-LNL-22672,00 INFN-ROMA12472,00 INFN-CNAF2132,00 INFN-NAPOLI2080,00 INFN-BOLOGNA1687,00 INFN-MILANO1515,00 INFN-FERRARA1263,00 INFN-PISA21183,00 INFN-TORINO1053,00 INFN-CAGLIARI1049,00 INFN-ROMA1-VIRGO866,00 INFN-ROMA2799,00 SNS-PISA648,00 INFN-PISA604,00 INFN-FRASCATI487,00 INFN-PERUGIA447,00 SPACI-NAPOLI-IA64442,00 INFN-TRIESTE442,00 INFN-BOLOGNA-CMS381,00 INFN-Roma1-CMS202,00 CNR-ILC-PISA103,00 SPACI-LECCE-IA6479,00 INFN-ROMA372,00 INAF-Trieste53,00 INFN-LECCE49,00 INFN-GENOVA47,00 N.B senza T1 per vedere meglio le percentuali
Job report 26/9 -10/10
Support system Problems Communication : -ROC on Duty and site managers -Site managers to Central management team and viceversa -Site certification during installation/upgrade -GGUS to ROC
tickets statistics –starting date: August 2005 –272 total –64 from GGUS (COD and user)