Domenico Elia1CdG Tier1-Tier2 / CNAF ALICE Tier2 sites Domenico Elia CdG Tier1-Tier2 Bologna, 15 Aprile 2015 Infrastruttura e risorse, coordinamento Prestazioni, availability, impiego CPU Batch system in uso (siti) Esperienza con HTCondor (Bari)
Domenico Elia2CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Siti WLCG ALICE INFN: Tier2: Bari, Catania, Padova-LNL, Torino Siti minori:Cagliari (parte del pledge), Trieste
Domenico Elia3CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Siti WLCG ALICE INFN: Tier2: Bari, Catania, Padova-LNL, Torino Siti minori:Cagliari (parte del pledge), Trieste BariCatania Padova- LNL TorinoCagliariTotal HS TB Expected in the second half of 2016: BariCatania Padova- LNL TorinoCagliariTotal HS TB Pledge 2015
Domenico Elia4CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Siti WLCG ALICE INFN: Tier2: Bari, Catania, Padova-LNL, Torino Siti minori:Cagliari (parte del pledge), Trieste Coordinamento siti: Responsabile: Stefano Piano (TS) riunioni mensili + workshop annuale a dicembre spreadsheet condiviso (walltime/cputime jobs, uptime SE)
Domenico Elia5CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Siti WLCG ALICE INFN: Tier2: Bari, Catania, Padova-LNL, Torino Siti minori:Cagliari (parte del pledge), Trieste Coordinamento siti: Responsabile: Stefano Piano (TS) riunioni mensili + workshop annuale a dicembre spreadsheet condiviso (walltime/cputime jobs, uptime SE) Stato e prospettiva siti: nuove infrastrutture ReCaS a BA e CT pienamente operative nessun problema sensibile altrove prospettiva espansione TO (C 3 S) progetto regionale a TS
Domenico Elia6CdG Tier1-Tier2 / CNAF Performance SE availability:
Domenico Elia7CdG Tier1-Tier2 / CNAF Performance Job efficiency:
Domenico Elia8CdG Tier1-Tier2 / CNAF Performance Monitoring FAUST (APEL): Problemi con export dati
Domenico Elia9CdG Tier1-Tier2 / CNAF Performance Monitoring FAUST (APEL):
Domenico Elia10CdG Tier1-Tier2 / CNAF Batch system in uso Bari: HTCondor commenti dal sito, slides (G. Donvito, A. Italiano) PBS/Torque in passato (infrastruttura BC2S) Catania: LSF Padova-LNL: LSF dettagli nella slide successiva (M. Sgaravatto) Torino: PBS/Torque HTCondor per le farm on-demand Cagliari: LSF HTCondor su piccoli cluster locali non Grid Trieste: LSF
Domenico Elia11CdG Tier1-Tier2 / CNAF Batch system in uso: PD-LNL M. Sgaravatto
Domenico Elia12CdG Tier1-Tier2 / CNAF Backup
Domenico Elia13CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Bari: sito multi-VO’s, multi-disciplinare, nuova infrastruttura ReCaS ❖ Il progetto ReCaS: potenziamento dei Data Center delle sedi di Bari, Catania, Cosenza e Napoli ❖ Costo Complessivo del Progetto: 13.7 MEuro (6.9 INFN, 2.1 UNINA, 4.7 UNIBA) ❖ Realizzato utilizzando in maniera integrata i finanziamenti ottenuti dall’Università di Bari e dall’INFN ❖ Inaugurato a luglio del 2015
Domenico Elia14CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Bari: sito multi-VO’s, multi-disciplinare, nuova infrastruttura ReCaS ❖ Il DataCenter ReCaS è ospitato in un edificio di due piani, appositamente realizzato, con una superficie di 430 metri quadri per piano, la dotazione a regime sarà di 4 isole di 20 rack. ❖ La LAN a matrice piatta 10 Gbts punto-punto, dotata di 2 switch Huawey (attivo-passivo) equipaggiate con 480 porte e 400 ottiche. Con capacità di scalare fino a 576 connessioni ciascuno ❖ Impianto di condizionamento a Corridoio Freddo, il DataCenter è dotato di 6 CRAC (Computer Room Air Conditioner) disposti lungo le pareti del DataCenter, ognuno in grado di smaltire fino a 135 kW di calore sviluppato dalle apparecchiature informatiche (800 kW in totale). ❖ Tutte le macchine sono dotate di due alimentatori ridondanti, è sono sotto UPS sistema Trinergy della Emerson, (800 kW per 7 minuti). Il gruppo elettrogeno è un Green Power GP 1650 super silenziato da 1500 kVA. ❖ Completano l’infrastruttura : l’impianto di rilevazione fumi, e quello di spegnimento incendi, e il sistema di supervisione e video sorveglianza.
Domenico Elia15CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Bari: sito multi-VO’s, multi-disciplinare, nuova infrastruttura ReCaS risorse: ❖ 128 server (CPU 64 bit AMD) (36 INFN - 92 UNIBA) ❖ 8192 core (2304 INFN UNIBA) ❖ 3552 TB di spazio disco DELL (1152 INFN UNIBA) ❖ IBM System Storage TS3500 Tape Library in grado di archiviare su nastro 2500 TB di dati (UNIBA) ❖ Un cluster HPC composto da 20 server, per complessivi 800 core Intel, con connessione Infiniband e 20 schede NVIDIA K40 (UNIBA)
Domenico Elia16CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Catania: multi-VO’s, multi-disciplinare, nuova infrastruttura ReCaS
Domenico Elia17CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Catania: multi-VO’s, multi-disciplinare, nuova infrastruttura ReCaS risorse: ALICE::CATANIA::SE –storage status ~1.2PB – ~175TB available ~950TB used –GPFS v –4 xrootd server (1 redirector) xrootd v4.0.4 –network bandwidth 8Gbps ( 4 x 2Gbps )
Domenico Elia18CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Catania: multi-VO’s, multi-disciplinare, nuova infrastruttura ReCaS virtualizzazione: ALICE INFN-CATANIA T2 Virtualization –Citrix XenServer pool running VMs for central services –CE (LSF Batch Server) –VOBOX, site BDII, UI, ARGUS, APELDB e SQUID per CVMFS –VMs per WNs 7 VMs for each hypervisor –9 core, 36GB RAM 100GB disk »168 VMs providing 1512 virtual cores –OpenStack in HA + Zen LB Controller Node, RabbitMQ, MariaDB (Galera Cluster), Keystone NetworkNode configured using DVR –testing the infrastructure using latest OS release Mitaka
Domenico Elia19CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Padova-LNL: multi-VO’s T2 su due siti: INFN LNL e INFN PD condivisione risorse, infrastruttura, manpower T2 per ALICE e CMS (uso opportunistivo per altre VO’s)
Domenico Elia20CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Padova-LNL: risorse computing and storage
Domenico Elia21CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Padova-LNL: altri servizi
Domenico Elia22CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Torino: multi-VO’s, multi-disciplinare risorse: Nodi di calcolo: 143 WN virtuali con 8vcpu e 20GB 1144 jobslot 22 Wn fisici per un totale di 240 jobslot Storage xrootd: attualmente 830 TB usati al 62% durante il 2016 verranno aggiunti circa 400TB Infrastruttura cloud (OpenNebula): 84 Host di cui 4 dedicati ai servizi sui quali girano 280 macchine virtuali (di cui 143 sono i nodi di calcolo citati sopra)
Domenico Elia23CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Torino: multi-VO’s, multi-disciplinare upgrade in prospettiva: Centro di Competenza sul Calcolo Scientifico C 3 S Il cluster verrà installato presso il CdC INFN Torino: 32 nodi classici biproc 128GB 4 nodi heavy memory Interconnessione InfiniBand ~850TB disco (10% alte prestazioni) Gara conclusa, arrivo delle macchine in ~2 mesi Accordi burocratici con uniTO in via di definizione
Domenico Elia24CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Cagliari: infrastruttura OpenStack ospita WN Grid, condivisa con attività di gruppo I e IV nessun problema nella gestione dei servizi qualche instabilità dovuta all’impiego di LUSTRE questi gli hypervisor: # server CPUCoreClockRAMHDNetwork 42xE GHz64GB1TB10Gb 42xE GB500GB1Gb
Domenico Elia25CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Trieste:
Domenico Elia26CdG Tier1-Tier2 / CNAF Infrastruttura e risorse Trieste: dotato di infrastruttura cloud OpenStack sito multi-VO’s nel 2015 transizione da GPFS a XRootD nativo in corso test con EOS 2 master + 2 server da 80 TB raw kerberos user authentication finanziamenti e sostenibilità: in cerca di opportunità (PRIN, EU call) progetto regionale FVG