Commissione Scientifica III stato e richieste finanziarie Perugia, 20 Settembre 2016 Calcolo ALICE: stato e richieste finanziarie Domenico Elia Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Outline ALICE Computing status: Richieste finanziarie: impiego delle risorse 2015/2016, attività calcolo Run2 presa dati 2016 e fabbisogno risorse @ T0/T1 scenario presa dati 2017 performance siti italiani, attività di R&D Richieste finanziarie: situazione CPU e storage nei Tier-2, dismissioni richieste ordinarie 2017 (Tier-1 e Tier-2) variazioni (incrementi) in discussione RRB Ottobre 2016 Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
First year Run2 data taking ALICE Computing status First year Run2 data taking pp @ 13 TeV PbPb @ 5.02 TeV Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
First year Run2 data taking ALICE Computing status First year Run2 data taking 2010-2013 – 7.3 PB (one replica) All data processed in final reconstruction pass 2015 – 7.2 PB (one replica) Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Resource usage in 2015 Overall CPU/DISK/TAPE usage: ALICE Computing status Resource usage in 2015 Overall CPU/DISK/TAPE usage: CPU @ T1, T2 over pledge (opportunistic, extra-WLCG) DISK usage below request (delay in 2015 data reconstruction) high TAPE usage (unexpected high pile-up in pp 13 TeV bs 25 ns) CERN-RRB-2016-049 Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Resource usage in 2015 ALICE Grid: ALICE Computing status new entries in 2015-2016: Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Resource usage in 2015 ALICE Grid: ALICE Computing status RAW data processing: 9% ALICE Computing status Resource usage in 2015 User analysis: 6% ALICE Grid: new entries in 2015-2016 HLT farm used for offline activities usual share of the activities: Organized analysis: 14% MC productions: 71% 61K parallel jobs on average Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
2015 data processing Present status and plans: ALICE Computing status substantial IR-induced distortions in the TPC (pp and PbPb): data reconstructed partially (low IR runs, first physics studies) sophisticated correction algorithm developed in the past months bulk reconstruction well advanced (started by beginning of July): expected to be over by end of October in time to allow finalizing physics results for QM (February 2017) Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
2016 data taking Present status and plans: ALICE Computing status pp MB ~700/900 M evts and pp HM ~160/240 M evts (75%) data volume on tape @ T0: 5.2 PB (out of 10 available for 2016) running with full compression and reduced IR since June HLT compression (x 1/3) + 25% gain (ROOT compression) Reduced IR (<100 kHz, recording rate<300 Hz) 2010-2013: 7.3 PB (one replica) 2015: 7.2 PB (one replica) 2016 (so far): 5.2 PB (one replica) 10 PB total tape budget 7.2 PB (2015) 4.4 PB (2016) Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
2016 data taking Present status and plans: ALICE Computing status expected integrated data volume at the end of pp period: ~8 PB additional ~2.5 PB for pPb (10 days each @5 and 8 TeV) total 2016 ~10-11 PB: OK for T0, missing ~2 PB @ T1’s delayed to 2017 additional replica @ T1’s recorded projected 10 PB Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
2017 (2018) running scenario ALICE Computing status increased efficiency of the LHC (60%) and ALICE (95%) updated values of luminosity, IR and running time 2017 pp: max IR ~150 kHz, recording rate (TPC r/o rate) ~550 Hz computing model parameters (processing power and event size) revised (taking into account 2015 and 2016 data) Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Performance of the Italian sites ALICE Computing status Performance of the Italian sites TO BA LNL CT CNAF ~14% INFN Problems with the LUSTRE FS in the old Bari site (BC2S) fully migrated to the new ReCaS datacenter Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Performance of the Italian sites ALICE Computing status Performance of the Italian sites Resource usage @ T2: following the usual internal coordination plan monthly meetings (performance recording) + annual workshop overall ~50% increase in total WCT from 2014 to 2015 Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Performance of the Italian sites ALICE Computing status Performance of the Italian sites Resource usage @ T2: following the usual internal coordination plan monthly meetings (performance recording) + annual workshop overall ~50% increase in total WCT from 2014 to 2015 large upgrade in 2 sites (ReCaS) now completed: CATANIA (in production since April 2015, ~1500 core, 1 PB) BARI (in production for ALICE since mid-August 2015): ~300 server, 105 kHS06 (~10000 core) - 25 kHS06 CMS pledge + 10 kHS06 ALICE pledge ~4 PB disk storage + 2.75 PB tape library - 900 TB CMS pledge + 900 TB ALICE pledge 20 Gbit/s network connection (ready for 40 Gbit/s) Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Performance of the Italian sites ALICE Computing status Performance of the Italian sites New ReCaS center in Bari New ReCaS center in Catania: Catania-VF Pledge: Catania Bari Torino PD-LNL Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Performance of the Italian sites ALICE Computing status Performance of the Italian sites Monitoring T2 data from APEL: https://faust01.to.infn.it/#/dashboard/script/pledge_mc_sum.js BA LNL T1 CT TO Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
R&D activity and s/w for Run3 ALICE Computing status R&D activity and s/w for Run3 Virtual Analysis Facility (STOA-LHC PRIN): Cloud-based VAF deployed in BA, CA, LNL, TO and TS XRootD-based Data Federation (DF) set-up and populated: local redirectors in each site + national redirector in BA system fully tested, final PRIN report completed by end of April ’16 Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
R&D activity and s/w for Run3 ALICE Computing status R&D activity and s/w for Run3 Virtual Analysis Facility (STOA-LHC PRIN) : Cloud-based VAF deployed in BA, CA, LNL, TO and TS XRootD-based Data Federation (DF) set-up and populated system fully tested, final PRIN report completed by end of April ’16 Dashboard @ BA (next slide) Experience with EOS @ TS Software development for Run3 (ITS-upgrade): vertexing and SA tracking based on cellular automaton (TO) geometry (AL) response simulation for the pixel (pAlpide) chip (TS, BS-PV) cluster shape definition (TO) Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
R&D activity on the Dashboard ALICE Computing status R&D activity on the Dashboard The project: a Dashboard concentrate in a single graphical interface all the information concerning the ALICE activity in each site (MonALISA, local Batch system, local Monitoring system metrics). Currently running in the BA Tier-2 site (since ~2 years) Recently exported to TO Next steps: export in all ALICE Tier-2 and others WLCG sites global dashboard for the Italian computing in ALICE Abstract to CHEP’16 Project with GARR: “Sistema di monitoraggio per datacenter distribuiti geograficamente basati su OpenStack” Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Sito web calcolo ALICE Italia https://web2.infn.it/ALICE-Italia-computing/index.php/it/ Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Sito web calcolo ALICE Italia https://web2.infn.it/ALICE-Italia-computing/index.php/it/ Contatti Documenti Eventi Attività Link Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
e richieste finanziarie Situazione risorse e richieste finanziarie Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Situazione CPU/storage Tier-2 Richieste finanziarie Situazione CPU/storage Tier-2 Finanziamento 2016 da CSN3: richieste: 435 k€ (387 crescita e rimpiazzi + 48 overhead) assegnazioni: 332 k€ (308 crescita e rimpiazzi + 24 overhead) rinvio dismissioni storage CT/CA, per metà dismissioni PD-LNL e TO assegnata al 50% la richiesta overhead pledge 2016 garantite in accordo all’esito CRSG/RRB Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Situazione CPU/storage Tier-2 Richieste finanziarie Situazione CPU/storage Tier-2 Finanziamento 2016 da CSN3: richieste: 435 k€ (387 crescita e rimpiazzi + 48 overhead) assegnazioni: 332 k€ (308 crescita e rimpiazzi + 24 overhead) Schema suddivisione tra i siti: CPU: ~14400 HS06 BA: 10200 HS06 (1950 crescita + 1568 rimpiazzi = 3518 HS06) LNL: 10200 HS06 (2500 crescita + 5496 rimpiazzi = 7996 HS06) TO: 10300 HS06 (1300 crescita + 1584 rimpiazzi = 2884 HS06) DISK: ~620 TB BA: 1184 TB (260 crescita = 260 TB) LNL: 1202 TB (50 crescita + 130 rimpiazzi = 180 TB) TO: 1223 TB (100 crescita + 80 rimpiazzi = 180 TB) Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Situazione CPU/storage Tier-2 Richieste finanziarie Situazione CPU/storage Tier-2 Finanziamento 2016 da CSN3: richieste: 435 k€ (387 crescita e rimpiazzi + 48 overhead) assegnazioni: 332 k€ (308 crescita e rimpiazzi + 24 overhead) Situazione acquisti 2016: completati: BA: 3840 HS06 (BA) + 180 TB (espansione per LNL) LNL: 8600 HS06 (LNL) + licenza per espansione storage acquisti apparati di rete su overhead (tutti i siti) da finalizzare: BA: 260 TB (gara comune con CMS, totale ~200 k€, in corso) TO: 2880 HS06 + 180 TB (sinergie altre sigle e C3S, in corso) Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Situazione CPU/storage Tier-2 Richieste finanziarie Situazione CPU/storage Tier-2 Situazione aggiornata con risorse 2016: CPU: 45333 HS06 in eccesso al pledge: 1488 HS06 DISK: 4876 TB in eccesso al pledge: 47 TB Disponibili a fine 2016 (fatte dismissioni + completati acquisti 2016*) Bari Catania Padova-LNL Torino Cagliari Totale HS06 10512 13147 11385 10289 45333 TB 1244 1204 1202 1226 4876 * Ipotesi di buon esito acquisti residui a BA e TO Pledge 2016: 43845 HS06 + 4829 TB Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Dismissioni 2016-17 Richieste finanziarie 2016 1568 5496 1584 1120 Anno di dismissione Bari Catania LNL-Padova Torino Cagliari Totale HS06 2016 1568 5496 1584 1120 9768 TB 130 260 157 20 567 2017 3840 114 117 231 Rinvio dismissioni storage dalla seconda metà del 2016 al 2017: 130 TB (CT) + 130 TB (LNL) + 80 TB (TO) + 20 TB (CA) = 360 TB Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Dismissioni 2016-18 Richieste finanziarie 2016 1568 5496 1584 1120 Anno di dismissione Bari Catania LNL-Padova Torino Cagliari Totale HS06 2016 1568 5496 1584 1120 9768 TB 130 77 207 2017 3840 244 197 20 591 2018 6672 13147 2149 21968 205 Rinvio dismissioni storage dalla seconda metà del 2016 al 2017: 130 TB (CT) + 130 TB (LNL) + 80 TB (TO) + 20 TB (CA) = 360 TB Dismissioni ReCaS (BA e CT) previste nel 2018 = 20000 HS06 Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Dismissioni 2016-18 Situazione complessiva Tier-2 a inizio 2017: Richieste finanziarie Dismissioni 2016-18 Anno di dismissione Bari Catania LNL-Padova Torino Cagliari Totale HS06 2016 1568 5496 1584 1120 9768 TB 130 77 207 2017 3840 244 197 20 591 2018 6672 13147 2149 21968 205 Situazione complessiva Tier-2 a inizio 2017: CPU: 45333 – 3840 = 41493 HS06 DISK: 4876 – 591 = 4285 TB Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
RRB Aprile 2016 Richieste finanziarie +7% (4%) CPU al Tier-1 (0) increased processing time for high pile-up pp events (x2) + TPC calibration issues +30% (22%) TAPE al Tier-1 (0) increased raw data volume for pp events (x3.5) as observed in 2015 sample Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
RRB Aprile 2016 Share INFN per 2017: Richieste finanziarie RRB October 2015 RRB April 2015 Share INFN per 2017: CPU, DISK per Tier-1 e Tier-2: 19% (18.5% per 2016) TAPE per Tier-1: 35% (35.2% per 2016, 41.1% per 2015) Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
RRB Aprile 2016 Incrementi 2016 2017 (RRB Aprile ’16): Richieste finanziarie RRB Aprile 2016 RRB October 2015 Incrementi 2016 2017 (RRB Aprile ’16): CPU: 18.6% (T0) 40.8% (T1) 16.0% (T2) DISK: 27.4% 19.0% 19.9% TAPE: 59.2% 82.0% Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Richieste 2017 (RRB Aprile) Richieste finanziarie Richieste 2017 (RRB Aprile) CPU Tier-1 (HS06) DISK Tier-1 (TB) TAPE Tier-1 CPU Tier-2 DISK Tier-2 Pledged T1 Disp. – dismiss. T2 29045 3885 5491 41493 4285 Scrutinati ALICE 2017 41990 4750 9940 52250 5947 Delta 12945 865 4449 10757 1662 Stima costo (k€) 129.5 173.0 111.2 107.6 332.4 Totale (k€) 413.7 440.0 Overhead T2 (k€) 53.9 Stima costi*: 10 € / HS06 e 200 € / TB *Per 2016 T2 (T1): 12 (14) €/HS06 e 220 (240) €/TB Dismissioni Tier-1: non incluse (solo DISK per ALICE, ~90 k€) Overhead Tier-2: 6% CPU + 5% DISCO (rete) + 7% totale (server aggiuntivi) Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Dismissioni + crescita Richieste finanziarie Richieste 2017 (RRB Aprile) Priorità da garantire: crescita netta dismissioni 2016 quota minima overhead T2 (RRB Aprile) Dismissioni*: 156.6 k€ Crescita netta: 283.4 Overhead: 53.9 Totale: 493.9 k€ *Dismissioni 2017: 114 TB (CT) 22.8 k€ 117 TB (TO) 23.4 3840 HS06 (TO) 38.4 Dismissioni HS06 / TB k€ Bari 0,0 Catania 244 48,8 LNL-Padova 130 26,0 Torino 3840 38,4 197 39,4 77,8 Cagliari 20 4,0 Dismissioni totale 591 118,2 156,6 Crescita netta 6917 69,2 1071 214,2 283,4 Dismissioni + crescita 10757 107,6 1662 332,4 440,0 Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
RRB Ottobre 2016 In discussione: Come si sta procedendo: Richieste finanziarie RRB Ottobre 2016 In discussione: incremento delle richieste calcolo 2017 (e 2018) per LHC anticipato: ~ +20-30% rispetto a RRB Aprile 2016 causa: performance attesa della macchina (e degli esperimenti) Come si sta procedendo: rimandato inserimento pledge in REBUS (dopo RRB Ottobre) scambi tra esperimenti e CRSG da fine Agosto INFN: riunione 9/9 a Bologna con collegio referale calcolo LHC ipotesi: tasca aggiuntiva per coprire (parte del) delta ? Quanto vale per noi: NEXT SLIDES Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
RRB Ottobre 2016 Incrementi 2017 (Aprile ‘16) 2017 (Ottobre ’16): Richieste finanziarie RRB Ottobre 2016 Incrementi 2017 (Aprile ‘16) 2017 (Ottobre ’16): CPU: 36.8% (T0) 20.4% (T1) 38.2% (T2) DISK: 16.8% 9.6% -9.3% TAPE: 16.9% 20.4% Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Richieste 2017 (RRB Ottobre) Richieste finanziarie Richieste 2017 (RRB Ottobre) CPU Tier-1 (HS06) DISK Tier-1 (TB) TAPE Tier-1 CPU Tier-2 DISK Tier-2 Pledged T1 Disp. – dismiss. T2 29045 3885 5491 41493 4285 Scrutinati ALICE 2017 50540 5206 11970 72200 5396 Delta 21495 1321 6479 30707 1111 Stima costo (k€) 215.0 264.2 162.0 307.1 222.2 Totale (k€) 641.1 529.3 Overhead T2 (k€) 66.6 Stima costi*: 10 € / HS06 e 200 € / TB *Per 2016 T2 (T1): 12 (14) €/HS06 e 220 (240) €/TB Dismissioni Tier-1: non incluse (solo DISK per ALICE, ~90 k€) Overhead Tier-2: 6% CPU + 5% DISCO (rete) + 7% totale (server aggiuntivi) Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Commenti finali e sommario Stato del calcolo ALICE: molto bene l’impiego delle risorse nel 2015/2016 necessità di rivedere le stime risorse calcolo per Run2 siti italiani attivi (anche su R&D) ed efficienti Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Commenti finali e sommario Stato del calcolo ALICE: molto bene l’impiego delle risorse nel 2015/2016 necessità di rivedere le stime risorse calcolo per Run2 siti italiani attivi (anche su R&D) ed efficienti Sommario richieste finanziarie: richieste ordinarie 2017: crescita CPU/DISK/TAPE Tier-1 414 k€ rimpiazzi e crescita CPU/DISK Tier-2 440 k€ overhead Tier-2 54 k€ missioni attività calcolo 22 k€ incrementi 2017 in discussione RRB Ottobre: delta su crescita CPU/DISK/TAPE Tier-1 227 k€ delta su rimpiazzi, crescita e overhead Tier-2 102 k€ Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Backup Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Resource usage in 2015 CPU resource evolution: ALICE Computing status steady grouth of the number of active jobs system scaled from 500 to 100,000 concurrently running jobs scheduled analysis now prevaling on chaotic analysis organized analysis +60% in 2015 wrt 2014 better efficiency Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Run2 overview ALICE Computing status Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
RRB Aprile 2016 Incrementi 2016 2017 (RRB Ottobre ’15): Richieste finanziarie RRB Aprile 2016 RRB October 2015 Incrementi 2016 2017 (RRB Ottobre ’15): CPU: 13.9% (T0) 31.8% (T1) 12.6% (T2) DISK: 14.3% 15.2% 17.6% TAPE: 19.0% 26.3% Domenico Elia Riunione CSN3 / Perugia, 20.9.2016
Richieste finali “Missioni” Richieste finanziarie Richieste finali “Missioni” Dettaglio delle esigenze specifiche per il calcolo: corrisponde a quanto non previsto dal “bonus” per ruoli di responsabilità per BA e TO. Domenico Elia Riunione CSN3 / Perugia, 20.9.2016