Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoRomeo Capelli Modificato 6 anni fa
1
Commissione Scientifica III stato e richieste finanziarie
Perugia, 20 Settembre 2016 Calcolo ALICE: stato e richieste finanziarie Domenico Elia Domenico Elia Riunione CSN3 / Perugia,
2
Outline ALICE Computing status: Richieste finanziarie:
impiego delle risorse 2015/2016, attività calcolo Run2 presa dati 2016 e fabbisogno T0/T1 scenario presa dati 2017 performance siti italiani, attività di R&D Richieste finanziarie: situazione CPU e storage nei Tier-2, dismissioni richieste ordinarie 2017 (Tier-1 e Tier-2) variazioni (incrementi) in discussione RRB Ottobre 2016 Domenico Elia Riunione CSN3 / Perugia,
3
First year Run2 data taking
ALICE Computing status First year Run2 data taking 13 TeV TeV Domenico Elia Riunione CSN3 / Perugia,
4
First year Run2 data taking
ALICE Computing status First year Run2 data taking – 7.3 PB (one replica) All data processed in final reconstruction pass 2015 – 7.2 PB (one replica) Domenico Elia Riunione CSN3 / Perugia,
5
Resource usage in 2015 Overall CPU/DISK/TAPE usage:
ALICE Computing status Resource usage in 2015 Overall CPU/DISK/TAPE usage: T1, T2 over pledge (opportunistic, extra-WLCG) DISK usage below request (delay in 2015 data reconstruction) high TAPE usage (unexpected high pile-up in pp 13 TeV bs 25 ns) CERN-RRB Domenico Elia Riunione CSN3 / Perugia,
6
Resource usage in 2015 ALICE Grid: ALICE Computing status
new entries in : Domenico Elia Riunione CSN3 / Perugia,
7
Resource usage in 2015 ALICE Grid: ALICE Computing status
RAW data processing: 9% ALICE Computing status Resource usage in 2015 User analysis: 6% ALICE Grid: new entries in HLT farm used for offline activities usual share of the activities: Organized analysis: 14% MC productions: 71% 61K parallel jobs on average Domenico Elia Riunione CSN3 / Perugia,
8
2015 data processing Present status and plans: ALICE Computing status
substantial IR-induced distortions in the TPC (pp and PbPb): data reconstructed partially (low IR runs, first physics studies) sophisticated correction algorithm developed in the past months bulk reconstruction well advanced (started by beginning of July): expected to be over by end of October in time to allow finalizing physics results for QM (February 2017) Domenico Elia Riunione CSN3 / Perugia,
9
2016 data taking Present status and plans: ALICE Computing status
pp MB ~700/900 M evts and pp HM ~160/240 M evts (75%) data volume on T0: 5.2 PB (out of 10 available for 2016) running with full compression and reduced IR since June HLT compression (x 1/3) + 25% gain (ROOT compression) Reduced IR (<100 kHz, recording rate<300 Hz) : 7.3 PB (one replica) 2015: 7.2 PB (one replica) 2016 (so far): 5.2 PB (one replica) 10 PB total tape budget 7.2 PB (2015) 4.4 PB (2016) Domenico Elia Riunione CSN3 / Perugia,
10
2016 data taking Present status and plans: ALICE Computing status
expected integrated data volume at the end of pp period: ~8 PB additional ~2.5 PB for pPb (10 days and 8 TeV) total 2016 ~10-11 PB: OK for T0, missing ~2 T1’s delayed to 2017 additional T1’s recorded projected 10 PB Domenico Elia Riunione CSN3 / Perugia,
11
2017 (2018) running scenario ALICE Computing status
increased efficiency of the LHC (60%) and ALICE (95%) updated values of luminosity, IR and running time 2017 pp: max IR ~150 kHz, recording rate (TPC r/o rate) ~550 Hz computing model parameters (processing power and event size) revised (taking into account 2015 and 2016 data) Domenico Elia Riunione CSN3 / Perugia,
12
Performance of the Italian sites
ALICE Computing status Performance of the Italian sites TO BA LNL CT CNAF ~14% INFN Problems with the LUSTRE FS in the old Bari site (BC2S) fully migrated to the new ReCaS datacenter Domenico Elia Riunione CSN3 / Perugia,
13
Performance of the Italian sites
ALICE Computing status Performance of the Italian sites Resource T2: following the usual internal coordination plan monthly meetings (performance recording) + annual workshop overall ~50% increase in total WCT from 2014 to 2015 Domenico Elia Riunione CSN3 / Perugia,
14
Performance of the Italian sites
ALICE Computing status Performance of the Italian sites Resource T2: following the usual internal coordination plan monthly meetings (performance recording) + annual workshop overall ~50% increase in total WCT from 2014 to 2015 large upgrade in 2 sites (ReCaS) now completed: CATANIA (in production since April 2015, ~1500 core, 1 PB) BARI (in production for ALICE since mid-August 2015): ~300 server, 105 kHS06 (~10000 core) - 25 kHS06 CMS pledge + 10 kHS06 ALICE pledge ~4 PB disk storage PB tape library - 900 TB CMS pledge TB ALICE pledge 20 Gbit/s network connection (ready for 40 Gbit/s) Domenico Elia Riunione CSN3 / Perugia,
15
Performance of the Italian sites
ALICE Computing status Performance of the Italian sites New ReCaS center in Bari New ReCaS center in Catania: Catania-VF Pledge: Catania Bari Torino PD-LNL Domenico Elia Riunione CSN3 / Perugia,
16
Performance of the Italian sites
ALICE Computing status Performance of the Italian sites Monitoring T2 data from APEL: BA LNL T1 CT TO Domenico Elia Riunione CSN3 / Perugia,
17
R&D activity and s/w for Run3
ALICE Computing status R&D activity and s/w for Run3 Virtual Analysis Facility (STOA-LHC PRIN): Cloud-based VAF deployed in BA, CA, LNL, TO and TS XRootD-based Data Federation (DF) set-up and populated: local redirectors in each site + national redirector in BA system fully tested, final PRIN report completed by end of April ’16 Domenico Elia Riunione CSN3 / Perugia,
18
R&D activity and s/w for Run3
ALICE Computing status R&D activity and s/w for Run3 Virtual Analysis Facility (STOA-LHC PRIN) : Cloud-based VAF deployed in BA, CA, LNL, TO and TS XRootD-based Data Federation (DF) set-up and populated system fully tested, final PRIN report completed by end of April ’16 BA (next slide) Experience with TS Software development for Run3 (ITS-upgrade): vertexing and SA tracking based on cellular automaton (TO) geometry (AL) response simulation for the pixel (pAlpide) chip (TS, BS-PV) cluster shape definition (TO) Domenico Elia Riunione CSN3 / Perugia,
19
R&D activity on the Dashboard
ALICE Computing status R&D activity on the Dashboard The project: a Dashboard concentrate in a single graphical interface all the information concerning the ALICE activity in each site (MonALISA, local Batch system, local Monitoring system metrics). Currently running in the BA Tier-2 site (since ~2 years) Recently exported to TO Next steps: export in all ALICE Tier-2 and others WLCG sites global dashboard for the Italian computing in ALICE Abstract to CHEP’16 Project with GARR: “Sistema di monitoraggio per datacenter distribuiti geograficamente basati su OpenStack” Domenico Elia Riunione CSN3 / Perugia,
20
Sito web calcolo ALICE Italia
Domenico Elia Riunione CSN3 / Perugia,
21
Sito web calcolo ALICE Italia
Contatti Documenti Eventi Attività Link Domenico Elia Riunione CSN3 / Perugia,
22
e richieste finanziarie
Situazione risorse e richieste finanziarie Domenico Elia Riunione CSN3 / Perugia,
23
Situazione CPU/storage Tier-2
Richieste finanziarie Situazione CPU/storage Tier-2 Finanziamento 2016 da CSN3: richieste: 435 k€ (387 crescita e rimpiazzi + 48 overhead) assegnazioni: 332 k€ (308 crescita e rimpiazzi + 24 overhead) rinvio dismissioni storage CT/CA, per metà dismissioni PD-LNL e TO assegnata al 50% la richiesta overhead pledge 2016 garantite in accordo all’esito CRSG/RRB Domenico Elia Riunione CSN3 / Perugia,
24
Situazione CPU/storage Tier-2
Richieste finanziarie Situazione CPU/storage Tier-2 Finanziamento 2016 da CSN3: richieste: 435 k€ (387 crescita e rimpiazzi + 48 overhead) assegnazioni: 332 k€ (308 crescita e rimpiazzi + 24 overhead) Schema suddivisione tra i siti: CPU: ~14400 HS06 BA: HS06 (1950 crescita rimpiazzi = 3518 HS06) LNL: HS06 (2500 crescita rimpiazzi = 7996 HS06) TO: HS06 (1300 crescita rimpiazzi = 2884 HS06) DISK: ~620 TB BA: 1184 TB (260 crescita = 260 TB) LNL: 1202 TB (50 crescita rimpiazzi = 180 TB) TO: 1223 TB (100 crescita + 80 rimpiazzi = 180 TB) Domenico Elia Riunione CSN3 / Perugia,
25
Situazione CPU/storage Tier-2
Richieste finanziarie Situazione CPU/storage Tier-2 Finanziamento 2016 da CSN3: richieste: 435 k€ (387 crescita e rimpiazzi + 48 overhead) assegnazioni: 332 k€ (308 crescita e rimpiazzi + 24 overhead) Situazione acquisti 2016: completati: BA: HS06 (BA) TB (espansione per LNL) LNL: 8600 HS06 (LNL) + licenza per espansione storage acquisti apparati di rete su overhead (tutti i siti) da finalizzare: BA: 260 TB (gara comune con CMS, totale ~200 k€, in corso) TO: 2880 HS TB (sinergie altre sigle e C3S, in corso) Domenico Elia Riunione CSN3 / Perugia,
26
Situazione CPU/storage Tier-2
Richieste finanziarie Situazione CPU/storage Tier-2 Situazione aggiornata con risorse 2016: CPU: HS06 in eccesso al pledge: 1488 HS06 DISK: TB in eccesso al pledge: 47 TB Disponibili a fine 2016 (fatte dismissioni + completati acquisti 2016*) Bari Catania Padova-LNL Torino Cagliari Totale HS06 10512 13147 11385 10289 45333 TB 1244 1204 1202 1226 4876 * Ipotesi di buon esito acquisti residui a BA e TO Pledge 2016: 43845 HS TB Domenico Elia Riunione CSN3 / Perugia,
27
Dismissioni 2016-17 Richieste finanziarie 2016 1568 5496 1584 1120
Anno di dismissione Bari Catania LNL-Padova Torino Cagliari Totale HS06 2016 1568 5496 1584 1120 9768 TB 130 260 157 20 567 2017 3840 114 117 231 Rinvio dismissioni storage dalla seconda metà del 2016 al 2017: 130 TB (CT) TB (LNL) + 80 TB (TO) + 20 TB (CA) = 360 TB Domenico Elia Riunione CSN3 / Perugia,
28
Dismissioni 2016-18 Richieste finanziarie 2016 1568 5496 1584 1120
Anno di dismissione Bari Catania LNL-Padova Torino Cagliari Totale HS06 2016 1568 5496 1584 1120 9768 TB 130 77 207 2017 3840 244 197 20 591 2018 6672 13147 2149 21968 205 Rinvio dismissioni storage dalla seconda metà del 2016 al 2017: 130 TB (CT) TB (LNL) + 80 TB (TO) + 20 TB (CA) = 360 TB Dismissioni ReCaS (BA e CT) previste nel 2018 = HS06 Domenico Elia Riunione CSN3 / Perugia,
29
Dismissioni 2016-18 Situazione complessiva Tier-2 a inizio 2017:
Richieste finanziarie Dismissioni Anno di dismissione Bari Catania LNL-Padova Torino Cagliari Totale HS06 2016 1568 5496 1584 1120 9768 TB 130 77 207 2017 3840 244 197 20 591 2018 6672 13147 2149 21968 205 Situazione complessiva Tier-2 a inizio 2017: CPU: – 3840 = HS06 DISK: 4876 – 591 = TB Domenico Elia Riunione CSN3 / Perugia,
30
RRB Aprile 2016 Richieste finanziarie +7% (4%) CPU al Tier-1 (0)
increased processing time for high pile-up pp events (x2) + TPC calibration issues +30% (22%) TAPE al Tier-1 (0) increased raw data volume for pp events (x3.5) as observed in 2015 sample Domenico Elia Riunione CSN3 / Perugia,
31
RRB Aprile 2016 Share INFN per 2017: Richieste finanziarie
RRB October 2015 RRB April 2015 Share INFN per 2017: CPU, DISK per Tier-1 e Tier-2: 19% (18.5% per 2016) TAPE per Tier-1: 35% (35.2% per 2016, 41.1% per 2015) Domenico Elia Riunione CSN3 / Perugia,
32
RRB Aprile 2016 Incrementi 2016 2017 (RRB Aprile ’16):
Richieste finanziarie RRB Aprile 2016 RRB October 2015 Incrementi 2016 2017 (RRB Aprile ’16): CPU: 18.6% (T0) 40.8% (T1) 16.0% (T2) DISK: 27.4% 19.0% 19.9% TAPE: 59.2% 82.0% Domenico Elia Riunione CSN3 / Perugia,
33
Richieste 2017 (RRB Aprile)
Richieste finanziarie Richieste 2017 (RRB Aprile) CPU Tier-1 (HS06) DISK Tier-1 (TB) TAPE Tier-1 CPU Tier-2 DISK Tier-2 Pledged T1 Disp. – dismiss. T2 29045 3885 5491 41493 4285 Scrutinati ALICE 2017 41990 4750 9940 52250 5947 Delta 12945 865 4449 10757 1662 Stima costo (k€) 129.5 173.0 111.2 107.6 332.4 Totale (k€) 413.7 440.0 Overhead T2 (k€) 53.9 Stima costi*: 10 € / HS06 e 200 € / TB *Per 2016 T2 (T1): 12 (14) €/HS06 e 220 (240) €/TB Dismissioni Tier-1: non incluse (solo DISK per ALICE, ~90 k€) Overhead Tier-2: 6% CPU + 5% DISCO (rete) + 7% totale (server aggiuntivi) Domenico Elia Riunione CSN3 / Perugia,
34
Dismissioni + crescita
Richieste finanziarie Richieste 2017 (RRB Aprile) Priorità da garantire: crescita netta dismissioni 2016 quota minima overhead T2 (RRB Aprile) Dismissioni*: k€ Crescita netta: 283.4 Overhead: Totale: k€ *Dismissioni 2017: 114 TB (CT) k€ 117 TB (TO) 23.4 3840 HS06 (TO) 38.4 Dismissioni HS06 / TB k€ Bari 0,0 Catania 244 48,8 LNL-Padova 130 26,0 Torino 3840 38,4 197 39,4 77,8 Cagliari 20 4,0 Dismissioni totale 591 118,2 156,6 Crescita netta 6917 69,2 1071 214,2 283,4 Dismissioni + crescita 10757 107,6 1662 332,4 440,0 Domenico Elia Riunione CSN3 / Perugia,
35
RRB Ottobre 2016 In discussione: Come si sta procedendo:
Richieste finanziarie RRB Ottobre 2016 In discussione: incremento delle richieste calcolo 2017 (e 2018) per LHC anticipato: ~ % rispetto a RRB Aprile 2016 causa: performance attesa della macchina (e degli esperimenti) Come si sta procedendo: rimandato inserimento pledge in REBUS (dopo RRB Ottobre) scambi tra esperimenti e CRSG da fine Agosto INFN: riunione 9/9 a Bologna con collegio referale calcolo LHC ipotesi: tasca aggiuntiva per coprire (parte del) delta ? Quanto vale per noi: NEXT SLIDES Domenico Elia Riunione CSN3 / Perugia,
36
RRB Ottobre 2016 Incrementi 2017 (Aprile ‘16) 2017 (Ottobre ’16):
Richieste finanziarie RRB Ottobre 2016 Incrementi 2017 (Aprile ‘16) 2017 (Ottobre ’16): CPU: 36.8% (T0) 20.4% (T1) 38.2% (T2) DISK: 16.8% % % TAPE: 16.9% 20.4% Domenico Elia Riunione CSN3 / Perugia,
37
Richieste 2017 (RRB Ottobre)
Richieste finanziarie Richieste 2017 (RRB Ottobre) CPU Tier-1 (HS06) DISK Tier-1 (TB) TAPE Tier-1 CPU Tier-2 DISK Tier-2 Pledged T1 Disp. – dismiss. T2 29045 3885 5491 41493 4285 Scrutinati ALICE 2017 50540 5206 11970 72200 5396 Delta 21495 1321 6479 30707 1111 Stima costo (k€) 215.0 264.2 162.0 307.1 222.2 Totale (k€) 641.1 529.3 Overhead T2 (k€) 66.6 Stima costi*: 10 € / HS06 e 200 € / TB *Per 2016 T2 (T1): 12 (14) €/HS06 e 220 (240) €/TB Dismissioni Tier-1: non incluse (solo DISK per ALICE, ~90 k€) Overhead Tier-2: 6% CPU + 5% DISCO (rete) + 7% totale (server aggiuntivi) Domenico Elia Riunione CSN3 / Perugia,
38
Commenti finali e sommario
Stato del calcolo ALICE: molto bene l’impiego delle risorse nel 2015/2016 necessità di rivedere le stime risorse calcolo per Run2 siti italiani attivi (anche su R&D) ed efficienti Domenico Elia Riunione CSN3 / Perugia,
39
Commenti finali e sommario
Stato del calcolo ALICE: molto bene l’impiego delle risorse nel 2015/2016 necessità di rivedere le stime risorse calcolo per Run2 siti italiani attivi (anche su R&D) ed efficienti Sommario richieste finanziarie: richieste ordinarie 2017: crescita CPU/DISK/TAPE Tier k€ rimpiazzi e crescita CPU/DISK Tier k€ overhead Tier k€ missioni attività calcolo k€ incrementi 2017 in discussione RRB Ottobre: delta su crescita CPU/DISK/TAPE Tier k€ delta su rimpiazzi, crescita e overhead Tier k€ Domenico Elia Riunione CSN3 / Perugia,
40
Backup Domenico Elia Riunione CSN3 / Perugia,
41
Resource usage in 2015 CPU resource evolution: ALICE Computing status
steady grouth of the number of active jobs system scaled from 500 to 100,000 concurrently running jobs scheduled analysis now prevaling on chaotic analysis organized analysis +60% in 2015 wrt 2014 better efficiency Domenico Elia Riunione CSN3 / Perugia,
42
Run2 overview ALICE Computing status Domenico Elia
Riunione CSN3 / Perugia,
43
RRB Aprile 2016 Incrementi 2016 2017 (RRB Ottobre ’15):
Richieste finanziarie RRB Aprile 2016 RRB October 2015 Incrementi 2016 2017 (RRB Ottobre ’15): CPU: 13.9% (T0) 31.8% (T1) 12.6% (T2) DISK: 14.3% 15.2% 17.6% TAPE: 19.0% 26.3% Domenico Elia Riunione CSN3 / Perugia,
44
Richieste finali “Missioni”
Richieste finanziarie Richieste finali “Missioni” Dettaglio delle esigenze specifiche per il calcolo: corrisponde a quanto non previsto dal “bonus” per ruoli di responsabilità per BA e TO. Domenico Elia Riunione CSN3 / Perugia,
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.