ATLAS: il calcolo Alessandro De Salvo 19-5-2017 A. De Salvo – 19 maggio 2017
2016 Data Taking Pile-Up 2016 Collected data 2016 2 > 92% efficiency 2
ATLAS: Utilizzo risorse Tier 1 in Italia CNAF ALL T1s Apr 2016 May 2017 Apr 2016 May 2017 WCT WCT MC simul Job Efficiency Analysis Data proc INFN T1 MC reco INFN T1 (5.53%) Group prod 3
ATLAS: Utilizzo risorse Tier 1 in Italia 5 PB AOD DAOD DISK AOD Apr 2016 May 2017 7.5 PB AOD HITS NTUP TAPE RAW Apr 2016 May 2017 4
ATLAS: Utilizzo risorse Tier 2 in Italia CNAF Napoli 4 siti T2D Frascati Milano Napoli Roma 1 Milano Roma Frascati Apr 2016 May 2017 5 PB Frascati Napoli Job Efficiency Roma Apr 2016 May 2017 Milano 5
ATLAS: Utilizzo risorse Tier 2 in Italia [2] Frascati Milano 04/2016 05/2017 04/2016 05/2017 Roma Napoli 04/2016 05/2017 04/2016 05/2017 Plot di accounting (Faust): la linea verde/blu è il pledge per sito Buone performance dei siti, tranne problemi temporanei Problemi in Faust a marzo (dati mancanti per tutti i siti) Nuove CPU ancora non disponibili, in fase di acquisto 6
INFN T1/T2 Ingoing Transfer INFN T1/T2 Outgoing Transfer Network INFN T1/T2 Ingoing Transfer INFN T1/T2 Outgoing Transfer Traffico di Rete FRASCATI MILANO NAPOLI ROMA 7
Availability / Reliability 2015-2017 Valori medi 2015/2017 Frascati Milano rel ava 97% 94% 92% Napoli Roma 98% 95% Availability = time_site_is_available/total_time Reliability = time_site_is_available/ (total_time-time_site_is_sched_down) 8
Situazione nell’ultimo anno Novità 2016/2017 nei siti Tutti i siti T1 e T2 Tutti i siti sono funzionanti per il processing multicore La maggior parte della produzione è ormai multicore, l’analisi ancora no Gestione dinamica single-core/multi-core abilitata per ora solo al CNAF (LSF, con agente esterno), LNF e NA (PBS, tramite custom config + MAUI tweaks) Migrazione a Condor in fase di sperimentazione (RM)/valutazione (LNF, NA) Sperimentazione con singularity (RM) Dynafed/CEPH/S3 (LNF, NA, RM) Situazione nell’ultimo anno Tutti i siti molto stabili e con ottime reliability/availability Nessun problema di grosso rilievo, tranne due casi Problemi con lo storage a metà marzo a Milano Problemi hw con il FS dell’infrastruttura virtuale a Roma da metà dicembre ad inizio gennaio 9
Partecipazione italiana alle attività di ATLAS ATLAS Italia partecipa alle attività di Atlas Distributed Computing (ADC) in diversi aspetti Database (Coordinamento, Frontier, Conditions) Installazione del software (CVMFS e distribuzione) Monitoring Network infrastructure (LHCONE) Storage Federazioni di xrootd e HTTPD DPM Caching VO management Harvester (evoluzione del WFMS di ATLAS) Altre attività (ex-PRIN) Cloud Computing Hadoop (EventIndex) 10
Risorse Attività ATLAS 2018 Lo Scrutiny Group ha approvato ad aprile 2017 le seguenti risorse per ATLAS 11
Risorse Disponibili 2017 - CPU CPU disponibili fine 2017 CPU Frascati Milano Napoli Roma Totale Pledge HS06 26023 30946 36163 27600 120732 76140 To be pledged 18722 18628 20198 19732 77280 Le CPU totali a disposizione dei Tier2 comprendono anche risorse non pledged: CPU obsolete (fino al 2016 e già rifinanziate) ancora in produzione ma in corso di spegnimento CPU per uso locale (cluster proof) o in griglia ma dedicate principalmente alle attività italiane (Tier3) finanziate con fondi vari Proof on Demand, share per analisi e simulazione MC per il ruolo atlas/it CPU non a completa disposizione dei siti (es. scope + ex Recas a NA, ex SuperB, Belle2, a LNF) Nel conto delle CPU pledged sono comprese solo le previsioni delle CPU da acquistare nel 2017, la gara è ancora da espletare 12
Risorse Disponibili 2017 – Disco Storage disponibile fine 2017 Disco Frascati Milano Napoli Roma Totale Pledge Totale disponibile 1614 1613 1864 1636 6677 5800 to be pledged 1434 1433 1664 1426 5957 Lo storage totale disponibile nei Tier2 comprende anche l’area locale in cui sono conservati i dati di tutti gli utenti italiani (LOCALGROUP), non solo gli utenti locali La dimensione di queste aree è di circa 180 TB per Tier2 In gran parte già occupata, gli utenti dovranno cancellare i dati vecchi non più necessari per fare spazio ai dati del 2018 l’utilizzo di queste aree è irrinunciabile per cui il loro volume va sottratto allo storage da dichiarare pledged 13
Risorse Obsolete nel 2018 Risorse obsolete 2018 Frascati 1696 4276 CPU obs 2017 (HS06) CPU obs 2018 (HS06) CPU obs tot (HS06) Disco obs (TBn) Frascati 1696 4276 5972 346 Milano Napoli 2735 11662 14397 307 Roma Tot 7823 24490 32313 1345 Risorse obsolete 2018 Le CPU obsolete sono le macchine comprate dal 2014 e installate da fine 2014 (non sono comprese le macchine installate successivamente). Le CPU hanno garanzia triennale, tranne quelle acquistate a partire dal 2014 Lo storage obsoleto comprende le SAN comprate nel 2012 e installate >= giugno 2013. Garanzia quinquennale La sostituzione del materiale obsoleto, specie per i dischi, è fondamentale per il buon funzionamento dei centri e quindi dell’intero sistema di computing italiano di ATLAS 14
Richiesta Risorse 2018 - I 949 9% 85.41 61.4* 24.01 72 6.48 5.13* 1.35 Le risorse necessarie per il 2018 sono determinate dalla volontà di conservare il ruolo significativo nel computing di ATLAS acquisito negli ultimi anni conservando gli share di risorse pledged per le attività centrali: Tier1: 9% Tier2: 9% CPU e 7% Disco e di garantire la competitività agli utenti italiani mediante l’uso di risorse dedicate nei Tier2 e Tier3 ATLAS Share IT ATLAS IT 2018 ATLAS IT disponibile Totale 2018 CPU T1 (kHS06) 949 9% 85.41 61.4* 24.01 Disco T1 (PB) 72 6.48 5.13* 1.35 Tape T1 195 17.55 16.92* 0.63 CPU T2 1160 104.4 77.3 27.1 Disco T2 88 7% 6.16 5.96 0.20 15 * Pledge 2017
Richiesta Risorse 2018 - II Le risorse per le attività italiane sono già disponibili, non incluse nel “pledged” 2018, non sono necessarie ulteriori richieste New 2018 Obs 2018 Richieste 2018 K€ CPU T2 (kHS06) 27.1 32.3 59.4 475.2 Disco T2 (TB) 200 1345 1545 278.1 Totale 753.3 Totale Prezzi stimati: CPU = 8 k€/kHS Disco = 180 k€/PB 16
Richiesta Risorse 2018 - III Overhead per rete e server aggiuntivi Algoritmo Bozzi (cfr. presentazione CSN1 Bari Settembre 2011): Rete: 6% (cpu) + 5% (disco) = 46.2 k€ Server: 7% (cpu + disco) = 57.2 k€ A cosa servono: Rete: switch di rack Server: servizi di grid A cosa corrispondo questi finanziamenti: Rete: 1÷2 switch con modulo 10 Gbps Per collegare le nuove risorse e/o sostituire i primi switch ormai fuori manutenzione Server: 1÷3 server per sezione 17
Richiesta Risorse 2018 – Riepilogo totale Richieste totali e per sito CPU Pledged 2017 [kHS06] Disco Pledged 2017 [TBn] CPU Obs 2018 [kHS06] Disco Obs 2018 [TBn] CPU New 2018 Disco New 2018 [TBn] CPU Tot 2018 [kHS06] Disco Tot 2018 [TBn] OH Rete [K€] OH Server Tot Frascati 18.7 1434 6.0 346 6.9 54 12.9 400 9.8 12.3 197.3 Milano 1433 Napoli 20.2 1664 14.3 307 6.6 43 20.9 350 13.2 16.1 259.5 Roma 19.7 1426 77.3 5957 32.3 1345 27.2 205 59.6 1550 42.6 53.0 851.4 Prezzi stimati: CPU = 8 k€/kHS Disco = 180 k€/PB 18
Richiesta Risorse 2018 – Riepilogo mitigato [1] Acquisto di 4 kHS06 con i risparmi combinati di gara 2016/7 Possibile nel 2017 ridare indietro ancora ~150 kEUR, se viene riassegnato il residuo della gara 2016, anche in questo scenario Richieste totali e per sito CPU Pledged 2017 [kHS06] Disco Pledged 2017 [TBn] CPU Obs 2018 [kHS06] Disco Obs 2018 [TBn] CPU New 2018 Disco New 2018 [TBn] CPU Tot 2018 [kHS06] Disco Tot 2018 [TBn] OH Rete [K€] OH Server Tot Frascati 18.7 1434 5.0 346 6.9 54 11.9 400 9.3 11.7 188.2 Milano 1433 Napoli 20.2 1664 13.3 307 6.6 43 19.9 350 12.7 15.6 250.5 Roma 19.7 1426 77.3 5957 28.3 1345 27.2 205 55.6 1550 40.6 50.7 815.1 Prezzi stimati: CPU = 8 k€/kHS Disco = 180 k€/PB 19
Richiesta Risorse 2018 – Riepilogo mitigato [2] Replacement delle solo CPU obsolete nel 2017 Tranne NA dove le CPU obsolete marcate 2018 erano state artificialmente spostate nel 2018: in questo caso si richede anche la metà del replacement taggato 2018 Replacement totale del disco Metà dell’overhead Richieste totali e per sito CPU Pledged 2017 [kHS06] Disco Pledged 2017 [TBn] CPU Obs 2018 [kHS06] Disco Obs 2018 [TBn] CPU New 2018 Disco New 2018 [TBn] CPU Tot 2018 [kHS06] Disco Tot 2018 [TBn] OH Rete [K€] OH Server Tot Frascati 18.7 1434 1.7 346 6.9 54 8.6 400 3.9 4.9 149.6 Milano 1433 Napoli 20.2 1664 8.5 307 6.6 43 15.1 350 5.2 6.4 195.4 Roma 19.7 1426 77.3 5957 13.6 1345 27.3 205 40.9 1550 16.9 21.1 644.2 Prezzi stimati: CPU = 8 k€/kHS Disco = 180 k€/PB 20
Richiesta Risorse 2018 – Riepilogo mitigato [3] Replacement delle solo CPU obsolete nel 2017 Tranne NA dove le CPU obsolete marcate 2018 erano state artificialmente spostate nel 2018: in questo caso si richede anche la metà del replacement taggato 2018 Replacement totale del disco Metà dell’overhead Acquisto di 4 kHS06 con i risparmi combinati di gara 2016/7 Possibile nel 2017 ridare indietro ancora ~150 kEUR, se viene riassegnato il residuo della gara 2016, anche in questo scenario Richieste totali e per sito CPU Pledged 2017 [kHS06] Disco Pledged 2017 [TBn] CPU Obs 2018 [kHS06] Disco Obs 2018 [TBn] CPU New 2018 Disco New 2018 [TBn] CPU Tot 2018 [kHS06] Disco Tot 2018 [TBn] OH Rete [K€] OH Server Tot Frascati 18.7 1434 0.7 346 6.9 54 7.6 400 3.6 4.7 141.1 Milano 1433 Napoli 20.2 1664 7.5 307 6.6 43 14.1 350 5.0 6.2 187.0 Roma 19.7 1426 77.3 5957 9.6 1345 27.3 205 36.9 1550 15.8 20.3 610.3 Prezzi stimati: CPU = 8 k€/kHS Disco = 180 k€/PB 21
Conclusioni Il Computing di ATLAS ha dimostrato di essere robusto ed affidabile per il processamento dei dati, sia MC che analisi finale Computing Model di ATLAS è stato quasi completamente ridisegnato, sia a livello del codice di ricostruzione/analisi sia dei servizi infrastrutturali, incrementandone l’efficienza Le attività di Run2 sono in linea con le aspettative (revisionate) I siti italiani sono stati sempre attivi ed efficienti Le richieste totali massime del 2018 sono ~852 kEUR, con le mitigazioni possibili si può scendere fino a ~610 kEUR (con tagli non indolori) 22