Richieste Tier Alessandro De Salvo A. De Salvo – 4 giugno 2013
ATLAS: Utilizzo risorse Tier 2 in Italia Pledge 2012 Pledge siti T2 Frascati Milano Napoli Roma 1 2 Sistema di replica dinamico dei dati PD2P, basato sulla popolarità del dati, già dal Ottimizzazione dell’uso del disco dei Tier2 permettendo la copia di dati interessanti. Il calcolo è un investimento importante ma con le performance ottenute, ai massimi livelli internazionali, è di fondamentale importanza per il raggiungimento dei risultati di fisica in tempi rapidi Site reliability/availability
ATLAS: Previsione dell’utilizzo delle risorse fino al 2015 Lo Scrutiny Group ha approvato ad aprile 2013 le seguenti risorse T2 di ATLAS per il 2014 390 kHS06, 49 PB Il goal finale per il 2015 è quello di prendere dati a 1kHz di trigger rate La dimensione degli eventi sarà uguale a quella del 2012 oppure a quella dei sample del MC di upgrade a 13 TeV Molto lavoro richiesto per raggiungere questo traguardo! Nei calcoli per il 2015 si assumono 21 settimane di presa dati e 30% di efficienza, con la maggior parte del run a 25 ns e pileup moderato (μ=25) 3
ATLAS: Risorse Obsolete nel 2014/2015 Le CPU obsolete sono le macchine con più di 3 anni di vita Lo storage obsoleto comprende le SAN con più di 5 anni di vita La sostituzione del materiale obsoleto, specie per i dischi, è fondamentale per il buon funzionamento dei centri e quindi dell’intero sistema di computing italiano di ATLAS CPU 2014 (HS06) CPU 2015 (HS06) Disco 2014 (TBn) Disco 2015 (TBn) Frascati Milano Napoli Roma Tot Risorse obsolete
ATLAS: Richiesta Risorse 2014/ I Le risorse necessarie sono determinate dalla volontà di conservare il ruolo significativo nel computing di ATLAS acquisito negli ultimi anni conservando gli share di risorse pledged per le attività centrali: Tier2: 9% CPU e 7% Disco e di garantire la competitività agli utenti italiani mediante l’uso di risorse dedicate nei Tier2 ATLAS2014 Share IT ATLAS IT 2014 ATLAS IT disponibile Attività 2014 CPU T2 (kHS06) 3909% Disco T2 (PB) 497% ATLAS2015 Share IT ATLAS IT 2015 ATLAS IT disponibile Attività 2015 CPU T2 (kHS06) 5229% Disco T2 (PB) 657% PRELIMINARE
ATLAS: Richiesta Risorse 2014/ II Le risorse per le attività italiane 2014/2015 sono già disponibili e non inclusi nel disponibile “pledged” e non sono necessarie ulteriori richieste Attività Italiane 2014Obs2014 Richieste 2014 k€2014 CPU T2 [kHS06] Disco T2 [TB] Prezzi stimati (da rivedere): CPU = 10 k€/kHS Disco = 350 k€/PB Totale Attività Italiane 2015Obs2015 Richieste 2015 k€2015 CPU T2 [kHS06] Disco T2 [TB] Totale PRELIMINARE (+ networking e server) Valori preliminari non referati. I valori finali saranno disponibili a ottobre
CMS: T2 italiani BA, LNL, PI, RM1 Totale risorse pledge 2012: Disco = 3.5PB CPU = 45.5kHS : identico Accordate solo dismissioni 7 Sono ufficialmente supportati 8 gruppi di fisica: Bari: Higgs, SUSY LNL: ElectroWeak, Muons Pisa: Tracking, Tau & Particle Flow Roma: Higgs, Egamma & ECAL 2012: tutti i 4 T2 italiani sono nel 50% migliore fra i ~50 T2 di CMS Sopra di noi: US (inarrivabili)
CMS: Disco T2 ai T2 italiani ~ 850 TB l’uno (come il 2012) Lo spazio e’ TOTALMENTE ALLOCATO secondo i dettami di CMS Spazio reale occupato 70-95%, ma grossa variabilita’ annuale Non vi e’ spazio aggiuntivo usabile per attivita’ locali 8 PB.mese Esempio: Pisa Il verde e’ il libero: <10%, con vere situazioni di emergenza
CMS: Richieste (2015: non referate!!!!) Parte finanziata su CSN1 Razionale: 2014: Poco piu’ che le sole sostituzioni 2015 Aumento x mantenere stessa physics capability sui canali dell’Higgs porta a 1~ kHz di HLT; inoltre per aumentata complessita’ degli eventi. Fattore 2x per T0/T1 gia’ scalato per un ottimistico guadagno di performance da SW/operazioni per un fattore ~ % sui T NON ancora referato da C-RSG
CMS: TIER2 (2014) 10 Il “dichiarato” 2013 Dismissioni 2014 = 390kEur (se 10 Eur/HS Eur/TBN) Dismissioni T2 Il pledge 2014
CMS: Richieste summary Aumento di 5.2 kHS06; no disco Dismissioni pari a 23.6 kHS06 e 440 TBN (+ server / networking come share solito) 11 (se 10 Eur/HS Eur/TBN) In Euro
CMS T NUOVE CPU = 14.3 kHS06 NUOVO DISCO = 572 TB DISMISSIONI Numeri definitivi richieste = RRB 10/2013, dopo update richiesta del modello di calcolo
CMS: Summary delle richieste (+ usual share di networking e server) 13 In Euro
LHCb: CPU share of various activities vs time MC Repro Reco User Stripping UK FR CH IT RU DE NL ES 40% MC production 20% Reprocessing 17% Reconstruction 12% User analysis 11% Stripping
LHCb: Estimated CPU power needed at the different Tier levels Tier-2 needs are stable (also because there is a good fraction of unpledged around) Nessuna richiesta per LHCb Italia per il 2014/2015 a parte la frazione dei rimpiazzi del CNAFLHCbItaliaCPU[HS06]CPU [k€]
Tier2 – Summary globale ATLASCPU[k€]ATLASDisco[k€]CMSCPU[k€]CMSDisco[k€]LHCbCPU[k€]Totale[k€]
Conclusioni Il calcolo è un investimento importante ma con le performance ottenute, ai massimi livelli internazionali, è di fondamentale importanza per il raggiungimento dei risultati di fisica in tempi rapidi e quindi è un investimento prezioso, da preservare, per tutte le comunità LHC Le richieste alla CSN1 per il 2014 sono essenzialmente dovute solo dalla sostituzione del materiale obsoleto E’ fondamentale fornire supporto ai Tier2 esistenti per quel che riguarda le dismissioni Le richieste per il 2015 sono da intendersi puramente come indicative, soggette a cambiamenti e ancora non referate 17
Backup slides 18
ATLAS: Trigger rate 2015 Luminosity expected to increase from 7×10 33 to 2×10 34 corresponding to about a factor 3 in rates Pile up will increase affecting the effective trigger rates Moving to √s=14 TeV cross sections will increase on average by a factor 2.5 Rates would increase by about one order of magnitude. To keep the increase within a factor ~2 (50kHz→100kHz L1 and 450Hz→1kHz EF) selections have to be improved/tightened minimizing the impact on physics. PS: The physics (Higgs, top...) remains the same. 19 Slide from C. Gatti / D. Orestano
Preparazione al run del 2015 ATLAS ha piani ambiziosi per l’upgrade delle attività di Software e Computing Software: ricostruzione, simulazione, analisi Ottimizzazione delle performance degli algoritmi, utilizzando in modo più adeguato le CPU moderne Riduzione dell’utilizzo di memoria Parallelismo a livello di evento e di algoritmo Riduzione della dimensione degli eventi Computing distribuito Nuovo sistema di Data Management (Rucio) File based data management, subscriptions and rules,.. Upgrade del Production System (PanDA + JEDI + DEfT) New TRF, log file merging, … Merging at T2s, dynamic job definition based on scouts, … Procedure operative e workflow Ottimizzazione delle analisi di gruppo e utenti finali 20
Availability = time_site_is_available/total_time Reliability = time_site_is_available/ (total_time-time_site_is_sched_down) ATLAS: Availability / Reliability
Piano di distribuzione dati ATLAS per il
Risorse Disponibili CPU CPUFrascatiMilanoNapoliRomaTotale HP To be pledged Le CPU totali a disposizione dei Tier2 comprendono anche risorse che non pledged: CPU per uso locale (cluster proof) o in griglia ma dedicate principalmente alle attività italiane (Tier3) finanziate con fondi vari –Proof on Demand, share per analisi e simulazione MC per il ruolo atlas/it le CPU obsolete (fino al 2013 e già rifinanziate) ancora in produzione ma in corso di spegnimento CPU non a completa disposizione dei siti –(es. scope a NA, SuperB a LNF) Queste CPU concorrono alla definizione della linea blu dell’accounting che in alcuni casi è significativamente maggiore della linea rossa Nel conto delle CPU pledged sono comprese le CPU gara CNAF 2013 ancora da installare CPU disponibili 2013 “pledged” 23
Risorse Disponibili 2013 – Disco DiscoFrascatiMilanoNapoliRomaTotale Totale disponibile to be pledged 3565 Lo storage totale disponibile nei Tier2 comprende anche l’area locale in cui sono conservati i dati di tutti gli utenti italiani (LOCALGROUP), non solo gli utenti locali La dimensione di queste aree è di circa 100 TB per Tier2 In gran parte già occupata, gli utenti dovranno cancellare i dati vecchi non più necessari per fare spazio ai dati del 2013 l’utilizzo di queste aree è irrinunciabile per cui il loro volume va sottratto allo storage da dichiarare pledged Storage disponibile 2013 “pledged” 24
CMS: Utilizzo risorse T1&T2 T1: at e over pledge a parte nelle fasi di validazione prima di reprocessing T2: over pledge (effetto principale: forte over pledge di alcuni siti, US in testa) 25
CMS: Utilizzo in Analisi CMS-World: Ormai da > 1 anno preponderante (>90%) attivita’ su formato dati ridoto (AOD) Ormai stabilizzati su utenti singoli la settimana 26
CMS: Disco T2 I T2 italiani ~ 850 TB l’uno (come il 2012) In realta’ disco arrivato dopo 01/04/2012 … Per Pisa in effetti appena arrivato Lo spazio e’ TOTALMENTE ALLOCATO secondo I dettami di CMS Spazio reale occupato 70-95%, ma grossa variabilita’ annuale Non vi e’ spazio aggiuntivo usabile liberamente 01/04/ Pisa oggi: 93% occupato
CMS: TIER2 “mancano” 5.2 kHS06 28
CMS: Per cui … In un mondo ideale, fattore 12x di risorse necessario; chiaramente impossibile Soluzioni messe in campo 1.Miglioramento dell’efficienza di uso delle risorse: CPU Mitigare effetto di trigger rate + alto: usare i T1 anche per una frazione della prompt reconstruction Meno reprocessing standard possibili (solo 1 alla fine dell’anno) Usare farm HLT per Prompt Reco Gia’ attivo, via HLT Cloud Uso opportunistico di risorse non CMS (e non HEP) 2.Miglioramento dell’efficienza di uso delle risorse: Disco Remote data access per evitare di dover distribuire piu’ copie dei dati/MC Data placement intelligente e dinamico Abbandono del formato RECO per AOD 3.Miglioramento del nostro ambiente di Computing/Offline
CMS Target del trigger: mantenere stessa physics capability sui canali dell’Higgs Questo da solo richiede un rate di trigger fra 800Hz e 1.2 kHz – 1 kHz nei conti seguenti (2-4 x wrt standard 300 Hz) Inoltre ci sono 2 fattori che complicano ulteriormente la situazione, a partita’ di numero di eventi raccolti Lumi istantanea + alta = reco time x2.5 Se 25 ns: effetto dovuto al OOTPU al momento da’ un fattore 2x (tracker soprattutto)
LHCb: Prompt reconstruction Number of prompt reconstruction running jobs before (left) and during (right) the 2012 reprocessing per used site (during reproessing, prompt reconstruction has been switched off at Tier1s) CNAF processed 17% of prompt data when Tier1s were being used
LHCb: Reprocessing Two reprocessing phases: 2011 data (made in Jan-Feb 2013) 2012 data (made in Sep-Dec 2012) Using not only Tier-1s, but also selected Tier-2s CNAF (T1+T2) processed about 13% of 2011 and 16.1% of 2012
LHCb: Reprocessed data CNAF
LHCb: MC production UK RU FR IT MC production mostly done at Tier2s, but also at Tier1s when there is no other activity IT contribution: 13.3%
LHCb: User analysis CERN RAL GRIDKA CNAF In 2012, the total number of simultaneous analysis jobs at CNAF was limited to 300, due to a limitation of the total bandwidth from the storage system Solved in December 2013 when a new storage system was put in production (bandwidth changed from 1.6 GB/s to 10 GB/s) For 2013 the situation will be dramatically different
LHCb: Summary of CPU power from T0 and T1s Average CPU power provided to LHCb during 2012 (Tier0 + Tier1s) CNAF