Concezio Bozzi, INFN Ferrara Frascati, 29 settembre 2009 Calcolo a LHC Utilizzo delle risorse Le richieste e il loro referaggio Il calcolo in Italia Tier1 e piano relativo Richieste e proposte Tier2 Concezio Bozzi, INFN Ferrara Frascati, 29 settembre 2009
Affidabilita’ di WLCG ( T1 ALICE)
Affidabilita’ di WLCG (T1 ATLAS)
Affidabilita’ di WLCG (T1 CMS)
Affidabilita’ di WLCG (T1 LHCb)
Uso delle risorse (CERN+T1) ALICE CMS installed capacity (inc. efficiency factor) ATLAS LHCb MoU commitment (inc. efficiency factor)
STEP key points General: Multi-VO aspects never tested before at this scale Almost all sites participated successfully CERN tape writing well above required level Most Tier1s showed impressive operation Demonstrated scale and sustainability of loads Some limitations were seen; to be re-checked OPN suffered double fibre cut! ... But continued and recovered... Data rates well above required rates...
Issues STEP highlighted some issues: Tier 1s: 3 sites give cause for concern (observe a correlation between sites with bad communication and performance in STEP) ASGC: recovery from fire going well, fantastic work done by team; but are earlier problems in communication + level of available effort resolved? NL-T1: lack of resources (power etc); ability to ramp-up on timescale promised seems optimistic Lack of formal communication of problems/providing post-mortems Is staffing adequate? Hard to tell due to lack of communication FZK: Significant resources, but communication issue – very slow to report/expose problems; major hardware problem with MSS just before STEP Tier 2s: While many sites performed (very) well some concerns during analysis testing – need to foresee e.g. internal network upgrades?
Il processo di referaggio (workshop CCR maggio 09) Le richieste presentate dagli esperimenti al Resource Review Board di WLCG il 27 aprile 2009 contenevano cambiamenti nei modelli di calcolo che non erano stati referati da LHCC Le richieste erano state referate (preliminarmente) solo dal Computing Resources Scrutiny Group, che le aveva ritenute in gran parte debolmente motivate Per ALICE, CMS, LHCb aveva raccomandato che una semplice traslazione di un anno delle risorse gia’ referate e approvate nell’autunno 2008 sarebbe stata non solo sufficiente, ma contenente anche abbastanza contingenza per far fronte a imprevisti aveva ritenuto di non essere in grado di dare un giudizio su ATLAS; di primo acchitto, si sarebbe potuto applicare lo stesso scenario degli altri tre esperimenti Gli esperimenti (soprattutto ATLAS e CMS) non erano molto d’accordo Il DG del CERN ha chiesto di arrivare ad una soluzione condivisa entro l’estate
Intanto nell’INFN Le gare CNAF andavano fatte partire in primavera Elaborato piano con acquisti base (3.050 ME) e due opzioni Ritardo di un anno Punto di mezzo tra (ritardo di un anno) e (accoglimento delle richieste di Aprile 2009) Opzioni da esercitarsi a partire da 1/4/2010 (CPU) e 1/7/2010 (storage) Il CNAF sta svolgendo le gare CPU: conclusione prevista entro il 2009 Storage: un paio di mesi di ritardo
Intanto al CERN Gli esperimenti hanno aggiornato le loro richieste in estate Generalmente diminuzioni del 10%-20% ATLAS Tier1 disk dimezzato Tradotto in soldi, l’incremento 20092010 di 50ME (cfr. Workshop CCR maggio 2009) si dimezza circa Queste richieste sono state referate da LHCC e Scrutiny Group a luglio Interazioni Scrutiny Group – LHCC con domande specifiche su Dimensioni e formati degli eventi Utilita’ dei dati di cosmici e commissioning Dimensioni dei campioni MC Tasso di riprocessamento dei dati Utilizzo dei nastri Nel frattempo, il DG ha comunicato un paio di mesi di ritardo nella schedula di LHC
Raccomandazioni di LHCC Mini-review del 6 luglio [CERN-LHCC-2009-011/G-148, non ancora formalmente approvato] The LHCC finds, in general, the approach adopted by the experiments to be motivated and sensible. Given the important investment made in the construction of the LHC and the detectors during many years, the physics outcome using the very first LHC data should be maximized and not limited by computing resources. The LHCC does not consider the crucial and long awaited first year of LHC operations to be an appropriate time to attempt to cut back substantially on the procurement of computing resources. However, with better knowledge and experience from the first year of operations, and with the possible need for a long LHC shutdown for machine consolidation, some potential savings in the computing budget may present themselves in the future The current request ensures the experiments have contingency with respect to uncertainties involving the machine schedule and operating parameters. In a scenario with limited funds, this request should be regarded as exceptional, and driven by the start-up of the LHC program.
Raccomandazioni dello Scrutiny Group Recepimento delle raccomandazioni di LHCC Verifica delle richieste degli esperimenti a partire dai “principi primi” Elenco di punti critici da tenere sotto osservazione Ritardo di due mesi risorse 2010 disponibili l’1/6/2010 (anziche’ l’1/4/2010)
I “punti caldi” Ridurre le dimensioni degli eventi “grezzi” (raw) e degli altri formati da essi derivati Implementare un programma rigoroso di cancellazione di dati che non sono piu’ utilizzati e file “dark” Diminuire le risorse dedicate a dati non di fascio, man mano che le performance dei rivelatori sono capite sempre meglio Utilizzare il primo periodo di presa dati per definire meglio il modello di distribuzione tra i centri e determinare la strategia che ottimizza il programma di fisica mantenendo le risorse a un livello ragionevole Supporto pieno per le risorse del CERN Altrimenti i dati cadono per terra! Carenza di risorse non-CERN impattano la produttivita’
Scrutiny group fall 2009 T1 Differenze rispetto a desiderata aprile 2009
Scrutiny group fall 2009 T2 2009 2010 Differenze rispetto a desiderata aprile 2009
Uso CPU Tier1
Il piano per il Tier1 Per le gare in corso al CNAF, il piano prevede di esercitare l’opzione 2 per le CPU e l’opzione 1 per il disco
Tier2 in Italia
Tier 2 Sedi ALICE Attività intensa in tutte le sedi ATLAS Torino e Catania approvati Legnaro e Bari in incubatore ATLAS Roma1, Milano e Napoli approvati Frascati in incubatore CMS Legnaro, Pisa e Roma1 approvati Bari in incubatore LHCb CNAF Fa parte strutturalmente del TIER1, ma e’ finanziato separatamente. Solo CPU per simulazione Attività intensa in tutte le sedi Anche se con differenze di maturità e chiarezza di intenti Controllo delle scelte tecniche da parte della CCR Costi unitari CPU: 20kE/kHS06 Disco: 0.7kE/TBn Scelta infrastruttura di rete Quantificazione delle risorse necessarie per server e collegamenti alla rete locale.
Overhead I costi unitari per storage e CPU contengono gia’ un overhead per l’infrastruttura necessaria per metterli “in linea” (server, controller, interfacce, ecc.) Occorre implementare un meccanismo simile per finanziare server specifici e apparati di rete basato sulla stima del costo degli apparati mediato negli anni Per il 2010: Rete: 8% (finanziamento cpu) + 5% (finanziamento disco) Altre CPU: 10% (finanziamento cpu + disco) Stime conservative, possibili aggiustamenti in futuro Gli esperimenti dovranno assorbire le inevitabili differenze negli investimenti che si verificheranno di anno in anno con i fondi a loro disposizione
Rete Cambiamenti importanti nei prossimi anni collegamento alla futura rete GARR-x estensione dell'uso di link a 10 Gbps nelle reti locali; Necessario esaminare progetti complessivi dell'infrastruttura di rete a servizio dei Tier2 che verrà effettuato congiuntamente con la CCR Referaggio in corso Primi acquisti da discutere in questa riunione Non sempre facile separare i costi dell'infrastruttura di rete fra costi fissi (router di frontiera, switch centrali, ecc.) da quelli incrementali che dipendono dal numero di CPU e server di storage acquisite dai Tier2 Idea di base: finanziare i primi tramite CCR, i secondi tramite CSN con il meccanismo introdotto quest'anno.
Uso CPU T2 ATLAS “Frascati” Milano Napoli Roma
Uso CPU T2 CMS “Bari” LNL (include anche ALICE) Pisa Roma
Livelli di funzionamento Tier2 Affinche’ i Tier2 garantiscano la disponibilita’ continuativa delle risorse di calcolo agli esperimenti, abbiamo definito una serie di criteri da rispettare su base mensile 1) Site availability >80% misurata dalle dashboard degli esperimenti, ad esempio per CMS: http://dashb-cms-sam.cern.ch/dashboard/request.py/historicalsmryview 2) Wall Clock Time >70% del declared misurato da HLRmon https://dgas.cnaf.infn.it/hlrmon/report/lhc_report.php 3) Percentuale di successful jobs >75% come misurata dalla dashboard degli esperimenti, ad esempio per CMS: http://dashb-cms-sam.cern.ch/dashboard/request.py/dailysummary
Criterio #1 >80%
Criterio #2 >70% Pisa Roma LNL Bari
Criterio #3 >75% Pisa Roma Bari LNL
Qualche commento Con l’avvento della presa dati, le dimensioni dei Tier2 aumenteranno significativamente Diventano sempre più importanti La disponibilità delle risorse umane e la loro motivazione Le spese di funzionamento Le spese per rack ed apparati di rete Definiti livelli minimi di funzionamento che i Tier2 devono soddisfare su base mensile Altre nazioni si stanno attrezzando con i Tier3 E’ un argomento che dovremo prima o poi affrontare Ma solo dopo che gli esperimenti ci avranno presentato un piano
Conclusioni LHC sta per partire (molto lentamente…) Gli esperimenti stanno esercitando il sistema calcolo a livelli via via crescenti Qualcuno è più avanti, qualcuno meno L’esosita’ delle richieste per un intervallo di tempo macchina tutto sommato limitato e’ soprendente Che succedera’ quando LHC arrivera’ a regime? Il calcolo in Italia funziona ragionevolmente bene Cerchiamo di seguire un approccio pragmatico al calcolo Verificando l’accuratezza dei modelli di calcolo con i primi mesi di presa dati Mantenendo un buon grado di flessibilità nelle procedure di acquisizione delle risorse Richiedendo il rispetto delle milestone per i Tier2 (approvati e non) di tutti gli esperimenti