Calcolo a LHC Concezio Bozzi, INFN Ferrara Workshop CCR- INFN Grid Palau, maggio 2009 With slides borrowed from S. Bertolucci, I. Bird, K. Bos, S. Foffano, N. Geddes and others
Sommario Lo stato di LHC I modelli di calcolo degli esperimenti Le richieste e il loro referaggio Il calcolo in Italia –Tier1 e Tier2 –Portale accounting
The beam was initially intentionally stopped by blocks around 150 metres before experiments, producing these images of the debris or "splash" from the particles hitting the blocks. First protons circulating in the LHC ring September 10, 2008
September 19, 2008: incident in sector 3-4 The incident was traced to a faulty electrical connection between segments of the LHC’s superconducting cable (busbars) High impact was caused by collateral damage 53 Magnets (along a zone of about 700 m) to be removed from tunnel and repaired/exchanged (a few % of entire LHC) 2 most severely damaged interconnects
Differences in event processing times (up to 2000s for ATLAS MC!) event sizes, reprocessing strategies, data formats This reflects in big differences in the amounts of required resources Why? In principle the sensitivities to key measurements are very similar!
Affidabilità di WLCG “Site Reliability” a function of grid services middleware site operations storage management systems networks PS: _NOT_ a function of exp. requirements! CERN + Tier1s
Uso delle risorse ALICECMS installed capacity (inc. efficiency factor) ATLASLHCb MoU commitment (inc. efficiency factor)
Desiderata aprile 2009 T1 Differenze rispetto a desiderata agosto 2007 Desiderata agosto 2007: pilot run nel 2008, ~10 7 s nel 2009, anno “nominale” nel 2010 Desiderata aprile 2009: 2 x 10 6 s fino a 03/10, 4 x 10 6 s da 04/10 a 03/11 Nuovi desiderata 2010 simili o maggiori dei vecchi !!!
Desiderata aprile 2009 T2 Differenze rispetto a desiderata agosto 2007 Desiderata agosto 2007: pilot run nel 2008, ~10 7 s nel 2009, anno “nominale” nel 2010 Desiderata aprile 2009: 2 x 10 6 s fino a 03/10, 4 x 10 6 s da 04/10 a 03/11 Nuovi desiderata 2010 simili o maggiori dei vecchi !!!
Il processo di referaggio Le richieste delle slide precedenti sono state presentate al Resource Review Board di WLCG il 27 aprile 2009 Sono state referate (preliminarmente) dal Computing Resources Scrutiny Group, che –le ha ritenute in gran parte debolmente motivate –ha raccomandato che una semplice traslazione di un anno delle risorse gia’ referate e approvate nell’autunno 2008 e’ non solo sufficiente, ma contiene anche abbastanza contingenza per far fronte a imprevisti Gli esperimenti (soprattutto ATLAS e CMS) non erano molto d’accordo Il DG del CERN ha chiesto di arrivare ad una soluzione condivisa entro l’estate
…e in Italia?
“See your taxEuros at work!” Negli ultimi mesi la giunta dell’INFN ha incoraggiato lo sviluppo di un tool che permettesse di avere un colpo d’occhio dell’utilizzo delle risorse di calcolo per gli esperimenti LHC in Italia I referee hanno definito i requisiti per l’accounting di CPU e disco: –VO LHC e non –Job grid e locali –WCT e CPU time –Allocazione disco per space tokens (where applicable) –Accounting su base mensile e annuale implementazione a cura del gruppo DGAS/HLRMON (T. Ferrari, Gaido, Misurelli, Fattibene, Dal Pra’, Solagna, Bagnasco et al.) Il sito e’ al momento accessibile al presidente dell’INFN, ai membri di giunta, ai componenti del consiglio direttivo, ai presidenti delle CSN1 e CSN3 e ai referee I grafici prodotti verranno mostrati in seguito separatamente per Tier1 e Tier2
Pagina di benvenuto
Affidabilita’ dei Tier1 per VO
Uso CPU Tier1
Accounting disco al Tier1
Piano di sviluppo del Tier1 Alla luce di quanto detto in precedenza, occorre mantenere buona flessibilita’ per poter procurare in tempo le risorse richieste dagli esperimenti al Tier1 CNAF Il piano di acquisti prevede quindi una opzione “base”, e due opzioni aggiuntive per acquisti ulteriori da esercitare in caso di necessita’ La copertura finanziaria delle opzioni aggiuntive potrebbe essere un problema
Il piano per il Tier1
Tier2 in Italia
Tier 2 Sedi ALICE –Torino e Catania approvati –Legnaro e Bari in incubatore ATLAS –Roma1, Milano e Napoli approvati –Frascati in incubatore CMS –Legnaro, Pisa e Roma1 approvati –Bari in incubatore LHCb –CNAF –Fa parte strutturalmente del TIER1, ma finanziato dalla CSN1. Solo CPU per simulazione –Non è ancora incluso nell’accounting Tier2 di LCG Attività intensa in tutte le sedi –Anche se con differenze di maturità e chiarezza di intenti Controllo delle scelte tecniche da parte della CCR –Costi unitari per disco e CPU –Scelta tra disco NAS (Network Attached Storage) e disco SAN (Storage Area Network) –Scelta infrastrutture di rete –Impatto su necessità di risorse umane e monetarie
Affidabilità della griglia sui Tier2 August 08 “Site Reliability” a function of grid services middleware site operations storage management systems networks PS: _NOT_ a function of exp. requirements! Il fatto che tutti abbiano gli stessi numeri e’ un artefatto del sistema di accounting di WLCG… ?!?
Utilizzo dei Tier2
Uso CPU T2 ATLAS MILANO NAPOLI ROMA1-ATLAS Proto T2 LNF
Uso CPU T2 CMS PISA LNL (include anche ALICE) ROMA1-CMS Proto-T2 BARI – utilizzo consistente da parte di utenti non-HEP
Uso CPU T2 Alice/LHCb CATANIA CNAF-LHCb TORINO NB: ALICE calcola anche a LNL e Bari Problemi di configurazione?
Accounting disco MILANONAPOLI ROMA1-ATLASLNF
BARI CATANIA LNLPISA TORINO ROMA1-CMS n.p. CNAF-LHCb n.a. Accounting disco
Un paio di avvertimenti Con l’avvento della presa dati, le dimensioni dei Tier2 aumenteranno significativamente Diventano sempre più importanti –La disponibilità delle risorse umane e la loro motivazione –Le spese di corrente elettrica –Le spese per rack ed apparati di rete
Conclusioni LHC sta per partire (molto lentamente…) Gli esperimenti stanno esercitando il sistema calcolo a livelli via via crescenti –Qualcuno è più avanti, qualcuno meno L’esosita’ delle richieste per un intervallo di tempo macchina tutto sommato limitato e’ soprendente –Che succedera’ quando LHC arrivera’ a regime? Il calcolo in Italia funziona ragionevolmente bene –Qualcuno è più avanti, qualcuno meno Cerchiamo di seguire un approccio pragmatico al calcolo –Tenendo conto delle incertezze –Prevedendo dei margini di sicurezza –Verificando l’accuratezza dei modelli di calcolo con i primi mesi di presa dati –Mantenendo un buon grado di flessibilità nelle procedure di acquisizione delle risorse