Calcolo a LHC Concezio Bozzi, INFN Ferrara per il gruppo di referaggio: F. Bossi, CB, R. Carlin, R. Ferrari, D. Lucchesi, D. Martello, M. Morandin, S. Pirrone, M. Taiuti Padova, 19 maggio 2009 With slides borrowed from S. Bertolucci, I. Bird, K. Bos, S. Foffano, N. Geddes and others
Sommario Lo stato di LHC I modelli di calcolo degli esperimenti Le richieste e il loro referaggio Il calcolo in Italia Tier1 e Tier2 Portale accounting
First protons circulating in the LHC ring The beam was initially intentionally stopped by blocks around 150 metres before experiments, producing these images of the debris or "splash" from the particles hitting the blocks. September 10, 2008
September 19, 2008: incident in sector 3-4 The incident was traced to a faulty electrical connection between segments of the LHC’s superconducting cable (busbars) High impact was caused by collateral damage 2 most severely damaged interconnects 53 Magnets (along a zone of about 700 m) to be removed from tunnel and repaired/exchanged (a few % of entire LHC)
Differences in event processing times (up to 2000s for ATLAS MC!) event sizes, reprocessing strategies, data formats This reflects in big differences in the amounts of required resources Why? In principle the sensitivities to key measurements are very similar!
Affidabilità di WLCG CERN + Tier1s “Site Reliability” a function of grid services middleware site operations storage management systems networks ........ PS: _NOT_ a function of exp. requirements!
Uso delle risorse ALICE CMS installed capacity (inc. efficiency factor) ATLAS LHCb MoU commitment (inc. efficiency factor)
Desiderata aprile 2009 T1 Differenze rispetto a desiderata agosto 2007 Desiderata agosto 2007: pilot run nel 2008, ~107 s nel 2009, anno “nominale” nel 2010 Desiderata aprile 2009: 2 x 106 s fino a 03/10, 4 x 106 s da 04/10 a 03/11 Nuovi desiderata 2010 simili o maggiori dei vecchi !!!
Desiderata aprile 2009 T2 Differenze rispetto a desiderata agosto 2007 Desiderata agosto 2007: pilot run nel 2008, ~107 s nel 2009, anno “nominale” nel 2010 Desiderata aprile 2009: 2 x 106 s fino a 03/10, 4 x 106 s da 04/10 a 03/11 Nuovi desiderata 2010 simili o maggiori dei vecchi !!!
In valori attuali (kE)
Il processo di referaggio Le richieste delle slide precedenti sono state presentate al Resource Review Board di WLCG il 27 aprile 2009 Ci sono cambiamenti nei modelli di calcolo che non sono stati referati da LHCC Le richieste sono state referate (preliminarmente) solo dal Computing Resources Scrutiny Group, che le ha ritenute in gran parte debolmente motivate Per ALICE, CMS, LHCb ha raccomandato che una semplice traslazione di un anno delle risorse gia’ referate e approvate nell’autunno 2008 e’ non solo sufficiente, ma contiene anche abbastanza contingenza per far fronte a imprevisti Ha ritenuto di non essere in grado di dare un giudizio su ATLAS; di primo acchitto, si potrebbe applicare lo scenario degli altri tre esperimenti Gli esperimenti (soprattutto ATLAS e CMS) non erano molto d’accordo Il DG del CERN ha chiesto di arrivare ad una soluzione condivisa entro l’(inizio dell’)estate Credo ci sia una “zona grigia” di sovrapposizione tra Scrutiny Group e LHCC che vada chiarita
…e in Italia?
“See your taxEuros at work!” Negli ultimi mesi la giunta dell’INFN ha incoraggiato lo sviluppo di un tool che permettesse di avere un colpo d’occhio dell’utilizzo delle risorse di calcolo per gli esperimenti LHC in Italia I referee hanno definito i requisiti per l’accounting di CPU e disco: VO LHC e non Job grid e locali WCT e CPU time Allocazione disco per space tokens (where applicable) Accounting su base mensile e annuale implementazione a cura del gruppo DGAS/HLRMON (T. Ferrari, Gaido, Misurelli, Fattibene, Dal Pra’, Solagna, Bagnasco et al.) http://dgas.infn.it Il sito e’ al momento accessibile al presidente dell’INFN, ai membri di giunta, ai componenti del consiglio direttivo, ai presidenti delle CSN1 e CSN3 e ai referee I grafici prodotti verranno mostrati in seguito separatamente per Tier1 e Tier2
Pagina di benvenuto
Affidabilita’ dei Tier1 per VO
Uso CPU Tier1
Accounting disco al Tier1
Piano di sviluppo del Tier1 Alla luce di quanto detto in precedenza, occorre mantenere buona flessibilita’ per poter procurare in tempo le risorse richieste dagli esperimenti al Tier1 CNAF Il piano di acquisti prevede quindi una opzione “base”, e due opzioni aggiuntive per acquisti ulteriori da esercitare in caso di necessita’ Esercitando la prima, si acquistano le risorse corrispondenti al “ritardo di un anno” Esercitando la seconda, le risorse stanno a meta’ tra l’ipotesi “ritardo di un anno” ed accoglimento totale delle richieste degli esperimenti L’acquisto base esaurisce il fondo Tier1 del CNAF La copertura finanziaria delle opzioni aggiuntive va cercata altrove (CSN1/3).
Il piano per il Tier1
Quanto ci costa il Tier1?!?
(se si accolgiessero le richieste) Base + opzione1 2010 base 2010 opzione 2011-2012 (se si accolgiessero le richieste) N.B. si considerano rimpiazzi di materiale obsoleto (>4anni) Totale 2010 dalle CSN1/2/3: 2 MEuro
(se si accolgiessero le richieste) Base + opzione 2 2010 base 2010 opzione 2011-2012 (se si accolgiessero le richieste) N.B. si considerano rimpiazzi di materiale obsoleto (>4anni) Totale 2010 dalle CSN1/2/3: 3.5 MEuro
Ipotesi “cambiale in bianco” 2010 base 2010 opzione 2011-2012 (se si accolgiessero le richieste) N.B. si considerano rimpiazzi di materiale obsoleto (>4anni) Totale 2010 dalle CSN1/2/3: 4.9 MEuro
Tier2 in Italia
Tier 2 Sedi Attività intensa in tutte le sedi ALICE Torino e Catania approvati Legnaro e Bari in incubatore ATLAS Roma1, Milano e Napoli approvati Frascati in incubatore CMS Legnaro, Pisa e Roma1 approvati Bari in incubatore LHCb CNAF Fa parte strutturalmente del TIER1, ma finanziato dalla CSN1. Solo CPU per simulazione Non è ancora incluso nell’accounting Tier2 di LCG Attività intensa in tutte le sedi Anche se con differenze di maturità e chiarezza di intenti Controllo delle scelte tecniche da parte della CCR Costi unitari per disco e CPU Scelta tra disco NAS (Network Attached Storage) e disco SAN (Storage Area Network) Scelta infrastrutture di rete Impatto su necessità di risorse umane e monetarie
Affidabilità della griglia sui Tier2 August 08 ?!? “Site Reliability” a function of grid services middleware site operations storage management systems networks ........ PS: _NOT_ a function of exp. requirements! Il fatto che tutti abbiano gli stessi numeri e’ un artefatto del sistema di accounting di WLCG…
Utilizzo dei Tier2 (S. Foffano, April 2009 RRB)
Uso CPU T2 ATLAS MILANO NAPOLI ROMA1-ATLAS Proto T2 LNF
Uso CPU T2 CMS ROMA1-CMS LNL (include anche ALICE) PISA Proto-T2 BARI – utilizzo consistente da parte di utenti non-HEP
Uso CPU T2 Alice/LHCb CATANIA TORINO NB: ALICE calcola anche a LNL e Bari CNAF-LHCb Problemi di configurazione?
Accounting disco MILANO NAPOLI ROMA1-ATLAS LNF
Accounting disco BARI LNL PISA CATANIA TORINO ROMA1-CMS n.p. CNAF-LHCb
Qualche commento Con l’avvento della presa dati, le dimensioni dei Tier2 aumenteranno significativamente Diventano sempre più importanti La disponibilità delle risorse umane e la loro motivazione Le spese di corrente elettrica Le spese per rack ed apparati di rete Il Tier2 Roma1-CMS e’ sotto osservazione Definiremo un “piano di rientro” con milestone Auspicabile coinvolgere attivamente gli altri Tier2 in loco e lo sfruttamento delle sinergie
Quanto ci costano i Tier2 ?!?
Base+opzione 1 (con rimpiazzi) 2010 base 2010 opzione 2011-2012 (se si accolgiessero le richieste) * * * di cui 791kE s.j. a bilancio 2009 CSN1 * di cui 350kE s.j. a bilancio 2009 CSN3 Totale 2009 – 2010 dalle CSN1/3: 2.5 MEuro
“cambiale in bianco” (con rimpiazzi) 2010 base 2010 opzione 2011-2012 (se si accolgiessero le richieste) * * * di cui 791kE s.j. a bilancio 2009 CSN1 * di cui 350kE s.j. a bilancio 2009 CSN3 Totale 2009 – 2010 dalle CSN1/3: 5.6 MEuro
Tirando le somme… La forchetta finanziaria per le CSN1/2/3 sta tra T1 (2010): [2.0 – 3.5] M€ T2 (2009+2010): [2.5 – 4.0] M€ (1.14M€ già a bilancio) Incertezze su 2011 e soprattutto 2012 Assumendo di accogliere in toto le richieste degli esperimenti si avrebbe: [14.6 – 16.2] M€ ~2/3 su CSN1, ~1/3 su CSN3 E’ preferibile una rampa “dolce” nelle acquisizioni delle risorse
Conclusioni LHC sta per partire (molto lentamente…) Gli esperimenti stanno esercitando il sistema calcolo a livelli via via crescenti Qualcuno è più avanti, qualcuno meno L’esosita’ delle richieste per un intervallo di tempo macchina tutto sommato limitato e’ soprendente Che succedera’ quando LHC arrivera’ a regime? Il calcolo in Italia funziona ragionevolmente bene Cerchiamo di seguire un approccio pragmatico al calcolo Tenendo conto delle incertezze Prevedendo dei margini di sicurezza Verificando l’accuratezza dei modelli di calcolo con i primi mesi di presa dati Mantenendo un buon grado di flessibilità nelle procedure di acquisizione delle risorse
Confronto con piani Tier1 precedenti… Backup Confronto con piani Tier1 precedenti… Conclusione: le risorse dei nuovi piani per un tempo macchina di 4 x 106 secondi nel 2010 corrispondono a quelle di un anno di presa dati nominale dei vecchi piani!
Piano aprile 2009 accogliendo le richieste degli esperimenti Piano settembre 2007 (referato) Piani piu’ vecchi:
Valori totali scorporati in kE per esperimento e Tier (manca qualche numero CERN…)
Valori totali in kE scorporati per esperimento e tipologia (CPU, disk, tape) WARNING: numeri neri non includono CERN
Valori totali in kE scorporati per esperimento e locazione (CERN, T1, T2) WARNING: numeri neri non includono CERN