Calcolo a LHC CB 23 maggio 2011 Quadro generale Gare CPU e disco
Utilizzo delle risorse
Qualche paragone IN2P3 CNAF RAL FZK
Dove calcolano gli esperimenti? ALICE ATLAS CMS LHCb (Gen-Dic notare le scale) CERN + Tier1
Dove calcolano gli esperimenti? ALICEATLAS CMS LHCb Tier2
ATLAS Qualche dettaglio dalla riunione di referaggio
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS /11 LHC pp data taking TB Logical data Physical data
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS LHC – Data Distribution MB/s per day Produzione transf. dati da produzione interni alle cloud Tier-0 export flusso dati da tier0 include calibration streams Sottoscrizioni utenti Functional test GennaioFebbraioMarzoAprileMaggio Attività Data consolidation Transf. dati tra Tier1 extra-cloud Data brokering trasf. Dinamico dati analisi Data brokering solo formati leggeri (AOD, NTUP) basso throughput
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 9 Utilizzo risorse in Italia WCT consumptions dei job di produzione. Giugno 2010 – Maggio 2011 Share della cloud inferiore a quello del CNAF: inferiori risorse nei Tier2 risorse 2010 appena installate
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 10 Utilizzo risorse in Italia WCT consumptions dei job di produzione. Giugno 2010 – Maggio 2011 Lo share minore di Milano è dovuto soprattutto al ritardo delle ultime installazioni di CPU dovute a grossi problemi con l’installazione di uno storage difettoso e alla contemporanea diminuzione (temporanea) del personale scelta di privilegiare l’analisi per favorire l’ampia comunità di riferimento Il Tier3 di RM tre ha messo a disposizione per ATLAS circa cento cores da febbraio. Quando libere utilizzate dai job di produzione
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 11 Utilizzo risorse in Italia WCT consumptions dei job di analisi. Giugno 2010 – Maggio 2011 I Tier3 per l’analisi vengono utilizzati solo per l’interattivo e non compaiono nell’accounting di Panda
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 12 Utilizzo risorse al CNAF Monitor CNAF Risorse ATLAS al CNAF (250 giorni): usato: ~ 50 M HS assegnato: ~ 40 M HS ATLAS 32% ATLAS ha beneficiato della bassa attività di alcune VO soprattutto nel 2010
CMS Qualche dettaglio dalla riunione di referaggio
14
LHCB Qualche dettaglio dalla riunione di referaggio
Notizie dall’RRB Le condizioni sperimentali di LHC hanno prodotto cambiamenti nei modelli di calcolo degli esperimenti Buzzword: “Pile-up” – Eventi piu’ massicci del previsto – Tempi di ricostruzione dilatati – Impatto sulle simulazioni Dato che le risorse 2011 erano gia’ decise, gli esperimenti hanno conseguentemente adattato i loro modelli di calcolo – Meno copie distribuite in giro per il mondo – Meccanismi di cancellazione automatica di dataset poco utilizzati – Utilizzo maggiore della rete – Meno passi di ricostruzione Una conseguenza positiva: incrementi sensibilmente minori rispetto a
Notizie dall’RRB Chiesti aumenti di banda passante del trigger – LHCC ha detto che e’ una buona idea… purche’ sia fatto a risorse costanti… – …con l’eccezione di LHCb: +50% da 2kHz a 3kHz e un impatto sulle risorse significativo Richieste generalmente accolte dallo Scrutiny Group, con modifiche minime Per ALICE, le risorse richieste continuano ad essere sistematicamente piu’ alte delle pledge – si e’ suggerito di ridurre la frazione di eventi simulati, il numero di ricostruzioni e le copie distribuite nei vari Tier – Se ne riparla in autunno
CRSG recommendations – April C-RRB
Acquisti 2012: vincoli Per avere le CPU installate ad aprile 2012, le gare devono andare in direttivo a fine giugno capitolati da sottomettere entro questa settimana! Conviene effettuare gare congiunte per le CPU di Tier1 e Tier2 – Gia’ fatto nell’anno in corso – Con ovvi risparmi! ~40%! Per il disco: – Tempistica leggermente piu’ rilassata – Diverse soluzioni tecnologiche gare separate per Tier1 e Tier2 Il referaggio delle risorse al Tier1 e’ abbastanza “automatico” per gli esperimenti a LHC – Verifichiamo l’utilizzo delle risorse negli ultimi mesi – Recepiamo quanto deliberato dall’RRB ad aprile, riscalando con le percentuali di italiani in ogni esperimento – Utilizziamo fattori di scala (“overlap”) Per i Tier2, c’e’ – una parte che scala con il modello di calcolo (di referaggio immediato) – Una parte aggiuntiva per l’analisi degli italiani (piu’ complicata e non ancora completamente definita)
Gli “overlap” al Tier1 Per le CPU, e’ praticamente impossibile che tutti gli esperimenti che calcolano al Tier1 necessitino contemporaneamente di tutte le risorse a loro allocate Introdotto “overlap” del 20% per riscalare le risorse di ogni esperimento Per il disco, un overlap analogo del 10% era stato introdotto per motivi “storici” Allo stato attuale, riteniamo l’overlap per il disco superato… …ma se dovessimo eliminarlo completamente dovremmo acquistare 1PB aggiuntivo in un solo colpo! Diluiamo nel tempo (vedi oltre)
CPU overlap L’accounting di WLCG per gli ultimi mesi del 2010 e i primi tre mesi del 2011 mostra un utilizzo delle risorse di circa il 115% rispetto alle pledges L’overlap ha senso, ma possiamo leggermente ridurlo – LHC sta passando da 2/3 a ¾ delle CPU del Tier1 Ha senso anche rivedere al rialzo le pledge per una frazione significativa dell’overlap
Piano Tier1 CNAF PLAN APRIL Experiment %CPUDISKTAPECPUDISKTAPE HS06TB-NTBHS06TB-NTB ALICE22% ATLAS32% CMS35% LHCB11% Total LHC TIER BaBar SuperB (dal 2011) CDF LHCB TIER TOTALE GRUPPO I AMS ARGO AUGER FERMI/GLAST MAGIC PAMELA Virgo TOTALE GRUPPO II All experiments All w/ overlap factor CNAF TOTAL (PLAN) overlap mitigation Effective overlap CNAF to be procured with overlap mitigation Il piano assume: ALICE: 19%,ATLAS 10% CMS: 13%LHCb: 15% Fattori di overlap: CPU: 20%Disco: 10% ALICE: chiesti approfondimenti all’RRB – Se ne riparla a settembre – Possibile diminuzione delle risorse accordato circa il 50% di quanto richiesto Il resto in opzione Cambiamenti importanti per LHCb – Trigger rate +50% Nastro ancora da finalizzare – L’occupazione e’ al momento bassa – Occorre includere KLOE! (~1PB) – Limite attuale 10PB: OK per 2011 – Per espandere a 14PB: 350kE – E’ davvero necessario?
Piano Tier2 – ATLAS e CMS ATLAS Richieste2012 Proposte CPU Disco(TB n)CPUDiscoCPUDisco LNF Milano Napoli Roma Tot TBD 2011Richieste 2012Proposte 2012 CMSCPUDISCOCPUDiscoCPUDISCO HS06TBNHS06TBN Bari LNL Pisa Roma Tot. T TBD NB: non sono comprese le CPU per analisi “italiane”
Piano Tier2 – ATLAS e CMS Note per le proposte: (1)non sono comprese le CPU per analisi “italiane” (2)Il disco non e’ stato ancora referato (3)Bisogna aggiungere l’overhead per server e rete ATLAS CPU Richieste CPU Proposte DISCO Richieste DISCO Proposte Totale rich. Totale prop. HS06KEHS06kETBNkETBNkE LNF Milano Napoli Roma Tot. T TBD 401TBD CMS CPU Richieste CPU Proposte DISCO Richieste DISCO Proposte Totale rich. Totale prop. HS06kEHS06kETBNkETBNkE Bari LNL Pisa Roma Tot. T TBD 853TBD
Dal piano agli acquisti Occorre tenere conto di risorse effettivamente disponibili Tier1 disk: +500TB! obsolescenza costi unitari incertezze sulle richieste degli esperimenti diverso stato di avanzamento delle richieste disponibilita’ finanziarie al Tier1 900kE derivanti da – avanzi di gara – impegni di stanziamento precedenti – Integrazioni recenti (in)disponibilita’ finanziarie delle CSN1, 2 e 3
Base + opzioni Si divide la gara in un lotto base + 1 o piu’ opzioni aggiuntive Compro X impegnando subito le risorse Mi riservo di comprare Y e/o Z a partire dalla data K, utilizzando risorse che dovessero nel frattempo rendersi disponibili Meccanismo utilizzato con grande soddisfazione negli ultimi due anni Possibile effettuare “anticipi” Gara disco al Tier1 non necessaria per il 2011 Cambio euro/dollaro ha giocato a nostro favore (mal “del diman non v’e’ certezza”) Avanzi riassorbiti nell’impegno di stanziamento del Tier1… …ma non riassegnati alle commissioni scientifiche nel bilancio corrente (forse nel 2012?)
Raccomandazioni gare 2012: CPU Il fabbisogno e’ di circa 13kHS06 Togliamo l’overlap sulle nuove risorse e raccomandiamo una gara base per 15kHS06 raccomandiamo l’acquisto tramite opzione aggiuntiva di almeno 18.3kHS06 per (numeri indicativi) – la parte “istituzionale” dei Tier2, comprensiva di rimpiazzi ATLAS: 7.55kHS CMS: 5.75kHS06 – il 50% delle CPU dei Tier2 di ALICE: 5kHS06 Aggiungiamo un’altra opzione (a bassa priorita’) per il rimpiazzo di 14kHS06 di risorse obsolete Vorremmo inserire un’ulteriore opzione per le rimanenti CPU di ALICE e la parte “italiana” di ATLAS e CMS, ma date le incertezze e’ difficile quantificarla! Probabilmente un’opzione di 10kHS06 potrebbe darci la flessibilita’ richiesta includendo anche i probabili aumenti di richieste degli esperimenti di CSN2
CPU: riassumendo e arrotondando Gara CPUkHS06kEFondo CNAF CSN1CSN2/VIR GO CSN3 Base Opzione Opzione Opzione (0)0 (270)00 Totale (limite superiore) (319)287 (557)6180 Base:piano Tier1 + CPU LHCb + CSN2 Opzione 1: parte dei Tier2 di ALICE, ATLAS, CMS Opzione 2: buffer da utilizzare per completamento CPU di ALICE a Tier1 e Tier2 Opzione 3: buffer da utilizzare per rimpiazzo risorse obsolete al Tier1 (completamento CPU ai Tier2 di ATLAS e CMS) Costo unitario: 18kE/kHS06
Raccomandazioni gare 2012: disco Il referaggio del disco ai Tier2 necessita di ulteriori approfondimenti Speriamo di convergere per la riunione di luglio Per il Tier1, il fabbisogno stimato (continuando ad applicare l’overlap del 10%) e’ di 1.56PBn Raccomandiamo un’opzione di 0.44PBn per – Il disco rimanente di ALICE – tenere conto di richieste da parte di esperimenti non- LHC Raccomandiamo una seconda opzione di 0.5PBn per mitigare l’overlap del disco
Piano Tier1 – gara disco Gara discoTB-nkEFondo CNAF CSN1CSN2/VIR GO CSN3 Base Opzione Opzione Totale (limite superiore) Costo unitario: 507E/TB-n Base:piano Tier1 + CSN2 Opzione 1: buffer da utilizzare per completamento disco ALICE eventuali esigenze di esperimenti non-LHC di CSN1 e CSN2 Opzione 2: buffer da utilizzare per riduzione del fattore di overlap per il disco (10% 5%)
Altro ATLAS: richiesto riconoscimento di LNF come Tier2 – Visita di referaggio il 20 giugno alle 10 Tier3 – attivita’ ATLAS e CMS presentate alla riunione di referaggio e al workshop CCR – Capire qual’e’ la direzione per l’analisi finale da parte della comunita’ italiana – Tier3? Risorse aggiuntive ai Tier2 – Cosa fanno gli altri? USA: ATLAS ha risorse distribuite in parecchi Tier3, CMS ha una facility a Fermilab
Conclusione Il calcolo degli esperimenti funziona bene Le risorse raccomandate per il 2012 permettono di partecipare attivamente al programma di fisica Se dovessero essercene di meno, i risultati arriveranno in ritaro… …o li produrra’ qualcun altro! Gare CPU e disco definite con basi e opzioni Vanno definite meglio – CPU aggiuntive ai Tier2 – Esperimenti non-LHC di CSN1 e CSN2 – Le risorse di ALICE Restano fuori – Nastro al Tier1 (da fondone CNAF; ~350kE) – Disco ai Tier2 (da CSN1 e CSN3; per CSN1 richiesti ~900kE) – Overhead per rete e server ai Tier2 (da CSN1 e CSN3)
Grazie per l’attenzione!