Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoRosalinda Zanetti Modificato 8 anni fa
1
Calcolo a LHC CB 23 maggio 2011 Quadro generale Gare CPU e disco
2
Utilizzo delle risorse
3
Qualche paragone IN2P3 CNAF RAL FZK
4
Dove calcolano gli esperimenti? ALICE ATLAS CMS LHCb (Gen-Dic 2010 - notare le scale) CERN + Tier1
5
Dove calcolano gli esperimenti? ALICEATLAS CMS LHCb Tier2
6
ATLAS Qualche dettaglio dalla riunione di referaggio
7
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 7 2010/11 LHC pp data taking TB Logical data Physical data 2010 2011
8
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 8 2011 LHC – Data Distribution MB/s per day Produzione transf. dati da produzione interni alle cloud Tier-0 export flusso dati da tier0 include calibration streams Sottoscrizioni utenti Functional test GennaioFebbraioMarzoAprileMaggio Attività 4000 2000 Data consolidation Transf. dati tra Tier1 extra-cloud Data brokering trasf. Dinamico dati analisi Data brokering solo formati leggeri (AOD, NTUP) basso throughput
9
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 9 Utilizzo risorse in Italia WCT consumptions dei job di produzione. Giugno 2010 – Maggio 2011 Share della cloud inferiore a quello del CNAF: inferiori risorse nei Tier2 risorse 2010 appena installate
10
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 10 Utilizzo risorse in Italia WCT consumptions dei job di produzione. Giugno 2010 – Maggio 2011 Lo share minore di Milano è dovuto soprattutto al ritardo delle ultime installazioni di CPU dovute a grossi problemi con l’installazione di uno storage difettoso e alla contemporanea diminuzione (temporanea) del personale scelta di privilegiare l’analisi per favorire l’ampia comunità di riferimento Il Tier3 di RM tre ha messo a disposizione per ATLAS circa cento cores da febbraio. Quando libere utilizzate dai job di produzione
11
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 11 Utilizzo risorse in Italia WCT consumptions dei job di analisi. Giugno 2010 – Maggio 2011 I Tier3 per l’analisi vengono utilizzati solo per l’interattivo e non compaiono nell’accounting di Panda
12
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 12 Utilizzo risorse al CNAF Monitor CNAF Risorse ATLAS al CNAF (250 giorni): usato: ~ 50 M HS assegnato: ~ 40 M HS ATLAS 32% ATLAS ha beneficiato della bassa attività di alcune VO soprattutto nel 2010
13
CMS Qualche dettaglio dalla riunione di referaggio
14
14
17
LHCB Qualche dettaglio dalla riunione di referaggio
20
Notizie dall’RRB Le condizioni sperimentali di LHC hanno prodotto cambiamenti nei modelli di calcolo degli esperimenti Buzzword: “Pile-up” – Eventi piu’ massicci del previsto – Tempi di ricostruzione dilatati – Impatto sulle simulazioni Dato che le risorse 2011 erano gia’ decise, gli esperimenti hanno conseguentemente adattato i loro modelli di calcolo – Meno copie distribuite in giro per il mondo – Meccanismi di cancellazione automatica di dataset poco utilizzati – Utilizzo maggiore della rete – Meno passi di ricostruzione Una conseguenza positiva: incrementi 2011-2012 sensibilmente minori rispetto a 2010-2011
21
Notizie dall’RRB Chiesti aumenti di banda passante del trigger – LHCC ha detto che e’ una buona idea… purche’ sia fatto a risorse costanti… – …con l’eccezione di LHCb: +50% da 2kHz a 3kHz e un impatto sulle risorse significativo Richieste generalmente accolte dallo Scrutiny Group, con modifiche minime Per ALICE, le risorse richieste continuano ad essere sistematicamente piu’ alte delle pledge – si e’ suggerito di ridurre la frazione di eventi simulati, il numero di ricostruzioni e le copie distribuite nei vari Tier – Se ne riparla in autunno
22
CRSG recommendations – April C-RRB
23
Acquisti 2012: vincoli Per avere le CPU installate ad aprile 2012, le gare devono andare in direttivo a fine giugno capitolati da sottomettere entro questa settimana! Conviene effettuare gare congiunte per le CPU di Tier1 e Tier2 – Gia’ fatto nell’anno in corso – Con ovvi risparmi! ~40%! Per il disco: – Tempistica leggermente piu’ rilassata – Diverse soluzioni tecnologiche gare separate per Tier1 e Tier2 Il referaggio delle risorse al Tier1 e’ abbastanza “automatico” per gli esperimenti a LHC – Verifichiamo l’utilizzo delle risorse negli ultimi mesi – Recepiamo quanto deliberato dall’RRB ad aprile, riscalando con le percentuali di italiani in ogni esperimento – Utilizziamo fattori di scala (“overlap”) Per i Tier2, c’e’ – una parte che scala con il modello di calcolo (di referaggio immediato) – Una parte aggiuntiva per l’analisi degli italiani (piu’ complicata e non ancora completamente definita)
24
Gli “overlap” al Tier1 Per le CPU, e’ praticamente impossibile che tutti gli esperimenti che calcolano al Tier1 necessitino contemporaneamente di tutte le risorse a loro allocate Introdotto “overlap” del 20% per riscalare le risorse di ogni esperimento Per il disco, un overlap analogo del 10% era stato introdotto per motivi “storici” Allo stato attuale, riteniamo l’overlap per il disco superato… …ma se dovessimo eliminarlo completamente dovremmo acquistare 1PB aggiuntivo in un solo colpo! Diluiamo nel tempo (vedi oltre)
25
CPU overlap L’accounting di WLCG per gli ultimi mesi del 2010 e i primi tre mesi del 2011 mostra un utilizzo delle risorse di circa il 115% rispetto alle pledges L’overlap ha senso, ma possiamo leggermente ridurlo – LHC sta passando da 2/3 a ¾ delle CPU del Tier1 Ha senso anche rivedere al rialzo le pledge per una frazione significativa dell’overlap
26
Piano Tier1 CNAF PLAN APRIL 2011 20112012 Experiment %CPUDISKTAPECPUDISKTAPE HS06TB-NTBHS06TB-NTB ALICE22%22200150124002589017493952 ATLAS32%22600248030002590027003600 CMS35%18300240065001885028606630 LHCB11%9750525520169501425930 Total LHC TIER1 7285069061242087590873415112 BaBar 2360350016003500 SuperB (dal 2011) 25005002500500 CDF 700030015700030015 LHCB TIER2 540000720000 TOTALE GRUPPO I 17260700151830070015 AMS2 245714350274521155 ARGO 8001607528001841086 AUGER 1200110012001100 FERMI/GLAST 1400604014006040 MAGIC 45030505003060 PAMELA 60060806004864 Virgo 75004693487500660 TOTALE GRUPPO II 14407103213201474513031965 All experiments 1045178638137551206351073717092 All w/ overlap factor87098785313755100529976117092 CNAF TOTAL (PLAN)87098785313755100529976117092 overlap mitigation 1020989761 Effective overlap 1.181.10 CNAF to be procured21171114852941343215583337 with overlap mitigation 150001558 Il piano assume: ALICE: 19%,ATLAS 10% CMS: 13%LHCb: 15% Fattori di overlap: CPU: 20%Disco: 10% ALICE: chiesti approfondimenti all’RRB – Se ne riparla a settembre – Possibile diminuzione delle risorse accordato circa il 50% di quanto richiesto Il resto in opzione Cambiamenti importanti per LHCb – Trigger rate +50% Nastro ancora da finalizzare – L’occupazione e’ al momento bassa – Occorre includere KLOE! (~1PB) – Limite attuale 10PB: OK per 2011 – Per espandere a 14PB: 350kE – E’ davvero necessario?
27
Piano Tier2 – ATLAS e CMS ATLAS20112012 Richieste2012 Proposte CPU Disco(TB n)CPUDiscoCPUDisco LNF23122585430461 Milano7820856104941059 Napoli8079864107531067 Roma7880864105541067 Tot26091284237231365230091TBD 2011Richieste 2012Proposte 2012 CMSCPUDISCOCPUDiscoCPUDISCO HS06TBNHS06TBN Bari11000650150001005 LNL11000820143001205 Pisa12500850165001110 Roma1990060012900800 Tot. T244400.0292058700412046400TBD NB: non sono comprese le CPU per analisi “italiane”
28
Piano Tier2 – ATLAS e CMS Note per le proposte: (1)non sono comprese le CPU per analisi “italiane” (2)Il disco non e’ stato ancora referato (3)Bisogna aggiungere l’overhead per server e rete ATLAS CPU Richieste CPU Proposte DISCO Richieste DISCO Proposte Totale rich. Totale prop. HS06KEHS06kETBNkETBNkE LNF36236520389 Milano308856241106 Napoli38286920389 Roma41677520389 Tot. T2147062657566136848373TBD 401TBD CMS CPU Richieste CPU Proposte DISCO Richieste DISCO Proposte Totale rich. Totale prop. HS06kEHS06kETBNkETBNkE Bari490088355156 LNL6150111525169 Pisa400072490114 Roma130005422488 Tot. T21805032557501041594528TBD 853TBD
29
Dal piano agli acquisti Occorre tenere conto di risorse effettivamente disponibili Tier1 disk: +500TB! obsolescenza costi unitari incertezze sulle richieste degli esperimenti diverso stato di avanzamento delle richieste disponibilita’ finanziarie al Tier1 900kE derivanti da – avanzi di gara – impegni di stanziamento precedenti – Integrazioni recenti (in)disponibilita’ finanziarie delle CSN1, 2 e 3
30
Base + opzioni Si divide la gara in un lotto base + 1 o piu’ opzioni aggiuntive Compro X impegnando subito le risorse Mi riservo di comprare Y e/o Z a partire dalla data K, utilizzando risorse che dovessero nel frattempo rendersi disponibili Meccanismo utilizzato con grande soddisfazione negli ultimi due anni Possibile effettuare “anticipi” Gara disco al Tier1 non necessaria per il 2011 Cambio euro/dollaro ha giocato a nostro favore (mal “del diman non v’e’ certezza”) Avanzi riassorbiti nell’impegno di stanziamento del Tier1… …ma non riassegnati alle commissioni scientifiche nel bilancio corrente (forse nel 2012?)
31
Raccomandazioni gare 2012: CPU Il fabbisogno e’ di circa 13kHS06 Togliamo l’overlap sulle nuove risorse e raccomandiamo una gara base per 15kHS06 raccomandiamo l’acquisto tramite opzione aggiuntiva di almeno 18.3kHS06 per (numeri indicativi) – la parte “istituzionale” dei Tier2, comprensiva di rimpiazzi ATLAS: 7.55kHS CMS: 5.75kHS06 – il 50% delle CPU dei Tier2 di ALICE: 5kHS06 Aggiungiamo un’altra opzione (a bassa priorita’) per il rimpiazzo di 14kHS06 di risorse obsolete Vorremmo inserire un’ulteriore opzione per le rimanenti CPU di ALICE e la parte “italiana” di ATLAS e CMS, ma date le incertezze e’ difficile quantificarla! Probabilmente un’opzione di 10kHS06 potrebbe darci la flessibilita’ richiesta includendo anche i probabili aumenti di richieste degli esperimenti di CSN2
32
CPU: riassumendo e arrotondando Gara CPUkHS06kEFondo CNAF CSN1CSN2/VIR GO CSN3 Base15 2702471760 Opzione 120 3600270090 Opzione 210 180720090 Opzione 315 270270 (0)0 (270)00 Totale (limite superiore) 601080589 (319)287 (557)6180 Base:piano Tier1 + CPU LHCb + CSN2 Opzione 1: parte dei Tier2 di ALICE, ATLAS, CMS Opzione 2: buffer da utilizzare per completamento CPU di ALICE a Tier1 e Tier2 Opzione 3: buffer da utilizzare per rimpiazzo risorse obsolete al Tier1 (completamento CPU ai Tier2 di ATLAS e CMS) Costo unitario: 18kE/kHS06
33
Raccomandazioni gare 2012: disco Il referaggio del disco ai Tier2 necessita di ulteriori approfondimenti Speriamo di convergere per la riunione di luglio Per il Tier1, il fabbisogno stimato (continuando ad applicare l’overlap del 10%) e’ di 1.56PBn Raccomandiamo un’opzione di 0.44PBn per – Il disco rimanente di ALICE – tenere conto di richieste da parte di esperimenti non- LHC Raccomandiamo una seconda opzione di 0.5PBn per mitigare l’overlap del disco
34
Piano Tier1 – gara disco Gara discoTB-nkEFondo CNAF CSN1CSN2/VIR GO CSN3 Base1560 79068601040 Opzione 1440 22410260 0 Opzione 2500 254 000 Totale (limite superiore) 250012681042601640 Costo unitario: 507E/TB-n Base:piano Tier1 + CSN2 Opzione 1: buffer da utilizzare per completamento disco ALICE eventuali esigenze di esperimenti non-LHC di CSN1 e CSN2 Opzione 2: buffer da utilizzare per riduzione del fattore di overlap per il disco (10% 5%)
35
Altro ATLAS: richiesto riconoscimento di LNF come Tier2 – Visita di referaggio il 20 giugno alle 10 Tier3 – attivita’ ATLAS e CMS presentate alla riunione di referaggio e al workshop CCR – Capire qual’e’ la direzione per l’analisi finale da parte della comunita’ italiana – Tier3? Risorse aggiuntive ai Tier2 – Cosa fanno gli altri? USA: ATLAS ha risorse distribuite in parecchi Tier3, CMS ha una facility a Fermilab
36
Conclusione Il calcolo degli esperimenti funziona bene Le risorse raccomandate per il 2012 permettono di partecipare attivamente al programma di fisica Se dovessero essercene di meno, i risultati arriveranno in ritaro… …o li produrra’ qualcun altro! Gare CPU e disco definite con basi e opzioni Vanno definite meglio – CPU aggiuntive ai Tier2 – Esperimenti non-LHC di CSN1 e CSN2 – Le risorse di ALICE Restano fuori – Nastro al Tier1 (da fondone CNAF; ~350kE) – Disco ai Tier2 (da CSN1 e CSN3; per CSN1 richiesti ~900kE) – Overhead per rete e server ai Tier2 (da CSN1 e CSN3)
37
Grazie per l’attenzione!
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.