Calcolo a LHC Concezio Bozzi, INFN Ferrara per il gruppo di referaggio: F. Bossi, CB, R. Ferrari, D. Lucchesi, D. Martello, [M. Morandin], S. Pirrone, M. Taiuti Parma, 22 settembre 2010 Sommario: Utilizzo delle risorse Il calcolo in Italia –Tier1 e piano relativo –Richieste e proposte Tier2
Large numbers of analysis users CMS ~500, ATLAS ~1000, LHCb/ALICE ~200 Use remains consistently high – 1 M jobs/day; 100k CPU- days/day WLCG Usage 1 M jobs/day LHCb CMS 100k CPU-days/day ALICE: ~200 users, 5-10% of Grid resources
Data distribution ATLAS: Total throughput T0-T1; T1-T1; T1-T2 CMS: T0 – T1 LHCb: T0 – T1
Uso delle risorse (CERN+T1) ALICECMS installed capacity (inc. efficiency factor) ATLASLHCb MoU commitment (inc. efficiency factor)
Qualche paragone CERN CNAF IN2P3 FZK
Qualche paragone CERNCNAF IN2P3 FZK
Dove calcolano gli esperimenti?
Significant use of Tier 2s for analysis – frequently-expressed concern that too much analysis would be done at CERN is not reflected CPU – July Tier 0 capacity underused in general – But this is expected to change as luminosity increases
Need to adapt to changing technologies – Major re-think of storage and data access – Use of many-core CPUs (and other processor types?) – Virtualisation as a solution for job management Brings us in line with industrial technology Integration with public and commercial clouds Network infrastructure – This is the most reliable service we have – Invest in networks and make full use of the distributed system Grid Middleware – Complexity of today’s middleware compared to the actual use cases – Evolve by using more “standard” technologies: e.g. Message Brokers, Monitoring systems are first steps But: retain the WLCG infrastructure – Global collaboration, service management, operational procedures, support processes, etc. – Security infrastructure – this is a significant achievement both the global A&A service and trust network (X509) and the operational security & policy frameworks Ian Bird, CERN11 Evolution and sustainability
Situazione attuale Gare 2010: completamento dell’installazione della seconda opzione per CPU e prima opzione disco –Totale: 5M€! Ulteriore impegno di stanziamento Tier1 di 1.5M€, specificamente per esperimenti LHC –Le CSN1 e 2 integrano per gli esperimenti non LHC e per il Tier2 di LHCb Il centro funziona bene, ma le risorse arrivano sempre con un po’ di ritardo –Meno calcolo in tarda primavera anche a causa della mancanza di spazio disco
Uso CPU Tier1
Piano di sviluppo del Tier1 Ne abbiamo già discusso a maggio Le risorse determinate all’RRB per il 2011 sono state riscalate –suddivisione per esperimento, con percentuale basata su frazione italiana di collaboratori: ALICE 19%, ATLAS 10%, CMS 13%, LHCb 15% Abbiamo preso il minimo tra quanto risultante dall’algoritmo e quanto effettivamente richiesto dall’esperimento Abbiamo recepito i risultati del referaggio del calcolo degli esperimenti non LHC (possibili piccoli aggiustamenti per gli esperimenti di CSN2) Abbiamo applicato i consueti fattori di overlap (20% CPU, 10% disco) Teniamo conto del rimpiazzo di hardware obsoleto (acquisti 2007) Teniamo conto degli acquisti effettivamente effettuati nel 2010 (più hardware a parità di costo) Utilizziamo i costi unitari stimati dalla CCR: 22k€/kHS06, 0.65k€/TBn Le necessità di disco per il 2011 possono essere soddisfatte con l’opzione 2 della gara 2010 –C’è disponibilità finanziaria e si evita di imbastire una nuova gara Per le CPU occorre effettuare una nuova gara –Con il coinvolgimento dei Tier2
Il piano per il Tier1
Suddivisione delle risorse
Pledge Tier1 per WLCG Per il 2011 mettiamo quanto previsto dal piano Per il 2012 riduciamo di circa il 10% Warning: la pledge del nastro implica l’acquisto di una nuova libreria o di nuovi driver. È davvero necessario? CNAF
Evoluzione temporale CPU Disco Nastro
Tier2 in Italia
Uso CPU T2 ATLAS “Frascati”Milano NapoliRoma
Uso CPU T2 CMS “Bari” (con ALICE)LNL (con ALICE) PisaRoma Condividere risorse ottimizza l’efficienza!
Tier2: proposte di assegnazione Costi unitari: come per il Tier1 Overhead per rete e server aggiuntivi: abbiamo aggiornato i coefficienti dell’algoritmo introdotto l’anno scorso –Rete: 6% (finanziamento cpu) + 5% (finanziamento disco) –Altre CPU: 7% (finanziamento cpu + disco) Richieste CPU accolte Richieste disco ridotte di circa 200TBn per esperimento Warning: le gare per i Tier2 sono diventate complicate come quelle del Tier1
T2 ATLAS: proposte Finanziamento CPU (171k€) da anticipare su bilancio Proposte: 764kE [CPU 171k€, disco 510k€, overhead 83k€] Richieste: 957k€ Tre Tier2 Un proto-Tier2 finanziato al 30%
T2 CMS: proposte Finanziamento CPU (389k€) da anticipare su bilancio Richieste: 1618kE Proposte: 1260kE [CPU 389k€, disco 744k€, overhead 127k€]
Pledge Tier2 WLCG CMS è in linea con l’estrapolazione dei numeri dell’RRB ATLAS leggermente meno –Parte delle risorse sono riservate alle attività italiane
Tier3 C’è parecchia attività in giro per il mondo (principalmente in US) In Italia: –diverse sperimentazioni in corso, che riconosciamo valide e incoraggiamo –manca ancora un piano unitario e coerente da parte degli esperimenti –Raccomandiamo 20k€ indivisi al R.N. di ATLAS per continuare la sperimentazione
Catastrofe di bilancio Abbiamo interagito con i rappresentanti di ATLAS e CMS Taglio soffice [111k€]: riduzione dell’assegnazione per disco e overhead relativo (45k€ ATLAS, 66k€ CMS) Taglio intermedio [227k€]: taglio soffice + azzeramento overhead per server (116k€ = 45k€ ATLAS, 71k€ CMS) Taglio duro [330k€]: taglio intermedio + azzeramento overhead per rete (83k€ = 34k€ ATLAS, 49k€ CMS) + azzeramento Tier3 ATLAS (20k€) In questo momento nel DB c’è il taglio duro, che ci sembra eccessivamente penalizzante Si possono utilizzare anticipi per ridurre i tagli?