Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoCasimiro Mantovani Modificato 8 anni fa
1
Report CMS Riunione referaggio 11 Maggio 2012
2
Outline General status del computing (chiusura dei libri 2011) Stato dei siti italiani – Tier1 – Tier2s 2013
3
2011 – in pochi numeri > 5 milioni di secondi di presa dati > 1.5 miliardi eventi RAW raccolti > 5 1/fb raccolti > 4 miliardi di eventi di dati forniti nei vari reprocessing > 15 miliardi di eventi di Monte Carlo forniti nei vari scenari
4
Data taking 2011
5
Tier0 Con l’aumento del PU (<5 inizio anno, fino a 40 in un run speciale a fine anno, oltre 20 dopo Agosto 2011) il tier0 ha sofferto in alcuni momenti a reggere il passo con i dati Fattore principale non direttamente la CPU/ev, ma la RAM utilizzata che non permetteva di utilizzare tutte le CPU (sforamento dei 2 GB/core) Versione CMSSW_4_4 preparata nel caso LHC potesse andare sopra 5e33, ma non messa in produzione nel run pp – Meno RAM, ma anche meno CPU/ev; utile come base di partenza per il 2012 – PP RUN finito con 4_2 per avere unico dataset e facilitare attivita’ di analisi In seguito riprocessato anche con 4_4 – (nota: non un problema per 2012: CMSSW_5_2_X pesantemente ottimizzata per diminuire uso di memoria)
6
Data Reprocessing 4 miliardi di eventi riprocessati, la maggior parte tutti con 4_2 e poi con 4_4 alla fine dell’anno
7
Simulazioni (7 TeV) 15 miliardi di eventi (ri)simulati; Summer/Fall sono diversi per distribuzione PU (low/high)
8
Uso CPU Tier1 Utilizzo Tier1 anche per simulazione MC (non avveniva prima del 2010): ha permesso di saturare le pledges
9
(Heavy Ion Run) Eventi con complessita’ maggiore del 2010 (dovuti a maggior selezione HLT) HI-reco meno resource hungry (RAM) di PP-reco ad alto pileup (tracking pp scende a pT molto + bassi) Meno IO verso CASTOR rispetto al 2010 (zero suppression parziale implementata in HLT)
10
Analisi ai Tier2 Utenti singoli per settimana legato alle attivita’ (vicinanza a conferenze), ma non piu’ periodi morti Numero di jobs per settimana in costante ascesa (raddoppiati nel 2011) Efficienza dei jobs aumentata: anche per l’analisi siamo al 90% Per la produzione siamo da tempo> 95%
11
E cosa leggono i jobs di analisi? AOD RECO Transizione analisi a solo AOD in pratica completata; parte rimanente fisiologica (detector studies) (era una milestone 2011!) A partire da meta’ 2011 I RECO (DT/MC) non vengono piu’ distribuiti ai T2 in Central Space; alcuni gruppi li spostano nei loro group space, ma sono soprattutto I DPG/POG che devono fare studi di detector. I PAG utilizzano nella stragrande maggioranza AOD
12
Trasferimenti Siamo alla full mesh dal 2010 per I trasferimenti via PhEDEx Da qui… … a qui
13
ITALIA: In generale … T1 T2 Risorse previste 1 Apr 2012 (ma, almeno per I T2, sara’ fine 2012 …)
14
Da settembre 2011 (ultimo report) Ultimamente raggiunti gli 8k jobs di CMS nella “regione” CNAF
15
Siti Italiani: Tier1 CNAF per CMS e’ costantemente in lotta per il secondo posto con KIT e RAL Utilizzo del CNAF come visto da CMS a cavallo delle pledge, spesso sopra Da Sett 2011, # di jobs
16
Jobs runnanti in italia ultima settimana (NB: LNL = sommare LNL + PD per motivi tecnici) – in momenti ottimali (altre VO scariche) superiamo gli 8k slots Riempimento CPU piu’ facile anche grazie al fatto che il nuovo L3 per la produzione e’ italiano (V.Spinoso, BA) Job share CMS Italia ultimo anno Tutti I siti insieme …
17
DGAS - CPU Tutti almeno al pledge
18
Disco [DGAS da’ numeri non realistici] La sostanza e’ che lo spazio disponibile e’ scarso (O(10%)), e lo spazio totale raggiunge il pledge solo alla fine dell’anno quando va bene – Risorse che dovevano essere disponibili 1 Aprile 2011 installate fine 2011/inizio 2012 – Abbiamo avuto momenti di criticita’ (< 5% libero – Pi e Rm1)
19
Supporto Gruppi di fisica 8 gruppi supportati (milestone 2011 era “almeno 6”) – Bari: Higgs, SUSY – LNL: ElectroWeak, Muons – Pisa: Tracking, Tau & Particle Flow – Rome: Higgs, Egamma & ECAL
20
Report Attivita’ T1 Eseguiti test di analisi al Tier1 – Positivi anche nello scenario “pessimistico” di recall da tape incontrollati – Lo storage puo' sostenere senza problemi recall da nastro da parte di jobs corrispondenti al 5-10% della farm – Abbiamo aperto (10 gg fa) l’uso del T1 ad alcuni utenti italiani (fase 2 del test) A regime, tutti coloro appartenenti al gruppo=itcms potranno usare il T1 (in realta’ gia’ ora, ma non lo sanno…) Nuovo assegnista di ricerca CNAF ha cominciato il 10 Aprile, ramping up – Secondo assegno approvato, purtroppo ancora con la richiesta dei 24 mesi post laurea – Non abbiamo candidati al momento (eravamo sicuri sarebbe stato bandito senza questa richiesta, e c’era una persona) – vediamo chi applica. Se va deserto, dobbiamo assolutamente fare in modo che sia ribandito come richiesto inizialmente. In generale, ottimo funzionamente del nostro T1
21
Bari Infrastruttura 14 Rack APC in produzione e in gran parte pieni 8 in-row cooler APC 3 UPS da 80kVA in configurazione N+1 2 Chiller da 120kW ciascuno in ridondanza – NEWS: Installati altri 4 rack + 2 in-row cooler APC Questo completa l’infrastruttura prevista in fase di progetto La farm viene usata: – come Tier2 per CMS e ALICE per le attività ufficiali di collaborazione – anche per attività legate ad utenti locali (Tier3 like) per diverse comunità scientifiche (Alice, CMS, SuperB, T2K, Glast/Fermi, Gruppo IV, Gruppo V, Chimica, Farmacia, Fisica medica, Pamela, Bioinformatica, Informatica, etc) – da circa 160 utenti locali registrati (72 di CMS) – sia in interattivo che con sottomissioni al batch system locale Passati a LHCONE il 26 Aprile Acquisti 2012: –CPU fatto (gara comune) – non ancora fisicamente arrivate –Disco gara comune con Ba e Alice/TO approvata alla giunta di Aprile (delibera 9406)
22
Legnaro Integrazione Legnaro-Padova –ottimi risultati dalla collaborazione tra le due sedi, anche in termini di manpower –CPU ora distribuite circa al 50% tra i due siti, mentre storage e servizi critici solo a LNL per minimizzare I downtime –a breve dovremo raddoppiare la banda del link LNL-PD, ora a 10Gb/s, che nei momenti di picco va in saturazione In attesa del collegamento a GARR-X –l’attuale link GARR a 2Gb/s va in saturazione quando CMS e ALICE insieme fanno trasferimenti Acquisti 2012: –CPU fatto (gara comune) – non ancora fisicamente arrivate –Disco gara comune con Ba e Alice/TO approvata alla giunta di Aprile (delibera 9406)
23
Pisa In corso: passaggio da dCache a Storm (complicato dal fatto di non voler mettere downtimes al sito: non possiamo svuotare e ripartire da zero) CMS ha ~ 1300/5000 cores nel CED di Pisa, ma ha la grande maggioranza dello storage (~ 1 PB) Ultimo periodo teorici non troppo attivi: CMS ha utilizzato fino a ~ 3000 slots (> 200%) In GROSSE difficolta’ con il pagamento delle manutenzioni (chiller, condizionamento, centro stella….) non finanziate su nessun capitolo – da discutere con referees una soluzione Passati a LHCONE il 10 maggio Acquisti 2012: – CPU: nessuna risorsa finanziata (beh, 106 HS06) – Disco: 305 TBN (soprattutto dismissioni) Gara per espansione DDN mandata alla giunta a fine Aprile … verso fine anno se va bene pledge
24
Il primo CMSDAS fuori da FNAL si e’ tenuto a Pisa a Gennaio ~70 studenti, ~30 insegnanti. Tutti hanno lavorato sul T2 e sulle UI del CED di Pisa, con accesso a GPFS diretto >150 ore esercizi, con utilizzo pesante del centro (~ 7 gruppi operanti in parallelo) Account Unix creati on the fly utilizzando il link Radius/Indico istruttori
25
Roma1 CMS ha al momento 5 rack Knuerr, di cui 1 soltanto pieno a metà, gli altri in sostanza tutti pieni Ogni rack ha 1 switch con uplink a 10 Gb, oltre a 1 switch low-end per l’IPMI. Il Tier2 globale ha uno switch full 10 Gb, condiviso ATLAS- CMS-Servizi. Stiamo facendo upgrade del cooling: acquistato a fine 2011 un terzo chiller, nel 2012 nuove ventole più potenti e compatte (fondi di Sezione, residui) Al momento CMS non ha necessità di un altro rack, i rimpiazzi saranno in genere più compatti. Passati a LHCONE il 7 Maggio Acquisti 2012: – Nessuna CPU finanziata (beh, 106 HS06 ;) – Disco sotto i 40kEuro, non necessita di gara
26
2013? CMS (come gli altri) ha espresso i suoi desiderata a CSG-RRB; basiamo le nostre richieste qui sull’outcome di tale scrutinio Due punti importanti – CMS per il 2012 vuole usufruire del data parking Aumentare rate in uscita da HLT su tape, con una parte dei dati non processata ulteriormente nel run 2012 (in pratica rate x2) – T1/T2s italiani hanno gia’ chiari numeri per le dismissioni da richiedere per il 2013 Viste lo scrutinio, siamo gia’ nella fase in cui la maggior parte delle risorse economiche va in dismissioni
27
Data Parking Motivazioni: – Vari studi di fisica, fra cui SUSY a bassa massa (risonanze di-jet che potremmo perdere per le soglie 2012 troppo alte) Ottimizzazione trigger per Higgs (democratizzazione trigger VBF) Fisica del B(s) Realizzazione: in pratica salvare il ~200% dei dati processabili offline, e tenerne meta’ per il 2013 – “come se il 2013 ci fosse presa dati” Reprocessing, simulazioni MC necessarie, attivita’ di analisi da scratch Impatto: – Richieste all’RRB aumentate di pochi percento per CPU, disco, tape
28
Richieste CMS all RRB
29
Dismissioni – T2 (Il T1 mandera’ separatamente le sue, non distinte per esperimento) In pratica: da dismettere 17% dello storage e il 23% delle CPU esistenti La lista dettagliata di cosa dismettere per sito e’ a disposizione dei referees Situazione Fine 2012Dismissioni 2013 Dismissioni 2013 in % kHS06TBNkHS06TBN kHS06TBN Bari 12,88162,6196 2024 Pisa 12,6930072 08 Legnaro 11,310635,1174 4516 Roma1 106382,9150 2924 Totali 46,7344710,6592 2317 Totals: 10.6 kHS06 + ~600 TBN To be dismissed
30
Richieste 2013 T2 - CPU Prendendo come base d’azione il report C-RSG – CPU T2 = 350kHS06 (era stato chiesto 400) – Se vogliamo fissare il contributo IT a CMS sul 15% (come l’anno scorso, contiene un piccolo overhead per l’analisi) T2 CMS IT = 350*0.15= 52.5 kHS06 RRB 2011 RRB 2012
31
2013 – CPU T2 Si parte da 46.7kHS06 – 10.6 kHS06 (dismissioni) =16.4 kHS06 da finanziare sul 2013 E cioe’ – BA = 2.6+1.45 = 4.05 kHS06 – LNL = 5.1+1.45 = 6.05 kHS06 – PI = 0 + 1.45 = 1.45 kHS06 – RM1 = 2.9+1.45 = 4.35 kHS06 SitoCPU richieste 2013 (kHS06) Bari4.05 Legnaro6.05 Pisa1.45 Roma14.35
32
2013 – CPU T1 Al momento dallo stesso report NON previsto aumento CPU al T1 (era stato chiesto un aumento del 21% in vista del processamento dei dati parked) Pero’: come detto, inizio di attivita’ di analisi al Tier1, che puo’ solo utilizzare risorse non pledged (al momento ‘t1access/itcms’ hanno un fairshare del 5% delle risorse di cms ~ 100 cores) – Qualunque aumento aiuta questo sforzo di ospitare analisi al T1 Per le dismissioni, essendo indistinte per esperimento, il T1 richiede direttamente
33
2013 – T1 Disk/Tape Disk: C-RSG ha aumentato le risorse T1 22 -> 26 PB (+20%) – Al 13.5% sono 3.5 PB, al momento ne abbiamo dichiarati 2.8 PB. Tape: C-RSG non ha concesso aggiunte di risorse (sempre fermi a 45 PB) – Da ricordare pero’ che fino a poco tempo fa (Aprile) eravamo lontani dall’avere la disponibilita’ di 6630 TB come da pledge (4000TB erano quasi al limite della capacita’). Dovrebbe essere possibile adesso con i nastri da 5 TB
34
Analisi (aka “Tier3”) CMS Italia non ha ancora sbloccato il gettone da 30kEuro promesso dai referees (e in realta’ poi evaporato nel corso di adattamenti di bilancio di fine anno) Pianifichiamo di iniziare a breve la discussione e di riportarla alla prossima occasione ai referees / G1 Per il 2013 ci aspettiamo di dover richiedere una tasca per motivi simili
35
Un esempio di attivita’ che include sui Tier3 Sono in corso test (fatti mediante attivita’ di analisi reali) di accesso remoto (streaming Xrootd) ai dati Xrootd.ba.infn.it pubblica le risorse di – Bari (su Lustre/Storm) – Pisa (su dCache) – IC – DESY Accesso possibile sia per jobs CMSSW, sia in interattivo (Trieste e Perugia stanno attivamente usando il protocollo) Piani a breve: – Accendere anche RM1 e LNL – Proporre Bari come redirettore per la “cloud” europea (UNL e’ dal lato US)
36
Altro … Attenzione alle manutenzioni (rete, cooling, etc…); fino a che le risorse aumentano in modo considerevole, sono marginali. Adesso non piu’. – Ancora peggio se non possiamo utilizzare le economie di gara (per esempio in gare su anticipi anno successivo, i risparmi sono persi) – Saranno richiesti consumi 2013 per i T2 Sta aumentando l’attivita’ locale nei nostri siti (bene!); in alcuni servirebbe un parco UI piu’ sostanzioso – Messaggio: l’anno scorso avete praticamente azzerato l’overhead percentuale x i server …non rifatelo ;)
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.