CCRC08 Common Computing Readiness Challenge CSA08 Computing Software and Analysis Challenge of 2008 Test Trasferimenti T1T2 Test Trasferimenti T2T1 Esercizio di Fisica: Fase 1 (5-16 Maggio) attività organizzate centralmente Esercizio di Fisica: Fase 2 (19-25 Maggio) sottomissione caotica di jobs CSA08 Padova 10 Giugno 2008 Massimo Biasotto – Ezio Torassa
Test Trasferimenti T1->T2 Test trasferimenti con Phedex nellistanza di Produzione di grandi dataset (~ TB) al posto degli usali tests nellistanza di Debug con piccoli dataset campione (LoadTest) Rotazione ciclica di tutti i link T1->T2 commissionati – per Legnaro tutti i T1s eccetto ASGC Goal metrica: – Velocità del transferimento >= 100% degli obbiettivi definit in CMS megatable (23.1 MB/s da CNAF, 22.9 MB/s da FNAL ecc.) – latenza: almeno il 95% dei dataset trasferiti in 24 ore – Metrica facilmente raggiunta da gran parte dei T2 Traffico del trasferimetno di pacchetti CNAF->LNL Saturazione 1Gb/s Il collegamento verra presto portatato a 2 Gb/s
Test trasferimenti T2->T1 Trasferimento continuo a 5 MB/s (LoadTest nellistanza di Debug) Per ogni T2 sono testati solo i collegamenti con i T1 regionali Phedex velocità di trasferimento da Legnaro a CNAF (ultime 2 settimane) 5 MB/s
Esercizio di fisca: Fase 1 Sono stati definiti 3 fake physics groups : fake Higgs, fake EWK, fake QCD ogni T2 è stato associato ad un gruppo di fisica simulando una attività realistica di fisica Tutti i jobs sono stati sottomessi centralmente mediante 2 Crab Servers, uno a Legnaro (gruppi fake Higgs and fake EWK ) ed uno a Pisa (gruppo fake QCD) Legnaro è stato associato al gruppo fake Higgs (utilizzato per lo stage-out remoto per gli output dei jobs) Lattività si è svolta dal 5 al 16 Maggio, sovrapponendosi con la produzione MonteCarlo. Sono stati sottomessi 4488 jobs a Legnaro, si sono avuti 106 jobs aborted a causa di un temporaneo problema di configurazione
Esercizio di Fisica: Fase 1 Statistics from Crab Analysis Server in Legnaro – all jobs submitted in fake Higgs and fake EWK groups, from May-5 to May-16 Legnaro RomaBari
Esercizio di Fisica: Fase 1 ASGC/tW_inclusive/CMSSW_1_6_7-CSA /RECO1.1 TB CERN/Njet_6j_180_250-alpgen/CMSSW_1_6_7-CSA /RECO1.1 TB CNAF/Njet_3j_20_80-alpgen/CMSSW_1_6_7-CSA /RECO1.5 TB CNAF/Njet_3j_80_140-alpgen/CMSSW_1_6_7-CSA /RECO1.5 TB FNAL/Njet_4j_20_100-alpgen/CMSSW_1_6_7-CSA /RECO2.9 TB FZK/WW_incl/CMSSW_1_6_7-CSA /RECO2.2 TB IN2P3/Njet_2j_20_80-alpgen/CMSSW_1_6_7-CSA /RECO1.0 TB IN2P3/Njet_2j_80_140-alpgen/CMSSW_1_6_7-CSA /RECO1.3 TB PIC/Njet_5j_100_160-alpgen/CMSSW_1_6_7-CSA /RECO1.7 TB RAL/Wenu/CMSSW_1_6_7-CSA /RECO2.2 TB (copiati a Legnaro) Dataset usati per la CCRC08 (CMSSW_1_6_7)
Esercizio di Fisica: Fase 2 Sottomissione di jobs con stage-out in un Tier-2 differente da quello in cui risiedono i dataset. Si simula la situazione del computing model in cui ogni utente utilizza un Tier-2 di riferimento per lo stage-out usando come input dataset distributi in diversi Tier-2.
CSA08
CSA08 Simulation Data for Analyses Focus on 2 scenarios for 2008 data-taking: – S43: 43 × 43 bunches, L~2 × 10 30, 6g, 1pb -1, O(150M) events – S156: 156 × 156 bunches, L~2 × 10 31, 6g, 10pb -1, O(150M) events Conditions: – No pile-up – Assume a complete detector – Zero suppression (review whether HCAL requires no zero supp.) These samples will be produced using the CMSSW_2.0 release LHC start-up
CSA08 Dataset s = 10 TeV allineamento 10 pb -1
CSA08: dataset transfer Transfer to Legnaro and analysis of the following datasets – Located at T1 ASGC: /Upsilon/CSA08_CSA08_S156_v1 (116 GB) /Wmunu/CSA08_CSA08_S156_v1 (140 GB) /JPsi/CSA08_CSA08_S156_v1 (370 GB) /Zmumu/CSA08_CSA08_S156_v1 (9 GB) – Located at T1 RAL: /MuonPT11/CSA08_CSA08_S156_v1 (5.7 TB) The transfer of the large MuonPT11 sample took a very long time to complete, ~1 week: tail transfer problem (see next slide)
CSA08: dataset transfer Most of the data transferred in short time, but missing files distributed in all blocks -> very few blocks completed and registered in DBS -> very few blocks available for analysis even if most data already transferred Problem seen in many transfers, Phedex developers investigating and improvements expected in near future (Phedex algorithm optimized to complete blocks) Transfer rate of /MuonPT11 from RAL to Legnaro Last 0.5 TB stuck in tape at RAL (manual intervention of RAL admins required)
CSA08: analysis Analysis jobs submitted by Alessandra Fanfani Performance issue in skimming jobs of MuonPt11: very slow jobs due to inefficient I/O access to the local storage (running time ~5x than expected) Problem due to a combination of causes: skimming jobs using a dCache feature, read-ahead buffer, not used before (new in CMSSW 2.X?): – default buffer value too large for skimming -> job reads ~10x more data than needed – effect seen at several sites – further tests with reduced value of read-ahead buffer seem to show a 3-4x performance improvement
CSA08: analysis inefficient distribution of data among the disk-servers: – most of data were written on the new storage system put in production at beginning of May (the only one with empty disks and all the others almost full) network bottlenecks inside the T2: – only 1Gb/s between new disk-server and most of the WNs – known in advance, new network configuration was scheduled for next T2 downtime in June, when all machines will be moved to new rack infrastructure – but already added new links to remove the worst bottleneck 1 Gb/s link between new storage and WNs saturated by skimming jobs