21/9/06M. Paganoni, Trieste, CSN12 Modello di calcolo a Tier di CMS Tier-0: Accepts data from DAQ Prompt reconstruction Data archive and distribution to Tier-1’s Tier-1’s: Real data archiving Re-processing Skimming and other data- intensive analysis tasks Calibration/alignment MC data archiving Tier-2’s: User data Analysis MC production Import skimmed datasets from Tier-1 and export MC data Calibration/alignment
21/9/06M. Paganoni, Trieste, CSN13 Programma di integrazione Computing e Software (2006) Nuove componenti di CMS (secondo specifiche del CTDR): Event Data Model, Data Management system, Production Tools (Monte Carlo, re-processing e skimming ai Tier1), CRAB per CMSSW Nuove release di middleware GRID: gLite 3.0 e OSG Definizioni dello stream di dati: La classificazione degli eventi a livello di Tier0 permette di ottimizzare l’accesso, garantendo priorità agli stream di calibrazione e agli “hot stream” O(50) ‘primary datasets’ O(10) ‘online streams’ O(2PB)/yr raw data divisi in O(50) dataset sulla base degli HLT Punti di partenza della produzione nel 2008: Distribuzione comune di RAW e RECO Formato compatto (AOD) da distribuire in molte repliche Programma di ricostruzione veloce, per ri-ricostruzione Bookkeeping e workflow efficienti
21/9/06M. Paganoni, Trieste, CSN14 Analisi di CMS (Italia) Physics Analyses of First data Software Algorithms Software tools & Middleware Infrastructure Identification of Physics channels Commissioning of detectors Calibration / Alignment Reconstruction software (RECO Data) Analysis Object Data (AOD) Management Tools End User Support & Interfaces Dataset definition & Location Grid Integration Performances tests Analysis Job submission (CRAB), etc. Dataset discovery (DBS), etc. Resources: Tier1 & Tier2s (and Tier0) Services: Tier1 & Tier2s (and Tier0)
21/9/06M. Paganoni, Trieste, CSN15 L’analizzatore “vede” questo… (e non vorrebbe vederlo…) Ambiente CMS+Grid CRAB: creazione, partizionamento e sottomissione (via BOSS) dei job Quali Dataset ci sono? (CMS specific) Dove mandare i job? (GRID) Dove stanno i files del Dataset? (GRID) Il job va sul CE scelto dal RB (GRID node col sw CMS) Il job esegue Il job trova i files via il local file system (GRID) I files vengono LETTI e SCRITTI (GRID) Il risultato ritorna allo user!
21/9/06M. Paganoni, Trieste, CSN16 Calcolo distribuito The CMS computing environment is a distributed system of computing services and resources that interact with each other as Grid services. The set of services and their behavior together provide the CMS computing system as part of the Worldwide LHC Computing Grid. 30 centri regionali organizzati su due Grid (EGEE e OSG) Molti siti partecipano alle operazioni di CMS solo da 1anno ! Molta attività di integrazione è dedicata a validare e mettere sotto stress siti, connessioni, strumenti del middleware WLCG Service Challenge 4 (SC4) deve portare l’infrastruttura Grid al livello di produzione per LHC entro fine 2006 Computing Software Analysis 2006 (CSA06) è un esercizio di CMS che coinvolge tutta la catena di processamento dei dati 2006 (anno di integrazione) 2007 (anno di produzione) (con un incremento delle risorse di un fattore 2-3)
21/9/06M. Paganoni, Trieste, CSN17 SC4: throughput Tier0-Tier1 ai rate PB di dati trasferiti dal CERN ai Tier-1 in 4 mesi (Mag-Lug 06) 500 MB/s dal CERN ai Tier-1 solo storage srm trasferimenti basati su FTS D. Bonacorsi
21/9/06M. Paganoni, Trieste, CSN18 SC4: test dei siti con CMSSW jobs Nell’ultimo mese più di 30 siti hanno partecipato ai test sottomettendo CMSSW con JobRobot. 10K 80 % Numero medio di job/giorno inviati sul sito per la validazione Percentuale di successo (esclusi fallimenti dell’applicazione)
21/9/06M. Paganoni, Trieste, CSN19 CMS Tier0 Tier0 Workflow e Dataflow per Prompt Reconstruction e Prompt Calibration Prototipo disponibile da luglio 2006 Verificato il rate di lettura e scrittura dei dati e lo splitting degli HLT nei 50 primary dataset 50 M eventi minimum bias processati a 100 Hz con un programma di ricostruzione semplificato (40 Hz è l’obbiettivo di CSA06, 150 Hz è il rate nominale 2008) Attualmente 1.4 MSI2k e 235 TB Per minimum bias prompt reconstruction 3s/event 40 Hz 130 Hz
21/9/06M. Paganoni, Trieste, CSN110 CMS CAF CAF 1 Tier-1 ‘nominale’ + 2 Tier-2 ‘nominali’ Struttura dedicata all’interno del Tier0 –DISK: 1.5 PB; MSS: 1.9 PB CPU: 4.8 MSI2K; WAN >10 Gb/s Studi urgenti per la presa dati del rivelatore (trigger), ‘prompt calibration’, ‘hot channels’, (analisi utenti) Responsabilità CERN, ma accessibile da tutto CMS (come Tier-1) Condition database e Calibration database
21/9/06M. Paganoni, Trieste, CSN111 Computing Software Analysis 2006 Test di workflow e dataflow (25% di quanto necessario nel 2008) Preparazione di grandi dataset (alcuni con tag HLT) Prompt reconstruction al Tier0: Ricostruzione a 40 Hz con CMSSW Applicazione delle costanti di calibrazione dal database offline Generazione di RECO, AlCaRECO, AOD Splitting del campione con tag HLT in10 streams –Calibration jobs on AlCaReco (&Reco) datasets at some Tier-1s and proto-CAF (CERN) –Skim jobs at some Tier-1s with data propagated to Tier-2s –Physics jobs at Tier-2s and Tier-1s on AOD and Reco Invio di parte di RECO e AlCaRECO e di tutti gli AOD ai Tier1 Calibrazione, Ri-ricostruzione ai Tier1 e al CAF Skim jobs e propagazione dei dati ai Tier-2 Job di Fisica a Tier1 e Tier2 E’ l’ultimo test di integrazione software-computing prima dell’inizio della presa dati !
21/9/06M. Paganoni, Trieste, CSN112 Calibration/alignement exercise (CSA06) Calibration/alignment constants application –All events to have calibration constants applied from DB during prompt reconstruction at Tier-0 –Miscalibration and misalignment applied as special case –DB deployed to Tier-1 centres Calibration/alignment tasks –Specialized tasks to align/calibrate subsystems using dedicated datasets, e.g. Align a portion of Tracker (à la Physics TDR Vol.1) using a prototype of the CAF for prompt calibration/alignment Intercalibrate ECAL crystals by isolated electrons from Ws and phi symmetry in minbias events –Specialized AlCaReco data format to be produced at Tier-0 for calibration/alignment streams –Full workflow of writing derived constants back into DB and performing re-reconstruction at Tier-1 applied for some exercises
21/9/06M. Paganoni, Trieste, CSN113 Physics Analysis exercise (CSA06) HLT Tagging/Data Streaming –HLT filters based on “MCtruth” developed and 12 trigger paths created from PTDR Vol.2 trigger menu Reconstruction-based HLT not available on CSA timescale –HLT “soup” simulated and tagged by HLT filters –Split into separate datasets based on HLT bits for Tier-0 input Analysis demonstrations –Under coordination by PRS groups, with many activities clustered around particular Tier-2 centres –Includes signal extraction (J/ , W, Z, Z’,Higgs, SUSY), reconstruction efficiency determination, mass peak reconstruction, etc. –Will involve running skim jobs to select events for analysis at Tier-2 (by design in the preparation of some physics samples)
21/9/06M. Paganoni, Trieste, CSN114 Risorse necessarie per CSA06 Tier-0 (CERN): –1.4M SI2K (~700 boxes at CERN) –180 TB Tier-1 (7 sites): –2500 CPUs in total –40–700 TB disk + tape at participating Tier1 Expected 70 TB to participate Tier-2 (25 sites): –2400 CPUs in total –Average 10 TB disk at participating Tier-2 5 TB minimum to participate, but many with much more then that to run exercise at realistic scale
21/9/06M. Paganoni, Trieste, CSN115 Produzione MC per CSA06 Inziata a metà luglio con lo scopo di produrre 50 M di eventi da utilizzare per la ‘prompt reconstruction’ L’obbiettivo è stato superato in meno di 2 mesi da 4 team (1 con OSF e 3 con LCG) che hanno operato il Production Agent in parallelo, producendo: MinBias: 44 Seconds/Event on Xeon 3.6 GHz) In total 5M events/day Le difficoltà sono state incontrate con la gestione dei siti (storage, worker node, trasferimenti, …) e non con il software di CMS minimum bias40 M ttbar6 M Z 2 M W e 4 M EWK Soup5 M Soft 2 M HLT Soup5 M Jet calibration soup1 M Total: ~ 66 M events Total FEVT: O(150) TB Total Reco: O(15) TB Total AOD: O(2) TB
21/9/06M. Paganoni, Trieste, CSN116 CSA06 - produzione eventi simulati (Minimum Bias) N. De Filippis
21/9/06M. Paganoni, Trieste, CSN117 CSA06: produzione MC LCG(3) Minimum Bias Jets ttbar Electroweak soup
21/9/06M. Paganoni, Trieste, CSN118 CSA06: produzione MC LCG(3) Confronto tra le attivita’ di produzione eventi Minimum Bias per CSA06 per i Tier2 italiani (normalizzati alla potenza di calcolo)
21/9/06M. Paganoni, Trieste, CSN119 Distribuzione dati CSA06 ai Tier1 Generally planned to distribute Reco and AOD To this add HepMC information to AOD and Reco Propose to also keep digis to emulate “raw” data for FEVT (raw+reco) Event sizes: u AOD: 60kB (bb events) u Reco: 400 kB (bb events) u FEVT: ~1.9MB
21/9/06M. Paganoni, Trieste, CSN120 CSA06: profilo temporale 15 Sept. – CMSSW_1_0_0 Release –Deadline for list of fixes needed in reconstruction, calibration, and alignment software based on T0 tests and software validation 2 Oct. – CSA exercise officially launched –Prompt reconstruction (PR) begins at T0 on minbias stream –Output shipped to T1s 9 Oct. – T1 Skim jobs started –T1 skim jobs launched to transfer data to T2s –PR begins on calibration sample events: Z µµ, W e, Jets 16 Oct. – Prompt Calibration jobs started, T2 analysis jobs started –Prompt calibration jobs start at T0 –T2 analysis jobs started –PR begins on remaining physics samples: tt, EWK, SoftMuon 23 Oct. – Calibration, Alignment jobs started –Calibration/Alignment jobs started based on AlCaReco streams –T2 user skim and analysis jobs fully ramped up –PR begins on HLT streams
21/9/06M. Paganoni, Trieste, CSN121 Job di Fisica ai Tier2 italiani LNL: massa trasversa W da W --> Roma: calibrazione da Z --> ee e W --> e Pisa: selezione di eventi (jet calibration soup) Bari: allineamento tracciatore (Z --> ) + altre attivita’ in corso di definizione
21/9/06M. Paganoni, Trieste, CSN122 Uso della GRID da parte di CMS = jobs completed/day 18K average over last month 22K average over last week Nel plot solo i job inviati dal JobRobot da CMS ovunque Goal = 25 Kjobs/day Nel plot i job inviati da CMS in Italia
21/9/06M. Paganoni, Trieste, CSN123 Utilizzo CNAF All VO CMS
21/9/06M. Paganoni, Trieste, CSN124 OSCAR vs CMSSW Ratio of energy deposited in matrices of crystals centered on the maximum deposit ADC count distributions. One plot for each time ordered sample from ADC Longitudial shower shape for photons Validation/EcalHits, Validation/EcalDigis Available Validation packages (ECAL SimHits & Digis) F. Cossutti
21/9/06M. Paganoni, Trieste, CSN125 Visualizzazione: IGUANA Muon through tracker 3D Muon simulation Tracker geometry
21/9/06M. Paganoni, Trieste, CSN126 Stato della ricostruzione in CMSSW LocalReco Tracker Strips G.Bruno Pixels V.Chiochia Muons DT N.Amapane CSC T.Cox RPC M.Maggi ECAL P.Meridiani HCAL J.Mans GlobalReco Tracks Vertices P.Vanlaer BTagging TauTagging Electrons S.Rahatlou D.Futyan Muons N.Amapane T. Cox Jets R.Harris MET R.Cavanaugh RecoLocal*: >30000 linee di codice (5000 a CHEP06) Reco*: ~ linee di codice (5000 at CHEP06) T. Boccali
21/9/06M. Paganoni, Trieste, CSN127 Local Reconstruction – Muon DT Several levels of refinement –1D hits in a layer –2D segments in a superlayer –4D segments in a chamber Including calibration Well tested; stable since several releases Extensively used for MTCC data analysis N. Amapane
21/9/06M. Paganoni, Trieste, CSN128 Local Reconstruction – Muon DT Chamber extrapolation: MB1 MB2 N. Amapane
21/9/06M. Paganoni, Trieste, CSN129 Local Reconstruction – ECAL Local Reco complete for EB + EE + ES Supporting special reconstruction for H4/H2 test beams (phase measurement needed) RecHit reconstruction in laser monitoring runs used in special DQM for laser runs Offline DB has been populated with all conditions for the H4 test beam for different running periods Automatic official production of RecHits for H4 test beam has been put in place P. Meridiani
21/9/06M. Paganoni, Trieste, CSN130 Stato del software di calibrazione ECAL 4 SM di ECAL (4 x 1700 cristalli) calibrati sul fascio calibrated vs uncalibrated energyMap of calibration constants P. Govoni
21/9/06M. Paganoni, Trieste, CSN131 Studi di performance del tracciamento Seeding efficiency Tracking efficiency Single muons Kalman Filter G. Cerati, B. Mangano … KF
21/9/06M. Paganoni, Trieste, CSN132 MTCC data (StandaloneMuonProducer) STA-muon Extrapolation to tracker
21/9/06M. Paganoni, Trieste, CSN133 GlobalReco: Electron Seeding without Pixels Brand new electron algorithm –Of great interest for CMS startup (possibly w/o pixel detector) and high level trigger (fast electron identification) From super clusters to Si strips –inner hits point to super cluster –outer hits point to cluster w/o brem recovery –Background rejection based on number of hits along the path SuperCluster = 10mrad Preliminary Performance: Good separation between electrons and minimum bias Still large feed through from L1 accepted minimum bias # Si strip hits S. Rahatlou
21/9/06M. Paganoni, Trieste, CSN134 Definizione formato RECO / AOD bb events RECO: 490 kB/ev AOD: 67 kB/ev H-->ZZ-->4 events RECO: 125 kB/ev AOD: 20 kB/ev Check what we can afford given our data size goals (CTDR) RecHits for all detectors Tracks Primary vertices Ecal basic/super clusters CaloTowers Jets Iterative cone (two collections) Kt Mid point (two collections) MET electrons, photons, muons b/tau tagging L. Lista
21/9/06M. Paganoni, Trieste, CSN135 Stima costi 1 TB = 1.5 kEuro 1 box = 8 kSI = 3 kEuro Le richieste totali (inclusi SJ) porterebbero sul totale dei 4 centri di calcolo ad avere un fattore 2 sotto il piano iniziale, per tenere conto della rimodulazione di LHC (248 TB contro 530 TB e 1014 kSI2K contro 1600 kSI2K)
21/9/06M. Paganoni, Trieste, CSN136 Richieste finanziarie -Tier2 E’ fondamentale per la comunità di riferimento l’upgrade Tier2-SJ Tier2 per Pisa. Il progetto degli impianti e’ pronto e i costi infrastrutturali sono ridotti per sinergie con Dip. Fisica e SNS
21/9/06M. Paganoni, Trieste, CSN137 Milestones ) June LCG Service Challenge 4 (SC4) start, being the software and computing support for the Cosmic Challenge ready:includes Tier1-CNAF+ at least 1/2 of CMS-Italy Tier2s. (100 %) 2) October-November Computing, Software and AnalysisChallenge (CSA-2006): includes Tier1- CNAF,all CMS-Italy Tier2s and some CMS-Italy Tier3s. (on track) 3) December Integration of Computing systems atTier1s and Tier2s ready for testing: includes all ItalianTiers for CMS. (in progress)
21/9/06M. Paganoni, Trieste, CSN138 Milestones ) Struttura di data serving con affidabilita' ~70% integrata sui siti INFN (Tier1 e Tier2) sia per i dati di calibrazione sia per i dati del pilot run (12/07) 2) Risorse disponibili e garantite attraverso i tools di WLCG secondo quanto dichiarato nei MoUs nei siti INFN (Tier1 e Tier2) (6/07) 3) Coordinamento nazionale delle attivita' integrate in CMS per la simulazione, la ricostruzione e l'analisi (9/07) 4) Accesso ai siti INFN (Tier1 e Tier2) garantita a tutti i membri di CMS Italia per le attivita' di calcolo legate al commissioning dei rivelatori (9/07)
21/9/06M. Paganoni, Trieste, CSN139 Richieste M.E. per resposabilita’ ufficiali PersonaSezioneM.E.Responsabilita’ L.SilvestrisBari5 m.u.software CMS M. PaganoniMilano Bicocca4 m.u.computing Italia L. ListaNapoli2 m.u.Analysis Data Object M. Biasotto U. Gasparini S. Lacaprara Padova6 m.u.T2-Legnaro, PRS-muoni, Computing Technical Integration T. Boccali F. Palla Pisa6 m.u.Programma di Ricostruzione e PRS-b/tau L. BaroneRoma2 m.u.T2 Roma e Operations S. BelforteTrieste10 m.u.coordinamento computing CMS D. Bonacorsi, A. Fanfani, D. Spiga, N. De Filippis, G. Donvito, Bologna, Perugia, Bari 6 m.u. tasca comune Ruoli chiave nello sviluppo e nella produzione
21/9/06M. Paganoni, Trieste, CSN140 Altre richieste M.I.: 8 kEuro per coordinatore computing Italia Consumi: frazione italiana degli M&O Cat A del Computing: kEuro = 15.6 % di 1680 kCHF (anche con contributo in kind)
21/9/06M. Paganoni, Trieste, CSN141 Conclusioni Molti processi concorrenti di sviluppo stanno convergendo nello stesso tempo: EDM, Framework, Software, DM, Produzione MC, CRAB, Job Management tools, integrazione con EGEE (fase di integrazione, come per i rivelatori) Dobbiamo passare rapidamente dai “Data and Service Challenges” ad una fase di produzione (infrastrutture, scalabilita’ e sostenibilita’, chiara definizione degli obiettivi e feedback costante, migliore collegamento con CERN) Dobbiamo fare pesare il contributo INFN nelle decisioni importanti (distribuzione dati ai Tier1, livello di integrazione con GRID, DBS/DLS, PA, ….) Dobbiamo trovare risorse aggiuntive e permettere a chi sta gia’ lavorando di farlo con la tranquillita’ necessaria ad ottenere buoni risultati
21/9/06M. Paganoni, Trieste, CSN143 Conclusioni di L. Tuura (CMS week) Major progress from busy four months –Much of the infrastructure we use has changed –Substantial sustained performance under our belt now Future remains unpredictable, the tamagotchi is still with us –Significant progress in central and world-wide operations Now better equipped to support multiple concurrent activities Integration remains the top relevant issue –Operating multiple concurrent activities –Hiding boundaries of the computing components from users –Operation and support of a complex stack From database server to middleware to networks to storage systems
21/9/06M. Paganoni, Trieste, CSN144 Tier2 Legnaro Iniziare l’acquisto delle risorse per “early physics run” del 2008 Il processamento di 10 7 eventi (20 s/ev su singola CPU) richiederebbe sulla farm attuale 20 giorni e dovrebbe essere ridotto di un fattore 4 per il 2008 Lo storage nel 2008 totale dovrebbe superiore a100 TB Si chiedono risorse per avere un fattore 2 al di sotto della configurazione richiesta nel kEuro per centro stella e 16 kEuro per 2 swicth di rete
21/9/06M. Paganoni, Trieste, CSN145 Tier2 Roma Raw data del pilot run di fine 2007 trasferiti al Tier2 per la calibrazione Attivita’ di simulazione nei canali con e, Le richieste mirano ad avere 40 TB e 100 cpu Preferenza per le blade (minore potenza dissipata e minore impatto sul manpower richiesto): 68.5 kEuro per cassetta e 14 lame con Opteron dual-cpu dual-core
21/9/06M. Paganoni, Trieste, CSN146 Tier2-SJ Pisa Attivita’ di commissioning del rivelatore (allineamento del tracciatore) e di produzione MC 150 cpu sono il 50 % in piu’ della previsione media per CSA06 80 TB di disco sono la meta’ del piano iniziale E’ fondamentale per la comunità di riferimento l’upgrade Tier2-SJ Tier2
21/9/06M. Paganoni, Trieste, CSN147 Proto-Tier2 Bari La richiesta minimale e’quella per proseguire l’esperienza su dCache e PHEDEX (2 server = 9 kEuro e 5 TB = 7.5 kEuro) La richiesta SJ porta, in caso di approvazione, a circa la meta’ delle risorse previste per il 2007
21/9/06M. Paganoni, Trieste, CSN148 CMS data There are data (events) (KB~MB: size driven by physics) 1PB/year = 10^12 KB Event data are in files (GB: size driven by DM convenience) 10^6 files/year CMS catalogs lists files, not events Files are grouped in Fileblocks (TB: size driven by DM convenience) 10^3 Fileblocks/year CMS data management moves Fileblocks Fileblocks are grouped in Datasets (TB: size driven by physics) Datasets are large (100TB) or small (0.1TB) Datasets are not too many: 10^3 Datasets (after years of running) CMS catalog (DBS) lists all Datasets and their contents, relationships, provenance and associated metadata CMS Data Location Service (DLS) list location of all File Blocks RAW, DIGI, HITS, RECO, AOD…. All are handled in this way
21/9/06M. Paganoni, Trieste, CSN149 Data Processing Data are used by workflows. All workflows are the same (roughly): MonteCarlo, Reconstruction, Analysis… Run application on all files of Dataset D-In (or just N times for Initial MC generation), produce Dataset D-Out In practice Access DBS to list Fileblocks for D-In. Access DLS to find locations Split in N jobs to exploit farms. Obtain N output files copy those files to final destination (now or later) Register N files in Dataset D-Out in DBS/DLS Special (and VERY common) case: file merging Collect/merge N small outputs in fewer larger files (w/o mistakes) Is still the same workflow: run many jobs, each application instance reads many files to produce a single one. New CMS Production Tool to address this
21/9/06M. Paganoni, Trieste, CSN150 Computing Summary CMS computing project is working hard to create an environment where the CMS users will not perceive that the underlying computing fabric is a distributed collections of sites, rather then the old fashioned single large computing center The most challenging part in the distributed system Some site is always having some problem We have made large progress in understanding and reducing the problems while working at a scale comparable to CMS running conditions 2006 is “Integration Year” Tie the many sites with common into a working system 2007 will be the “Operation Year” Achieve smooth operation with limited manpower, increase efficiency, complete automated failure recovery while growing a factor 2 or 3 in scale