Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoBaldassare Patti Modificato 9 anni fa
1
11/11/2002 P. Capiluppi - CSN1 Perugia CMS Computing Paolo Capiluppi Dept. of Physics and INFN Bologna
2
2 P. Capiluppi - CSN1 Perugia 11/11/2002 Outline Organizzazione Modello di Calcolo Software baseline e tools comuni Coinvolgimento in Progetti “Grid” Data Challenges Come usare i dati del DC04? Verso il Physics TDR e computing TDR Conclusioni
3
3 P. Capiluppi - CSN1 Perugia 11/11/2002 Legenda u CPT : Progetto CMS per il “Calcolo” C = CCS (Core Computing and Software) P = PRS (Physics and Reconstruction Software) è Studi di HLT (High Level Trigger) T = TriDAS (Trigger and Data Acquisition Systems) u PRS Groups ( Physics Groups) Muons (Muon Detector) B/Tau (Tracker) E/Gamma (ECAL) Jet/MissingEt (HCAL) u ORCA : Programma di ricostruzione (e analisi) u OSCAR : Programma di simulazione (Geant4) u CMSIM : Programma di simulazione (Geant3) u IGUANA : Programma di visualizzazione u IMPALA : Tool di sottomissione job di produzione u BOSS : Tool di logging/bookkeeping dei job di produzione u RefDB : Data Base di riferimento per le produzioni
4
4 P. Capiluppi - CSN1 Perugia 11/11/2002 CPT & CCS CMS CB CMS MB CMS SC CPT Managers CCS PM (Deputy) PRS PM (Deputy) TriDAS PM Deputy
5
5 P. Capiluppi - CSN1 Perugia 11/11/2002 Computing Model TDR u TDR sul Computing: Ottobre 2004 Basato sui risultati del DC04 e sui Computing e Physics Models Planning Draft è Risorse e “cost-book” è Data Types, Rates, Flow è Calibration and Analysis è Core software: architettura e scelte concrete è On-line and Off-line tasks è Grid tools è Rapporti con LCG è Etc. Richiede il commitment “da ora” è Per la partecipazione e la definizione del modo di operare è Per attivita’ legate ad esso (es. DC04) NON e’ il TDR per la costruzione di un Detector. è Il Calcolo e’ in troppo rapida evoluzione è Ma deve essere una possibile e realizzabile soluzione Input di CMS per il TDR di LCG ( 9 mesi dopo) Base del Computing MoU ? (All’interno di LCG ?) GOAL di “CPT”, CMS Computing
6
6 P. Capiluppi - CSN1 Perugia 11/11/2002 Modello di Calcolo come arrivarci ? (1/2) u CMS Italia ha scelto uno schema di “calcolo” distribuito sulle Sedi: con differenziazione delle responsabilita’ valorizzazione degli “interessi” e “competenze” locali Questo sistema ha dimostrato di funzionare Compresa l’analisi (LNL, Bo, Pd, Pi, …) Alcune funzioni e specificita’ (chiamate in gergo “services”) sono tipiche di una gerarchia Modello di Tier0, Tier1, Tier2, Tier3 … Altre sono tipiche di una distribuzione paritaria Modello distribuito alla “GRID” Queste due cose NON sono incompatibili I “services” possono essere differenziati in funzione delle responsabilita’, competenze e tecnologia software/middleware u CMS (tutta) ha intrapreso questa strada ed in particolare ha un forte commitment in LCG Per l’infrastruttura comune e il software comune Speranza di ottenere “2” spendendo “1” (sinergia tra gli Esperimenti LHC)
7
7 P. Capiluppi - CSN1 Perugia 11/11/2002 Production in the RCs RC nameCMSIM (K)2x1033 (K)1034 (K)Objy size (TB) CERN8701670197010.4 Bristol/RAL54760200.4 Caltech2141460.5 Fermilab3452513322.5 INFN (9 sites)15457197093.0 IN2P3200 Moscow (4 sites)4250.2 UCSD3382782881.8 UFL54040 0.2 Wisconsin67540.3 Imperial College8781471211.4 Thanks to: Giovanni Organtini (Rm), Luciano Barone (Rm), Alessandra Fanfani (Bo), Daniele Bonacorsi (Bo), Stefano Lacaprara (Pd), Massimo Biasotto (LNL), Simone Gennai (Pi), Nicola Amapane (To), et al.
8
8 P. Capiluppi - CSN1 Perugia 11/11/2002 Modello di Calcolo, come arrivarci ? (2/2) u CMS Italia ha scelto fin dall’inizio di avere una propria Sede di riferimento (con le competenze e interessi locali): Tier2 di riferimento a Legnaro 50% delle produzioni 2002 Il Disegno globale a breve termine: u Ruolo del Tier1 (comune per l’INFN) ~40% del commitment italiano Assorbimento dei picchi di CPU (shared con gli altri Esperimenti) Mass Storage e accentramento dei dati di simulazione e analisi Riferimento core software (supporto) u Ruolo dei Tier2 (incluso il Tier2 di riferimento) ~40% del commitment italiano CPU e storage (solo dischi e/o archive) per l’analisi (distributa, non solo plots!) Dimensionamento delle attivita’ in funzione delle competenze ed interessi locali (dal farming alla analisi) u Ruolo dei Tier3 ~20% del commitment italiano Punto di forza in item specifici sia di analisi che di software e/o supporto e/o middleware
9
9 P. Capiluppi - CSN1 Perugia 11/11/2002 Spring02: CPU Resources Wisconsin 18% INFN 18% IN2P3 10% RAL 6% UCSD 3% UFL 5% HIP 1% Caltech 4% Moscow 10% Bristol 3% FNAL 8% CERN 15% IC 6% u u 11 RCs (~20 sites) About 1000 CPUs and 30 people CMS-wide Some new sites & people, but lots of experience too MA non erano ancora entrati in gioco i Tier1 !
10
10 P. Capiluppi - CSN1 Perugia 11/11/2002 Cosa si e’ ottenuto? u Coinvolgimento e partecipazione di tutte le Sedi Attraverso i vari interessi e le varie competenze Diffusione della conoscenza delle problematiche di calcolo ed analisi u Produzione ed Analisi in Italia in modo consistente u Risultati dei PRS anche per il DAQ TDR Il Software di ricostruzione e’ un “deliverable” dei Rivelatori (Il Computing e’ compreso nei commitments)
11
11 P. Capiluppi - CSN1 Perugia 11/11/2002 Software Baseline and Common Tools u Cosa puo’ esserci in comune con gli altri esperimenti LHC (o HEP tutta)? (LCG Application Area e HEPCAL…) Prodotti software che non hanno a che fare con “Dati e Calcolo distribuiti” (Grid independent): es. Generatori di Fisica, (Detector Description DataBase), … Prodotti software (middleware) che gestiscono la distribuzione dei dati e del calcolo (Grid dependent): es. Brokering dei job, Data replication, Information System, Monitoring, … Prodotti software che sono influenzati dalla caratteristica distribuita del Calcolo (Grid-aware): es. Persistenza, meta-data structure, Bookkeeping… u Ovviamente ci sono Prodotti che NON “possono” essere comuni: programmi di ricostruzione dei vari detector, tools di gestione specifici dell’architettura del Computing Model, … u In attesa dello sviluppo delle parti “comuni”, CMS ha sviluppato propri tools, oltre alle parti specifiche “non-comuni”
12
12 P. Capiluppi - CSN1 Perugia 11/11/2002 Software Baseline e Tools comuni u Persistenza: Da Objectivity a Pool/ROOT First public release foreseen before Xmas 02 u Simulazione : Da CMSIM (Geant3) a OSCAR (Geant4) u Visualizzazione : IGUANA (basato su Oggetti) u Test beam software : ORCA + OSCAR (stessi programmi)
13
13 P. Capiluppi - CSN1 Perugia 11/11/2002 Dependencies on LCG and External Software u Objectivity/DB was not just a persistency solution Catalog, Replication, Shallow Copying, AMS, Request Redirection, etc u We must establish the explicit dependencies so as to ensure full bidirectional understanding with these projects on detailed implementation schedules CCS Preparations for DC04 LCG/GDB work-plan for this Autumn CMS Data Challenge DC04 ROOT POOL EDG/VDT Catalog EDG/VDT Catalog
14
14 P. Capiluppi - CSN1 Perugia 11/11/2002 Test-Beam and data-handling Analysis and simulation of both Test-beam and simulated data Fully integrated in ORCA/OSCAR framework Simulation of FED algorithms (Zero Suppression, Noise evaluation, Pedestal subtraction) Study different FED algorithms in the whole Tracker, data rates and calibration of the FEDs in a real data taking Test different alignment algorithms on real data Integrated with Geant4 simulation Simulated Pion in G4/ORCA Calibration of FED parameters with ORCA/ApvAnalysis
15
15 P. Capiluppi - CSN1 Perugia 11/11/2002 OSCAR/Geant4 Simulation OSCAR/G4 v1.3 ok for the Tracker: validated by detailed comparison with Cmsim position of SimHits tracking resolution simulated hits per track tracking efficiency Cmsim OSCAR 1 OSCAR 2 complete rewriting of the framework, same physics part DDD + OSCAR2
16
16 P. Capiluppi - CSN1 Perugia 11/11/2002 Tracker selection map: display a layer/ring in a 3D window; open a 2D map of a layer/ring. 2D selection maps: display a module in a 3D window. Print information for selected module Draw sim hits for selected modules Custom tracker selection Vertex visualisation PRS Tracker Contributions to IGUANA Detector units along sim tracks Tracker reconstruction geometry
17
17 P. Capiluppi - CSN1 Perugia 11/11/2002 CMS common or specific products Central Input Parameters DB Job Scripts Generator Local Job Monitoring DB Job Scheduler Monitoring Schema & Scripts Central Output Metadata DB Web Interface for Production Requests Web Interface for Browsing of Metadata & Data Location Interface “ RefDB ” Plus: =“ DAR ”; = “ Tony’s scripts ”; Data Transfer Tools Data Storage Executables Distribution “BOSS” “IMPALA”
18
18 P. Capiluppi - CSN1 Perugia 11/11/2002 GRID cose’? Non solo per CMS !
19
19 P. Capiluppi - CSN1 Perugia 11/11/2002 Logical components diagram Data Management System Dataset Catalogue Workload Management System Job Catalogue Resource Monitoring System Resource Directory Publish Resource status Read data Write data Retrieve Resource status Data management operations Job assignment to resources Data Materializer Job Definition Job submission Input data location Job creation Production on demand Experiment Software Release Manager Software Repository Software release SW download & installation Dataset Algorithm Specification Dataset Input Specification Dataset Definition New dataset request Job Monitoring System Job Book-keeping Job Monitoring Definition Job type definition Job output filtering Update dataset metadata Production monitoring Push data or info Pull info Copy data Storage Service Data Computing Service By Claudio Grandi
20
20 P. Capiluppi - CSN1 Perugia 11/11/2002 Spring 2002 diagram Production web portal RefDB Local Batch System (or Grid Scheduler) Scheduler Job catalog Read data Write data Job assignment to resources Copy data IMPALA scripts Input data location Job creation Fetch request parameters CMKIN/SIM ORCA SCRAM/DAR DAR files CVS repository Software release SW download & installation Dataset Algorithm Specification Dataset Input Specification Dataset Definition New dataset request BOSS BOSS DB Schema Filter files Job type definition Job output filtering Write dataset summary Production monitoring Web page with links to RC home pages Resource Directory Publish Resource status Retrieve Resource status Data management operations AMS POSIX GDMP Data Farm node (or GRAM) Job submission Push data or info Pull info By Claudio Grandi
21
21 P. Capiluppi - CSN1 Perugia 11/11/2002 Proposal for a DC04 diagram REPTOR/Giggle + Chimera? Dataset Catalogue EDG Workload Management System EDG L&B MDS LDAP Publish Resource status Read data Write data Retrieve Resource status Data management operations Job assignment to resources Copy data VDT Planner IMPALA/MOP DAG/JDL +scripts Job submission Input data location Job creation Production on demand Experiment Software REPTOR/Giggle? PACMAN? Dataset Catalogue Software release SW download & installation Dataset Algorithm Specification Dataset Input Specification Dataset Definition New dataset request BOSS&R-GMA BOSS-DB Job Monitoring Definition Job type definition Job output filtering Update dataset metadata Production monitoring EDG SE VDT Server Data EDG CE VDT server EDG UI VDT Client Push data or info Pull info By Claudio Grandi
22
22 P. Capiluppi - CSN1 Perugia 11/11/2002 Grid in CMS oggi Vedi le presentazioni su Grid u Produzione ufficiale in corso in US su Grid MOP Production u Produzione ufficiale in partenza in EU su Grid Stress Test per provare la compatibilita’ dei prodotti CMS con EDG/EDT (~1 M eventi) CMS/EDG Task Force ufficiale, con la partecipazione di personale LCG e EDT u L’Integrazione e la Interoperabilita’ sono essenziali per CMS Es di Legnaro
23
23 P. Capiluppi - CSN1 Perugia 11/11/2002 IGT E-Gamma Production u Production progressing – Disk on Master Filled over the weekend Magically Data continues to come in after space was cleared without explicit restarting ??? è Still exploring this... Condor DAGMAN model of fault tolerance and/or use of ftsh suspected...
24
24 P. Capiluppi - CSN1 Perugia 11/11/2002 IMPALA/BOSS Stress Test implementation UI IMPALA BOSS DB GRID SERVICES SE CE SE CE RefDB RC CE CMS sw CE CMS sw Write data WN data registration Job output filtering Runtime monitoring JDL JobExecuter dbUpdator parameters By Alessandra Fanfani
25
25 P. Capiluppi - CSN1 Perugia 11/11/2002 Layout farm LNL 2002: production + analysis + grid FastEth 32 – GigaEth 1000 BT SWITCH N1 FastEth SWITCH S1 S10 N24 N1 FastEth SWITCH N1 N24 S9 To WAN 34 Mbps 2001 ~ 1Gbps 2002 S11 S12 Production computing nodes Analysis computing nodes Production servers Analysis servers GW G1 G2 CE S10 S11 SE N1 N24 N1 N1 UI Productioncontrol Remote login Analysis Grid enabled Analysis = grid enabled element
26
26 P. Capiluppi - CSN1 Perugia 11/11/2002 Verso il “Computing” di CMS: Data Challenges u I Data Challenges servono a: Provare le soluzioni proposte nella realta’ (hardware e software) Coordinare lo sviluppo e garantirne la mantenibilita’ (commitments) selezionando i partecipanti ed il personale Verificare la scalabilita’ delle soluzioni dai prototipi al Sistema finale (iniziale, in verita’. Evolvera’ per la vita di CMS) Programmare gli investimenti (monetari e di personale) Distribure e preparare la conoscenza per l’ANALISI FISICA u CMS ha gia’ realizzato almeno un paio di Data Challenges 2000-01: pre-produzioni e sviluppo del software secondo il Computing Technical Proposal(1998?). Usato per gli studi di Trigger. 2002: Full deployment del Software e delle risorse distribuite nei pre-Regional Centres. “Spring Production” (6 M events), compresa l’analisi. Usato per gli studi di HLT del DAQ TDR. u Le Sezioni (Tiers) CMS Italia hanno contribuito per circa il 20% dello sforzo totale di CMS
27
27 P. Capiluppi - CSN1 Perugia 11/11/2002 I prossimi Data Challenge di CMS (con LCG-1, LCG-3) u DC04 (detto 5% DC): finito per Aprile 2004 Scopo e dimensioni, vedi dopo u DC05 (detto 10% DC): finito per Aprile 2005 Un mese a ~50 Hz (L=0.2x10 34 cm -2 s -1 ) ~ 10 8 eventi Validazione del Grid Model realizzato da LCG (Tier0, Tier1s and Tier2s) In tempo per la fine della fase 1 di LCG (Dicembre 2005, LCG TDR) e per MoU(s) sul Computing Catena completa dei prodotti per l’analisi In sincronia con il Physics TDR di CMS dovuto per la fine del 2005 u DC06 (detto 20% DC): finito per Aprile 2006 Un mese a ~100 Hz (L=0.2x10 34 cm -2 s -1 ) ~ 2x10 8 eventi In tempo per comprendere ed eventualmente modificare la realizzazione del Computing Model di CMS prima della presa dati nel 2007. Dimostrazione della scalabilita’, includendo tutte le possibili operazioni in un sistema distribuito di Tiers alla Grid. Verso il “Computing” di CMS: Data Challenges di CPT!
28
28 P. Capiluppi - CSN1 Perugia 11/11/2002 DC04: Two Phases u Pre-Challenge (2003 Q3, Q4)(Must be successful) Large scale simulation and digitization Will prepare the samples for the challenge Will prepare the samples for the Physics TDR work to get fully underway Progressive shakedown of tools and centers è All centers taking part in challenge should participate to pre-challenge The Physics TDR and the Challenge depend on successful completion è Ensure a solid baseline is available, worry less about being on the cutting edge u Challenge(2004 Q1, Q2)(Must be able to fail) Reconstruction at “T0”(CERN) Distribution to “T1s” è Subsequent distribution to “T2s” Assign “streams” and “pre-configured analyses” to people at T1 and T2 centers è Some will be able to work entirely within one center è Others will require analysis of data at multiple-centers è GRID tools tested for data movement and job migration Introduce GRID tools As available and tested Make full use of LCG-1 GRID. Test the functionality they deliver
29
29 P. Capiluppi - CSN1 Perugia 11/11/2002 DC04 Setting the Scale u Aim is 1 month of “running” at 25 Hz, 20 hours per day 50 Million reconstructed events (passing L1 Trigger and mostly passing HLT, but some background samples also required)) u Simulation (GEANT4!) 100TB 300 kSI95.Months è 1GHz P3 is 50 SI95 è Working assumption that most farms will be at 50SI95/CPU in late 2003 Six months running for 1000 CPUS (Worldwide) (Actually aim for more CPU’s to get production time down) u Digitization 75TB 15 kSI95.Months 175MB/s Pileup bandwidth (if allow two months for digitization) u Reconstruction at T0-CERN 25TB 23 kSI95 for 1 month (460 CPU @ 50SI95/CPU) u Analysis at T1-T2s Design a set of tasks such that offsite requirement during challenge is about twice that of the “T0” Pre-Challenge Challenge
30
30 P. Capiluppi - CSN1 Perugia 11/11/2002 CMS Italia e il DC04, e oltre u Partecipare al Challenge : contribuire per ~ 20% Possibilmente tutte le risorse parteciperanno al pre-challenge u Coordinare la partecipazione attraverso LCG Il Tier1/INFN deve essere “fully functional” è ~70 CPU boxes e ~20 TB Le risorse conferite in LCG cresceranno in funzione del successo è Inizialmente Legnaro (gia’ “dinamico”) e il Tier1 gia’ “committed” è A seguire le altre risorse u Definire i commitment delle Sedi Italiane Ruoli in funzione delle competenze del personale Definire la meteodologia u Definire il “data flow” E le “analisi pre-confezionate” u Aumento delle risorse di un fattore 3 per il DC05 (2004-05)
31
31 P. Capiluppi - CSN1 Perugia 11/11/2002 Resource Needs vs Pledged 04 Q: how many FTE are available for CMS production at the RCs?
32
32 P. Capiluppi - CSN1 Perugia 11/11/2002 Risorse CMS Italia + “tasca” Computing 2003?
33
33 P. Capiluppi - CSN1 Perugia 11/11/2002 Conclusioni u Il “Sistema” di Calcolo di CMS Italia funziona (disegno corretto) Non solo “Core Computing & Software”, ma anche “Physics Reconstruction Software” e “Trigger & Data Acquisition” u Partecipazione sostanziale a LCG e ai progetti Grid u Commitment per partecipare al DC04 Ufficialmente oggi in LCG-1 per CMS: Tier1 e Legnaro Partecipazione al pre-DC04 di tutti i Tier2/3 Partecipazione al DC04 di Tier selezionati (interesse) u Contributo Italiano importante ( alla frazione INFN di CMS) nei PRS, in Tridas, nella “Produzione / Analisi” e in GRID … ma “scarso” nel CCS Occorre investire di piu’ sul “Core Software”!
34
34 P. Capiluppi - CSN1 Perugia 11/11/2002 “Pool” off the Grid File Catalog Collections Meta Data XML / MySQL Catalog MySQL MySQL or RootIO Collection Experiment Framework User Application LCG POOL Disconnected Laptop RootI/O By Vincenzo Innocente
35
35 P. Capiluppi - CSN1 Perugia 11/11/2002 Pool on the Grid File Catalog Collections Meta Data Replica Location Service Meta Data Catalog Grid Dataset Registry Grid Resources Experiment Framework User Application LCG POOLGrid Middleware RootI/O Replica Manager By Vincenzo Innocente
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.