24 Settembre 2003 P. Capiluppi - CSN1 Lecce Calcolo LHC: CMS, progressi nel 2003 e prospettive Outline PCP DC04: status 2003 Data Challenge 04: prospettive Following Data Challenges: prospettive CMS e LCG: aspettative CNAF Tier1 e LNL Tier2+: considerazioni Richieste 2004 e anticipi possibili 2003 Conclusioni
2 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 CMS (Data) Challenges: Current schedule u DC04 [Mid 03 – April 04] June 03: generation of data (CMKIN) (pre-phase) 15 July 03: official start of simulation (CMSIM) (Pre Challenge Production: PCP) 31 December 03: end of PCP (including transfer of data to CERN T0) January 04: preparation of DC04 February 04: DC04 within LCG deployment Mar – Apr 04: follow-up of DC04 u CTDR [Mid 03 – October 04] End August 03: Outline ready April 04: First complete draft ready u DC05 & P(hysics)TDR [Mid 04 – February 05 – End 05] Jun – Dec 04?: PCP DC05 (to be defined in scope) of ~100 Mevents and analysis Feb 05: DC05 or similar DC for analysis, with full support from LCG End 05: PTDR ready u LCG TDR [Fall 05] Include contributions from CMS CTDR and results from DC04/05 u DC06 [Mid 05 – Mid 06] Ramp up of LCG distributed System for CMS (50% of a single LHC experiment)
3 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 PCP-DC04 (1/2) u Scopo: Simulare gli eventi necessari al DC04 Usare questi eventi per gli studi preliminari del Physics TDR Mettere a punto il software e middleware per il DC04 u Dimensione Necessari ~50 M eventi per il DC04 (1 mese run a bassa lumi) Richiesti dai gruppi di Fisica ~69 M eventi u Commitment italiano (approvato dalla CSN1): ~ 20 % del PCP ~ 14 M eventi in totale, ma “solo” ~ 10 M eventi per il DC04 u Produzioni in corso Negoziazione degli eventi da generare in Italia (quelli che ci interessano per l’analisi) “Centro Regionale distribuito” INFN Produzioni “Tradizionali” (Farm dedicate e controllate localmente) e “Grid” (early-LCG CMS deployment: CMS LCG0/1) Coordinazione Italiana DC04: L. Barone (coord.), C. Grandi (Grid), M. Biasotto (Farms), V. Ciulli (Sw)
4 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 PCP-DC04 (2/2) u Italian Centers ready since Beginning-of-July 03: CMS validated “Traditional” and “Grid” (CMS LCG0/1, see below…) Bari (Grid+Tradit.), Bologna (Grid+Tradit.), Catania (Tradit.), Firenze (Tradit.), Legnaro (Grid +Tradit.), Milano (Tradit.), Padova (Grid), Perugia (Tradit.), Pisa (Tradit.), Roma1 (Tradit.), CNAF-Tier1 (Tradit.), CNAF-EDT (Grid) u Also active in CMS (mostly Tier1s): è CERN (1.8 M events), Wisconsin (4.5 M), Spain (2.8 M), Imperial College (2.8 M), Bristol/RAL (3.2 M), USMOP (US Grid) FNAL (0.9 M), IN2P3/Lyon (1.6 M), Moscow (0.5 M), Karlsruhe (1.6) u CMS LCG0/1 (Grid) also includes (besides Ba, Bo, LNL, Pd, …): è CERN, Imperial College, LLR (Ecole Poly), Taiwan, Islamabad Bristol, University Iowa, Milano (EDT) è Centro regionale “virtuale” coordinato da C. Grandi u Produzione in Italia (ad oggi): CMKIN (generatori): LNL, Bari, Pisa, CMS-LCG0/1(Grid) CMSIM (simulazione): Tier1, LNL, Bari, Firenze, Perugia, Pisa, Roma1, CMS-LCG0/1(Grid) OSCAR (simulazione G4, validation only): Pisa, Bologna, Padova
5 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Ritardi (non di CMS Italia) u PRS Definizione degli eventi da simulare utili al PTDR è CMKIN: Ritardo nella partenza (late June 03) CERN overloaded INFN help u CMSIM Rilascio iniziale di “CMSIM 132” e bugs corrections u Oscar Validazione e correzione di bugs u LCG POOL (late delivery and lack of CMS person-power) LCG-1 deployment (late delivery and opening-up to experiments) Grid middleware: EDG & VDT (late deployment and integration) u Data movement Definizione dei tools (SRB) e debugging/installation critical issue ! u Productions tools Tools non abbastanza automatizzati per la gestione continua delle produzioni u Organization Dicotomia tra l’attesa di Oscar e la produzione con CMSIM Divergenza delle architetture e implementazione di “production Grids” (EU & US) Mancanza di un consistente coordinamento centrale lack of person-power L. Barone gestisce direttamente gli assignments per l’INFN e I. Fisk per gli US
6 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Difficolta’ u Oscar Collaborazione col G4 Team e CMS validation u LCG Interazione col Progetto Sviluppo comune di sw e deployment della infrastruttura Delivery del software assenza di ritorno allo sviluppo nel “core software” di CMS u Data movement Assenza di una strategia and lack of person power u Production tools Assenza di una architettura scalabile all’analisi e alla Grid-enabling lack of person-power u Organization Difficolta’ di un coordinamento distribuito autonomia dei RC e gestione di Grid Processo decisionale farraginoso scelte estemporanee di tools e dispersione di sforzi Malgrado tutto cio’
7 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Snapshot (Italy 20 Sept 03) u CMKIN: M events LNL: 8.45 M (380 GB) Bari: 0.9 M Pisa: 0.3 M CMS LCG0/1: 0.5 M u CMSIM: ~ M events + running LNL: 3.0 M (2.6 TB) + 1.5M running T1-CNAF: 2.6 M (2.2 TB) + 1.5M running Bari: 100k + 100k running Firenze: 40k Perugia: 20k running Pisa: 60k running Roma1: 100k running CMS LCG0/1: 500k + 1M running u OSCAR test/validation Pisa: 500 k Bologna: 50 k Padova: just started In ~80 giorni CMKIN: ~ jobs + run CMSIM: ~ jobs + run Spazio disco: ~ 7 TB + backups I dati prodotti al CNAF sono anche su Castor I dati prodotti a LNL sono anche su seconda copia I dati delle Sezioni sono in backup locale (waiting T1 tapes) I dati CMKIN sono in copia anche al CNAF (e al ~CERN) I dati prodotti con CMS LCG0/1 sono anche sugli SE di Grid (e CERN) End 2003 Target : 10 (14) M events fully digitized
8 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 CMS Production: 20 Sept 03
9 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 CNAF Tier1 snapshot
10 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 CNAF Tier1: other snapshots Occupazione Dischi Libero Occupato Occupato Libero
11 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Snapshot of LNL Tier2+
12 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Sites of CMS-LCG0/1 ~180 CPUs, di cui ~150 INFN (Ba, Bo, LNL, Pd)
13 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 “Grid” Jobs on CMS LCG0/1 Job submission SE Storage filling
14 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Verso la fine del PCP (Dec 2003) u Il rate di produzione e’ ~12 M CMSIM-events/month ~25 M now, fine simulazione 50 M ~end November è Critico, ma non tutti i siti hanno prodotto per via dei ritardi menzionati (ma i maggiori si) u OSCAR ha superato il milione di eventi (~350k con POOL) Non ancora “validato” da tutti i PRS (fisica) Fattore 2 in CPU time (non si fa in tempo a fare 25 M entro Dec) u Conclusione: Proseguire con CMSIM (salvo contrordine) Continuare i test con OSCAR (e POOL) al CERN e in “selected sites (INFN incluso) Passare ad Oscar appena possibile e compatibile con le risorse u Digitizzazione Inizio Ottobre decisione sulle procedure Site-by-site rather than CMS-wide (CERN, FNAL, INFN, …T1s or equiv.) u Extra 19 M events Dove e quando simularli e digitizzarli? (extra time and extra costs)
15 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 DC04 (Feb 04) u Data Challenge e Physics Challenge “Data” per verificare un modello da riportare nel CTDR “Physics” perche’ gli eventi servono gli studi (preliminari) del PTDR u Data and Processes flow (~50 M events in one month): Ricostruzione al Tier0-CERN e flusso giornaliero >1TB/Tier1 (o streams dei soli ESD/AOD?) Analisi e calibrazioni predefinite presso i Tier1 = “Data” Challenge ( anche nei Tier2/3? = “Physics” Challenge ) u Commenti: Trasferendo solo ESD/AOD (tutti), in ogni Tier1 si hanno solo “parte” dei Raw data (quelli cola’ prodotti e conservati, su nastro?) Se non c’e’ un catalogo “unico” non e’ possibile fare analisi inter-Tier1s, o inter-Tier2/3s (“analisi di utente”), solo “intra-Tiers” Effetti sia sul “data” (Feb 04) che sul “Physics” Challenge (prima, durante e dopo Feb 04)
16 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Data Challenges: towards DC05 and DC06 u Analisi dei dati prodotti per il DC04 (Ottobre 2003 – Ottobre 2004?) Challenge continuo per Tier2, Tier3, GRID e supporto Tier1: novita’? è Piu’ volte ribadito che dal 2004 la attivita’ di analisi sarebbe cresciuta fino a diventare dominante u CMS DC05 (2004 – 2005): 10% di “Full Luminosity” Simulazione, ricostruzione ed analisi di ~100 M eventi è Saranno piu’ complessi (demanding dal punto di vista computazionale) di quelli del DC04 Gli eventi verranno usati per preparare il Physics Technical Design Report (PTDR) di CMS Ancora due fasi schematizzate, ma piu’ continue nell’attivita’: è Pre Challenge Production (PCP) è Challenge vero e proprio (DC05) Contributo Italiano è Partecipazione di tutte le sedi CMS Italia (con precisi commitments) è Contribuire con circa 20 M eventi durante il PCP (simulazione/digitizzazione) è Partecipare all’analisi del DC05 u CMS DC06 (2005 – 2006): 20% di “Full Luminosity” Preparazione al commissioning… e agli “acquisti” massicci di HW
17 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 CMS e LCG u LCG per CMS Commitment di CMS su LCG: importante per il coordinamento, lo sviluppo e l’infrastruttura è Da POOL al deployment di LCG-1 è Ruolo importante degli RTAGs CMS LCG0/1 testbed: essenziale per CMS e per LCG stesso (INFN leading) Difficolta’ nella gestione (PEB) e nel ritorno di man-power (non tutto puo’ essere “common”) : maggior trasferimento alle attivita’ degli esperimenti u LCG per CMS in Italia LNL e Tier1, per ora Migrare progressivamente CMS LCG0/1 a LCG-1 “ufficiale” è Richiede test di LCG-1 (e LCG-1.x) è Mantenere CMS LCGn testbed per verifica e preparazione Integrazione con INFN-Grid “production testbed” su siti “selezionati” LCG e’ critico per i Data/Physics Challenges di CMS: o funziona in tempo o CMS dovra’ trovare soluzioni alternative (gia’ esistenti o da sviluppare in proprio)
18 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 CNAF e LNL per CMS Italia u Il Tier1 ci sara’ ! (per mille buoni motivi…) Non abbiamo quello che ci servirebbe (e che avevamo chiesto) è 4 TB di disco a fronte di 11 (July) – 30 (Sept) TB richiesti è <2 TB di nastro a fronte di 40 TB richiesti è ~ 140 CPU equiv a fronte di 210 CPU equiv richieste Ma un ringraziamento al personale per la preziosa collaborazione e disponibilita’, che ha permesso di sopperire fino ad ora… u LNL c’e’ ! Averne altri…, attuali Tier2? LNL ha le risorse che avevamo chiesto, ma deve crescere per mantenere lo stesso livello di competitivita’ Specialmente ora che si va verso l’analisi, diventa un riferimento di modello per gli altri Tier2 e per i Tier3 Le sperimentazioni sono fattibili solo a LNL (dedicato a CMS) è Nuovo hardware è Tools di analisi e produzione è Farm ibride e loro configurazione
19 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Milestones 2004: specifiche (1/2) u Partecipazione di almeno tre sedi al DC04 [Marzo] Importare in Italia (Tier1-CNAF) tutti gli eventi ricostruiti al T0 Distribuire gli streams selezionati su almeno tre sedi (~ 6 streams, ~ 20 M eventi, ~ 5TB di AOD) La selezione riguarda l’analisi di almeno 4 canali di segnale e relativi fondi, ai quali vanno aggiunti gli studi di calibrazione Deliverable: contributo italiano al report DC04, in funzione del C-TDR e della “preparazione” del P-TDR. Risultati dell'analisi dei canali assegnati all'Italia (almeno 3 stream e 4 canali di segnale) u Integrazione del sistema di calcolo CMS Italia in LCG [Giugno] Il Tier1, meta’ dei Tier2 (LNL, Ba, Bo, Pd, Pi, Rm1) e un terzo dei Tier3 (Ct, Fi, Mi, Na, Pg, To) hanno il software di LCG installato e hanno la capacita’ di lavorare nell’environment di LCG Comporta la installazione dei pacchetti software provenienti da LCG AA e da LCG GDA (da Pool a RLS etc.) Completamento analisi utilizzando infrastruttura LCG e ulteriori produzioni per circa 2 M di eventi Deliverable: CMS Italia e’ integrata in LCG per piu’ della meta’ delle risorse
20 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Milestones 2004: specifiche (2/2) u Partecipazione al C-TDR [Ottobre] Include la definizione della partecipazione italiana al C-TDR in termini di: è Risorse e sedi (possibilmente tutte) è Man-power è Finanziamenti e piano di interventi Deliverable: drafts del C-TDR col contributo italiano u Partecipazione al PCP DC05 di almeno il Tier1 e i Tier2 [Dicembre] Il Tier1 e’ il CNAF e i Tier2 sono: LNL, Ba, Bo, Pd, Pi, Rm1 Produzione di ~ 20 M di eventi per lo studio del P-TDR, o equivalenti (lo studio potrebbe richiedere fast-MC o speciali programmi) Contributo alla definizione del LCG-TDR Deliverable: produzione degli eventi necessari alla validazione dei tools di fast-simulation e allo studio dei P-TDR (~20 M eventi sul Tier1 + i Tier2/3)
21 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Richieste 2004 (e possibili anticipi 2003) u Serve piu’ spazio disco: lo storage non e’ condivisibile. Nei Tier2 e Tier3 per analisi e simulazioni (attivita’ dominante da ORA) Nel Tier1 per le simulazioni, Data Challenges e archivio (nastro, sottovalutato) CMS diventa in questa fase di DC04 molto simile ad un Esperimento “running” u Elementi delle richieste 2004: (Inventario: 220 k€ + 160k€ s.j.) Si tiene conto di LCG su LNL e delle richieste al Tier1: no doppio conteggio, ma dipendenza nelle richieste. Investimenti in dischi: 26 TB nei Tier2+Tier3 (5 LNL) (anticipabili ‘03) Poche CPU (rimpiazzi): 29 box dual CPU (15 LNL) (anticipabili ’03) Sub judice consistente (sincronizzazione attivita’ CMS e CSN1) : 8 TB e 38 box dual CPU Contributo CORE Computing Common Fund (penultimo anno MoU) u Persone con responsabilita’ (che necessitano di ME aggiuntive) Ba (Lucia S.), Bo (Claudio G. & Paolo C.), Fi (Vitaliano C.), LNL (Massimo B.), Pd (Ugo G.), Pi (Giuseppe B.), Roma1 (Luciano B.), e molti altri…fortunatamente
22 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Conclusioni u CMS Calcolo Italia partecipa ai Data Challenges con: Contributo sostanziale (miglior rate e tempi di risposta in CMS) Coordinamento e ruoli definiti u Il Modello di calcolo permette: L’uso degli strumenti Grid appena disponibili L’utilizzo delle risorse (umane e non) con buona efficienza L’adozione di LCG appena disponibile La condivisione delle risorse, purche’ pianificata u Necessari altri investimenti: Nello spazio disco nei Tier2/3 Sulle risorse di calcolo del Tier1 (nastri inclusi) Nella potenza di calcolo e storage per il DC05 Nel migliorare l’uso delle CPU (duty cycle) attraverso sia tools di produzione migliori (personale!) che tools di Grid Nel coordinamento inter- e intra- Esperimenti/Progetti
23 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Richieste 2004 (incluso s.j.) (1/2)
24 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Richieste 2004 (incluso s.j.) (2/2) S.j. alla definizione dei commitments al DC05 e analisi PTDR: Aprile 04
25 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 LNL in LCG
26 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Additional slides
27 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Milestones 2003: status ScadenzaGiugno 03 (Status) Settembre 03 (Status) Meta’ delle sedi CMS Italia “enabled” per la produzione su Grid Aprile80%100% Protitipi Tier1 + Tier2 pronti per la produzione con LCG Giugno100%100% (80%?) Nuovo environement di CMS per l’analisi installato e funzionate (selected sites) Giugno50% Meta’ delle sedi “lavorano” con la nuova “persistenza” Giugno10%20% Partecipazione al 5% Data Challenge (PCP-DC04) del Tier1 e meta’ dei Tier2 Dicembre0%70%
28 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 Stime a lungo termine CMS Calcolo Investimenti/ anno (kEuro) Tier1 CNAF CMS Tier2 e Tier3 di CMS Italia (#6+6) Totale CMS Italia Totale ~ 1500 kEuro in 3 anni (06-08) sul Tier0 al CERN
29 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 CMS Model: a remind u Scope and roles of the Tiers Tier0: Central recording and “first” treatment of data Tier1s: Computing support for the CMS Collaboration and the Analysis Groups Tier2s: Analysis support and specific (identified) problems task-forces Tier3s: Analysis dedicated and focused issues on particular tasks Lower level Tiers: Local agreed activities and personal (users’) tasks u Scope and roles of the Regional Centers (RCs) in the “Grid” Local RCs: User Interfaces and personal DBs Distributed RCs: Ad-hoc resources for particular tasks and test services Dedicated RCs: Analysis-dedicated resources and common (CMS) DBs Common RCs: Grid Services (both common and CMS-specific) and DBs repositories u Dynamically de-localized commitments and resources Mostly person-power- & knowledge-based on specific problems è Both for computing and Physics skills Re-allocation of tasks within a: è Virtual Organization (Grid VOs) è Country Organization (INFN coordination, hierarchy of Centers) è Analysis Organization (CMS coordination, hierarchy of Roles) u We believe that LCG will deploy this Model, Provided that CMS (and other experiments) largely invest on the Project Commonalities are only tried when possible (and necessary): diversity within the Project is necessary Grid components are validated (and requested) by the experiments The “Cerncentric” view is abandoned (or at least mitigated)
30 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 CMS-Italy resources status
31 P. Capiluppi - CSN1 Lecce 24 Settembre planned INFN resources
32 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 “Distributed” Models Tier Grid
33 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 “Distributed” Models Tier Distributed Computing
34 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 “Distributed” Models Tier3 Tier2 Tier1 Tier3 Tier0 Tier2 Tier1 Monarc Tier2 Tier3
35 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 “Distributed” Models Tier3 Tier2 Tier1 Tier3 Tier0 Tier2 Tier1 Monarc - Grid Tier2 Tier3 LCG ?!
36 P. Capiluppi - CSN1 Lecce 24 Settembre 2003 “Distributed” Models LCG & CMS Tier3 Tier2 Tier1 Tier3 Tier0 Tier2 Tier1 Tier2 Tier3 Tier2 Common resources CMS resources Other resources LCG Now?