La federazione dei Tier2

Slides:



Advertisements
Presentazioni simili
1 M. Biasotto – Legnaro, 22 Dicembre 2005 Prototipo Tier 2 di Legnaro-Padova INFN Legnaro.
Advertisements

16 Maggio CSN1 Computing-Software-Analysis CMS-INFN TEAM Analisi in CMS: stato e prospettive del supporto italiano.
LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
Otranto, 8/6/06M. Paganoni1 La federazione dei Tier2 di CMS M. Paganoni.
Storage (ieri, oggi e domani) Luca dell’Agnello INFN-CNAF.
Tier-2 Legnaro-Padova Massimo Sgaravatto (INFN Padova) On behalf of the Legnaro-Padova T2 team Tier-2 Legnaro-Padova 1.
1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera
Referaggio TIER2 di Pisa 30 giugno 2006 Silvia Arezzini (Servizio Calcolo e Reti)
G. Maggi 24/1/2006 Il Progetto del TIER2 di Bari Giorgio Maggi.
ATLAS NAPOLI Software & Computing e il Tier-2 Gianpaolo Carlino INFN Napoli Il gruppo ATLAS di Napoli Le attività Software & Computing Il prototipo Tier-2.
The INFN Tier-1: progetto di ampliamento Cristina Vistoli – INFN CNAF Referee Meeting Sep
CCR, LNF ott 2011 Proposte assegnazioni server & storage L. Carbone, A. Gianoli, M. Serra.
1 M. Paganoni, 17/1/08 Stato dei T2 CMS INFN M. Paganoni Meeting con referee, 9/5/08.
Computing CMS Richieste 2010 M.Paganoni, 22/7/09.
Sistema Informativo. Mansioni Gestione della piattaforma hardware e sistemistica del sistema informativo INFN In realta’ il mansionario e’ in continua.
FESR Catania, Trigrid Open Day, Trinacria Grid Virtual Laboratory PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno.
ATLAS computing Roberto Carlin Commissione I Roma 1/7/08 F. Bossi, C.Bozzi, R. Carlin, R. Ferrari, D. Lucchesi, D. Martello, M. Morandin, M. Taiuti.
Domenico Elia1 Calcolo ALICE: stato e richieste finanziarie (aggiornamenti) Domenico Elia Riunione Referee Calcolo LHC / Bologna, Riunione con.
The INFN Tier-1: migrazione verso l’ampliamento Cristina Vistoli – INFN CNAF.
Il calcolo per l’esperimento GERDA: prospettive per la Fase II Luciano Pandola INFN, Laboratori del Gran Sasso e Laboratori del Sud Workshop della CCR,
Torino, Andrea Dainese 1 Andrea Dainese (INFN – LNL) Stato del Tier-2 ALICE a Legnaro.
Gaetano Maron, Presentazione T2 LNL-Padova, Legnaro 22 dicembre Il centro di calcolo Tier2 di LNL-PD Gaetano Maron.
Stato dell’infrastruttura INFN CNAF, Stato dell’infrastruttura Impianti tecnologici Gli impianti di base stanno funzionando, ma sono urgenti.
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Riunione ALICE Italia - Referee stato e richieste finanziarie
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
I costi del Calcolo LHC un update –
G. Carlino, D. Lucchesi, V. Vagnoni
Massimo Masera CSNIII Roma, 20 marzo 2012
Metodologie Quantitative per il Calcolo Scientifico
Calorimetro LAR ATLAS Italia Roma 28 novembre 2008
Richieste di upgrade dei link di accesso alla rete Geografica
Collegamento a Garr-X Il collegamento alla nuova rete Garr-X dovrà garantire il massimo della efficienza nella gestione della banda. Per identificare opportunamente.
Dichiarazione dei servizi di sito nel GOCDB
Referaggio sigla CALCOLO
Attivita’ e compiti del Servizio Impianti Calcolo e Reti
Commissione Scientifica III stato e richieste finanziarie
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Servizi per CCRC, INFN Grid release, stato dei servizi centrali e T2
From 8 to 80 boxes. From FBSNG to Condor CPU Satura !
Assegnazione risorse Stato INFN CNAF,
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Analisi dei dati dell’Esperimento ALICE
ALICE CALCOLO richieste finanziarie e proposte di assegnazione 2017
JetWalk: Agenda e review committee
Tier 2 Legnaro-Padova Update luglio 2010
Prototipo Tier 2 di CMS-INFNGRID M. Biasotto - INFN Legnaro
Aggiornamento sullo stato del Tier-2 di Catania
Attvità Computing – Inverno 08/09
Care and Feeding of the ALICE Grid
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
IL CALCOLO DI ALICE IN ITALIA
Gigi Cosentino - LNL 20 ottobre 2016
Report Calcolo Commisione III
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Stato di Tilecal al 10/09/2008 (primo fascio)
Job Application Monitoring (JAM)
ONEDATA - distributed data caching -
Calcolo “locale” ATLAS-Mi
Gianpaolo Carlino (coord)
ATLAS: il calcolo Alessandro De Salvo
M.Biasini, P. Checchia 18 Settembre 2008 Riunione CSN1
PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno
Atlas Milano Giugno 2008.
La richiesta si basa sulle seguenti considerazioni:
ATLAS Italia Computing Richieste 2007 (Tier-2 e locali)
Commissione Calcolo e Reti
Commissione Calcolo e Reti
Transcript della presentazione:

La federazione dei Tier2 di CMS - Italia M. Paganoni Bologna, 6/3/2007

CSA06 Tutti i centri di calcolo di CMS hanno partecipato con successo al CSA06

CSA07 Test del 50 % del livello di produzione Preproduzione inizia a marzo CSA07 in luglio 3

Risorse per partecipare a CSA07

Tier 2 Legnaro-Padova M. Biasotto e G. Maron

Risorse CPU Le macchine del 2003 sono in via di dismissione (lente e solo 1GB di RAM) E’ in corso un processo d’integrazione della farm LNL con il T2, allo scopo di condividere le risorse di CPU (al momento non c’e’ ancora la condivisione dinamica)

Risorse Disco Nel 2006 e’ stato usato DPM come SRM Storage Element E’ in corso il passaggio a dCache che entrera’ in produzione durante il mese di marzo 2007

Utilizzo CPU Start CMS MC production Jobs running per VO nell’ultimo anno (dal monitoring locale di ganglia) I valori di CPU-time normalizzati (da luglio 2005 a febbraio 2007) sono disponibili sul sito del GOCDB: http://www3.egee.cesga.es/gridsite/accounting/CESGA/egee_view.p hp

Sharing CPU tra VO

LNL SC4 data transfer Data transfer activity CMS Load Test Jun-Sep 2006: focus on continuity of service, not throughput) Import: 200TB transferred, rate 20-50 MB/s Export: 60TB transferred, rate 5-20 MB/s very good stability in june-july (using srmcp), more problems from end of july (after switching to FTS) Legnaro WAN network utilization

LNL SC4 jobs Analysis jobs: SC4 JobRobot (fake analysis) and user analysis run only on small data samples, not enough stress to test site storage and network system MC production full use of the farm in july and august, mostly cpu activity but ‘merge’ jobs very I/O intensive, so far the best stress-test activity for our storage: no major issues and good overall performance Legnaro CMS jobs Jun-Sep 2006 (~50K jobs) fake analysis jobs MC production user analysis

LNL CSA06 challenge http://cms.pd.infn.it/software/CSA06/Wmunu.html Legnaro participated in CSA06 without any major site-related problem The analysis tasks planned were successfully completed, demonstrating the functionality of the workflow chain http://cms.pd.infn.it/software/CSA06/Wmunu.html

Attivita’ 2007 Partecipazione a CSA07 Preparazione LHC startup simulazioni fase pre-challenge 2 x analisi/test CSA06 (includendo anche L1+HLT simulation) Preparazione LHC startup simulazioni/ricostruzione a 900 GeV Analisi detector commissioning data “wheel commissioning”: da maggio 1 settimana al mese di global DAQ trasferimento a LNL di parte dei dati per analisi analisi Monte Carlo cosmici Partecipazione ad analisi dati MTCC phase-3

Richieste finanziarie - LNL/Pd 48 keuro per 16 box (64 core, ~112 kSI2k) 3 keuro per switch GE 24 porte 30 keuro per 20 TB disco (lordi)

Tier2 di CMS-Roma L. Barone

Infrastruttura gara terminata e approvata dalla Giunta in atto le procedure di apertura del cantiere (permessi, preparazione locali) I fase : pavimento, tramezzi, imp.elettrico II fase: impianto idraulico, chiller, armadi Knuerr, UPS fine lavori prevista entro maggio, salvo complicazioni

Hardware 2006 finanziamento 2006 43 k€ CPUs Storage 12 WN, 1 CE, 1 CE backup, 1 UI, 1 Frontier/Squid + 4 WN old/broken di cui 8 WN dual Opteron dual core su finanziamento 2006 (29,760 €) 10 WN + UI < 3 years Storage 4 NAS Fileservers, 16 TB 1 SE of 10 TB, other 6 TB for local use 2 Fileserver < 3 years 1 switch 48 porte gbit su finanziamento 2006

Hardware now variazioni di bilancio + 11500 € del finanziamento 2006 CPUs 4 additional WN Opteron 280 (9500 €), not yet delivered Storage 2 additional NAS Fileservers, 16 TB raw, 13 TB net (18000 €) ... but 1 existing Fileserver broke down in the meantime

Activities SC4, CSA06 (not quoted here) local analysis of H2 test beam data CMS official MC production managed via ProdAgent by Bari group (N.De Filippis, M.Abbrescia et al.) grid jobs of ECAL community LoadTest07 all CMS services up & running

H2 Data @ Tier2 cmsrm-se02.roma1.infn.it:/gwpool/data2/H2data/raw ~ 800 GB (2380 runs) cmsrm-se02.roma1.infn.it:/gwpool/data1/H2data/reco ~ 1.2 TB (2380 runs + 300 runs with a different reconstruction) data transfer via scp from Cern (1ST data sample in october, 2nd in december 2006) Data from last reconstruction are now in Phedex (900 GB, 2100 files, name:/h2tb2006/reco/v6) more than 3000 reconstruction jobs executed on local queues (lsf) several thousands of analysis jobs submitted by 4 users (D. del Re, D. Franci, A. Palma, R. Paramatti) reconstruction of ECAL and HCAL with CMSSW_0_8_1

Monitoring All following plots from Ganglia@Rome Reliable monitoring only from December 1st, 2006 keep improving Note to readers: Ganglia does NOT keep fine grain time resolution and averages over all units so 90% cpu usage over all cpus means 100% usage over 90% of the nodes (or alike...)

CPU used December 1st, 2006 – February 24th, 2007 monitor problem farm shutdown for cooling works December 1st, 2006 – February 24th, 2007 data from local Ganglia, averaged over all cpus

Jobs December 1st, 2006 – February 24th, 2007 big MC production with CMSSW 120 new MC production with pile up December 1st, 2006 – February 24th, 2007 data from local Ganglia, averaged over all cpus

Running Jobs December 1st, 2006 – February 24th, 2007 all cpus available hardware problems on few machines December 1st, 2006 – February 24th, 2007 data from local Ganglia, averaged over all cpus

Expanded view february cpu & running jobs

Some numbers User cmsprd, source LSF accounting Total number of done jobs: 14873 Total number of exited jobs: 1639 Total CPU time consumed: 149860416.0 Average CPU time consumed: 9075.8 Maximum CPU time of a job: 175807.0 Total throughput: 6.33 jobs/hour , 152 jobs/day during 2610.20 hours Beginning time: Nov 10 22:35 Ending time: Feb 27 16:47

Phedex Load Test 07 achieved 50 MB/s peak 30 MB/s sustained over hours as all italian T2s depending on effective FTS CNAF channel

Squid queries to Cern db with test ECAL jobs obviously this is not continuous

Manpower Lista dei task e relativi responsabili LMB: coord.gen.,int.con il Cern, acquisti, infrastruttura, emergenze sw C.Bulfon: LSF, emergenze hw, backup G.Organtini: monitoring, NIS, controllo remoto, web R.Paramatti: CMSSW F.Safai Tehrani:coord.tecnico, system & sw installation, DPM (dCache), grid Milano/D.Del Re: Phedex S.Rahatlou (pro tempore): Frontier/Squid

Richieste finanziarie Roma due punti abbiamo poche CPU: target CMS 1.5 kjob/day/site, siamo a 150/day/site !! serve storage più affidabile chiediamo 65 k€ sullo sblocco del s.j. 41 k€ per un sistema SAN di circa 30 TB lordi (25 TB netti) 24 k€ per 8 WN (48 kSI2K)

Tier2 SJ Pisa Tommaso Boccali e Giuseppe Bagliesi

Persone coinvolte nel progetto Infrastrutture: Silvia Arezzini: responsabile Servizio Calcolo Alberto Ciampa ed Enrico Mazzoni, in particolare per gli aspetti infrastrutturali tecnici Maurizio Davini, in particolare per i dettagli hw e sw di CPU e storage Filippo Bosi per la progettazione impiantistica e la stima dei costi. CMS: G. Bagliesi, T. Boccali, F. Calzolari, S. Sarkar l dettagli del progetto preliminare si trovano nel documento seguente: http://bagliesi.home.cern.ch/bagliesi/tier2/Progetto_preliminare_tier2_pisa.pdf

Attivita’ nel periodo maggio - dicembre 2006 (CSA06 e oltre…) 7 TB, 50 CPU

SC4 LoadTest ~40TB trasferiti CSA06 Preprod giugno-agosto SC4 CMS CSA06 Preprod (~4M ev. prodotti) Analisi su RECO events EWK, MinBias Analisi su Skim events TTbar, EWK R&D su storage DPM, dCache CSA06 Preprod giugno-agosto ~10TB trasferiti

Sharing CPU tra VO

Sala Calcolo (CED1) meta’ 2006

Sala CED1: situazione fine 2006

Sala CED1: situazione fine 2006

Situazione Sala CED1 fine 2006 (quella che ospita il Tier2) Corrente elettrica: Disponibilità (KW): 75 + 69 = 144 Utilizzi (KW): Sezione: 48 – 20 (CED2) + 18 (espansione di sezione) = 46 Tier 2: 23 server + 73 dischi = 9.2 + 3.3 = 12.5 KW Totale impegnato: 58.5 Margine: 85.5 Condizionamento: Disponibilità (KW): 72 Utilizzi (KW): impegnato: 58.5 Margine: 13.5

Installato da fine 2006 6 condizionatori in row APC 10 rack APC Possibilita’ di raffreddare fino a 140 kW 10 rack APC Unita’ chiller da 80kW Predisposizione completa per secondo chiller Possibilita’ di installare un terzo chiller Tutto cio’ e’ funzionante al momento

Sala CED attuale

Foto SALA CED attuale

Chiller montato sul tetto Predisposizione secondo chiller Chiller gia’ in funzione

Attivita’ 2007 per infrastruttura Nell’ambito della collaborazione tra SNS/UNIPI/INFN il Tier2 di CMS potra’ disporre delle risorse come da tabella precedente (purche’ finanziate dall’INFN) Nella realta’ le CPU vengono fornite dal “consorzio” e i soldi INFN relativi vengono utilizzati per: Finire di pagare l’infrastruttura gia’ installata Potenziare l’infrastruttura (secondo chiller…)

Attivita’ del tier2 in CMS Inizio LoadTest 07: picchi di 50MB/sec

Copia e analisi dei dati della Tracker Integration Facility Analisi alla TIF utilizza tools standard DBS/DLS per registrazione PhEDEx per trasferimento CRAB per analisi ProdAgent per ricostruzione/reprocessing Setup interamente sviluppato in Italia

CSA07 a Pisa Il consorzio UNIPI/SNS/INFN pensa di utilizzare CSA07 per Burn-in e test dell’infrastruttura Burn-in TIER2 (HW/SW)

Burn-in infrastruttura Condizioni operative simili al ~2009 Tabella nominale Stressare chiller/condizionatori/impianto elettrico/network Operare tier2 con ~200 nodi ~1MSI2k = ½ tier2 2010 prima della rimodulazione

Burn-in tier2 CPU ~200 nodi ~1MSI2k = ½ tier2 2010 prima della rimodulazione Tier2 fine 2006 (50 cpu) CPU nominali 2007 (tabella rimodulata) Macchine aggiuntive a disposizione TEMPORANEAMENTE (2 mesi) da UNIPI 128 2-cpu 2-core opteron 280 (2.4 GHz) 4GB Uniwide 1.5 kSI2k X 512 core Storage Acquisizione 2007 con fondi INFN Spazio disco in prestito dal “consorzio” Installazione di 6-7 dCache pool-nodes Il setup dovrebbe essere operativo a meta’ marzo In produzione per inizio della preprod CSA07

Installazione in corso

Prime 24 ore dopo il primo “bunch” di nodi installato Produzione MC Numero di job nel periodo 27-28/2/2007

Richieste finanziarie Pisa Contributi del consorzio a fine 2006 SNS: 60 keuro UNIPI: CPU + rack/condizionatori APC (~ 500 kEuro) INFN: 24 keuro (finanziamento TOTALE fino ad ora) 2007: Richiesta sblocco s.j. sul Tier2 10 WN 4x Opteron 280 2.4 GHz (60 kSI2K) = 30 kEuro Storage SAN 20 TB = 30 kEuro

Farm di Bari Salvatore My Giacinto Donvito

Le risorse hardware WN (80 kSI2K) Storage 17 TB utili 39 WN: from PIII 1.2GHz to Opteron DualCore 86 Slots ~ 80 KSI2k > 10 nodi per i servizi ~ 22 KSI2k 2 CE, 2 UI, 3PA, MySQL back-up, dCacheAdmin, home & back-up, SoftExp, Pre- prodCE, Squid, Phedex WN (80 kSI2K) Storage 17 TB utili

Risorse occupate: ~ 40168 giorni-CPU L’uso delle risorse Ganglia plot - ultimo anno CMS Num. di job durante il CSA06: 43966 Num. di job dopo CSA06: 10236 Num. gg-CPU durante CSA06: 4549 Num. gg-CPU dopo il CSA06: 4280 McProd Num. gg-CPU : 7991 Num. di job : 23642 Periodo Considerato: ~ 410 giorni Risorse occupate: ~ 40168 giorni-CPU Giorni- CPU VO 13340 Cms 7830 Biomed 5214 Bio 4562 Atlas 3302 Alice 3056 Lhcb 2864 altre

Servizi in produzione (1) CE Con Torque/MAUI come Batch System (installato sulla stessa macchina) Fairshare Priorità per usi particolari (cmssgm, test) Reservation QoS dCache ~ 17 TB 6 pool-node Bilanciamento del carico: Molte (7) porte GsiFTP Pool dedicati per la cache dei files più acceduti Replica dei files triggerata in base al carico del pool su cui risiedono

Servizi in produzione (2) Squid Usato sin da ottobre Interazioni con Barry Blumenfeld, Lee Lueking Ottimizzato per fornire i dati dalla cache sul disco o dalla RAM quando possibile Sembra poter scalare fino a 2-300 job paralleli. Dopo la lettura remota iniziale (in blu) i dati vengono serviti ai WN (in verde) senza ulteriori letture remote

Servizi in produzione (3) ProdAgent Tre macchine installate Tutte sottomettono in parallelo Dataset diversi Il database MySQL di ogni PA viene replicato (su un’altra macchina) in tempo reale con la procedura automatica di MySQL C’è necessità di svecchiare l’hardware utilizzato Phedex Attualmente configurata con Prod/Dev su phedex 2.5 Configurata anche la parte di injection per i dati di McProd e dati reali 3 diverse instanze di download per DB: CERN (FTS del CERN) Standard (FTS del CNAF) SRMCP (srmcp verso i siti dCache)

Sistemi di monitoring GANGLIA GridICE dCache Monitoring LEMON

I trasferimenti SC3/4 - CSA06 TEMPO CSA06 Saturazione 0.6 Gbps Bari -> CERN Ora 1 Gbps o 120 MB/s

I Trasferimenti LoadTest07 Obiettivo: Network Transfers between T1-T2: 20-200MB/s

La nuova Sala Calcolo della Sezione INFN di BARI La Sezione INFN sta predisponendo la nuova sala CED (completamento previsto per luglio 2007) spostamento e riunificazione di tutte le risorse di calcolo della Sezione servizio calcolo + esperimenti superficie complessiva ~ 90 m2 un eventuale Tier2 (CMS+ALICE) troverebbe adeguata sistemazione all’interno della nuova sala CED 5 rack APC per il pTIER2+ 3 racks APC per esperimenti Possibilità di espandere fino a 14 racks -130 KW dissipabili 2 + 1 racks: GRID 2 +1 racks: servizi

Adeguamento Sala CED la spesa per l’adeguamento della struttura è sostenuta dalla Sezione (con la partecipazione dei gruppi) impianto elettrico + impianto antincendio + distribuzione acqua raffreddamento rack + pavimento flottante spesa prevista: circa 90 K€ inclusa la progettazione (curata da professionista esterno) già acquistati (a fine 2006): 1 chiller dal 125 KW (in consegna) 1 UPS da 80 KVA (consegnato) 1 isola APC con 4 refrigeratori + 6 rack (consegnata) più 2 rack esistenti

Tipical CMS T2 in 2007 From Ian Fisk (WLCG workshop) Local data access: 200MB minimum for T2  Ok We can scale also with current infrastructure up to ~300MB/sec Network Transfers between T1-T2: 20-200MB/s OK We have reached ~100MB/sec on WAN transfer without bottleneck (1Gbit/sec physical limit) Job Submissions to Tier-2s: 75k jobs/d -> 1.5kjobs/day per Tier2 OK We need to split gateway services Tier-2 capacity would be ~150CPUs  Not OK Mancano almeno 60 Core Disk storage 20-30TB  Not OK Mancano circa 10 TB

Personale Bari CMS INFN Grid M. Abbrescia, L. Barbone, A. Colaleo, D. Giordano, R. Guida, L. Lusito, M. Maggi, S. My, A. Pompili, G. Pugliese, G. Roselli, R. Trentadue, S. Tupputi, G. Zito INFN Grid J. Atul, G. Cuscela, N. De Filippis, G. Donvito, V. Dudhalkar, A. Pierro

Attività di analisi del gruppo CMS di Bari per il 2007 Analysis and high level commisioning Tracker –RPC EWK: Z  mm e W  mn for the first data taking scenario of inclusive cross section of Z and W production, evalutation of systematic uncertainties Higgs: H  ZZ eemm full simulation and analysis for 2008 paper Beyon Standard Model: Z’  tt, Z’  mm Susy: Search for low mass gauginos in 2008 RPC : Si Tracker : Efficiency and resolution in local reconstruction; Trigger efficiency, timing. Tracking: c2, impact parameters; single-hit resulution; Alignment, Vertexing. Measure :

Tracker misalignment effects Bs sample:

Richieste finanziarie Bari Adeguare la farm al minimo per poter partecipare a CSA07 Sono necessari 10 WN 2x Opteron (60 kSI2K) = 30 kEuro Storage SAN 10 TB = 15 kEuro La sostituzione delle 3 UI per la Produzione (ProdAgent)

Summa per il 2007 sede attuale CPU attuale disco richieste CPU richieste disco tot CPU 2007 tot disco 2007 kSI2K TB Legnaro 190 51 112 17 302 68 Roma 85 24 48 25 133 49 Pisa 67 7 60 127 Bari 20 8 80 16 tot 362 90 280 642 157