1 M. Paganoni, 17/1/08 Stato dei T2 CMS INFN M. Paganoni Meeting con referee, 9/5/08.

Slides:



Advertisements
Presentazioni simili
1 M. Biasotto – Legnaro, 22 Dicembre 2005 Prototipo Tier 2 di Legnaro-Padova INFN Legnaro.
Advertisements

LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
Il Tier2 di CMS Roma Francesco Safai Tehrani INFN Roma
Report R.Gomezel CCR dicembre 2006 Roma.
Tier-2 Legnaro-Padova Massimo Sgaravatto (INFN Padova) On behalf of the Legnaro-Padova T2 team Tier-2 Legnaro-Padova 1.
FESR Consorzio COMETA - Progetto PI2S2 Il Tier-2 di ALICE a Catania Roberto Barbera Università di Catania e INFN Visita Referee.
1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera
The INFN Tier-1: progetto di ampliamento Cristina Vistoli – INFN CNAF Referee Meeting Sep
CCR, LNF ott 2011 Proposte assegnazioni server & storage L. Carbone, A. Gianoli, M. Serra.
Computing CMS Richieste 2010 M.Paganoni, 22/7/09.
Sistema Informativo. Mansioni Gestione della piattaforma hardware e sistemistica del sistema informativo INFN In realta’ il mansionario e’ in continua.
EGEE is a project funded by the European Union under contract IST L'infrastruttura di produzione attuale A. Cavalli - INFN- CNAF D. Cesini.
ATLAS computing Roberto Carlin Commissione I Roma 1/7/08 F. Bossi, C.Bozzi, R. Carlin, R. Ferrari, D. Lucchesi, D. Martello, M. Morandin, M. Taiuti.
Attività PRIN STOA a Cagliari Alessandro De Falco Università/INFN Cagliari.
Alessandro De Salvo Status dei Tier2 di ATLAS Alessandro De Salvo
The INFN Tier-1: migrazione verso l’ampliamento Cristina Vistoli – INFN CNAF.
Torino, Andrea Dainese 1 Andrea Dainese (INFN – LNL) Stato del Tier-2 ALICE a Legnaro.
Gaetano Maron, Presentazione T2 LNL-Padova, Legnaro 22 dicembre Il centro di calcolo Tier2 di LNL-PD Gaetano Maron.
Stato dell’infrastruttura INFN CNAF, Stato dell’infrastruttura Impianti tecnologici Gli impianti di base stanno funzionando, ma sono urgenti.
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Evoluzione del collegamento geografico e collaudo della nuova struttura CORE del TIER1 CDG – 06/10/2016 Stefano Zani
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Verardo Torri - Milano 17/01/2006
Summary di (quasi) tutti gli utenti non presentati…
dCache Test effettuati al CNAF
CARATTERISTICHE DI UN DATACENTER
Tier 2 dell’esperimento Atlas ai LNF
La federazione dei Tier2
Engineering Faculty University of Messina, Italy Marco Scarpa
Massimo Masera CSNIII Roma, 20 marzo 2012
Metodologie Quantitative per il Calcolo Scientifico
Visita al sito di Catania RECAS
Richieste di upgrade dei link di accesso alla rete Geografica
Collegamento a Garr-X Il collegamento alla nuova rete Garr-X dovrà garantire il massimo della efficienza nella gestione della banda. Per identificare opportunamente.
Installazione Storage 2016
Infrastruttura del Tier-2 di TORINO
Cristina Vistoli – INFN CNAF
Collaudo della nuova struttura CORE del TIER1 e migrazione delle risorse dalla attuale infrastruttura di rete a quella nuova CDG – 07/12/2016.
Università di Messina - C.E.C.U.M.
Attivita’ e compiti del Servizio Impianti Calcolo e Reti
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Richieste preliminari calcolo non LHC
Stato Acquisti Switch/Router T2
CMS T2: monitoring Cosa c’e’ / cosa vorremmo / cosa manca
Assegnazione risorse Stato INFN CNAF,
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
QUADRO CALCOLO IN COMMISSIONE III
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Carbone, Gianoli, Mezzadri
Tier 2 Legnaro-Padova Update luglio 2010
Aggiornamenti dal Tier-1
Prototipo Tier 2 di CMS-INFNGRID M. Biasotto - INFN Legnaro
Aggiornamento sullo stato del Tier-2 di Catania
Nuove funzionalità e futura implementazione nella Sezione di Trieste
Attvità Computing – Inverno 08/09
Care and Feeding of the ALICE Grid
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
Necessità di calcolo per MEG II e ripartizione dei costi
CMS.
Report Calcolo Commisione III
KLOE: referee* Stato dell’arte (da Aprile ad oggi)
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Calcolo “locale” ATLAS-Mi
PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno
(Università di Palermo)
Preventivi CCR 2018 INFN Roma Tor Vergata.
Report dei referee di Kloe
Storage and Data management Vladimir Sapunenko
Transcript della presentazione:

1 M. Paganoni, 17/1/08 Stato dei T2 CMS INFN M. Paganoni Meeting con referee, 9/5/08

2 M. Paganoni, 17/1/08 MC Production jobs LNL Plot relativo al “Time spent on successful jobs” per la produzione MC nel periodo Sep-07 – Apr-08 Roma CNAF Pisa

3 M. Paganoni, 17/1/08

4 Solo da LCG3

5 M. Paganoni, 17/1/08 Site Availability Monitor Risultati del CMS Site Availability Monitor da gennaio 2008

6 M. Paganoni, 17/1/08 Jobrobot Risultati dell’ultima settimana

7 DDT2 Nuova metrica per link commissioning 20 MB/s per 24 ore (downlink) ‏ 5 MB/s per 24 ore (uplink) ‏ Test periodico del link commissionati

8 M. Paganoni, 17/1/08 Sala Calcolo Spostamento e riunificazione di tutte le risorse di calcolo della Sezione Superficie complessiva ~ 90 m 2 (espandibile in futuro con altri 60 m 2 ) Pavimento flottante (acquistato) 14 rack (acquistati) (espandibili fino a 22) APC con 8 In-Row Cooler (acquistati) Alimentazione rack (a regime) con 3 UPS da 80 KVA/cadauno in ridondanza (120 KW utili) (solo uno acquistato) Impianto di raffreddamento: 2 Chiller da 100KW/cadauno (in ridondanza) (acquistati) Impianti da realizzare: Impianto elettrico ed illuminazione Impianto idraulico per acqua di refrigerazione Impianto di rilevazione fumi e spegnimento incendi Sensori antiallagamento Stato gara: conclusa (lavori assegnati) inizio lavori atteso a giorni durata prevista dei lavori: due mesi (giugno, luglio)

9 M. Paganoni, 17/1/08 Spesa complessiva di circa 150 kEuro per la sola ristrutturazione dei locali (incluso adeguamento rete elettrica). Infrastrutture acquisite: Chiller 40 k€ (2x100kW), UPS 11 k€ (1/3,80KVA) isola APC (6+8 rack) 100 k€ Sala UPS SERVER DI RETE cluster APC CHILLER Anticendio

10 M. Paganoni, 17/1/08 Farm In produzione: CPU: 180 batch slots (Pentium IV -> Xeon 4 Core) 280kSI2k -> 200 kSI2k acquistati da CMS Storage: 62 TB netti di disco (solo CMS) ~ 30TB Assembled DAS ~ 32TB SUN Thumper In arrivo: CPU: 128 batch slot (Xeon 4 Core) (250kSI2k) -> 64 acquistati da CMS (125kSI2k) 72 batch slot dal T1 (Pentium IV) (80kSI2k) Sblocco SJ 2008

11 M. Paganoni, 17/1/08 Test con il Thumper Sistema operativo nuovo Difficoltà di approccio e rigida curva di apprendimento Installazione di dCache abbastanza veloce una volta compresa la procedura Abbiamo reso disponibili le note di installazione a questo url: Semplicità di set-up di ZFS Semplicità di set-up del trunking delle 4 interaccie gigabit Ottimo sistema di gestione remota della macchina via WEB! Reset in caso di problemi, redirect della consolle locale, upgrade firmware etc… Ottime performance -> 550MB/s in scrittura || 660MB/s in lettura Problemi hardware nel primo mese di uso: problema di compatibilità fra un driver e il controller dei dischi Testato il servizio di assistenza NBD -> Prima interazione con un tecnico qualificato in 2.5 ore Path suggerita in meno di 48 ore

12 M. Paganoni, 17/1/08 Uso della Farm

13 M. Paganoni, 17/1/08 T2 durante la presa dati Dati di produzione per CCRC08 Link commissionati: Download: 8 Link Tutti i T1, tranne RAL, + Pisa Upload: 6 Link CERN, CNAF, IN2P3, ASGC, FNAL, PISA

14 M. Paganoni, 17/1/08 ~700 TB trasferiti in un anno Debug-download Debug-upload prod-download prod-upload

15 M. Paganoni, 17/1/08 Infrastruttura della sala macchine L’attuale infrastruttura (potenza e freddo) è stata progettata nel 2000 per il prototipo del T2 di CMS e sopporta fino a 70 kW (con UPS e gruppo elettrogeno). Consumo attuale ~ 50 kW Nel 2007 sono stati acquistati i componenti per aggiungere 150 kW in sala Impianto antincendio Quadro elettrici per UPS e per la sala 3 UPS da 80 kVA (in condivisione con la divisione acceleratori) Gruppo elettrogeno da 630 kW (in condivisione con la divisione acceleratori) Impianto idraulico per raffreddamento racks Racks 8 racks APC con 4 elementi di raffreddamento in-row 1 chiller da 120 kW Completamento lavori giugno 2008 (fine CCRC08, stop del centro per almeno 3 giorni) Nel 2008 si stanno acquistando elementi di ridondanza dell’impianto 1 nuovo UPS da 80 kVA (ordinato) 1 nuovo Chiller da 120 kW (ordinato) Eventuali nuovi racks (da ordinare)

16 M. Paganoni, 17/1/08 Sala Macchine 1° fila rack, acquisti 2007, installazione 2008 CMS 2007 CMS 2007 CMS 2007 CMS CMS ALICE 2007 LNL 2007 Espansioni

17 M. Paganoni, 17/1/08 Risorse CPU

18 M. Paganoni, 17/1/08 Risorse Disco CMS Il 6540, acquistato con i fondi del primo sblocco sj 2008, e’ appena stato consegnato e sara’ messo in produzione a breve

19 M. Paganoni, 17/1/08 Phedex data transfers Phedex downlink commissionati dai 7 Tier-1 Phedex uplink commissionati verso CNAF e CERN

20 M. Paganoni, 17/1/08 CMS job activity Dati dalla CMS dashboard: running jobs a LNL nel periodo Sep-07 - Apr-08

21 M. Paganoni, 17/1/08 Sharing CPU tra VO Jobs running per VO nell’ultimo anno (dal monitoring locale di ganglia)

22 Farm Il T2 CMS di Pisa e’ all’interno del GRID Data Center di Pisa (INFN/SNS/Dip) ‏ Alta priorita’ ◦ Dipende dai contributi economici al centro ◦ Attualmente CMS ~ 70% (in diminuzione per aumento contributo gruppo teorico)

23 CPU Scirocco (Opteron 280):  300 processori Opteron dual core 2.4 GHz, 1 GB di ram per core  Uniwide 1U 2P Libeccio (Opteron 2218) ‏  300 processori Opteron Dual Core 2.6GHz, 1 GB di ram per core  Rete veloce Infiniband 10 Gb/s  IBM x3455 1U 2P Grecale (Opteron 8220) ‏  10 macchine SUN X4600 4U 8P, 2 GB per core  80 processori Opteron dual core 2.8 GHz Maestrale (Xeon 5400) ‏  17 macchine Dell PowerEdge 1950, 1U 2P, 1 GB per core  34 processori quad core  2 Computing Element in redundant mode Attualmente sono così installati quasi 1500 core per una potenza di calcolo di oltre 2 MSI. Il numero di macchine con problemi / sotto test / sotto reinstallazione abbassa questi numero a ~ 1200 Nuova farm dei teorici Uso esclusivo da parte del data center AMD 50%

24 Storage Diversi sistemi, frutto della sperimentazione degli scorsi 5 anni: ◦ NAS: Panasas, 5 TB usati come area software e dCache ◦ SAN: Rio, 2 TB; Infortrend, 4 TB ◦ SAN: Storm 8 TB + 36 da installare (ultimi fondi 2007) ◦ NAS: Nexsan Satabeast, 42 TB, acquistato con prima tranche 2008 dCache 1.8 ◦ 4 admin nodes virtualizzati (pnfs, dcap, pnfs, srm) ‏ ◦ 7 pool nodes (alcuni slc3, altri slc4) ‏ Totale = 100 TBR, ~ 80 TBN

25 Storage 2 Ancora in fase di ottimizzazione Intenzione: in collaborazione con il CED, attivare un FS GPFS su tutto lo storage, in modo da bilanciare meglio gli accessi GPFS gia’ installato, effettuati test con il Gruppo Storage INFN Valutazione a lungo termine da fare ◦ se sorgono problemi, possiamo tornare a utilizzo standard ◦ motivo principale per cui non si sono comprati sistemi Thumper, incompatibili con GPFS

26 Infrastruttura Totale condizionamento installato: 183 kW Capacita’ elettrica: 250 kW per servizi, worker nodes e storage

27 Rete WAN: ◦ 1Gbit/s per tutta Pisa (MAN) ‏ ◦ Visto che la usavamo tutta, da gennaio siamo stati limitati a 400 MBit/s ◦ Adesso: ottenuto altro link a 1 Gbit/s per il T2, fuori dalla MAN (con possibilita’ di re-routing di emergenza e di sforare 1 Gbit/s) ‏ LAN ◦ Situazione attuale utilizzando solamente apparati di switch economici ◦ Il centro di calcolo ha studiato come ridisegnare la rete utilizzando una struttura monolitica capace di ospitare anche interfacce 10 Gbit/s per lo storage ◦ CMS dovrebbe contribuire in relazione al suo utilizzo

28 Tools Pisa e’ uno dei primi siti con un numero di WN >200 Esigenze di monitoring locale molto forti ◦ Identificare/risolvere WN in bad state ◦ Monitor LSF ◦ Monitor Jobs ◦ Monitor Trasferimenti FTS Tutto home made e messo a disposizione degli altri T2 via Twiki CERN

29

30 Controlli Sistema home-made integrato, tutti i dati in un’unica schermata Status monitor all’esterno della sala

31 Attivita’ post CSA07 200k Jobs per 3Gsec CPU 45% dell’attivita’ CMS in Italia 25% dell’attivita’ LHC in Italia > del doppio del secondo T2

32 45% dell’attivita’ NON LHC in Italia >300 TB trasferiti su Pisa (e circa altrettanti da Pisa)‏ Sotto challenge > 60 MB/s Pisa e' commissionata in downlink con tutti i T1 e in uplink con tutti tranne RAL ◦ In piu' anche il link T2-T2 Pisa<>Bari e' stato commissionato

33 M. Paganoni, 17/1/08

34 M. Paganoni, 17/1/08 Infrastruttura completata la I fase 7 rack Knuerr up & running (CMS+ATLAS) un rack sarà prestato a Virgo fino a fine anno secondo UPS installato allarmistica completata (incendio, allagamento, blackout, porte rack etc.)

35 M. Paganoni, 17/1/08 Hardware i2008 sblocco 1/3 s.j Roma 75 k€ Acquisti completamento SAN da 42 TB iniziata nel 2007, 17 k€ 4 nuovi server per servizi (CE,SE,UI,Phedex) 8.8 k€ server NAS da 16 TB 9.6 k€ switch di rete per il terzo rack e KVMoIP 2.4 k€ il resto in WN 37 k€ (in corso)

36 M. Paganoni, 17/1/08 Hardware now CPUs 37 WN inclusi quelli in corso di acquisto totale stimato di 360 KSI2K, 204 job slots Storage 90 TBN (1 SAN + 7 NAS) [di cui 1 NAS in consegna]

37 M. Paganoni, 17/1/08 Activities CCRC08 local analysis of H2 test beam data CMS official MC production managed via ProdAgent by Bari group (M.Abbrescia et al.) grid jobs of ECAL community LoadTest - DDT all CMS services up & running

38 M. Paganoni, 17/1/08 migrazione nuova sala commissioning Phedex Rome commissioned uplink to CNAF,CERN,FNAL downlink from CNAF,CERN,FNAL,PIC,IN2P3

39 M. Paganoni, 17/1/08 CMS job activity Dati dalla CMS dashboard: running jobs a Roma nel periodo Sep-07 - Apr-08