Il centro di calcolo Tier2 di LNL-PD Massimo Biasotto Gaetano Maron
Sommario Il prototipo Tier 2 (farm CMS e INFNGRID) Evoluzione 2001-2005 Attivita’ CMS 2001-2005 Attivita’ GRID 2001-2005 Il progetto Tier-2 per CMS e Alice Funzioni Risorse Infrastruttura Costi Personale
Prototipo T2: startup nel 2001 Luglio 2001: setup e avvio Farm CMS 34 nodi di calcolo, 10 disk server: 44 box, 88 CPU, ~35 kSI2000, ~3 TB Infrastruttura logistica: stanza di 70mq, 30 KW (iniziali, poi espansi a 90), raffreddamento in aria, UPS e gruppo elettrogeno scaffali e PC minitower al posto di rack Tools di installazione e gestione installazione automatica, batch system (LSF) monitoring (MRTG)
Prototipo T2: 2001
Risorse hw 2001-2005 Risorse hw 2005: 70 nodi di calcolo, 140 CPU, ~180 kSI2000 IBM/Intel blades dual Xeon 2.4/3.0 GHz ~10 disk server, ~25TB ancora i vecchi server con dischi IDE + 3ware, SAN StorageTek non ancora in produzione
Evoluzione hardware CPU: dai PC tower sugli scaffali ai Blade-centers su rack Storage: dai disk servers (dischi IDE + controller 3ware) alla SAN (dischi SATA/FC + controller StorageTek)
Prototipo T2: 2005
T2 computing center layout Computing Nodes (Blade Centers) N1 N14 N1 N14 N1 N14 N1 N14 N1 N14 GigaEth GigaEth GigaEth GigaEth GigaEth SWITCH SWITCH SWITCH SWITCH SWITCH 10 GE backbone To WAN GW DS1 DSn DS1 DS2 DSn DPM CE UI Grid User Interface Grid GateKeeper Local Gateway SAN Local Servers SRM Storage Element
Esperienze acquisite Evoluzione tools e competenze CPU: dai PC tower ai Blade Centers Storage: Controller 3ware: limiti e problemi Storage Area Network Tools di installazione e gestione: da sistemi semi-automatici (ANIS) a quelli attuali molto piu’ completi e scalabili (LCFG, YAIM) Batch system: LSF Monitoring: MRTG, Remstats, Ganglia
Monitoring: Ganglia Prima versione di Ganglia in funzione da marzo 2002: quasi 4 anni di statistiche accumulate 2002 2003 2004 2005 Uso della RAM, da marzo 2002 a dicembre 2005 2002 2003 2004 2005 Numero di running jobs, da marzo 2002 a dicembre 2005
Attivita’ CMS 2001-2005
Attivita’ CMS: 2001 Luglio 2001: consegna dell’hardware, installazione e setup della farm In questa fase iniziale LNL gestisce solo la parte sistemistica Produzione MC e analisi per CMS gestite dal gruppo CMS di Padova
Attivita’ CMS: 2002 e-gamma production Missing data Monitor starting from end of Mar 2002 Spring Production Analysis Dal 2002 coinvolgimento del personale LNL anche nelle attivita’ CMS Spring 2002 Production: 1.2 milioni di eventi simulati a LNL per un totale di 1.5 TB di dati Analisi in locale e trasferimento al CERN CMS-EDG stress test
Attivita’ CMS: 2003 e-gamma production PCP 03 PCP 03 PCP03 Production: oltre 5 milioni di eventi simulati a LNL (10% del totale CMS) Analisi in locale e trasferimento al CERN
Attivita’ CMS: 2004 Con l’avvio di LCG inizia a cambiare il tipo di attivita’ del T2, da gestione di produzioni locali ad attivita’ piu’ di sito Grid che offre servizi a tutta la comunita’ Produzioni MC in locale: 3.2 M eventi, per la maggior parte DST di dataset prodotti l'anno prima. Maggior parte della produzione via grid “Publishing” dei dati locali (PubDB) per analisi a tutto CMS via grid tools: ~5 TB di dati Partecipazione a CMS Data Challenge 04
Attivita’ CMS: 2005 Produzioni MC locali: 1M eventi DST + 4M Hit+Digi cosmici Produzioni MC via grid e Publishing dati per analisi Service Challenge 3
Altre attivita’ CMS Supporto all’attivita’ del gruppo di sviluppo e costruzione delle camere muoni Repository dati e macchine per attivita’ di analisi e sviluppo Produzioni camere Testbeams Cosmic Challenge 2006
Grid activity milestones 2001/2005
Grid activity: 2001/2002 2001-12: First Quantum INFNGrid site. Direct contribution on building EDG first release (WP4: fabric mgmt, LCFG/LCFGng installation and configuration tools) 2002-10-03: EDG 1.2.2 installation and test 2002-10-31: CMS stress test; participation of 10 sites. LNL 1st in storage availability, 2nd in CPU sharing (EDG 1.2.2) 2002-11: first EU+US testbed; involved in DataTAG+iVDG collaboration. SC2002 + IST2002 (monitoring infrastructure and CMS test production cmsim+cmkin) 2002-12-06: 40 CPUs shared with the GRID environment
Grid activity: 2003 2003-01-16: EDG v1_4_3 installation and test 2003-03-08:122 CPUs shared with the GRID environment (end of DataGrid project) 2003-05-21: LCG-0 installation and test 2003-11-20: LCG-1.1.1 installation and test (first LCG stable release) 2003-12-05:128 CPUs in LCG -> the most powerful farm in LCG 1.1.3; it is a hybrid farm where the the WNs are shared among local and grid use
Grid activity: 2004 2004-spring: CMS DC04 participation Atlas DC 2 LHCb DC04 2004-spring: CMS DC04 participation 2004-03-18: ALICE production in LCG environment 2004-08-24: LHCb DC04 in LCG; LNL is mentioned at 6th place on the top ten production site list 2004-08-05: queue/VO partitioning; during the ATLAS DC2, LNL give priority to ATLAS queued jobs 2004-09-08: at the GDB presentation, LNL is one of the most active ATLAS DC2 LCG sites (LCG + Grid3 + NordUGrid involved sites) 2004-12-16: ATLAS is using entirely the LNL GRID storage resources
Grid activity: 2005 2005-06: LCG 2.5.0 installation and test; it’s a specific SC3 release deployed only by a restricted number of sites to help LCG to address SC3 needs then included in LCG2.6.0 stable release (2005-08) 2005-07-20: SC03 T1-T2 first transfer tests (SRM-DPM) 2005-11: LCG 2.6.0 140 CPUs - 5 blade centers / 180 KSI00 - 200 KSF00
Il progetto Tier-2 per CMS e Alice
Da prototipo a T2? L’INFN sta ora decidendo quali tra i prototipi diventeranno Tier 2 ufficiali (9 siti candidati per i 4 esperimenti di LHC). Legnaro-Padova candidato T2 per CMS e Alice Settembre 2005: presentazione “Progetto di massima” dicembre-gennaio: visite referees ai siti Presentazioni: http://infnforge.cnaf.infn.it/cdsagenda/displayLevel.php?fid=6
Progetto di massima del centro Funzioni del centro per gli esperimenti Risorse hardware (cpu e disco) 2006-2010 Infrastruttura Rete Logistica (potenza elettrica, raffreddamento, UPS) Risorse umane Ruoli di responsabilita’ (gestionale, coordinamento, tecniche e operative) Personale (servizi base, sistemisti dedicati, supporto operativo degli esperimenti) Piano finanziario
Dalla presentazione di Conclusioni Lo studio della produzione di quark pesanti, a cui si è finora interessato il gruppo PD-LNL, è uno dei temi di punta del programma di fisica di ALICE Queste analisi sono tra quelle che richiedono maggiori risorse in termini di tempo di CPU e spazio su disco Produzioni ad alta statistica sono necessarie per preparare le strategie di analisi per studiare l’effetto dei tagli e calcolare le corrispondenti correzioni Nel Computing Model di ALICE, i Tier-2 sono considerati come risorse condivise dall’intera Collaborazione e non dedicate a priori a specifici studi di fisica Gli interessi e l’esperienza del nostro gruppo potrebbero rendere naturale l’indirizzamento di attività di calcolo concernenti i quark pesanti sul Tier-2 PD-LNL Dalla presentazione di A. Dainese (Alice)
Dalla presentazione di Il gruppo ALICE PD-LNL F. Antinori M. Cinausero A. Dainese D. Fabris J. Faivre E. Fioretto M. Lunardon M. Morando [coordinatore Heavy Flavour Physics Working Group] S. Moretto G. Prete F. Scarlassara G. Segato F. Soramel R. Turrisi L. Vannucci G. Viesti Dalla presentazione di A. Dainese (Alice)
Dalla presentazione di Tier 2 CMS a LNL Scopi e funzioni: 1) centro di analisi per le analisi fisiche di interesse della comunità italiana, in particolar modo (ma non esclusivamente) dei Muoni e del Tracker e relativamente ad analisi in topologie con muoni nello stato finale 2) supporto centrale alle attività di calibrazione/sincronizzazione e allineamento delle camere a mu dell’ apparato e calibrazione della scala della misura di momento (campo magnetico) Centro di riferimento per le comunità dei Tier3 di: Bologna, Padova, Torino(muoni) (40-50 ricercatori coinvolti) + attività legate agli stream di calibrazione dei muoni da parte dei gruppi di Bari e Napoli Dalla presentazione di U. Gasparini (CMS)
Dalla presentazione di Persone ai Tier3 Dalla presentazione di U. Gasparini (CMS) Bologna (15 ricercatori) G. Abbiendi, A. Benvenuti , F. Cavallo, P. Capiluppi, C.Grandi, M. Dallavalle, F. Fabbri, A. Fanfani, S. Marcellini, G. Masetti, M. Montanari , F. Navarria, F. Odorici, , A. Perrotta,T.Rovelli,R.Travaglini Padova (20 ricercatori) P.Azzi, N.Bacchetta, D.Bisello, P.Checchia,E.Conti, T.Dorigo, F.Gasparini, U.Gasparini, U.Dosselli, S.Lacaprara, I.Lippi, M.Loreti, M.Mazzucato, A.Meneguzzo, P.Ronchese, S.Vanini, E.Torassa, M.Zanetti, PL.Zotto, G.Zumerle Torino (16 ricercatori) E.Accomando,N.Amapane, M.Arneodo, A.Ballestrero, R.Bellan, G.Cerminara, E.Maina, S.Maselli, C.Mariotti, V.Monaco, M.Nervo, A.Romero, M.Ruspa, R.Sacchi, A.Solano, A.Staiano In blu persone attualmente fortemente attive in sw/analisi : 23 persone
Previsione risorse 2005-2010 CMS + Alice 2005 2006 2007 2008 2009 2010 CPU (kSI2K) 140 280 753 1415 2640 3800 Disk (TB) 30 73 206 555 912 1132 CPU (#box) 39 65 123 178 214 237 Disk (#disk) 91 171 319 551 622 608 #Racks 2 4 7 9 11 13 Potenza (kW) 25 40 80 130 170 200
Logistica Sala III Ground floor CPU + dischi UPS sala 22 Servizi Storage T2 Sala III Ground floor CPU + dischi Farm LNL SALA 0022 per STORAGE ~ 40 m2 / 50 kW SALA 0009 per CPU ~ 60 m2 / 150 kW Frigoriferi Sala 9 Gruppo Elettrogeno Tier 2
Logistica Sala III underground: UPS 0002 UPS per sala 9
Possibili Estensioni Nel caso in cui gli sviluppi futuri richiedano estensioni a quanto previsto, sara’ possibile sfruttare: Sala equivalente della 0009 al piano 1 Utilizzo completo della sala 0022
Rete: centro stella della farm 40 Gbps 50 Gbps RC1 RD1 RC2 RD2 RC3 10 Gbps backbone RD5 RC8 Racks CPUs Racks dischi ~ 1 Gbps per nodo
Rete: collegamento con il T3 di Padova Link diretto senza passare per Il router di sezione PRO piu economico non interferisce con il router possibilita di accedere ai dati direttamente (dCache/DPM) varie possibilita di operare T2 LNL RC1 RD1 T3 Pd RC2 RD2 10 Gbps backbone Dark fiber 10 Gpbs RC3 Backup RD5 RC8 Cisco 6509 Al pop Pd Al pop Pd Llink attraverso I router Architettura standard, ben conosciuta e testata RC1 RC2 RC3 RC8 RD1 RD2 RD5 10 Gbps backbone T2 LNL Router LNL Router Pd T3 Pd Da definire con attenzione le specifiche del T3 e preparare dei test bed. Soluzione a 1 Gbps gia pronta da testare CEF720 4 porte 10 Gbps
Consumo kW CPU 25 SI2K/W Limite 600 (+ 50%) Limite a 600 W
Consumo CPU e dischi
Potenza Elettrica per il T2
UPS + Gruppo elettrogeno La sala 0022 ha gia’ ups n+1 per un totale di 90 kW La sala 0009 avra’ 2 UPS da 200 kW l’uno Il centro T2 sara’ munito di un gruppo elettrogeno dedicato da 630 kW
Impianti frigoriferi La sala 0022 e’ gia condizionata (fino a 90 kW non ridondati) Condizionamento sala 0009 (60 m2) : sistema n+1 60 kW 60 kW 60 kW 60 kW 2007 2008 Cooled water ai racks
Rack CPU freddi per sala 0009 Il numero di rack per le CPU e’ stato calcolato in modo Da non superare mai i 20 kW per rack. Per le CPU pensiamo di utilizzare rack raffreddati ad acqua. Knurr 22 kW 12 Keuro/rack CIAT societa francese di condizionatori. Soluzione semplice scambiatore sulla porta posteriore ventole sulla stessa porta CMS on-line rack fino a 10 kW (2.5 Keuro/rack) Trattative in corso per 20 kW
Costo Infrastrutture 51 13 13 24 20 40 53 25 5 5 67 3 3 3 68 3 3 3 22 8 4 Con rack knurr 321 52 28 35
Personale Personale tecnico, non degli esperimenti Personale permanente Legnaro: M.Biasotto (100%), L.Berti (20%), N.Toniolo (30%), M.Gulmini (30%, dal 2007) Personale a tempo determinato Legnaro: S.Badoer (100% fino al 2007) Personale permanente Padova: 2 FTE (1 dal 2007 e 1 dal 2008) Personale a tempo determinato Padova: S.Fantinel (50%, fino al 2007?) Outsurcing: 0.2 FTE
Personale del centro T2
Organigramma T2 Responsabile Responsabile Responsabile Gestione Attivita CMS U. Gasparini Responsabile Gestione G. Maron (M. Biasotto) Responsabile Attivita Alice L. Vannucci Responsabile Impianti R. Pegoraro Responsabile Tecnico M. Biasotto Responsabile interfaccia GRID S. Fantinel Servizi di Base Biasotto Berti Toniolo Sistemisti Biasotto Berti Toniolo Gulmini Badoer 2 FTE Padova Outsourcing