Tier 2 Legnaro-Padova Update luglio 2010
CPU NOTA: Vengono evidenziate in BLU le variazioni rispetto alla presentazione discussa a febbraio 2010 Risorse CPU CMS: 50 WNs, ~3600/390 core HEPSpec06 (~900 KSI00) La maggior parte blade 2xIntel5430 2.66 GHz 16 GB RAM datati gennaio 2008 Macchine piu' vecchie dismesse forzatamente per passaggio a SL5- 64bit
Storage 240 TB disponibili al momento DataDirect S2A6620 acquistato fine 2009 240 TB lordi (120 dischi da 2TB), dual controller, 4 porte FC 8Gb/s 190 TB netti: 40 TB per Alice, 30 TB per sistema test, 120 TB per CMS consegnato in ritardo ad aprile, Da HLRMon, last 30 days (apr 2010) DataDirect S2A6620
Storage: passaggio 6620->9900 Il 6620 messo in produzione verso il 20 di maggio ma da subito, pur avendo superato i requisiti di performance richiesti in gara, non presentava requisiti di stabilita’ e affidabilita’ necessari. Mactronic, dopo aver sentito DataDirect, ha proposto la sostituzione del 6620 con un 9900 senza spese (simile a quelli della gara vinta a INFN-T1). 100TB gia nel 6620: problematiche varie nella movimentazione nel 9900 tramite un sistema storage temporaneo -> tempi lunghi e una infinita’ di problematiche da risolvere – copia dei dati nel tmp terminata 12/07/2010 (sinc dati da verificare). Install 9900, move dischi/cestelli 6620->9900, copia dati da tmp
Rete (stato attuale) S A HP-5412 N Server Server Server Server Server 1 Gbps links 4 + 4 Gbps FC links 10 boxes 80 cores o Blade center Server Disk Array ~ 50 TB Server S A N Stato attuale Centro stella HP 5412 94 porte 1Gbps 4 porte 10Gbps Links da WN e disk in trunk N * 1 Gbps 10 Gbps per Pd 2 Gbps verso router LNL e GARR HP-5412 Disk Array Server Disk Array Disk Array Server Server Disk Array N*Gbps trunk 2 Centro Stella Lab. - Garr 10 Gbps dark fiber LNL - PD.
Rete (fine 2010) > 200 Gbps Ethernet backbone S A N Server Server 1 Gbps links 10 Gbps link 4 + 4 Gbps FC links Switch Concentratore 10 boxes 80 cores o Blade center Server Disk Array ~ 50 TB Server S A N Stato fine 2010 Centro stella Extreme X650 24 porte 10Gbps Links da WN e disk 10 Gbps 10 Gbps per Pd 10 Gbps verso nuovo router LNL e GARR-X (Agosto 2011) Disk Array Server Disk Array > 200 Gbps Ethernet backbone Disk Array Server Server Disk Array N*Gbps trunk 10 Gbps Centro Stella Lab 10 Gbps dark fiber LNL - PD.
Infrastruttura Lavori eseguiti nel 2008 220 kW di potenza elettrica in sala divisi su tre blindo-sbarre che distribuiscono la potenza a tre file di racks Una catena di 8 UPS (5 da 80 kVA e 3 da 30 kVA) che assicurano la ridondanza N+1. Gli UPS sono in condivisione con la Divisione Acceleratori Gruppo elettrogeno da 630 kVA (in condivisione con la divisione acceleratori) 4 chiller dedicati con una capacità di smaltimento del calore pari a 340 kW 14 racks tipo APC con 7 cooler di raffreddamento in row 6 racks tipo standard Impianto antincendio Situazione stabile e tale da permettere la crescita delle risorse secondo i piani previsti (e anche oltre se necessario) Il quadro elettrico del sistema UPS Il sistema UPS Il gruppo elettrogeno da 630 kW Uno dei chiller da 120 kW
Layout sala macchine T2
LNL LHC Tier 2 Center
Monitor infrastruttura Sviluppata applicazione custom in LabView per monitor infrastruttura e allarmistica
Job Monitor
Centro Stella Farm Padova Legnaro-Padova Dal 2008 iniziati test d'integrazione tra le macchine di Legnaro e quelle di Padova possibile grazie a collegamento diretto in fibra a 10 Gb/s tra le due sedi Obiettivo finale avere un T2 che possa essere fisicamente distribuito tra le due sedi condivisione di risorse hardware, infrastruttura (possibilita' di sfruttare due sale macchine) e soprattutto manpower 2 Gbps Centro Stella Farm T2 HP Procurve 5412 Router LNL PoP Garr Dark Fiber 15 Km Centro Stella Farm Padova HP Procurve 5412 10 Gbps
Legnaro-Padova Prima fase (da fine 2008): condivisione dello storage CMS con la farm grid di Padova il sito di Padova (sito grid separato e indipendente da LNL) usa l'SE di Legnaro come default SE per la VO CMS i job di analisi runnano indifferentemente a PD o a LNL, accedendo sempre allo stesso storage setup in produzione da inizio 2009, registrato in CMS come T3 utilizzo senza problemi del link a 10 Gb/s e accesso a dCache da remoto In questa configurazione i due siti sono separati e indipendenti, ognuno con i suoi CE e WN, solo l'SE condiviso per la vo CMS
Legnaro-Padova Seconda fase (da luglio 2009): macchine fisicamente a Padova pienamente integrate nel T2 LNL Worker Nodes di Padova nello stesso cluster LSF di Legnaro, sotto gli stessi CE e BDII: unico sito grid con macchine distribuite in due sedi 1 FTE (su due persone) del servizio calcolo di Padova dedicate alle attivita' del T2 LNL-PD: Alberto Crescente e Roberto Ferrari creato quindi un gruppo di persone LNL-PD che collabora alla gestione del T2 distribuito A luglio 2010 a PD ci sono 13 WN/104 core e un piccolo SE per la vo “superb”, in futuro prevediamo di distribuire abbastanza equamente WN e CE ma lasciare concentrato in un posto lo storage ed i servizi critici
Persone Grazie anche al lavoro fatto di integrazione con Padova, la situazione del personale coinvolto nella gestione del T2 è riassunta nella seguente tabella; con settembre od ottobre 2010, allo stato attuale, perderemo l’effort, decisamente importante per la gestione del T2, contributo di Simone Badoer (previsto IGI) Inoltre ci sono le persone di CMS Padova responsabili della parte riguardante la fisica (analisi, gruppi di fisica, gestione dataset, ...) U. Gasparini, S. Lacaprara, E. Torassa
Metrica 1: CMS site availability 2010-01-01 / 2010-06-30 All CMS T2 Sites
Metrica 1: CMS site availability (2) 2010-01-01 / 2010-06-30 All CMS Sites
Metrica 2: occupazione CPU (normalized) Da HLRMon, last 30 days (Jun-Jul 2010) Utilizzo sensibile da VO non-LHC In HLRMon Da fine giugno uso intensivo con alta effiecienza di alice
Metrica 3: % successful jobs 2010-01-01 / 2010-06-30 La maggior parte dei failure sono concentrati in picchi e causati da errori degli utenti Quando il problema e' di sito e' riscontrabile nelle statistiche di SAM e JobRobot (vedi slide anche slides febbraio 2010) => secondo noi questa metrica non e' indicativa della bonta' di un sito
Metrica 3: % successful jobs (2) 2010-01-01 / 2010-06-30 1% UNK Status 80% 2% GRID Fail Globus errore 10 ?! 16%
Situazione acquisti 2010 Acquisto CPU: gara ~90kE effettuata su mercato elettronico vinta da HP con un sistema blade da 4800 HS06: 15 lame, 2 WN per lama, 2xIntel-X5650 (6x2 = 12 core) per WN => 30 WN / 360 core -> rimane 1 posto libero per un’ulteriore lama da acquistare successivamente. Da completarsi pratiche burocratiche e successiva consegna Acquisto Storage: rimangono 56kE per acquisto/i da effettuarsi entro fine 2010. Potrebbe essere conveniente completare con ulteriori 30 dischi (~46 TBN) il 9900 con I 3 cassetti a disposizione (120+30=150 <- max supportato dal 9900 con 3 cassetti) NOTA: con I problemi del 6620 non abbiamo ritenuto opportuno procedere, per ora, con ulteriori acquisti.
Richieste 2011: Totale: 340 keuro NOTA: prevista associazione al 3o gruppo di fisica Acquisto CPU: Target 11 kHS06 (8.4 kHS06 a fine 2010) Richieste: 2.6 kHS06 => 65 keuro Acquisto Storage: Target 750 TBN (400 TBN a fine 2010) Richieste: 350 TBN => 228 keuro Altro: Network: 17 keuro per schede 10Gb e switch Server: 30 keuro (7 server per sostituzione 3 door gridftp, 1 HLR, 1 CE, 1 Ganglia + Monitor infrastruttura, piu' aggiunta di 1 nuova UI)