Tier 2 Legnaro-Padova Update luglio 2010

Tier 2 Legnaro-Padova Update luglio 2010

CPU NOTA: Vengono evidenziate in BLU le variazioni rispetto alla presentazione discussa a febbraio 2010 Risorse CPU CMS: 50 WNs, ~3600/390 core HEPSpec06 (~900 KSI00)‏ La maggior parte blade 2xIntel GHz 16 GB RAM datati gennaio 2008 Macchine piu' vecchie dismesse forzatamente per passaggio a SL5- 64bit

Storage 240 TB disponibili al momento
DataDirect S2A6620 acquistato fine 2009 240 TB lordi (120 dischi da 2TB), dual controller, 4 porte FC 8Gb/s 190 TB netti: 40 TB per Alice, 30 TB per sistema test, 120 TB per CMS consegnato in ritardo ad aprile, Da HLRMon, last 30 days (apr 2010)‏ DataDirect S2A6620

Storage: passaggio 6620->9900
Il 6620 messo in produzione verso il 20 di maggio ma da subito, pur avendo superato i requisiti di performance richiesti in gara, non presentava requisiti di stabilita’ e affidabilita’ necessari. Mactronic, dopo aver sentito DataDirect, ha proposto la sostituzione del 6620 con un 9900 senza spese (simile a quelli della gara vinta a INFN-T1). 100TB gia nel 6620: problematiche varie nella movimentazione nel 9900 tramite un sistema storage temporaneo -> tempi lunghi e una infinita’ di problematiche da risolvere – copia dei dati nel tmp terminata 12/07/2010 (sinc dati da verificare). Install 9900, move dischi/cestelli 6620->9900, copia dati da tmp

Rete (stato attuale)‏ S A HP-5412 N Server Server Server Server Server
1 Gbps links 4 + 4 Gbps FC links 10 boxes 80 cores o Blade center Server Disk Array ~ 50 TB Server S A N Stato attuale Centro stella HP porte 1Gbps porte 10Gbps Links da WN e disk in trunk N * 1 Gbps 10 Gbps per Pd 2 Gbps verso router LNL e GARR HP-5412 Disk Array Server Disk Array Disk Array Server Server Disk Array N*Gbps trunk 2 Centro Stella Lab. - Garr 10 Gbps dark fiber LNL - PD.

Rete (fine 2010)‏ > 200 Gbps Ethernet backbone S A N Server Server
1 Gbps links 10 Gbps link 4 + 4 Gbps FC links Switch Concentratore 10 boxes 80 cores o Blade center Server Disk Array ~ 50 TB Server S A N Stato fine 2010 Centro stella Extreme X porte 10Gbps Links da WN e disk Gbps 10 Gbps per Pd 10 Gbps verso nuovo router LNL e GARR-X (Agosto 2011) Disk Array Server Disk Array > 200 Gbps Ethernet backbone Disk Array Server Server Disk Array N*Gbps trunk 10 Gbps Centro Stella Lab 10 Gbps dark fiber LNL - PD.

Infrastruttura Lavori eseguiti nel 2008
220 kW di potenza elettrica in sala divisi su tre blindo-sbarre che distribuiscono la potenza a tre file di racks Una catena di 8 UPS (5 da 80 kVA e 3 da 30 kVA) che assicurano la ridondanza N+1. Gli UPS sono in condivisione con la Divisione Acceleratori Gruppo elettrogeno da 630 kVA (in condivisione con la divisione acceleratori)‏ 4 chiller dedicati con una capacità di smaltimento del calore pari a 340 kW 14 racks tipo APC con 7 cooler di raffreddamento in row 6 racks tipo standard Impianto antincendio Situazione stabile e tale da permettere la crescita delle risorse secondo i piani previsti (e anche oltre se necessario)‏ Il quadro elettrico del sistema UPS Il sistema UPS Il gruppo elettrogeno da 630 kW Uno dei chiller da 120 kW

Layout sala macchine T2

LNL LHC Tier 2 Center

Monitor infrastruttura
Sviluppata applicazione custom in LabView per monitor infrastruttura e allarmistica

Job Monitor

Centro Stella Farm Padova
Legnaro-Padova Dal 2008 iniziati test d'integrazione tra le macchine di Legnaro e quelle di Padova possibile grazie a collegamento diretto in fibra a 10 Gb/s tra le due sedi Obiettivo finale avere un T2 che possa essere fisicamente distribuito tra le due sedi condivisione di risorse hardware, infrastruttura (possibilita' di sfruttare due sale macchine) e soprattutto manpower 2 Gbps Centro Stella Farm T2 HP Procurve 5412 Router LNL PoP Garr Dark Fiber 15 Km Centro Stella Farm Padova HP Procurve 5412 10 Gbps

Legnaro-Padova Prima fase (da fine 2008): condivisione dello storage CMS con la farm grid di Padova il sito di Padova (sito grid separato e indipendente da LNL) usa l'SE di Legnaro come default SE per la VO CMS i job di analisi runnano indifferentemente a PD o a LNL, accedendo sempre allo stesso storage setup in produzione da inizio 2009, registrato in CMS come T3 utilizzo senza problemi del link a 10 Gb/s e accesso a dCache da remoto In questa configurazione i due siti sono separati e indipendenti, ognuno con i suoi CE e WN, solo l'SE condiviso per la vo CMS

Legnaro-Padova Seconda fase (da luglio 2009): macchine fisicamente a Padova pienamente integrate nel T2 LNL Worker Nodes di Padova nello stesso cluster LSF di Legnaro, sotto gli stessi CE e BDII: unico sito grid con macchine distribuite in due sedi 1 FTE (su due persone) del servizio calcolo di Padova dedicate alle attivita' del T2 LNL-PD: Alberto Crescente e Roberto Ferrari creato quindi un gruppo di persone LNL-PD che collabora alla gestione del T2 distribuito A luglio 2010 a PD ci sono 13 WN/104 core e un piccolo SE per la vo “superb”, in futuro prevediamo di distribuire abbastanza equamente WN e CE ma lasciare concentrato in un posto lo storage ed i servizi critici

Persone Grazie anche al lavoro fatto di integrazione con Padova, la situazione del personale coinvolto nella gestione del T2 è riassunta nella seguente tabella; con settembre od ottobre 2010, allo stato attuale, perderemo l’effort, decisamente importante per la gestione del T2, contributo di Simone Badoer (previsto IGI) Inoltre ci sono le persone di CMS Padova responsabili della parte riguardante la fisica (analisi, gruppi di fisica, gestione dataset, ...)‏ U. Gasparini, S. Lacaprara, E. Torassa

Metrica 1: CMS site availability
/ All CMS T2 Sites

Metrica 1: CMS site availability (2)
/ All CMS Sites

Metrica 2: occupazione CPU (normalized)
Da HLRMon, last 30 days (Jun-Jul 2010)‏ Utilizzo sensibile da VO non-LHC In HLRMon Da fine giugno uso intensivo con alta effiecienza di alice

Metrica 3: % successful jobs
/ La maggior parte dei failure sono concentrati in picchi e causati da errori degli utenti Quando il problema e' di sito e' riscontrabile nelle statistiche di SAM e JobRobot (vedi slide anche slides febbraio 2010)‏ => secondo noi questa metrica non e' indicativa della bonta' di un sito

Metrica 3: % successful jobs (2)
/ 1% UNK Status 80% 2% GRID Fail Globus errore 10 ?! 16%

Situazione acquisti 2010 Acquisto CPU: gara ~90kE effettuata su mercato elettronico vinta da HP con un sistema blade da 4800 HS06: 15 lame, 2 WN per lama, 2xIntel-X5650 (6x2 = 12 core) per WN => 30 WN / 360 core -> rimane 1 posto libero per un’ulteriore lama da acquistare successivamente. Da completarsi pratiche burocratiche e successiva consegna Acquisto Storage: rimangono 56kE per acquisto/i da effettuarsi entro fine Potrebbe essere conveniente completare con ulteriori 30 dischi (~46 TBN) il 9900 con I 3 cassetti a disposizione (120+30=150 <- max supportato dal con 3 cassetti) NOTA: con I problemi del 6620 non abbiamo ritenuto opportuno procedere, per ora, con ulteriori acquisti.

Richieste 2011: Totale: 340 keuro
NOTA: prevista associazione al 3o gruppo di fisica Acquisto CPU: Target 11 kHS06 (8.4 kHS06 a fine 2010)  Richieste: 2.6 kHS06 => 65 keuro Acquisto Storage: Target 750 TBN (400 TBN a fine 2010)  Richieste: 350 TBN => 228 keuro Altro: Network: 17 keuro per schede 10Gb e switch Server: 30 keuro (7 server per sostituzione 3 door gridftp, 1 HLR, 1 CE, 1 Ganglia + Monitor infrastruttura, piu' aggiunta di 1 nuova UI)

Tier 2 Legnaro-Padova Update luglio 2010

Presentazioni simili

Presentazione sul tema: "Tier 2 Legnaro-Padova Update luglio 2010"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Tier 2 Legnaro-Padova Update luglio 2010

Presentazioni simili

Presentazione sul tema: "Tier 2 Legnaro-Padova Update luglio 2010"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back