Tier 2 Legnaro-Padova Update luglio 2010

Slides:



Advertisements
Presentazioni simili
Aspetti critici rete LAN e WAN per i Tier-2
Advertisements

1 M. Biasotto – Legnaro, 22 Dicembre 2005 Prototipo Tier 2 di Legnaro-Padova INFN Legnaro.
LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
M.Biasotto, Bologna, 28 giugno 2004 M.Biasotto, Bologna, 28 giugno LNL CMS T2 Legnaro Stato attuale e richieste 2004/2005.
Tier-2 Legnaro-Padova Massimo Sgaravatto (INFN Padova) On behalf of the Legnaro-Padova T2 team Tier-2 Legnaro-Padova 1.
FESR Consorzio COMETA - Progetto PI2S2 Il Tier-2 di ALICE a Catania Roberto Barbera Università di Catania e INFN Visita Referee.
Aggiornamento sui lavori di ampliamento degli impianti infrastrutturali del TIER1 e stato delle risorse Cristina Vistoli – Massimiliano Fiore INFN-CNAF.
1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera
G. Maggi 24/1/2006 Il Progetto del TIER2 di Bari Giorgio Maggi.
Domenico Elia1CdG Tier1-Tier2 / CNAF ALICE Tier2 sites Domenico Elia CdG Tier1-Tier2 Bologna, 15 Aprile 2015  Infrastruttura e risorse, coordinamento.
CCR, LNF ott 2011 Proposte assegnazioni server & storage L. Carbone, A. Gianoli, M. Serra.
Gruppo Netarch Incontro di lavoro della CCR Napoli gennaio 2010 Connessioni Tier1/Tier2 a GARR-X 1 GM, Incontro di lavoro della CCR – Napoli
1 GM, CCR, Roma 2 marzo 2010 Gruppo Netarch Riunione CCR Roma 2 marzo 2010 Relazione Gruppo NetArch.
1 M. Paganoni, 17/1/08 Stato dei T2 CMS INFN M. Paganoni Meeting con referee, 9/5/08.
Computing CMS Richieste 2010 M.Paganoni, 22/7/09.
Sistema Informativo. Mansioni Gestione della piattaforma hardware e sistemistica del sistema informativo INFN In realta’ il mansionario e’ in continua.
EGEE is a project funded by the European Union under contract IST L'infrastruttura di produzione attuale A. Cavalli - INFN- CNAF D. Cesini.
ATLAS computing Roberto Carlin Commissione I Roma 1/7/08 F. Bossi, C.Bozzi, R. Carlin, R. Ferrari, D. Lucchesi, D. Martello, M. Morandin, M. Taiuti.
Gaetano Maron, Workshop Tier2, CNAF, gennaio La rete locale per i Tier2 Workshop Tier2 CNAF – gennaio 2008 Gaetano Maron INFN – Laboratori.
Attività PRIN STOA a Cagliari Alessandro De Falco Università/INFN Cagliari.
HLRmon per IGI: nuove funzionalità Enrico Fattibene INFN – CNAF
The INFN Tier-1: migrazione verso l’ampliamento Cristina Vistoli – INFN CNAF.
Torino, Andrea Dainese 1 Andrea Dainese (INFN – LNL) Stato del Tier-2 ALICE a Legnaro.
Gaetano Maron, Presentazione T2 LNL-Padova, Legnaro 22 dicembre Il centro di calcolo Tier2 di LNL-PD Gaetano Maron.
Stato dell’infrastruttura INFN CNAF, Stato dell’infrastruttura Impianti tecnologici Gli impianti di base stanno funzionando, ma sono urgenti.
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Infrastruttura cloud servizi realizzata nella Sezione di Napoli
Evoluzione del collegamento geografico e collaudo della nuova struttura CORE del TIER1 CDG – 06/10/2016 Stefano Zani
SCoPE - Stato dei Lavori
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Verardo Torri - Milano 17/01/2006
Integrazione tier3 in Grid Paolo Veronesi, Luciano Gaido
Piani di sviluppo e consolidamento
CARATTERISTICHE DI UN DATACENTER
Claudia Battista Tempi e Modi di GARR-X Claudia Battista
I costi del Calcolo LHC un update –
Monitoring e loadbalancing dei servizi Grid
Comput-ER l'infrastruttura di calcolo distribuito in Emilia Romagna
Engineering Faculty University of Messina, Italy Marco Scarpa
Metodologie Quantitative per il Calcolo Scientifico
Visita al sito di Catania RECAS
Richieste di upgrade dei link di accesso alla rete Geografica
Collegamento a Garr-X Il collegamento alla nuova rete Garr-X dovrà garantire il massimo della efficienza nella gestione della banda. Per identificare opportunamente.
Università di Messina - C.E.C.U.M.
Attivita’ e compiti del Servizio Impianti Calcolo e Reti
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Richieste preliminari calcolo non LHC
Stato Acquisti Switch/Router T2
Università di Messina - C.E.C.U.M.
Referaggi SST Riunione settembre 2017
CMS T2: monitoring Cosa c’e’ / cosa vorremmo / cosa manca
Assegnazione risorse Stato INFN CNAF,
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Carbone, Gianoli, Mezzadri
ALICE CALCOLO richieste finanziarie e proposte di assegnazione 2017
Referaggio richieste di rete.
Prototipo Tier 2 di CMS-INFNGRID M. Biasotto - INFN Legnaro
Aggiornamento sullo stato del Tier-2 di Catania
Attvità Computing – Inverno 08/09
Care and Feeding of the ALICE Grid
Parlando di network i discorsi naturalmente diventano complessi (creazione di un intero ecosistema virtuale comparabile ad uno reale): Separazione layers.
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
Report Calcolo Commisione III
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Calcolo “locale” ATLAS-Mi
R.Gomezel Commissione Calcolo e Reti CNAF
Preventivi CCR 2018 INFN Roma Tor Vergata.
Report dei referee di Kloe
Transcript della presentazione:

Tier 2 Legnaro-Padova Update luglio 2010

CPU NOTA: Vengono evidenziate in BLU le variazioni rispetto alla presentazione discussa a febbraio 2010 Risorse CPU CMS: 50 WNs, ~3600/390 core HEPSpec06 (~900 KSI00)‏ La maggior parte blade 2xIntel5430 2.66 GHz 16 GB RAM datati gennaio 2008 Macchine piu' vecchie dismesse forzatamente per passaggio a SL5- 64bit

Storage 240 TB disponibili al momento DataDirect S2A6620 acquistato fine 2009 240 TB lordi (120 dischi da 2TB), dual controller, 4 porte FC 8Gb/s 190 TB netti: 40 TB per Alice, 30 TB per sistema test, 120 TB per CMS consegnato in ritardo ad aprile, Da HLRMon, last 30 days (apr 2010)‏ DataDirect S2A6620

Storage: passaggio 6620->9900 Il 6620 messo in produzione verso il 20 di maggio ma da subito, pur avendo superato i requisiti di performance richiesti in gara, non presentava requisiti di stabilita’ e affidabilita’ necessari. Mactronic, dopo aver sentito DataDirect, ha proposto la sostituzione del 6620 con un 9900 senza spese (simile a quelli della gara vinta a INFN-T1). 100TB gia nel 6620: problematiche varie nella movimentazione nel 9900 tramite un sistema storage temporaneo -> tempi lunghi e una infinita’ di problematiche da risolvere – copia dei dati nel tmp terminata 12/07/2010 (sinc dati da verificare). Install 9900, move dischi/cestelli 6620->9900, copia dati da tmp

Rete (stato attuale)‏ S A HP-5412 N Server Server Server Server Server 1 Gbps links 4 + 4 Gbps FC links 10 boxes 80 cores o Blade center Server Disk Array ~ 50 TB Server S A N Stato attuale Centro stella HP 5412 94 porte 1Gbps 4 porte 10Gbps Links da WN e disk in trunk N * 1 Gbps 10 Gbps per Pd 2 Gbps verso router LNL e GARR HP-5412 Disk Array Server Disk Array Disk Array Server Server Disk Array N*Gbps trunk 2 Centro Stella Lab. - Garr 10 Gbps dark fiber LNL - PD.

Rete (fine 2010)‏ > 200 Gbps Ethernet backbone S A N Server Server 1 Gbps links 10 Gbps link 4 + 4 Gbps FC links Switch Concentratore 10 boxes 80 cores o Blade center Server Disk Array ~ 50 TB Server S A N Stato fine 2010 Centro stella Extreme X650 24 porte 10Gbps Links da WN e disk 10 Gbps 10 Gbps per Pd 10 Gbps verso nuovo router LNL e GARR-X (Agosto 2011) Disk Array Server Disk Array > 200 Gbps Ethernet backbone Disk Array Server Server Disk Array N*Gbps trunk 10 Gbps Centro Stella Lab 10 Gbps dark fiber LNL - PD.

Infrastruttura Lavori eseguiti nel 2008 220 kW di potenza elettrica in sala divisi su tre blindo-sbarre che distribuiscono la potenza a tre file di racks Una catena di 8 UPS (5 da 80 kVA e 3 da 30 kVA) che assicurano la ridondanza N+1. Gli UPS sono in condivisione con la Divisione Acceleratori Gruppo elettrogeno da 630 kVA (in condivisione con la divisione acceleratori)‏ 4 chiller dedicati con una capacità di smaltimento del calore pari a 340 kW 14 racks tipo APC con 7 cooler di raffreddamento in row 6 racks tipo standard Impianto antincendio Situazione stabile e tale da permettere la crescita delle risorse secondo i piani previsti (e anche oltre se necessario)‏ Il quadro elettrico del sistema UPS Il sistema UPS Il gruppo elettrogeno da 630 kW Uno dei chiller da 120 kW

Layout sala macchine T2

LNL LHC Tier 2 Center

Monitor infrastruttura Sviluppata applicazione custom in LabView per monitor infrastruttura e allarmistica

Job Monitor

Centro Stella Farm Padova Legnaro-Padova Dal 2008 iniziati test d'integrazione tra le macchine di Legnaro e quelle di Padova possibile grazie a collegamento diretto in fibra a 10 Gb/s tra le due sedi Obiettivo finale avere un T2 che possa essere fisicamente distribuito tra le due sedi condivisione di risorse hardware, infrastruttura (possibilita' di sfruttare due sale macchine) e soprattutto manpower 2 Gbps Centro Stella Farm T2 HP Procurve 5412 Router LNL PoP Garr Dark Fiber 15 Km Centro Stella Farm Padova HP Procurve 5412 10 Gbps

Legnaro-Padova Prima fase (da fine 2008): condivisione dello storage CMS con la farm grid di Padova il sito di Padova (sito grid separato e indipendente da LNL) usa l'SE di Legnaro come default SE per la VO CMS i job di analisi runnano indifferentemente a PD o a LNL, accedendo sempre allo stesso storage setup in produzione da inizio 2009, registrato in CMS come T3 utilizzo senza problemi del link a 10 Gb/s e accesso a dCache da remoto In questa configurazione i due siti sono separati e indipendenti, ognuno con i suoi CE e WN, solo l'SE condiviso per la vo CMS

Legnaro-Padova Seconda fase (da luglio 2009): macchine fisicamente a Padova pienamente integrate nel T2 LNL Worker Nodes di Padova nello stesso cluster LSF di Legnaro, sotto gli stessi CE e BDII: unico sito grid con macchine distribuite in due sedi 1 FTE (su due persone) del servizio calcolo di Padova dedicate alle attivita' del T2 LNL-PD: Alberto Crescente e Roberto Ferrari creato quindi un gruppo di persone LNL-PD che collabora alla gestione del T2 distribuito A luglio 2010 a PD ci sono 13 WN/104 core e un piccolo SE per la vo “superb”, in futuro prevediamo di distribuire abbastanza equamente WN e CE ma lasciare concentrato in un posto lo storage ed i servizi critici

Persone Grazie anche al lavoro fatto di integrazione con Padova, la situazione del personale coinvolto nella gestione del T2 è riassunta nella seguente tabella; con settembre od ottobre 2010, allo stato attuale, perderemo l’effort, decisamente importante per la gestione del T2, contributo di Simone Badoer (previsto IGI) Inoltre ci sono le persone di CMS Padova responsabili della parte riguardante la fisica (analisi, gruppi di fisica, gestione dataset, ...)‏ U. Gasparini, S. Lacaprara, E. Torassa

Metrica 1: CMS site availability 2010-01-01 / 2010-06-30 All CMS T2 Sites

Metrica 1: CMS site availability (2) 2010-01-01 / 2010-06-30 All CMS Sites

Metrica 2: occupazione CPU (normalized) Da HLRMon, last 30 days (Jun-Jul 2010)‏ Utilizzo sensibile da VO non-LHC In HLRMon Da fine giugno uso intensivo con alta effiecienza di alice

Metrica 3: % successful jobs 2010-01-01 / 2010-06-30 La maggior parte dei failure sono concentrati in picchi e causati da errori degli utenti Quando il problema e' di sito e' riscontrabile nelle statistiche di SAM e JobRobot (vedi slide anche slides febbraio 2010)‏ => secondo noi questa metrica non e' indicativa della bonta' di un sito

Metrica 3: % successful jobs (2) 2010-01-01 / 2010-06-30 1% UNK Status 80% 2% GRID Fail Globus errore 10 ?! 16%

Situazione acquisti 2010 Acquisto CPU: gara ~90kE effettuata su mercato elettronico vinta da HP con un sistema blade da 4800 HS06: 15 lame, 2 WN per lama, 2xIntel-X5650 (6x2 = 12 core) per WN => 30 WN / 360 core -> rimane 1 posto libero per un’ulteriore lama da acquistare successivamente. Da completarsi pratiche burocratiche e successiva consegna Acquisto Storage: rimangono 56kE per acquisto/i da effettuarsi entro fine 2010. Potrebbe essere conveniente completare con ulteriori 30 dischi (~46 TBN) il 9900 con I 3 cassetti a disposizione (120+30=150 <- max supportato dal 9900 con 3 cassetti) NOTA: con I problemi del 6620 non abbiamo ritenuto opportuno procedere, per ora, con ulteriori acquisti.

Richieste 2011: Totale: 340 keuro NOTA: prevista associazione al 3o gruppo di fisica Acquisto CPU: Target 11 kHS06 (8.4 kHS06 a fine 2010)  Richieste: 2.6 kHS06 => 65 keuro Acquisto Storage: Target 750 TBN (400 TBN a fine 2010)  Richieste: 350 TBN => 228 keuro Altro: Network: 17 keuro per schede 10Gb e switch Server: 30 keuro (7 server per sostituzione 3 door gridftp, 1 HLR, 1 CE, 1 Ganglia + Monitor infrastruttura, piu' aggiunta di 1 nuova UI)