Tier-2 Legnaro-Padova Massimo Sgaravatto (INFN Padova) On behalf of the Legnaro-Padova T2 team Tier-2 Legnaro-Padova 1.

Slides:



Advertisements
Presentazioni simili
Progetto Speciale Prototipo Tier1 F. Ruggieri INFN – CNAF I Workshop CMS Italia del SW e Computing Roma 22 Novembre 2001.
Advertisements

Comitato Tecnico sullInteroperabilità MUR, L. Merola.
Aspetti critici rete LAN e WAN per i Tier-2
Michele Michelotto INFN-Padova
Stato del Tier-2 di Catania
LNL CMS M.Biasotto, Firenze, 22 maggio Hardware e tools di installazione Massimo Biasotto INFN – Lab. Naz. di Legnaro.
1 M. Biasotto – Legnaro, 22 Dicembre 2005 Prototipo Tier 2 di Legnaro-Padova INFN Legnaro.
Alessia Tricomi Università & INFN Catania
INFN-BOLOGNA-T3 L. Rinaldi I siti Tier-3 nel modello di calcolo di Atlas Configurazione del sito INFN-BOLOGNA-T3 Attività di Analisi e Produzione Attività.
Works in progress.  Semplificazione e maggiore efficienza della gestione  Risparmio (nel medio periodo)  Riallocazione delle risorse (hardware e timesheet)
Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.
LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)
Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.
Alessandro Tirel - Sezione di Trieste Storage Area Network Riunione gruppo Storage Padova, 5 ottobre 2005.
Il Tier2 di CMS Roma Francesco Safai Tehrani INFN Roma
CMS 1 M. Biasotto – Bologna 20/01/2005 Infrastruttura di calcolo per CMS-Italia M.Biasotto – INFN Legnaro e i gestori dei centri CMS Italia.
La Farm di Alice a Torino Workshop sulle problematiche di calcolo e reti Isola d’Elba 6-9 maggio 2002 Mario Sitta (Università del Piemonte Orientale e.
M.Biasotto, Bologna, 28 giugno 2004 M.Biasotto, Bologna, 28 giugno LNL CMS T2 Legnaro Stato attuale e richieste 2004/2005.
Riunione Servizi Servizio Calcolo e Reti 13 settembre 2004 Silvia Arezzini.
Ing. Giovanni B. Barone Convegno PON RECAS - Napoli, 16 dicembre 2014 ReCaS Napoli.
Review dei Tier-2 degli esperimenti LHC S.Pirrone INFN-Sezione di Catania per il gruppo dei referee CNS Giugno 2014 LNGS.
TIER 2 DI CMS RISPOSTE ALLE DOMANDE AGGIUNTIVE 1 Tommaso Boccali - INFN Pisa Roma, 27 Gennaio 2014.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Report R.Gomezel CCR dicembre 2006 Roma.
Riunione SICR E. P.. Aggiornamenti Certificati  Digicert  Server  Personali per dipendenti ed associati  Certificati INFN per laureandi non associati.
Riunione SICR 24/6/2015. Cluster Cluster oVirt – Pronto alla migrazione dei servizi – Macchina virtuale radius per guest_conf in funzione – Tempi migrazione.
Gaetano Maron, Presentazione T2 LNL-Padova, Legnaro 22 dicembre Il Servizio Tecnologie Informatiche ed Elettroniche dei LNL Gaetano Maron.
Roberto Covati INFN di Parma. Workshop CCR/INFN GRID Palau maggio Sommario VmWare Server (in produzione dal 2004 al 2008) VmWare Infrastructure.
FESR Trinacria Grid Virtual Laboratory Rosanna Catania Rita Ricceri INFN Catania 25 Luglio 2006 Grid Monitoring: GridICE – bacct - lsload.
Roberto Covati – Roberto Alfieri INFN di Parma. Incontri di lavoro CCR dicembre Sommario VmWare Server (in produzione dal 2004) VmWare ESX.
Referaggio apparati di rete 2012 Sessione giugno Gruppo referee rete Fulvia Costa Enrico Mazzoni Paolo Lo Re Stefano Zani Roma, CCR
Riunione PRIN STOA - Bologna - 18 Giugno 2014 Testbed del T2 distribuito Napoli-Roma Dr. Silvio Pardi INFN-Napoli Riunione PRIN STOA – Bologna 18 Giugno.
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
Referaggio apparati di rete per il 2010 Gruppo referee rete Enrico Mazzoni Fulvia Costa Paolo Lo Re Stefano Zani Roma, CCR
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
FESR Consorzio COMETA - Progetto PI2S2 Il Tier-2 di ALICE a Catania Roberto Barbera Università di Catania e INFN Visita Referee.
Referaggio sigla CALCOLO D. Bonacorsi, G. Carlino, P. Morettini CCR – Roma 9 Settembre 2014.
17 GennaioTier2 Milano G. Costa 1 17-Gennaio-2006.
Attività e servizi di calcolo a Roma Tor Vergata R. Kwatera, R. Lulli, R. Sparvoli Roma Tor Vergata.
11 Richieste di banda Anno 2010 T.Ferrari, M.Morandin CCR, Roma, 30 settembre 2009.
Uso della rete geografica e richieste di upgrade CCR 31/3/2015 (Roma) S.Zani.
Riunione SICR E. P.. Certificati  Digicert  Server  Personali per dipendenti ed associati  Non associati e macchine su phys.uniroma1.it ?  Problema.
1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera
Stato e previsione rete nelle sedi INFN Survey ed ipotesi di sviluppo fino al 2018 CCR 8-10 Settembre 2018 (Roma) 1 S.Zani (Netgroup)
Referaggio TIER2 di Pisa 30 giugno 2006 Silvia Arezzini (Servizio Calcolo e Reti)
Referaggio apparati di rete 2013 Seconde priorità Gruppo referee rete Fulvia Costa Paolo Lo Re Enrico Mazzoni Stefano Zani Referaggi aprile 2013.
Referaggio Calcolo ATLAS II Gianpaolo Carlino INFN Napoli Catania, 12 Settembre 2012 Risorse e Richieste 2013 nei preventivi Aggiornamento in seguito all’allungamento.
Impianti Elettrici per Tier LNF Ing. Ruggero Ricci Resp. Servizio Impianti Elettrici DTSG - LNF 20 giugno 2011.
Test di storage a 10 Gbps proposta. Storage server a 10Gbps Si vuole vedere quali prestazioni si possano ottenere da server connessi a 10 GE –capacita’
Sistema di Monitoraggio Integrato Paolo Mastroserio, Gennaro Tortone, Silvio Pardi Presenta per il gruppo Silvio Pardi.
G. Maggi 24/1/2006 Il Progetto del TIER2 di Bari Giorgio Maggi.
Domenico Elia1CdG Tier1-Tier2 / CNAF ALICE Tier2 sites Domenico Elia CdG Tier1-Tier2 Bologna, 15 Aprile 2015  Infrastruttura e risorse, coordinamento.
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
The INFN Tier-1: progetto di ampliamento Cristina Vistoli – INFN CNAF Referee Meeting Sep
Silvia Arezzini 2 luglio 2014 Consiglio di Sezione per Preventivi.
Report CMS Riunione referaggio 11 Maggio Outline General status del computing (chiusura dei libri 2011) Stato dei siti italiani – Tier1 – Tier2s.
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
Il calcolo per l’esperimento GERDA Luciano Pandola INFN, Laboratori del Gran Sasso Riunione della CSN2, LNF Frascati, 29 Novembre 2011.
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
L’infrastruttura del progetto ReCaS Paolo Lo Re on behalf of ReCaS collaboration.
CNAF. storage Siamo in una fase di tuning con lo storage, che al momento sembra essere un collo di bottiglia 1.~10 giorni fa vista saturazione GPFS.
Aggiornamento AFS R.Gomezel Commissione Calcolo e Reti Presidenza 5/10/2010-7/10/2010.
Attività Gruppo Virtualizzazione Andrea Chierici CNAF Riunione CCR
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
Torino, Andrea Dainese 1 Andrea Dainese (INFN – LNL) Stato del Tier-2 ALICE a Legnaro.
Gaetano Maron, Presentazione T2 LNL-Padova, Legnaro 22 dicembre Il centro di calcolo Tier2 di LNL-PD Gaetano Maron.
Tier 2 Legnaro-Padova Update luglio 2010
Aggiornamento sullo stato del Tier-2 di Catania
Care and Feeding of the ALICE Grid
Transcript della presentazione:

Tier-2 Legnaro-Padova Massimo Sgaravatto (INFN Padova) On behalf of the Legnaro-Padova T2 team Tier-2 Legnaro-Padova 1

Legnaro-Padova di nome e di fatto Tier-2 distribuito tra due sedi Condivisione di risorse hardware WNs distribuiti nei 2 siti Servizi (Computing Elements, Storage, VOBOX) a Legnaro Servizi di monitoring (Ganglia, Nagios, Cacti,…) a Padova Condivisione del personale Gestione: M. Biasotto (LNL), A. Crescente (PD), S. Fantinel (LNL), R. Ferrari (PD), G. Maron (LNL), M. Sgaravatto (PD)  Tutto personale strutturato  Coinvolgimento del personale dei Servizi Calcolo quando necessario Contatti con l’esperimento: A. Dainese (PD), A. Festanti (PD), L. Vannucci (LNL) Tier 2 di Alice e di CMS Tier-2 Legnaro-Padova 2

Infrastruttura Legnaro 220 KW di potenza elettrica 5 UPS da 80 KVA (condivisi con la Divisione Acceleratori) Gruppo elettrogeno da 630 KVA (condiviso con la Divisione Acceleratori) 2 chiller (capacita` di smaltimento del calore: 240 KW) 22 racks APC con 11 cooler di raffreddamento in row Impianto antincendio Padova Sala ex Tier-A di Babar condivisa con CED della Sezione e Dipartimento 180 KW di potenza elettrica 1 UPS (appena upgradato) 4 chiller (capacita` di smaltimento del calore: 180KW) + cond. sala UPS 5 racks di tipo standard Impianto antincendio a gas Tier-2 Legnaro-Padova 3

Rete Tier-2 Legnaro-Padova 4 Padova LNL Garr-X NAT 10 Gb/s 15 km 20 Gb/s 10 Gb/s 1 Gb/s

Rete (cont.ed) Link dedicato al T2 a 10 Gb/s tra LNL e Padova Singola rete privata di classe B attestata a LNL per i WNs No routing all’interno del T2 Tutto il traffico da/verso l’esterno attraverso il router di LNL Migrazione a GARR-X avvenuta a Giugno 2 link a 10 Gbps, uno usato come backup dell’altro Uso dei 2 link in trunk in previsione futura Update NAT a 10 Gb/s + NAT ridondato in progress Raddoppio link LNL – Padova in prospettiva futura 5Keuro di overhead delle gare trasferiti a Legnaro spesi per potenziamento rete 10 Gb/s (acquisto switch e ottiche) Tier-2 Legnaro-Padova 5

Storage xrootd nativo Senza layer intermedi (gpfs, lustre…) 1 redirector (su macchina virtuale) + 7 server LNL) 386 TB ~ pieno da Agosto Attivita’ recenti: Update xrootd da v dbg a v Migrazione redirector su nuova macchina virtuale Non particolari problemi da segnalare Tier-2 Legnaro-Padova 6 2 Apple Xserve 7TBJan 07/Feb 08Dismissed in Nexan SataBeast 32 TB Jan 09Obsolete in Nexan SanaBeast 32 TB Jan 10 1 Nexan SanaBeast 65TB Jan 11 2 Dell PowerVault MD TB Jan 12

CPU e Job submission Services Risorse dedicate ad Alice: 70 WNs 1016 cores 9752 HS06 Comprendono 8 WNs (192 cores, 1584 HS06) installati a Giugno Possibilita` di usare le risorse di CMS quando non usate ( 110 WNs, 1384 cores, HS06) WNs Distribuiti tra LNL (~ 60 %) e Padova (~ 40 %) Singolo cluster LSF Recentemente migrati a EMI-2 (OS: SL5) 6 CREAM CEs LNL) SL5, EMI-1 Usati da tutte le VO 1 VOBOX LNL) SL5, gLite 3.2 (in attesa di VOBOX-LCG) Su macchina virtuale Tier-2 Legnaro-Padova 7

CPU time e done jobs da inizio anno Tier-2 Legnaro-Padova 8

Resource LNL-PD Tier-2 Legnaro-Padova 9 Sistemata conf. Alice LDAP (maxjobs era troppo basso) Sistemata conf. Alice LDAP (maxjobs era troppo basso)

Efficienza Roma, Tier-2 Legnaro-Padova 10

LNL-PD Tier-2 Legnaro-Padova 11

Torrent Migrazione a Torrent effettuata a meta` Novembre Issues Problemi spazio disco VOBOX  Load alto e molto i/o wait usando un disco accessibile via NFS  Risolto installando un disco locale Problemi spazio disco sui WN  Due cause –Job disk footprint molto piu` grande con Torrent »Spesso molto piu` dei 10 GB dichiarati nella ALICE VO card –Spazio disco di job falliti (in particolare quelli uccisi dal batch system) non liberato »Cancellato dal cleanup cron job solo giorni dopo  Soluzione –Esclusi i WN piu` vecchi con poco disco –LSF post-exec script che pulisce la directory del job al termine della sua esecuzione Tier-2 Legnaro-Padova 12

Torrent (cont.ed) Issues (cont.ed) Problemi nel download del torrent client (via wget) da alitorrent.cern.ch  Molti retries prima che il download riuscisse  Il problema era che il server scartava pacchetti per timestamp mismatch  Questo perche` in alitorrent era abilitato tcp_tw_recycle –Aumenta le prestazioni ma puo` causare problemi con connessioni NAT  Risolto (da Costin) disabilitando tcp_tw_recycle Molte connessioni Torrent provenienti da WN di altri siti, bloccate dal nostro firewall  Non tutti i siti bloccano il traffico torrent verso l’esterno –Dovrebbe essere permesso solo verso gli altri WNs del sito e verso alitorrent.cern.ch Migrazione a CVMFS a inizio 2013 ? Lo stiamo gia` facendo per le altre VO LHC Tier-2 Legnaro-Padova 13

Memory Molti job uccisi dal batch system perche` usano troppa memoria Attualmente 4.5 GB di MEMLIMIT per slot/core Nella ALICE VO card si dice che sono richiesti solo 2 GB per job … Per le altre VO non abbiamo un limite a livello di LSF Cron jon che gira ogni 5 minuti che uccide i job che usano troppa memoria se il WN e` in sofferenza Provato a usare lo stesso approccio con ALICE, ma non ha funzionato:  Burst di job con velocissimo aumento dell’uso di memoria che hanno rapidamente ucciso diversi WN  Non possiamo nemmeno bannare gli utenti “problematici” visto che i pilot runnano tutti con lo stesso user Tier-2 Legnaro-Padova 14

Expired jobs (~ 90% killed by batch system) Tier-2 Legnaro-Padova 15