Job Management Systems ovvero

Slides:



Advertisements
Presentazioni simili
GridICE attività in corso e sviluppi futuri Gennaro Tortone Bologna, 4 marzo Technical Board INFNGRID
Advertisements

Condor standard. Sistema Batch. Tool di installazione D. Bortolotti,P.Mazzanti,F.Semeria Workshop Calcolo Paestum 9-12 Giugno 2003.
Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Worker node on demand: le soluzioni Andrea Chierici INFN-CNAF CCR 2009.
JOB MONITORING Donvito Giacinto INFN-Bari. OUTLINE ● Use-case ● Informazioni utilizzate e metodologie di raccolta per il job monitoring ● Informazioni.
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
Virtualizzazione nell’INFN Andrea Chierici 11 Dicembre 2008.
Implementazione di TRIP ai LNF Commissione Calcolo e Reti 31 maggio 2007 Massimo Pistoni.
CCR, LNF ott 2011 Proposte assegnazioni server & storage L. Carbone, A. Gianoli, M. Serra.
Gruppo Netarch Incontro di lavoro della CCR Napoli gennaio 2010 Connessioni Tier1/Tier2 a GARR-X 1 GM, Incontro di lavoro della CCR – Napoli
INFN-AAI Stato dell’infrastruttura centrale Dael Maselli Workshop INFN CCR 2010.
FESR Catania, Trigrid Open Day, Trinacria Grid Virtual Laboratory PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno.
EGEE is a project funded by the European Union under contract IST L'infrastruttura di produzione attuale A. Cavalli - INFN- CNAF D. Cesini.
Dynamic Farm Espansione Dinamica di una Farm Vincenzo Ciaschini CCR 31/3/2015.
PRIN NAPOLI Enzo Capone, Gianpaolo Carlino, Alessandra Doria, Rosario Esposito, Leonardo Merola, Silvio Pardi, Arturo Sanchez Pineda.
HLRmon per IGI: nuove funzionalità Enrico Fattibene INFN – CNAF
Alessandro De Salvo Status dei Tier2 di ATLAS Alessandro De Salvo
1 Accounting DGAS per job MPI Marco Bencivenni (INFN-CNAF) Workshop CCR-INFN GRID Maggio 2010.
AFS NELLA SEZIONE DI PADOVA aree_utenti: attualmente nessuno ha la proria home in AFS e quasi nessuno utilizza l'area utenti di AFS. /usr/local: si preferisce.
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
Aggiornamenti gruppo WINDOWS CCR Riunione 5-7 ottobre 2010 Gianluca Peco.
Procedura di certificazione di un sito
Infrastruttura cloud servizi realizzata nella Sezione di Napoli
SCoPE - Stato dei Lavori
Resoconto delle attività del Gruppo di Lavoro DR
Gestione Farm Tema centrale della sessione: utilizzo del batch- system nelle varie sedi T1 e T2, ma anche altre farm grid e farm di sezione requirements,
Gestione Farm Tema centrale della sessione: utilizzo del batch-system nelle varie sedi T1 e T2, ma anche altre farm grid e farm di sezione requirements,
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Integrazione tier3 in Grid Paolo Veronesi, Luciano Gaido
Summary di (quasi) tutti gli utenti non presentati…
EMBYON
Monitoring e loadbalancing dei servizi Grid
INFN-Bari.
Metodologie Quantitative per il Calcolo Scientifico
OSSEC HIDS, Host Based Intrusion Detection System
Risultati ultimi mesi Piano di lavoro prossimi mesi Reclutamento
Richieste di upgrade dei link di accesso alla rete Geografica
Gruppo WebTools CCR – 14 Marzo 2007 Dael Maselli.
Collegamento a Garr-X Il collegamento alla nuova rete Garr-X dovrà garantire il massimo della efficienza nella gestione della banda. Per identificare opportunamente.
HLRmon: visualizzazione di dati di accounting
Guido Cuscela INFN-Bari
Cloud per HA nei Servizi
Giuseppe Andronico 1 Marzo 2010 Riunione CCR
Servizi Nazionali INFN
Stato Acquisti Switch/Router T2
Sicurezza e Grid Computing
CMS T2: monitoring Cosa c’e’ / cosa vorremmo / cosa manca
Introduzione alla sessione sull’analisi per gli esperimenti LHC
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Aggiornamento sullo stato del Tier-2 di Catania
Nuove funzionalità e futura implementazione nella Sezione di Trieste
Attvità Computing – Inverno 08/09
Valeria Ardizzone INFN Catania Martina Franca (TA),
(Breve) Riassunto del workshop WLCG
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
Luciano Gaido (INFN - Torino) Workshop CCR/INFNGRID – Palau
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Job Application Monitoring (JAM)
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Calcolo “locale” ATLAS-Mi
R.Gomezel Commissione Calcolo e Reti CNAF
Sviluppo web con stumenti Open
Risultati del questionario sui servizi middleware aggiuntivi
AUDITING DEI SISTEMI DI POSTA ELETTRONICA Prima fase: definizione della procedura, politiche di sicurezza Workshop maggio 2009 Ombretta Pinazza,
Attivita’ passata e futura CCR 29 settemre 2008
RES PowerFuse® e RES WISDOM®
INFN-Grid DI PRODUZIONE grid-use-model grid.infn.it
ATLAS PRIN Roma1 - status Alessandro De Salvo
Transcript della presentazione:

Batch Queue Systems @T2s Job Management Systems ovvero Sviluppi nei sistemi di gestione code per LHC Outline Esperienza @Pisa LSF LSF over a GRID farm Code Scheduler PBS Pro e Contro SGE Tabella comparativa LSF - PBS - SGE Survey @T2 Italia tabella comparativa conclusioni INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 1

Batch Queue Systems @T2s @PISA GRID @ INFN-PISA [INFNGRID/LCG dal 2000] PBS dal 2000 al 2006 LSF dal 2007 Cluster @ INFN-PISA LSF dal 2002 su 15 farm di sezione SGE dal 2005 su 2 cluster di sezione: HPC e Cray XD1 (fisici teorici) INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 2

Batch Queue Systems @T2s LSF LSF over a GRID farm LSF Software & Licenses on AFS area ==> installazione = link vs AFS semplificazione installazione (limitata a uno script) Disaccoppiamento CE - LSFmaster - BDII CE e LSFmaster sono nodi identici agli altri LSFserver ma a 0 job running [CE: only bsub + MW, grid gatekeeper] BDII disaccoppiato da CE per motivi di carico e conseguente mismatching delle risorse sui broker information provider riconfigurazione WN (ig_WN_LSF) tempo richiesto per l'operazione: 1/2 giorno (NB: struttura LSF on AFS preesistente), con PBS ancora running !!! INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 3

Batch Queue Systems @T2s LSF PRO stabilita' scalabilita' semplicita' uso configurabilita' partizionabilita' host / VO processo autoesclusione black-holes alta integrazione in LCG - INFNGRID tempo di gestione praticamente nullo CONTRO costo (?) installazione completamente manuale necessita filesystem condiviso almeno tra master e CE (area log /work) scarsa documentazione installazione middleware INFNGRID => necessario aiuto da parte di esperti INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 4

Batch Queue Systems @T2s LSF - Server Master Esiste un nodo master. In caso di down della macchina, gli altri nodi eleggono un nuovo master stesso software e MiddleWare IG per Master e Slaves (server) LSF - Scheduler / FairShare integrato in LSF => robusto gestibile semplicemente possibilita' di gestione code per PRIORITA' o FAIRSHARE possibilita' di riservare hosts, cluster, code, con pesi e percentuali variabili in funzione di VO di appartenenza, singoli utenti (noti o generici) INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 5

Batch Queue Systems @T2s LSF - Code e Configurazione max flessibilita' in gestione CODE e HOST (e gruppi di host) definibili: cluster code accoppiamenti macchine-code partizione host "test" associata a coda "test" per test di nuove macchine Gruppi Host / gestione code PROD/LOCAL FairShare TEST Priority INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 6

Batch Queue Systems @T2s LSF - Local Possibilita' di utilizzo della farm come cluster locale con FairSharing altamente granulare e personalizzabile soglie definibili per utente, gruppo, cluster di macchine coda LOCAL: coda a piu' alta priorita' utenti locali AFS definiti su tutti i nodi della farm cambiamento di tutti i groupID degli utenti grid (ex:atlas001) INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 7

Batch Queue Systems @T2s PBS v.1 PBS Open v.1: versione INFNGRID < 2006 PRO ~ funzionava open installazione via middleware INFNGRID alta integrazione in Middleware CONTRO instabilita' frequenti reboot per overload del CE perdita di sincronia CE - WN => restart servizio frequenti errori durante lo scambio chiavi SSH in fase di installazione Scheduler / FairShare NON integrato: MAUI frequenti restart servizio scarsa scalabilita' O(100) nodi scheduler MAUI incapace di garantire un corretto funzionamento INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 8

Batch Queue Systems @T2s PBS v.2 PBS Open v.2: versione INFNGRID > 2007 Testato solo sul nodo SNS-PISA [3 WN x2] ...poco piu' che sensazioni! PRO maggiore stabilita' NO sovraccarico CE anche a seguito di corpose sottomissioni job grid INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 9

Batch Queue Systems @T2s PBS Pro PBS Pro v.2 Testato c/o SCeR (Servizio Calcolo e Reti) INFN-PISA e SNS-PISA PRO facilita' installazione CONTRO costo NON integrabile in INFNGRID (quantomeno non in modo semplice) INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 10

Batch Queue Systems @T2s SGE (SunGrid Engine) 1 farm Fisici Teorici 20 nodi 1 cluster High Performance "Sperimentale” 150 nodi 4-8core PRO estrema facilita' installazione robustezza scalabilita' velocita' reazione/adattamento (a seguito di aggiunta/rimozione nodi) free Globus compliant CONTRO NON INFNGRID/LCG compliant INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 11

Batch Queue Systems @T2s INFN - CCR07, Rimini 2007 Tabella comparativa LSF-PBS-SGE thanks to SUN Microsystems 28/02/2019 Federico.Calzolari@pi.infn.it 12

Batch Queue Systems @T2s Job Management Systems SURVEY @T2 Italia Siti coinvolti nel questionario INFN - CCR07, Rimini 2007 Questionario girato a tutte le sedi Italiane dei "T2” Quadro completo: http://www.pi.infn.it/tier2/doc/T2_QueueS.htm 28/02/2019 Federico.Calzolari@pi.infn.it 13

Batch Queue Systems @T2s SURVEY @T2 Italia Sistema di code usato, data, organizzazione Code, VO Scheduler Dimensioni cluster, statistiche job Problemi, flessibilita' Scalabilita' Sviluppi futuri Costi (finanziari e umani) INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 14

Batch Queue Systems @T2s INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 15

Batch Queue Systems @T2s Riassunto - Conclusioni PBS (Massima parte di reazioni riguardano PBS v.1) Utilizzato in media dai siti piu' piccoli In fase di valutazione passaggio a LSF in caso di necessita' PRO installazione via middleware INFNGRID Open CONTRO sovraccarico CE scarsa scalabilita' scheduler non integrato: MAUI (esterno) => problemi interoperabilita' crash scheduler in caso di problemi WN problemi nello scambio di chiavi SSH per grosso numero di nodi INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 16

Batch Queue Systems @T2s Riassunto - Conclusioni PBS PBS v.2 BARI: testato fino a 150 job slot con ottimi risultati PBS Pro NASA !!! INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 17

Batch Queue Systems @T2s Riassunto - Conclusioni LSF Utilizzato in siti con O(>100) hosts Generalmente migrati a LSF dopo aver provato PBS Sembra capace di tenere il passo dell'evoluzione prevista per un T2 PRO tempo di gestione praticamente nullo possibilita' farm mista SLC3 - SLC4 partizionabilita' host / VO facilita' installazione client locali per job submission (bsub) CONTRO NON free (ma pool di licenze CNAF => problemi in caso di down del CNAF) installazione completamente manuale => problemi di interfacciamento con Middleware GRID (utenti grid vanno messi a mano sui server LSF) necessita filesystem condiviso almeno tra master e CE (area log /work) CERN usa LSF su migliaia di nodi !!! INFN - CCR07, Rimini 2007 28/02/2019 Federico.Calzolari@pi.infn.it 18