Checkpoint e restore di job LSF Workshop Congiunto INFN CCR e GRID Acireale, 17-21 Maggio 2010 INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.

Slides:



Advertisements
Presentazioni simili
Scheduling (Schedulazione) Susanna Pelagatti – Università di Pisa
Advertisements

PROCESS MANAGEMENT: STRUTTURE DATI
Il Sistema Operativo.
1 Processi e Thread Meccanismi di IPC, Inter Process Communication (1)
Time Sharing Il termine “Time Sharing” proviene dall'inglese e significa letteralmente “partizione di tempo”. Questa è una tecnica sviluppatasi negli.
Esercitazione con socket
Processi Concetto di processo Scheduling dei processi
Aspetti critici rete LAN e WAN per i Tier-2
I Thread.
Requisiti dellapplicazione per il resource brokering su Grid.
Sistemi Operativi GESTIONE DEI PROCESSI.
1 LINUX: struttura generale The layers of a UNIX system. User Interface.
Sistemi Operativi - Shell 1 Il sistema operativo LINUX La shell Giorgio Di Natale Stefano Di Carlo Politecnico di Torino Dip. Automatica e Informatica.
Reti di Calcolatori L-S Un Sistema Decentrato di Allocazione del Carico per Applicazioni di Calcolo Distribuito Mauro Bampo.
LNL M.Biasotto, Bologna, 13 dicembre Installazione automatica Massimo Biasotto – INFN LNL.
Execution benchmarks Obiettivi Test dettagliati e ben caratterizzati Esecuzione di benchmark standard Test di applicazioni dell'esperimento ALICE 20 Novembre.
E. Ferro / CNAF / 14 febbraio /13 GRID.it servizi di infrastruttura Enrico Ferro INFN-LNL.
INTRODUZIONE l sistema operativo è il primo software che lutente utilizza quando accende il computer; 1)Viene caricato nella memoria RAM con loperazione.
Profiling Pompeo Faruolo. Profiling Tracciare il profilo del comportamentale di un PROCESSO in funzione delle risorse utilizzate Come il Sistema Operativo.
Architettura degli elaboratori
La schedulazione dei processi
Seconda Università degli Studi di Napoli Facoltà di Economia Corso di Informatica Prof.ssa Zahora Pina.
1 Scheduling in Windows 2000 Un thread entra in modalità kernel e chiama lo scheduler quando: Si blocca su un oggetto di sincronizzazione (semaforo, mutex,
Alessia Tricomi Università & INFN Catania
Threads.
C. Aiftimiei 1, S. Andreozzi 2, S. Dal Pra 1, G. Donvito 3, S. Fantinel 4, E. Fattibene 2, G. Cuscela 3, G. P. Maggi 3, G. Misurelli 2, A. Pierro 3 1 INFN-Padova.
Prima di iniziare… Durata attività: due lezioni frontali + una lezione laboratorio + compiti per casa Prerequisiti: elementi base architettura dei calcolatori.
INFN-BOLOGNA-T3 L. Rinaldi I siti Tier-3 nel modello di calcolo di Atlas Configurazione del sito INFN-BOLOGNA-T3 Attività di Analisi e Produzione Attività.
LNL GM, CNAF, 18 ottobre INFN-Farm Management Toolkit 1.Fabric Management per DataGrid e INFNGrid 2.Definizione dei requisiti degli esperimenti.
CNAF 18/11/2004 Federica Fanzago INFN Padova a/grape... BAT... BATMAN...o? M.Corvo, F.Fanzago, N.Smirnov (INFN Padova) + tutte le persone che fanno i test.
T. MottaGenerazione e terminazione processi1 Creazione e terminazione dei processi Tommaso Motta
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Il nucleo del Sistema Operativo
1 Esercitazione Sistemi distribuiti: sistemi che risisedono su più calcolatori interconnessi da una rete di comunicazione Algoritmi distribuiti: programmi.
Gestione del processore (Scheduler)
Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)
Condor standard. Sistema Batch. Tool di installazione D. Bortolotti,P.Mazzanti,F.Semeria Workshop Calcolo Paestum 9-12 Giugno 2003.
Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.
1 Sommario degli argomenti  Sistemi operativi: DOS, Unix/Linux,Windows  Word processors: Word  Fogli elettronici: Excel  Reti: TCP/IP, Internet, ftp,
1 Processi e Thread Processi e thread in Windows 2000.
Sistemi operativi di rete Ing. A. Stile – Ing. L. Marchesano – 1/18.
1 Processi e Thread Processi Thread Meccanismi di comunicazione fra processi (IPC) Problemi classici di IPC Scheduling Processi e thread in Unix Processi.
1 Processi e Thread Processi Thread Meccanismi di comunicazione fra processi (IPC) Problemi classici di IPC Scheduling Processi e thread in Unix Processi.
Grid nelle sezioni: Milano Luca Vaccarossa INFN – Sezione di Milano Workshop sulle Problematiche di Calcolo e Reti nell'INFN.
Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari
La Farm di Alice a Torino Workshop sulle problematiche di calcolo e reti Isola d’Elba 6-9 maggio 2002 Mario Sitta (Università del Piemonte Orientale e.
Realizzazione di un algoritmo genetico distribuito per l’inversione di modelli di deformazione del suolo (rilevamenti GPS e immagini SAR) di un edificio.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
FESR Trinacria Grid Virtual Laboratory Rosanna Catania Rita Ricceri INFN Catania 25 Luglio 2006 Grid Monitoring: GridICE – bacct - lsload.
Giovanni d’Angelo Università degli studi di Napoli Federico II I Corso di formazione INFN su aspetti pratici dell'integrazione di applicazioni in GRID.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
Utilizzo della VO di theophys per il calcolo lattice QCD G. Andronico M. Serra L. Giusti S. Petrarca B. Taglienti.
FESR Trinacria Grid Virtual Laboratory PROGETTO “MAMMO” Sviluppo e ottimizzazione di algoritmi adattativi, specificatamente di Artificial.
Overview del middleware gLite Guido Cuscela INFN-Bari II Corso di formazione INFN su aspetti pratici dell'integrazione.
Worker node on demand: le soluzioni Andrea Chierici INFN-CNAF CCR 2009.
17 GennaioTier2 Milano G. Costa 1 17-Gennaio-2006.
Sistema di monitoraggio integrato Introduzione a cura di P. Mastroserio Servizio Calcolo & Reti Infn-Napoli P. Mastroserio Workshop CCR - INFN Grid Acireale.
IV Corso di formazione INFN per amministratori di siti GRID Tutorial di amministrazione DGAS Giuseppe Patania.
11 Richieste di banda Anno 2010 T.Ferrari, M.Morandin CCR, Roma, 30 settembre 2009.
Il futuro della infrastruttura Grid INFN : le risorse economiche e le competenze ” Workshop CCR INFN GRID 2011.
Proposte per il miglioramento delle sinergie tra servizi calcolo e progetti Grid Valeria Ardizzone (INFN Catania)
Attività Gruppo Virtualizzazione Andrea Chierici CNAF CCR
Silvia Arezzini 2 luglio 2014 Consiglio di Sezione per Preventivi.
JOB MONITORING Donvito Giacinto INFN-Bari. OUTLINE ● Use-case ● Informazioni utilizzate e metodologie di raccolta per il job monitoring ● Informazioni.
L’infrastruttura del progetto ReCaS Paolo Lo Re on behalf of ReCaS collaboration.
Offline Report Finale Grid! I Corso di formazione INFN su aspetti pratici dell'integrazione di applicazioni in GRID Domenico D’Urso Roberto.
Workshop congiunto CCR & INFN-GRID. Tema: l’efficienza Sede: Hotel Cala di Lepre – Palau Date: maggio Comitato organizzatore: V. Ardizzone, D. Anzellotti,
Attività Gruppo Virtualizzazione Andrea Chierici CNAF Riunione CCR
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
Transcript della presentazione:

Checkpoint e restore di job LSF Workshop Congiunto INFN CCR e GRID Acireale, Maggio 2010 INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo

La farm di calcolo INFN-Trieste Farm di calcolo “condivisa” Possibilità di utilizzo con sottomissione di job in locale e via grid Condivisione completa di risorse di calcolo finanziate dalla sezione, dagli esperimenti locali e da grid, senza assegnazione esclusiva delle risorse di calcolo Utilizzo prioritario delle proprie risorse di calcolo da parte degli esperimenti locali, condivisione delle risorse in caso di non utilizzo Utilizzo di tutte le risorse di calcolo disponibili in caso di necessità evitando situazioni di scarso utilizzo delle risorse INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo

Perchè un checkpoint/restore Necessità di sospendere l’esecuzione di job sottomessi su alcune code: coda locale non privilegiata per collaborazione con enti diversi coda per l’esecuzione di job in determinate fasce orarie code non di esperimento su nodi di esperimento Possibilità di sospendere l’esecuzione di job su nodi che esauriscono la RAM INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo

LSF – Sospensione e checkpoint La sospensione dei job con il sistema di preemption di LSF o mediante l’utilizzo del comando bstop di LSF libera la CPU ma non libera la RAM Il checkpoint fornito da LSF non è direttamente utilizzabile dai job degli utenti (ricompilazione) INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo

Berkeley Lab Checkpoint/Restart (BLCR) Richiede kernel 2.6.x (x86 e x86_64) Lavora a livello di kernel (moduli), permettendo il restore dei PID, processi e sottoprocessi, pipe di connessione fra i processi Funziona con programmi singlethread e multithread (pthreads) INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo 1/2

Berkeley Lab Checkpoint/ Restart (BLCR) Non esegue il checkpoint/restore dei socket aperti e degli oggetti SysV IPC Non esegue il restart di eventuali processi “zombie” presenti al momento del chekpoint Esiste un post su list per configurare LSF per l’utilizzo di BLCR, ma non è sufficiente... INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo 2/2

Configurazione di LSF - bqueues JOB_STARTER = /usr/bin/cr_run /lsf/scripts/jobstarter_ckpt_lsf_lcg.sh '%USRCMD‘ CHKPNT = /gpfs/common/lsf-ckpnt POST_EXEC = /bin/rm -Rf $LSB_CHKPNT_DIR JOB_CONTROLS = SUSPEND[$LSF_SERVERDIR/echkpnt.blcr -k] RESUME[$LSF_SERVERDIR/erestart.blcr] INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo

Configurazione di GRID Sul CE viene modificato il file: /opt/globus/lib/perl/Globus/GRAM/submit-helper.pl Se il job di LSF è stato lanciato con il jobstarter indicato viene commentata la riga: trap 'fatal_error "Job has been terminated (got SIGTERM)“ "OSB"' TERM nel file in cui il CE incapsula l’effettivo job da eseguire. INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo Grazie a F. Prelz

Il funzionamento Jobstarter LSF esegue il jobstarter caricando la libreria di checkpoint con “cr_run” JOB_STARTER=/usr/bin/cr_run /lsf/scripts/jobstarter_ckpt_lsf_lcg.sh '%USRCMD' Il jobstarter crea e lancia una shell script (chkpnt_script.sh) con cui viene eseguito il job inviato dall’utente (%USRCMD) e rimane in attesa della conclusione della script. INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo 1/6

Il funzionamento Sospensione del job Un’eventuale richiesta di sospensione del job (comando bstop di LSF) viene eseguita con il comando echkpnt.blcr JOB_CONTROLS = SUSPEND[$LSF_SERVERDIR/echkpnt.blcr -k] RESUME[$LSF_SERVERDIR/erestart.blcr] che esegue il checkpoint su disco (viene creato un file) della shell script e dei sottoprocessi (e non del jobstarter) con il comando cr_checkpoint ed invia SIGTERM alla shell script e a tutti i sottoprocessi. INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo 2/6

Il funzionamento Sospensione del job – fallimento Prima di effettuare l’operazione di checkpoint il comando echkpnt.blcr controlla che per i sottoprocessi della shell script non risultino aperti dei socket. Nel caso in cui ci siano socket aperti l’operazione di checkpoint non viene eseguita. In questo caso, e nel caso in cui l’operazione di checkpoint fallisca per qualche motivo (exit code ≠ 0), il job viene sospeso inviando SIGSTOP ai processi. INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo 3/6

Il funzionamento Controllo dello stato dei processi E’ necessario eseguire il checkpoint della shell script e non del jobstarter perché l’operazione di checkpoint invia un SIGTERM ai processi ed LSF interpreterebbe la fine del jobstarter come la fine del job. INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo 4/6

Il funzionamento Ripresa del job La richiesta di ripresa del job (comando bresume di LSF) viene eseguita con il comando erestart.blcr JOB_CONTROLS = SUSPEND[$LSF_SERVERDIR/echkpnt.blcr -k] RESUME[$LSF_SERVERDIR/erestart.blcr] che esegue il ripristino dei processi, con il comando cr_restart, a partire dal file di checkpoint creato. INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo 5/6

Il funzionamento Conclusione del job Una volta terminata l’esecuzione del job inviato dall’utente (%USRCMD) la shell script termina segnalando al jobstarter l’avvenuta conclusione del job in modo da portare a termine anche l’esecuzione del jobstarter, che corrisponde alla conclusione del job LSF. INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo 6/6

I risultati INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo Utenti localiEsito del checkpoint/restore alice, compass, pamela, cmsOK utenti esterniOK GRID VO atlas, cms, euindia, glast, compchem OK biomedNO – socket aperti esr, theophysNO – checkpoint fallito (code 52) lhcbNO – problemi in restore (processi con PPID=1)