Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari 25-05-2004.

Slides:



Advertisements
Presentazioni simili
Scheduling (Schedulazione) Susanna Pelagatti – Università di Pisa
Advertisements

EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Sicurezza in EGEE Vincenzo Ciaschini Roma.
Introduzione Cosa è un Sistema Operativo? Una breve storia
Meeting CCL- Referenti 2 Luglio 2003 P.Mazzanti. Sommario Personale S.O. e Hardware di Sezione Servizi Progetti Conclusioni.
Il Sistema Operativo.
Orario definitivo Martedì Aula 2 Polo Mercoledì Aula 1 Fondi Palazzina delle Scienze Giovedì 9-11 Aula 1 Fondi Palazzina delle Scienze Nota:
1 Processi e Thread Processi Thread Meccanismi di comunicazione fra processi (IPC) Problemi classici di IPC Scheduling Processi e thread in Unix Processi.
Il Software: Obiettivi Programmare direttamente la macchina hardware è molto difficile: lutente dovrebbe conoscere lorganizzazione fisica del computer.
Introduzione allinformatica. Cosè linformatica ? Scienza della rappresentazione e dellelaborazione dellinformazione ovvero Studio degli algoritmi che.
Test del Monitoraggio del Tracker usando un Tier2 M.S. Mennea, G. Zito, N. De Filippis Università & INFN di Bari Riunione Consorzio – Torino 18 Novembre.
Monitoraggio online con la mappa del tracker M.S. Mennea, G. Zito Università & INFN di Bari Riunione Consorzio – Bari 9 Settembre 2005.
Software di base Il sistema operativo è un insieme di programmi che opera sul livello macchina e offre funzionalità di alto livello Es.organizzazione dei.
Requisiti dellapplicazione per il resource brokering su Grid.
Sistemi Operativi GESTIONE DEI PROCESSI.
Introduzione Cosa è un Sistema Operativo ?
La facility nazionale Egrid: stato dell'arte Egrid-Team Trieste, 9 ottobre 2004.
Linux Riunione Referenti-CCL 2-Luglio Utilizzo di Linux Principale (unica) piattaforma di calcolo per HEP Grid Supportato dalle maggiori industrie.
n Migliorare il controllo delle risorse n Implementare policies e pianificazioni n Bilanciare il carico sui vari computer n Sfruttare al meglio i computer.
E. Ferro / CNAF / 14 febbraio /13 GRID.it servizi di infrastruttura Enrico Ferro INFN-LNL.
Case study Maiora srl.
VIRTUALIZZAZIONE Docente: Marco Sechi Modulo 1.
Introduzione a XI Conferenza nazionale di Statistica febbraio 2013 Pillole formative di statistica.
1 Lucidi delle esercitazioni di Sistemi di Elaborazione in Rete Università degli Studi della Calabria Corso di Laurea in Ingegneria Gestionale A.A. 2003/2004.
C. Aiftimiei 1, S. Andreozzi 2, S. Dal Pra 1, G. Donvito 3, S. Fantinel 4, E. Fattibene 2, G. Cuscela 3, G. P. Maggi 3, G. Misurelli 2, A. Pierro 3 1 INFN-Padova.
Sistema Operativo (Software di base)
QMAN Queue Manager Documentazione Commerciale Presentazione prodotti.
FESR Consorzio COMETA Pier Paolo CORSO Giuseppe CASTGLIA Marco CIPOLLA Industry Day Catania, 30 Giugno 2011 Commercial applications.
OpenProj: una valida alternativa a MS Project
A GRID approach for Gravitational Waves Signal Analysis with a Multi- Standard Farm Prototype CHEP September Dr. Silvio Pardi Università degli.
L. Perini Riunione CSN1, Frascati Il Calcolo di CDF: Relazione dei referees Fabrizio Gagliardi, Laura Perini e Valerio Vercesi.
10 azioni per lo scheduling su Grid Uno scheduler per Grid deve selezionare le risorse in un ambiente dove non ha il controllo diretto delle risorse locali,
BSAFE/400 Gateway Gestione della Sicurezza IBM iSeries (AS/400) BSAFE/400 Gateway Valentino Nanni I/T Spec.iSeries.
Eprogram informatica V anno. ASP.NET Introduzione ASP.NET (Active Server Page) è il linguaggio che, sfruttando la tecnologia.NET, permette di: -scrivere.
Sistemi di stampa Incontro con i Referenti 17 Novembre 2003 D. Bortolotti.
Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.
Extreme Cluster Administration Toolkit Alberto Crescente, INFN Sez. Padova.
Gestione del processore (Scheduler)
Condor standard. Sistema Batch. Tool di installazione D. Bortolotti,P.Mazzanti,F.Semeria Workshop Calcolo Paestum 9-12 Giugno 2003.
Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.
Extension pack per IIS7 Piergiorgio Malusardi IT Pro Evangelist
1 Migrazione dei processi: Mosix. 2 Cosa è Mosix/OpenMOSIX ? OpenMOSIX è un è una patch del kernel di Linux che aggiunge funzionalit à avanzate di clustering.
Sistemi di elaborazione dell’informazione Modulo 3 -Protocolli applicativi Unità didattica 2 -Telnet, FTP e altri Ernesto Damiani Lezione 4 – Napster e.
Layered Grid Architecture. Application Fabric “Controlling elements locally”: Access to, & control of, resources Connectivity “Talking to Grid elements”:
Corso di Laurea in Biotecnologie corso di Informatica Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
BaBar Tier A Administration Workshop CCR, Paestum Giugno 2003 Alberto Crescente, INFN Sez. Padova.
Meeting CCL-Referenti Stato dell’arte. 28 Aprile 2004 P.Mazzanti.
Hardware Struttura fisica (architettura) del calcolatore formata da parti meccaniche, elettriche, elettroniche.
Grid nelle sezioni: Milano Luca Vaccarossa INFN – Sezione di Milano Workshop sulle Problematiche di Calcolo e Reti nell'INFN.
Istituto Nazionale di Fisica Nucleare Italy Report Roberto Gomezel INFN - Trieste.
CMS 1 M. Biasotto – Bologna 20/01/2005 Infrastruttura di calcolo per CMS-Italia M.Biasotto – INFN Legnaro e i gestori dei centri CMS Italia.
La Farm di Alice a Torino Workshop sulle problematiche di calcolo e reti Isola d’Elba 6-9 maggio 2002 Mario Sitta (Università del Piemonte Orientale e.
INTRODUZIONE AI SISTEMI OPERATIVI. Introduzione Il software può essere diviso un due grandi classi: Il software può essere diviso un due grandi classi:
CDF Calcolo Another brick in the wall Paolo Morettini CSN1 Lecce Valerio Vercesi Settembre 2003.
Bologna Batch System (BBS). BBS e’ un sistema batch basato su Condor. L’utente sottomette i job da una macchina e il sistema li distribuisce sulle altre.
FESR Trinacria Grid Virtual Laboratory Rosanna Catania Rita Ricceri INFN Catania 25 Luglio 2006 Grid Monitoring: GridICE – bacct - lsload.
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
Esperienza di Elastic Computing al Tier 1 Vincenzo Ciaschini & Donato de Girolamo CCR 16-20/5/2016.
Workshop della Commissione Calcolo e Reti 28 Maggio 2013 Federazione di risorse Cloud con CLEVER 1.
Utilizzo della VO di theophys per il calcolo lattice QCD G. Andronico M. Serra L. Giusti S. Petrarca B. Taglienti.
Overview del middleware gLite Guido Cuscela INFN-Bari II Corso di formazione INFN su aspetti pratici dell'integrazione.
Worker node on demand: le soluzioni Andrea Chierici INFN-CNAF CCR 2009.
Sistema di monitoraggio integrato Introduzione a cura di P. Mastroserio Servizio Calcolo & Reti Infn-Napoli P. Mastroserio Workshop CCR - INFN Grid Acireale.
Hardware Struttura fisica (architettura) del calcolatore formata da parti meccaniche, elettriche, elettroniche.
IV Corso di formazione INFN per amministratori di siti GRID Tutorial di amministrazione DGAS Giuseppe Patania.
The INFN Tier-1: progetto di ampliamento Cristina Vistoli – INFN CNAF Referee Meeting Sep
JOB MONITORING Donvito Giacinto INFN-Bari. OUTLINE ● Use-case ● Informazioni utilizzate e metodologie di raccolta per il job monitoring ● Informazioni.
Checkpoint e restore di job LSF Workshop Congiunto INFN CCR e GRID Acireale, Maggio 2010 INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
Attività Gruppo Virtualizzazione Andrea Chierici CNAF Riunione CCR
From 8 to 80 boxes. From FBSNG to Condor CPU Satura !
Gruppo Proxmox ImoLUG: vedere provare condividere
Transcript della presentazione:

Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari

Introduzione Utilizzo di Condor nel mondo Utilizzo di Condor nel mondo Statistiche del pool INFN Statistiche del pool INFN Nuove funzionalità Nuove funzionalità Conclusioni Conclusioni

Diffusione di Condor Micron Technology : 9 Pool, 4254 CPU. Risparmiati milioni di $. Micron Technology : 9 Pool, 4254 CPU. Risparmiati milioni di $. LIGO LIGO CDF: CAF (CDF Analysis Farm). 350 macchine, centinaia di utenti (50 sempre attivi) CDF: CAF (CDF Analysis Farm). 350 macchine, centinaia di utenti (50 sempre attivi) BNL: sostituisce LSF con Condor (problemi di costi…). Farm di 1145 pc cpu nel BNL: sostituisce LSF con Condor (problemi di costi…). Farm di 1145 pc cpu nel eMinerals mini grid: 930 pc Windows sparsi in 30 computer room nel campus UCL. Utilizzato il 95% del tempo di CPU. eMinerals mini grid: 930 pc Windows sparsi in 30 computer room nel campus UCL. Utilizzato il 95% del tempo di CPU.

…AND THERE IS: WE USE WHAT’S ALREADY THERE: 930 win2K PC’s (1GHz P3, 256/512Mb Ram, 1Gbit e-net.) clustered in 30 student cluster rooms across every department on the UCL campus, with the potential to scale up to ~3000 PC’s. These machines waste 95% of their CPU cycles 24/7: A MASSIVE UNTAPPED RESOURCE- A COUP FOR eMINERALS! This is where Condor enters the scene. THE ONLY AVAILABLE OF-THE-SHELF RESOURCE MANAGEMENT AND JOB BROKER FOR WINDOWS: Install Condor on our clusters, and we harness 95% of the power of 930+ machines 24 hours a day, without spending any money. Environment from the Molecular Level A NERC eScience testbed project

~1K Condor pools; ~38K CPUs

Statistica INFN (Aprile)

Ogni anno vengono utilizzati l’ equivalente di circa 80 anni di CPU. Ogni anno vengono utilizzati l’ equivalente di circa 80 anni di CPU.

Condor + HawkEye HawkEye è un sistema di Resource Monitoring che può essere usato con Condor. HawkEye è un sistema di Resource Monitoring che può essere usato con Condor. Permette di aggiungere attributi dinamici definiti dall’utente ai machine classads. Permette di aggiungere attributi dinamici definiti dall’utente ai machine classads. Da usare per query e scheduling. Da usare per query e scheduling. Molti plugin disponibili: Molti plugin disponibili: Spazio disco,memoria usata,processi in esecuzione,errori di rete,utenti… Spazio disco,memoria usata,processi in esecuzione,errori di rete,utenti…

Central Manager I demoni possono girare su qualsiasi porta I demoni possono girare su qualsiasi porta COLLECTOR_HOST = condor.cs.wisc.edu:9019 COLLECTOR_HOST = condor.cs.wisc.edu:9019 NEGOTIATOR_HOST=condor.cs.wisc.edu:9020 NEGOTIATOR_HOST=condor.cs.wisc.edu:9020 Utile da usare in caso di firewall. Utile da usare in caso di firewall.

Recupero connessioni interrotte (release 6.7.x) Per i job Vanilla e Java si può ristabilire la connessione tra submitting ed executing machines Per i job Vanilla e Java si può ristabilire la connessione tra submitting ed executing machines Mettere nel job submit file Mettere nel job submit file JobLeaseDuration = JobLeaseDuration =

High Availability Condor permette una submit machine “hot spare”: Condor permette una submit machine “hot spare”: Se la sub. mach. è down per > N minuti, una seconda macchina può prendere il suo posto Se la sub. mach. è down per > N minuti, una seconda macchina può prendere il suo posto

Daemon Failover Master SchedD Master SchedD Refresh Lock Check Lock Machine A Machine B Active(hot spare) Obtain Lock Refresh Lock Active

Computing on Demand (COD) Pensato per calcoli brevi ma intensi. Pensato per calcoli brevi ma intensi. Un utente può sospendere i condor job ed eseguire immediatamente un cod-job. Un utente può sospendere i condor job ed eseguire immediatamente un cod-job. Quando il cod-job termina i condor job riprendono l’esecuzione. Quando il cod-job termina i condor job riprendono l’esecuzione. Un utente deve essere autorizzato (e autenticato) a usare COD. Un utente deve essere autorizzato (e autenticato) a usare COD.

I/O remoto per Vanilla Job I job Vanilla non richiedono un file system uniforme I job Vanilla non richiedono un file system uniforme I file di input/output vengono trasferiti automanticamente tra la submitting machine e la executing machine. I file di input/output vengono trasferiti automanticamente tra la submitting machine e la executing machine.

BBS (Bologna Batch System) Batch system basato su Condor Vanilla Batch system basato su Condor Vanilla Si possono creare code batch con diverse velocità e timeout di esecuzione. Si possono creare code batch con diverse velocità e timeout di esecuzione. I bbs-job hanno maggiori priorità degli altri condor job. I bbs-job hanno maggiori priorità degli altri condor job. Non richiede nè la ricompilazione del programma nè un file system uniforme. Non richiede nè la ricompilazione del programma nè un file system uniforme. In fase di test per Alice-Bologna. 19 macchine biprocessori disponibili. In fase di test per Alice-Bologna. 19 macchine biprocessori disponibili.

Condor RPM Si può installare Condor tramite file rpm Si può installare Condor tramite file rpm Installazione e upgrade semplificati! Installazione e upgrade semplificati!

Conclusioni La diffusione di Condor è in rapida crescita in tutto il mondo, sia accademico che commerciale. La diffusione di Condor è in rapida crescita in tutto il mondo, sia accademico che commerciale. Nuove features e nuove applicazioni nelle nuove release: (COD, hot-spare, HawkEye, BBS, etc) Nuove features e nuove applicazioni nelle nuove release: (COD, hot-spare, HawkEye, BBS, etc) 80 anni di CPU all’ anno recuperati, ma molti di più vengono sprecati. 80 anni di CPU all’ anno recuperati, ma molti di più vengono sprecati. Il costo per evitare lo spreco è inferiore al valore del bene sprecato. Il costo per evitare lo spreco è inferiore al valore del bene sprecato.

NON SPRECARE LA TUA CPU. QUALCUNO POTREBBE AVERNE BISOGNO.