La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari 25-05-2004.

Presentazioni simili


Presentazione sul tema: "Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari 25-05-2004."— Transcript della presentazione:

1 Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari 25-05-2004

2 Introduzione Utilizzo di Condor nel mondo Utilizzo di Condor nel mondo Statistiche del pool INFN Statistiche del pool INFN Nuove funzionalità Nuove funzionalità Conclusioni Conclusioni

3 Diffusione di Condor Micron Technology : 9 Pool, 4254 CPU. Risparmiati milioni di $. Micron Technology : 9 Pool, 4254 CPU. Risparmiati milioni di $. LIGO LIGO CDF: CAF (CDF Analysis Farm). 350 macchine, centinaia di utenti (50 sempre attivi) CDF: CAF (CDF Analysis Farm). 350 macchine, centinaia di utenti (50 sempre attivi) BNL: sostituisce LSF con Condor (problemi di costi…). Farm di 1145 pc. 5000 cpu nel 2007. BNL: sostituisce LSF con Condor (problemi di costi…). Farm di 1145 pc. 5000 cpu nel 2007. eMinerals mini grid: 930 pc Windows sparsi in 30 computer room nel campus UCL. Utilizzato il 95% del tempo di CPU. eMinerals mini grid: 930 pc Windows sparsi in 30 computer room nel campus UCL. Utilizzato il 95% del tempo di CPU.

4 …AND THERE IS: WE USE WHAT’S ALREADY THERE: 930 win2K PC’s (1GHz P3, 256/512Mb Ram, 1Gbit e-net.) clustered in 30 student cluster rooms across every department on the UCL campus, with the potential to scale up to ~3000 PC’s. These machines waste 95% of their CPU cycles 24/7: A MASSIVE UNTAPPED RESOURCE- A COUP FOR eMINERALS! This is where Condor enters the scene. THE ONLY AVAILABLE OF-THE-SHELF RESOURCE MANAGEMENT AND JOB BROKER FOR WINDOWS: Install Condor on our clusters, and we harness 95% of the power of 930+ machines 24 hours a day, without spending any money. Environment from the Molecular Level A NERC eScience testbed project

5 ~1K Condor pools; ~38K CPUs

6 Statistica INFN (Aprile)

7 Ogni anno vengono utilizzati l’ equivalente di circa 80 anni di CPU. Ogni anno vengono utilizzati l’ equivalente di circa 80 anni di CPU.

8 Condor + HawkEye HawkEye è un sistema di Resource Monitoring che può essere usato con Condor. HawkEye è un sistema di Resource Monitoring che può essere usato con Condor. Permette di aggiungere attributi dinamici definiti dall’utente ai machine classads. Permette di aggiungere attributi dinamici definiti dall’utente ai machine classads. Da usare per query e scheduling. Da usare per query e scheduling. Molti plugin disponibili: Molti plugin disponibili: Spazio disco,memoria usata,processi in esecuzione,errori di rete,utenti… Spazio disco,memoria usata,processi in esecuzione,errori di rete,utenti…

9 Central Manager I demoni possono girare su qualsiasi porta I demoni possono girare su qualsiasi porta COLLECTOR_HOST = condor.cs.wisc.edu:9019 COLLECTOR_HOST = condor.cs.wisc.edu:9019 NEGOTIATOR_HOST=condor.cs.wisc.edu:9020 NEGOTIATOR_HOST=condor.cs.wisc.edu:9020 Utile da usare in caso di firewall. Utile da usare in caso di firewall.

10 Recupero connessioni interrotte (release 6.7.x) Per i job Vanilla e Java si può ristabilire la connessione tra submitting ed executing machines Per i job Vanilla e Java si può ristabilire la connessione tra submitting ed executing machines Mettere nel job submit file Mettere nel job submit file JobLeaseDuration = JobLeaseDuration =

11 High Availability Condor permette una submit machine “hot spare”: Condor permette una submit machine “hot spare”: Se la sub. mach. è down per > N minuti, una seconda macchina può prendere il suo posto Se la sub. mach. è down per > N minuti, una seconda macchina può prendere il suo posto

12 Daemon Failover Master SchedD Master SchedD Refresh Lock Check Lock Machine A Machine B Active(hot spare) Obtain Lock Refresh Lock Active

13 Computing on Demand (COD) Pensato per calcoli brevi ma intensi. Pensato per calcoli brevi ma intensi. Un utente può sospendere i condor job ed eseguire immediatamente un cod-job. Un utente può sospendere i condor job ed eseguire immediatamente un cod-job. Quando il cod-job termina i condor job riprendono l’esecuzione. Quando il cod-job termina i condor job riprendono l’esecuzione. Un utente deve essere autorizzato (e autenticato) a usare COD. Un utente deve essere autorizzato (e autenticato) a usare COD.

14 I/O remoto per Vanilla Job I job Vanilla non richiedono un file system uniforme I job Vanilla non richiedono un file system uniforme I file di input/output vengono trasferiti automanticamente tra la submitting machine e la executing machine. I file di input/output vengono trasferiti automanticamente tra la submitting machine e la executing machine.

15 BBS (Bologna Batch System) Batch system basato su Condor Vanilla Batch system basato su Condor Vanilla Si possono creare code batch con diverse velocità e timeout di esecuzione. Si possono creare code batch con diverse velocità e timeout di esecuzione. I bbs-job hanno maggiori priorità degli altri condor job. I bbs-job hanno maggiori priorità degli altri condor job. Non richiede nè la ricompilazione del programma nè un file system uniforme. Non richiede nè la ricompilazione del programma nè un file system uniforme. In fase di test per Alice-Bologna. 19 macchine biprocessori disponibili. In fase di test per Alice-Bologna. 19 macchine biprocessori disponibili.

16

17

18 Condor RPM Si può installare Condor tramite file rpm Si può installare Condor tramite file rpm Installazione e upgrade semplificati! Installazione e upgrade semplificati!

19

20 Conclusioni La diffusione di Condor è in rapida crescita in tutto il mondo, sia accademico che commerciale. La diffusione di Condor è in rapida crescita in tutto il mondo, sia accademico che commerciale. Nuove features e nuove applicazioni nelle nuove release: (COD, hot-spare, HawkEye, BBS, etc) Nuove features e nuove applicazioni nelle nuove release: (COD, hot-spare, HawkEye, BBS, etc) 80 anni di CPU all’ anno recuperati, ma molti di più vengono sprecati. 80 anni di CPU all’ anno recuperati, ma molti di più vengono sprecati. Il costo per evitare lo spreco è inferiore al valore del bene sprecato. Il costo per evitare lo spreco è inferiore al valore del bene sprecato.

21 NON SPRECARE LA TUA CPU. QUALCUNO POTREBBE AVERNE BISOGNO.


Scaricare ppt "Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari 25-05-2004."

Presentazioni simili


Annunci Google