Esperienza di Elastic Computing al Tier 1 Vincenzo Ciaschini & Donato de Girolamo CCR 16-20/5/2016.

Slides:



Advertisements
Presentazioni simili
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Sicurezza in EGEE Vincenzo Ciaschini Roma.
Advertisements

ISA Server 2004 Enterprise Edition Preview. ISA Server 2004.
Connessione con MySQL.
Cluster openMosix Linux Day ’04 Caserta Ing. Diego Bovenzi.
Tecnologia dei Servizi Grid e cloud computing - Lezione Lezione ottobre 2009 Il materiale didattico usato in questo corso è stato mutuato.
Remote file access sulla grid e metodi di interconnesione di rete M. Donatelli, A.Ghiselli e G.Mirabelli Infn-Grid network 24 maggio 2001.
Test del Monitoraggio del Tracker usando un Tier2 M.S. Mennea, G. Zito, N. De Filippis Università & INFN di Bari Riunione Consorzio – Torino 18 Novembre.
Linguaggi di programmazione
La facility nazionale Egrid: stato dell'arte Egrid-Team Trieste, 9 ottobre 2004.
SP-Grid - setup Implementazione dei servizi per la produzione al CNAF: –Integrazione tra i tool di produzione standard di BaBar (ProdTools) e gli strumenti.
Grid Computing Sergio Andreozzi. Chi è interessato ad analizzare i dati generati da LHC? Circa 5,000 scienziati –distribuiti nel mondo –appartenenti ad.
n Migliorare il controllo delle risorse n Implementare policies e pianificazioni n Bilanciare il carico sui vari computer n Sfruttare al meglio i computer.
Gruppo Directory Services Rapporto dell'attivita' svolta - Marzo 2000.
Michele Michelotto INFN-Padova
25 ottobre 2002infn1 FIRB-Grid WP3,5 Grid deployment.
LNL CMS M.Biasotto, Firenze, 22 maggio Hardware e tools di installazione Massimo Biasotto INFN – Lab. Naz. di Legnaro.
E. Ferro / CNAF / 14 febbraio /13 GRID.it servizi di infrastruttura Enrico Ferro INFN-LNL.
5 Feb 2002Stefano Belforte – INFN Trieste calcolo per CDF in Italia1 Calcolo per CDF in Italia Prime idee per lanalisi di CDF al CNAF Numeri utili e concetti.
Servizi Grid ed agenti mobili : un ambiente di sviluppo e delivering
Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.
EM 09 INTERNET … UN PO DI STORIA. EM 09 Nasce per garantire comunicazioni efficienti … Tra le sedi delle forze armate americane Tra le sedi delle forze.
INFN-BOLOGNA-T3 L. Rinaldi I siti Tier-3 nel modello di calcolo di Atlas Configurazione del sito INFN-BOLOGNA-T3 Attività di Analisi e Produzione Attività.
FESR Consorzio COMETA Pier Paolo CORSO Giuseppe CASTGLIA Marco CIPOLLA Industry Day Catania, 30 Giugno 2011 Commercial applications.
Diventa blogger Analisi degli obiettivi Piattaforma Wordpress Francesca Sanzo -
3 Aprile CSN1 P. Capiluppi Tier2 CMS Italia.
Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.
Extreme Cluster Administration Toolkit Alberto Crescente, INFN Sez. Padova.
Condor standard. Sistema Batch. Tool di installazione D. Bortolotti,P.Mazzanti,F.Semeria Workshop Calcolo Paestum 9-12 Giugno 2003.
Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.
Certificati e VPN.
L. Servoli - CCR Roma 15 marzo Il progetto High Availability D. Salomoni - CNAF L. Servoli - INFN Perugia.
Sistema operativo Il Sistema Operativo gestisce le risorse hw e sw del sistema di elaborazione Facilita l'interazione tra utente e sistema Esistono diversi.
Grid nelle sezioni: Milano Luca Vaccarossa INFN – Sezione di Milano Workshop sulle Problematiche di Calcolo e Reti nell'INFN.
INSIEME RISORSE HARDWARE E SOFTWARE,DISTRIBUITE NELLA RETE, AL SERVIZIO DEL CLIENTE PER ARCHIVIARE ED ELABORARE INFORMAZIONI E APPLICATIVI ​
Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari
CMS 1 M. Biasotto – Bologna 20/01/2005 Infrastruttura di calcolo per CMS-Italia M.Biasotto – INFN Legnaro e i gestori dei centri CMS Italia.
La Farm di Alice a Torino Workshop sulle problematiche di calcolo e reti Isola d’Elba 6-9 maggio 2002 Mario Sitta (Università del Piemonte Orientale e.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
INFN-AAI HA SAML Identity Provider Dael Maselli Workshop CCR INFN GRID Maggio.
OpenStack/WNoDeS integration: a demo and next steps Vincenzo Ciaschini Catania, 29/5/14.
Tier-2 Legnaro-Padova Massimo Sgaravatto (INFN Padova) On behalf of the Legnaro-Padova T2 team Tier-2 Legnaro-Padova 1.
Riunione PRIN STOA - Bologna - 18 Giugno 2014 Testbed del T2 distribuito Napoli-Roma Dr. Silvio Pardi INFN-Napoli Riunione PRIN STOA – Bologna 18 Giugno.
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
Claudio Grandi Workshop CCR 2015 Claudio Grandi INFN Bologna.
Workshop della Commissione Calcolo e Reti 28 Maggio 2013 Federazione di risorse Cloud con CLEVER 1.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
Servizi Nazionali INFN
OpenShift Origin – Cosa è
Referaggio sigla CALCOLO D. Bonacorsi, G. Carlino, P. Morettini CCR – Roma 9 Settembre 2014.
 Cenni su switch e vlan  Layout fisico per la rete della cloud  Layout virtuale dei computing nodes  Layout virtuale del nerwork node  Riassunto.
Worker node on demand: le soluzioni Andrea Chierici INFN-CNAF CCR 2009.
IV Corso di formazione INFN per amministratori di siti GRID Tutorial di amministrazione DGAS Giuseppe Patania.
1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera
INFN—Catania Giuseppe Andronico Bologna, 23 Gennaio 2014.
Netgroup (Rapporto di aggiornamento alla Commissione) Stefano Zani (INFN CNAF) CCR Roma, Ottobre 2013.
Attività Gruppo Virtualizzazione Andrea Chierici CNAF CCR
Martedi 8 novembre 2005 Consorzio COMETA Progetto PI2S2 FESR DReflect Middleware riflessivo per la distribuzione di applicazioni Java su cluster Grid Borsista.
Domenico Elia1CdG Tier1-Tier2 / CNAF ALICE Tier2 sites Domenico Elia CdG Tier1-Tier2 Bologna, 15 Aprile 2015  Infrastruttura e risorse, coordinamento.
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
The INFN Tier-1: progetto di ampliamento Cristina Vistoli – INFN CNAF Referee Meeting Sep
Sinica Taipei R.Gomezel CCR marzo 2009 Roma.
DNS HA
ATLAS Italia – Sestri Levante, 15 Giugno 2010 G. Carlino – Richieste Run Efficiency = time for physics / total time LHC Efficiency = time with colliding.
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
ALICE Computing Readiness Workshop Tier-2 CNAF Jan 17-18, ALICE Computing Readiness 1) ALICE Italia: Persone & organizzazione 2) Test & commisioning.
FESR Trinacria Grid Virtual Laboratory Workload Management System (WMS) Muoio Annamaria INFN - Catania Primo Workshop TriGrid VL Catania,
CNAF. storage Siamo in una fase di tuning con lo storage, che al momento sembra essere un collo di bottiglia 1.~10 giorni fa vista saturazione GPFS.
Attività Gruppo Virtualizzazione Andrea Chierici CNAF Riunione CCR
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
Dynamic Farm Espansione Dinamica di una Farm Vincenzo Ciaschini CCR 31/3/2015.
Transcript della presentazione:

Esperienza di Elastic Computing al Tier 1 Vincenzo Ciaschini & Donato de Girolamo CCR 16-20/5/2016

Indice Contenuti: ◦ Idea e Architettura ◦ Il prototipo ◦ La produzione

PARTE 1 Idea e Prototipo

Descrizione Problema: Fare offloading del carico al CNAF durante i picchi di utilizzo ◦ È possibile prendere risorse esterne al CNAF e utilizzarle come se fossero interne?  Cioè utilizzabili con tutte le interfacce e gli strumenti di gestione a disposizione del Tier1? Liberare risorse pregiate locali SI.

L’idea Prendiamo una macchina remota. ◦ Pezzo di ferro, VM o container. Creiamo un tunnel VPN host-to-host con un VPN server interno al CNAF. Configuriamole come se fossero interne. Creiamo dei tunnel GRE tra il VPN server e altre risorse interne del CNAF per permettere mutua visibilità tra risorse remote e locali (Es: LSF server, CE) Siamo pronti ad usarle

Architettura VM VPN Server Batch server CE INTERNET GRE Conf Server VPN Configurazione

In Dettaglio La macchina fa il boot VM contatta un configuration server per chiedere come configurarsi Conf server spedisce configurazione e indirizzi del VPN server + configurazione generale Inoltre il configuration server spedisce comandi che vengono eseguiti sulla macchina remota. A questo punto il configuration server è fuori dai giochi. VM Contatta il VPN server e entra nella rete e ha visibilità SOLO DEI NODI NECESSARI Il Batch System prende carico del nuovo nodo VM completa la configurazione (route verso altri nodi (ce), etc…) VM funzionante e parte della farm

Requisiti sulla macchina remota Outbound connectivity. ◦ In particolare NON e’ necessario un indirizzo pubblico. Poter eseguire comandi come root. ◦ Necessario per poter creare la VPN. ◦ E per configurare la macchina. 2 rpm per gestire la connessione al configuration server all’avvio della macchina. ◦ Banale se VM o container vengono forniti da noi. È tutto.

Vantaggi Semplicità ◦ Requisiti minime sulle macchine remote. Traffico di rete minimo: ◦ Sulla VPN passa solo il traffico NECESSARIO al funzionamento del batch system. Isolamento: La macchina remota vede SOLO le risorse rese esplicitamente visibili dal Sito. Dinamicità: Servono più risorse? È sufficiente far partire più macchine remote. (virtual machine o docker container) Indipendente dal particolare Batch System.

Ringraziamenti Desideriamo ringraziare l’Università di Pisa e in particolare la persona di Maurizio Davini per il supporto e la messa a disposizione di macchine per lo sviluppo del sistema.

PARTE 2 Il Prototipo In collaborazione con il Tier 1 e il Tier 3 di Bologna

Prototipo con T3-BO e CMS Collaborazione con T1 e T3-BO per utilizzare questo meccanismo con i job di CMS ◦ OpenStack del CNAF come sorgente di machine remote. ◦ Risultati presentati al workshop CCR di Maggio 2015 a Frascati come work-in-progress e come risultato finale a ISGC 2016 da Giuseppe Codispoti Seguono brevi slide da quelle presentazioni (lievemente editate ed usate con permesso)

Una Collaborazione Speciale C. Aiftimiei 3,4, D. Bonacorsi 1,2, P. Calligola 1, V. Ciaschini 3, G. Codispoti 1,2, A. Costantini 3, S. Dal Pra 3, D. DeGirolamo 3, R. Di Maria 1,2, C. Grandi 1, D. Michelotto 3, M. Panella 3, G. Peco 1, L. Rinaldi 1,2, V. Sapunenko 3, M. Sgaravatto 5, S. Taneja 3, G. Zizzi 3 1 INFN Bologna, Bologna, Italy 2 Physics and Astronomy, University of Bologna, Bologna, Italy 3 CNAF, Bologna, Italy 4 IFIN-HH, Magurele, Romania 5 INFN, Padova, Italy 26/05/2015G. CODISPOTI - CCR

Cloud Bursting del Tier 3 Bologna Estensione del Tier-3 di Bologna avvenuta con successo ◦Testata sulla struttura OpenStack del CNAF (Havana e Juno) ◦Sperimentato l’accesso locale (GPFS) attraverso export via NFS ◦Non ideale: Collo di bottigle per le VM e per tutto GPFS ◦Ritornati all’accesso remoto (xrootd, srm) Nuovi nodi visti come «normali» nodi del T3 dalla sottomissione via Grid Completamente trasparente per gli strumenti di CMS: ◦Usato nel sistema di produzione Sottomessi > 3000 job ◦Con il workflow standard di CMS per la creazione di oggetti di Analisi ◦Jobs suddivisi tra nodi fisici e VM ◦Circa il 5% ha raggiunto i nodi virtuali ◦Non si sono visti fallimenti 16/03/2016G. CODISPOTI – ISGC16 – MARCH 2016, ACADEMIA SINICA, TAIPEI, TAIWAN 9

PARTE 3 Aruba

Aruba ● Uno dei principali resource provider Italiani ● Web, host, mail, cloud... ● Main datacenter in Arezzo ISGC

Lo Use Case Aruba: ◦ Aruba fornisce potenza computazionale quando questa non è richiesta dai suoi clienti. ◦ Quando questa potenza è richiesta, la frequenza del processore nelle vm è abbassata fino a pochi Mhz (Le VM NON vengono distrutte) CNAF ◦ Inserire queste risorse tra quelle interne ◦ Per il momento usate solo da CMS ◦ Essere un progetto pilota

Setup Il setup utilizzato ricalca in grossa misura quello sperimentato col T3. Differenze principali: ◦ Su Aruba è stata messa una cache AFM per concedere l’accesso in sola lettura a /usr/share/lsf, necessario per LSF ◦ L’imagine della macchina virtuale utilizzata è basata su un normale node del T1 Presentato a ISGC 2016 ◦ Slide di Stefano Dal Pra riutilizzate con permesso (e lievemente editate)

Collaborazione Ciaschini V., Dal Pra S., Boccali T., Chierici A., De Girolamo D., Sapunenko V.

Dynfarm workflow ISGC

Results 160GHz total amount of CPU (Intel 2697-v3). – Assuming 2GHz/core → 10 x 8-cores VMs (possible overbooking) ISGC

Results Currently the remote VM run the very same jobs delivered to CNAF by GlideinWMS Job efficiency on elastic resources can be very good for certain type of jobs (MC) Special configuration at GlideIN can specialize delivery for these resources. ISGC 2016 QueueSiteNjobsAvg_effMax_effAvc_wctAvg_cpt CMS_mcAR CMS_mcT

Conclusioni Il sistema funziona Ci sono chiari (previsti) cali di efficienza quando il job è I/O intensive. È abbastanza flessibile da adattarsi a diversi ambienti/setup È abbastanza stabile da poter essere usato in produzione senza problemi.

Ringraziamenti Vogliamo ringraziare Aruba per la disponibilità di risorse.