ATLAS: cloud computing & dynamic allocation Alessandro De Salvo 31-5-2013 A. De Salvo – 31 maggio 2013.

Slides:

Advertisements

Presentazioni simili

ISA Server 2004 Enterprise Edition Preview. ISA Server 2004.

Advertisements

Il Consolidamento di Servizi Virtual Server 2005 PierGiorgio Malusardi Evangelist - IT Professional Microsoft.

Il Sistema Operativo.

Scheduling della CPU Concetti fondamentali Criteri di scheduling

P. Capiluppi Organizzazione del Software & Computing CMS Italia I Workshop CMS Italia del Computing & Software Roma Novembre 2001.

1 La farm di ATLAS-Napoli 1 Gb/s 7 nodi con 2 CPU PIII a 1 GH, RAM 512 MB, 2 schede di rete a 100 Mb/s. Server con 2 CPU PIII a 1 GH, RAM 1 GB, 2 schede.

Proposta di integrazione e consolidamento delle risorse presenti nellinfrastruttura Grid dellItalia Meridionale (L. Merola, )

Test del Monitoraggio del Tracker usando un Tier2 M.S. Mennea, G. Zito, N. De Filippis Università & INFN di Bari Riunione Consorzio – Torino 18 Novembre.

Riunione CRESCO Infrastruttura HPC Cresco Analisi Preliminare.

COLT Enterprise Cloud Dionigi Faccenda La visione di COLT.

La facility nazionale Egrid: stato dell'arte Egrid-Team Trieste, 9 ottobre 2004.

n Migliorare il controllo delle risorse n Implementare policies e pianificazioni n Bilanciare il carico sui vari computer n Sfruttare al meglio i computer.

La sicurezza può essere fornita in ciascuno degli strati: applicazione, trasporto, rete. Quando la sicurezza è fornita per uno specifico protocollo dello.

U N INFRASTRUTTURA DI SUPPORTO PER SERVIZI DI FILE HOSTING Matteo Corvaro Matricola Corso di Reti di Calcolatori LS – Prof. A. Corradi A.A.

Servizi Grid ed agenti mobili : un ambiente di sviluppo e delivering

Reti di calcolatori LS Manni Tiziano  IT e nuovi scenari applicativi …  … portabilità dei dati …  … condivisione dati …  … disponibilità.

INFN-BOLOGNA-T3 L. Rinaldi I siti Tier-3 nel modello di calcolo di Atlas Configurazione del sito INFN-BOLOGNA-T3 Attività di Analisi e Produzione Attività.

Dischi in RAID  Redundant Array of Independent Disk Configurazione che permette di combinare più dischi secondo obiettivi di performance e ridondanza.

FESR Consorzio COMETA Pier Paolo CORSO Giuseppe CASTGLIA Marco CIPOLLA Industry Day Catania, 30 Giugno 2011 Commercial applications.

FESR Consorzio COMETA Giuseppe Andronico Industry Day Catania, 30 Giugno 2011 IaaS, PaaS e SaaS: cosa significano per le aziende.

Analysis unibo una proposta. Work flow di una tipica analisi 1.Simulazione di piccoli campioni di eventi per studio segnale 2.Generazione in grande.

CCR 14-15/03/2006 Status Report Gruppo Storage CCR.

Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.

16 Maggio CSN1 Computing-Software-Analysis CMS-INFN TEAM Analisi in CMS: stato e prospettive del supporto italiano.

LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.

Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)

Condor standard. Sistema Batch. Tool di installazione D. Bortolotti,P.Mazzanti,F.Semeria Workshop Calcolo Paestum 9-12 Giugno 2003.

Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.

Sistemi operativi di rete Ing. A. Stile – Ing. L. Marchesano – 1/18.

Layered Grid Architecture. Application Fabric “Controlling elements locally”: Access to, & control of, resources Connectivity “Talking to Grid elements”:

Grid nelle sezioni: Milano Luca Vaccarossa INFN – Sezione di Milano Workshop sulle Problematiche di Calcolo e Reti nell'INFN.

Condor III Workshop sul Calcolo INFN F. Semeria INFN Bologna Cagliari

Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.

Licensed under Creative Commons Attribution 3.0 License / ShareGrid Idee per prospettive future

Storage (ieri, oggi e domani) Luca dell’Agnello INFN-CNAF.

Cloud Computing in WLCG Alessandro De Salvo A. De Salvo – 11 July 2014.

ATLAS PRIN Alessandro De Salvo A. De Salvo – 12 novembre 2015 Cloud Computing Condivisione di risorse tra gruppi EventIndex LHCONE PoD T2D.

BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.

FESR Trinacria Grid Virtual Laboratory Rosanna Catania Rita Ricceri INFN Catania 25 Luglio 2006 Grid Monitoring: GridICE – bacct - lsload.

Un'infrastruttura per il Paese: il progetto SUNFISH Francesco Paolo Schiavo Luca Nicoletti Sede Sogei Roma, 5 Aprile 2016 C.

Riunione PRIN STOA - Bologna - 18 Giugno 2014 Testbed del T2 distribuito Napoli-Roma Dr. Silvio Pardi INFN-Napoli Riunione PRIN STOA – Bologna 18 Giugno.

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 1 1 News dal computing Gianpaolo Carlino INFN Napoli Atlas Italia, Milano, 17/11/09 Nuovo.

XzelCloud Cloud Advanced Services on large-scale Federated Infrastructures Call ICT-7 (23 Apr ‘14) Marco Verlato (INFN-PD)

Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.

Test di porting su architetture SoC F. Pantaleo for T. Boccali.

17-18 Dicembre 2014 Second Belle II italian collaboration meeting – Dicembre 2014 Networking e calcolo di Belle II a Napoli - Recas Silvio Pardi.

Esperienza di Elastic Computing al Tier 1 Vincenzo Ciaschini & Donato de Girolamo CCR 16-20/5/2016.

Parma, 22 Settembre 2010 G. Carlino – ATLAS, Attività di 7 TeV 1 ATLAS Attività di TeV Attività di computing Attività di computing.

Workshop della Commissione Calcolo e Reti 28 Maggio 2013 Federazione di risorse Cloud con CLEVER 1.

CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.

OpenShift Origin – Cosa è

Utilizzo della VO di theophys per il calcolo lattice QCD G. Andronico M. Serra L. Giusti S. Petrarca B. Taglienti.

Overview del middleware gLite Guido Cuscela INFN-Bari II Corso di formazione INFN su aspetti pratici dell'integrazione.

DA e controlli DAFNE Riccardo Gargana Frascati 13/12/ /12/13.

Worker node on demand: le soluzioni Andrea Chierici INFN-CNAF CCR 2009.

19 Ottobre 2012ATLAS Milano1 Stato delle risorse locali di calcolo L. Carminati, L. Perini, D. Rebatto, L. Vaccarossa.

INFN—Catania Giuseppe Andronico Bologna, 23 Gennaio 2014.

P. Morettini. Organizzazione della CCR Le principali attività della CCR consistono da un lato nell’assegnazione di fondi per le infrastrutture di rete.

Attività Gruppo Virtualizzazione Andrea Chierici CNAF CCR

Domenico Elia1CdG Tier1-Tier2 / CNAF ALICE Tier2 sites Domenico Elia CdG Tier1-Tier2 Bologna, 15 Aprile 2015  Infrastruttura e risorse, coordinamento.

LaBiodoloa Attività di sperimentazione RECAS - Catania G. Andronico

1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.

L.Perini Milano: 10 Gennaio Ex-ATLAS-Grid (Tier2 incluso) l Ruolo dei Tiers in ATLAS e grid l Le persone di Milano e le attività l Le infrastrutture.

FESR Consorzio COMETA - Progetto PI2S2 Integrazione di Fluent su Grid Emanuele Leggio Marcello Iacono Manno - Gianluca Passaro.

FONDACloud Federated EnvirONment for Data Analysis in the Cloud Call ICT-7 (23 Apr ‘14) Luciano Gaido (INFN-TO)

Attività Gruppo Virtualizzazione Andrea Chierici CNAF Riunione CCR

Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.

PRIN Roma1 – status Luciano Barone, Alessandro De Salvo

ONEDATA - distributed data caching -

Transcript della presentazione:

ATLAS: cloud computing & dynamic allocation Alessandro De Salvo A. De Salvo – 31 maggio 2013

Cloud Computing in ATLAS  Scopo  Integrare le risorse di Cloud con quelle Grid già esistenti  Aspetti principali del data processing e workload management  Code di PanDA nelle Cloud  Management centralizzato  Benefici per ATLAS e per i siti, trasparente agli utenti  Tier3 analysis clusters: instant cloud sites  Gestiti dagli istituti, bassa/media complessità  Personal analysis queue  Gestite dagli utenti, bassa complessità e trasparenza quasi totale  Storage  Caching a breve periodo per accelerare il processamento degli use case di cui sopra  Dati temporanei  Object storage e archivio nella Cloud  Integrazione con il DDM

Cloud Computing e PanDA  Situazione attuale  Essenzialmente utilizzato per produzione di MC su Cloud  Funzionante  Testato con vari tipi di cloud (Amazon, HelixNebula, Magellan, OpenStack, …)  Integrato con Panda  Utilizzo di CVMFS per la distribuzione del software e macchine virtuali CERNVM su KVM o Xen Jose Caballero, John Hover, Xin Zhao

Utilizzo della farm HLT durante LS1  La farm HLT di ATLAS verrà usata come un “sito” Grid opportunistico durante LS1  ~14k core, corrispondenti ad un grande T2 (se non un T1)  Infrastruttura overlay di tipo Cloud basata su OpenStack  CERN IT (Agile), CMS (HLT Farm) e BNL già utilizzano OpenStack 4

T3 analysis clusters  Nuove tecnologie all’orizzonte per i cluster di analisi nei T3  Cloud Computing e T3 virtuali  Federazioni di storage e caching per ridurre la pressione sul data management  Xrootd e HTTP  Accesso dati su WAN  Il codice utente deve essere migliorato per ridurre le latenze  Disaccoppiamento dello Storage e della CPU  Testbed  Cloud pubbliche (EC2, Google)  Cloud di ricerca (Future Grid, HelixNebula)  Cloud private (basate su OpenStack, OpenNebula)

EGI-InSPIRE RI Helix Nebula: The Science Cloud European Cloud Computing Initiative: CERN, EMBL, ESA + European IT industry Evaluate cloud computing for science and build a sustainable European cloud computing infrastructure Identify and adopt policies for trust, security and privacy CERN/ATLAS is one of three flagship users to test a few commercial cloud providers (CloudSigma, T-Systems, ATOS...) Agreed to run MC Production jobs ~3 weeks per provider First step completed: First step completed: Ran ATLAS simulation jobs (i.e. small I/O requirements) on CloudSigma 6Fernando H. Barreiro Megino (CERN IT-ES)

EGI-InSPIRE RI Experiment tests on CERN AI Experiment tests started end of October Successful setup after ~2 weeks, including training of technical student (Katarzyna Kucharczyk) PanDA production jobs in 12 hours 5/30/2016 Cloud Computing Summary

Cloud computing in US  Soluzione Open Source  OpenStack  Puppet  Boxgrinder  BNL_CLOUD: Standard production PanDA site  La coda può essere estesa in modo trasparente verso Amazon o qualiasi altra Cloud accademica  Esecuzione sostenuta di circa 200 job slot  Auto esclusione di HC abilitata  Performance paragonabili e talvolta anche superiori del sito principale di BNL  Esecuzione ibrida OpenStack/EC2 per un breve periodo  Picchi fino a ~5000 job slots BNL_CLOUD faster than BNL_CVMFS_1 (wallclock 1740s vs. 1960s) Hammercloud (ATLASG4_trf_7.2...) Setup time (no AFS)? No shared filesystem? Similar spread for other tests (e.g., PFT Evgen ) Anticipate using Iljia’s HC framework to conduct more tests

NeCTAR: National eResearch Collaboration Tools and Resources  Progetto sponsorizzato dal governo australiano (47M$)  Costruzione di una nuova infrastruttura destinata alla ricerca in Australia  Si aggiunta alla capacità dei Tier2 australiani di ATLAS  Costruzione di una federazione di T3 per High Throughput Data Analysis  Infrastruttura IaaS con circa core su 8 siti basata su OpenStack

Il framework del T2 Nectar Code di produzione e analisi di PanDA Australia-NECTAR e ANALY_NECTAR 160 core utilizzati da job di produzione di ATLAS Code di produzione e analisi di PanDA Australia-NECTAR e ANALY_NECTAR 160 core utilizzati da job di produzione di ATLAS

Il T3 federato Nectar

Cloud Pubbliche: EC2  Risorse On-Demand  Si paga il prezzo standard.  Le risorse non sono mai terminate, ma non è garantito il loro start  Spot  Si dichiara il prezzo massimo  Si paga il prezzo variabile (spot price)  Quando il prezzo dello spot eccede il massimo fissato l’istanza è terminata senza preavviso  Si è visto che anche con richieste medie in dimensione (~5000 nodi) a volte non è possibile ottenere il numero di istanze che si desidererebbe  Problemi  La memoria è assegnata in unità di 1.7GB, meno dello standard ATLAS di 2GB  Condor ora supporta la sottomissione di job su istanze di tipo spot-price  Attraverso richieste di singole istance di tipo spot

13 Amazon EC2 Pricing Options

Considerazioni su EC2  Servizio e addebito  I nodi spot vengono terminati senza avvertimento  Le ore parziali di computing non vengono addebitate  Possibili scenari in ATLAS  Running di job inferiori alle 2 ore (o addirittura 1 ora) tramite il Production System  Flag dedicata nelle code Cloud in PanDA che faccia considerare i “lost hearbeats” causati dallo spegnimento improvviso delle macchine come aspettati piuttosto che job falliti  Processamento e stage-out per-evento, tramite un event server

Condor Scaling Test (1)  Test di scaling su Amazon  Grant di 50k$ in US  Test di scaling di migliaia di nodi tramite WAN  Determinazione empirica dei costi  Primo test effettuato  Singolo host di Condor (schedd, collector, …)  Singolo processo per ogni daemon  Autenticazione con password  Condor Connection Broker (CCB)  Risultati del primo test di scalabilità  Max ~3000 nodi  Il load del collector ha causato timeout del demone di schedd  Troppe connessioni di rete, maggiori del limite massimo degli open file  Duty cycle del collector ~0.99

Condor Scaling Test (2)  Secondo test effettuato  Schedd, collector, negotiator, CCB separati  20 processi di collector  Startd configurati per scegliere in modo random un collector  Abilitazione del reporting dei collector, in modo tale che tutti I sub-collector riportino ad un collector top-level  Aumento del numero di file aperti a 1M nell’OS  Abilitazione delle porte condivise dei demoni su tutti I nodi  Multiplexing delle connessioni TCP  Decine di connessioni piuttosto che migliaia  Abilitazione dell’autenticazione delle sessioni, in modo che ogni connessione dopo la prima salti il controllo di autenticazione della password  Risultati del secondo test di scalabilità  Operazioni fluide fino a ~5000 startd, anche con grandi burst  Nessun degrado delle operazioni dello schedd  Duty cycle del collector ~0.35  Buon margine di miglioramento  Con 7 startd si potrebbe teoricamente arrivare fino a slot con poco load aggiuntivo

Condor Scaling Test (3)  Risultati complessivi  ~5000 nodi operativi per molte settimane  Esecuzione di job di produzione (simulazione)  Stage in/out a BNL  Circa 13k$ spesi, di cui 750$ per trasferimento dati  Basso tasso di fallimenti dovuto alla chiusura delle VM  Il prezzo praticato in questa occasione da Amazon per gli spot è molto basso, minore di 0.01$/h per istanze di tipo m1.small  La soluzione sembra “competitiva” anche se non ci sono ancora delle statistiche solide di costo/efficienza

Allocazione delle risorse 18  Stato corrente  Management statico delle VM  APF è operativo con istanze EC2 (spot) e Openstack da ~3 mesi  Attraverso il plugin "KeepNRunning”  2 code di AutoPyFactory (APF)  La prima coda (standard) osserva una coda di Panda, sottomette pilot ad un pool locale di Condor  La seconda coda controlla il pool locale di Condor, sottomettendo WN virtuali verso una Cloud IaaS quando i job sono idle  Gli startd di Condor nei WN effettuano il join verso il pool locale di Condor  Le VM sono identiche, non hanno bisogno di IP pubblici e sono totalmente scorrelate  I Panda Site (e.g. BNL_CLOUD, CERN_CLOUD, …) sono associati agli storage e agli LFC di altri siti  Il software viene utilizzato tramite CVMFS  Shutdown attraverso la disabilitazione della coda e/o operazioni manuali (condor_rm) dei job nelle VM

Allocazione dinamica delle risorse 19  Piani a breve termine  Dynamic draining/ramp-down  Richiede una correlazione di quale VM corrisponde a quale Condor execute host  APF invia un comando 'condor_off --peaceful' per effettuare il drain  APF si accorge quando un intero nodo è idele e lo termina  Codice esistente, già utilizzato  Necessaria integrazione con il sistema generale  Piani a lunga scadenza  Sottomissione adattiva verso provider, ad esempio:  Sottomissione di VM inizialmente verso provider liberi e/o provider locali, fin quando non vengono riempiti  Sottomissione di VM verso provider tipo EC2 (spot)  In caso di grossa richiesta, sottomissione verso provider più costosi, ad esempio EC2 on-demand  Processo inverso durante il ramp down o pause nel workload.

Conclusioni  ATLAS sta valutando o già utilizzando sia soluzioni Cloud private che Cloud commerciali a basso costo o gratuite  Utilizzo di VM allocate staticamente in una cloud è stato ampiamente dimostrato in produzione (includendo anche la farm HLT)  ATLAS si concentrerà ad ottimizzare la gestione dinamica delle risorse di calcolo attraverso delle interfacce di provisioning di VM (ad esempio OpenStack)  Il piano consiste nell’integrare la AutoPilot Factory 2 con OpenStack/EC2  Si lavorerà sull’ottimizzazione del workflow per l’utilizzo di risorse opportunistiche  Nuovo “event server”, ossia il dispatcher di eventi per la parallelizzazione dei task, molto utile in questo ambito  Attività Cloud in parallelo con la valutazione di utilizzo di risorse di tipo HPC, ma alcuni problemi  Whole-node scheduling  Assenza di disco nei nodi  Nessuna connessione outbound 20

Backup slides 21

EGI-InSPIRE RI T3 PanDA clusters PanDA analysis clusters on GCE+FutureGrid+AWS (Doug, Henrik, Val) Usage of puppet Node configurations (CVMFS, xrootd, condor, PanDA, etc.) Cluster orchestration Investigating whether puppet can also be used for scaling the size of the cluster Open questions: What is the scale of the virtual clusters? From personal analysis cluster to multi-institution analysis cluster Masterful vs. master-less setups – what is the easiest for the researcher? Proxies for Panda Pilots (personal or robotic) How is the data handling and caching done? Initial activity used Federation storage as source What is the latency incurred by this dynamic system? What is the performance penalty of virtualization? 5/30/2016 Cloud Computing Summary

EGI-InSPIRE RI T3 PROOF clusters T3 type PROOF/Xrootd cluster on Google Compute Engine (Sergey) D3PD based physics analysis 64 nodes with ~500 cores 180TB of ephemeral storage Studying data transfer using DQ2, xrdcp and direct read Plan to study scalability of PROOF workload distribution system at very large number of nodes Interest from UT-Austin ATLAS group in personal cluster solution (Peter Onyisi) Recent activity Looking at very interactive use case (more PROOF than PanDA) TACC Alamo FutureGrid hosted resources 5/30/2016 Cloud Computing Summary