ATLAS PRIN Alessandro De Salvo 12-11-2015 A. De Salvo – 12 novembre 2015 Cloud Computing Condivisione di risorse tra gruppi EventIndex LHCONE PoD T2D.

Slides:



Advertisements
Presentazioni simili
Unità D2 Database nel web. Obiettivi Comprendere il concetto di interfaccia utente Comprendere la struttura e i livelli che compongono unapplicazione.
Advertisements

23/01/01Alberto Masoni – GR1 - Roma1 I MODELLI DI CENTRI REGIONALI POSIZIONE DI ALICE ITALIA CENTRO ITALIANO: CPU 450 KSI95, DISCO 400 TB (INSIEME TIER-1.
Architettura Three Tier
Introduzione alle attivita Software e Computing di Atlas Napoli M. Biglietti – G. Carlino – F. Conventi - A. Doria – L. Merola - A. Migliaccio Software:
Proposta di integrazione e consolidamento delle risorse presenti nellinfrastruttura Grid dellItalia Meridionale (L. Merola, )
Remote file access sulla grid e metodi di interconnesione di rete M. Donatelli, A.Ghiselli e G.Mirabelli Infn-Grid network 24 maggio 2001.
Giornata di incontro con i Borsisti GARR, Roma, Andrea Petricca Problematiche di rete nella sperimentazione di file-system distribuiti su WAN.
1 Riunione del 29 Marzo 2007 IL PROGETTO SCoPE Prof. Guido Russo I lavori Le apparecchiature Il portale.
Riunione CRESCO Infrastruttura HPC Cresco Analisi Preliminare.
La facility nazionale Egrid: stato dell'arte Egrid-Team Trieste, 9 ottobre 2004.
IL CLOUD COMPUTING: portabilità o privacy?
SP-Grid - setup Implementazione dei servizi per la produzione al CNAF: –Integrazione tra i tool di produzione standard di BaBar (ProdTools) e gli strumenti.
Reti di Calcolatori L-S Un Sistema Decentrato di Allocazione del Carico per Applicazioni di Calcolo Distribuito Mauro Bampo.
Istituto Nazionale di Fisica Nucleare Roma,12 febbraio 2001 Netgroup meeting Situazione attuale e attivita futura - R.Gomezel 1 Netgroup meeting Situazione.
Execution benchmarks Obiettivi Test dettagliati e ben caratterizzati Esecuzione di benchmark standard Test di applicazioni dell'esperimento ALICE 20 Novembre.
Firenze – Festival della Creatività 2009 Comm.it s.r.l. – Ing. Davide Rogai, Ph.D. – Software >> fast on demand software.
Servizi Grid ed agenti mobili : un ambiente di sviluppo e delivering
Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.
Simulatore per un servizio di consistenza su architettura Grid
Reti di calcolatori LS Manni Tiziano  IT e nuovi scenari applicativi …  … portabilità dei dati …  … condivisione dati …  … disponibilità.
Networking Specialist
FESR Trinacria Grid Virtual Laboratory ADAT (Archivi Digitali Antico Testo) Salvatore Scifo TRIGRID Second TriGrid Checkpoint Meeting Catania,
INFN-BOLOGNA-T3 L. Rinaldi I siti Tier-3 nel modello di calcolo di Atlas Configurazione del sito INFN-BOLOGNA-T3 Attività di Analisi e Produzione Attività.
Dischi in RAID  Redundant Array of Independent Disk Configurazione che permette di combinare più dischi secondo obiettivi di performance e ridondanza.
Analysis unibo una proposta. Work flow di una tipica analisi 1.Simulazione di piccoli campioni di eventi per studio segnale 2.Generazione in grande.
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Le “nuvole informatiche”
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)
Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.
INTRODUZIONE A INTERNET
SnippetSearch Database di snippet bilanciato e replicato di Gianluigi Salvi Reti di calcolatori LS – Prof. A.Corradi.
Tier-2 Tier-2 ATLAS (Osservazioni sulla proposta dei referee del calcolo LHC) Lamberto Luminari CSN1 – Roma, 3 Aprile 2006.
Workshop CCR Otranto - giugno 2006 Gruppo storage CCR Status Report Alessandro Brunengo.
Grid nelle sezioni: Milano Luca Vaccarossa INFN – Sezione di Milano Workshop sulle Problematiche di Calcolo e Reti nell'INFN.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
ATLAS Computing Model Lamberto Luminari CSN Gennaio, 2005.
Licensed under Creative Commons Attribution 3.0 License / ShareGrid Idee per prospettive future
Gruppo ITAS Servizio Elaborazione Dati IAM. Gruppo ITAS Servizio Elaborazione Dati IAM ITAS e IAM Obiettivi  identity management (primario)  access.
ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 5 settembre 2013.
WLCG e PRIN STOA Sviluppo di tecnologie per l'ottimizzazione dell'accesso ai dati di LHC Attività, fondi, sinergie CCR 7 Febbraio 2013L.Perini1.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Roberto Covati – Roberto Alfieri INFN di Parma. Incontri di lavoro CCR dicembre Sommario VmWare Server (in produzione dal 2004) VmWare ESX.
Riunione PRIN STOA - Bologna - 18 Giugno 2014 Testbed del T2 distribuito Napoli-Roma Dr. Silvio Pardi INFN-Napoli Riunione PRIN STOA – Bologna 18 Giugno.
Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 1 1 News dal computing Gianpaolo Carlino INFN Napoli Atlas Italia, Milano, 17/11/09 Nuovo.
PRIN «Calcolo LHC» Attività previste Finanziamenti Sinergie CCR12 Dicembre 2012L.Perini1.
C ontrol system based on a H ighly A bstracted and O pen S tructure 1 WP5 !CHAOS Computing Storing and Access Policy WP5 !CHAOS Computing Storing and Access.
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
Claudio Grandi Workshop CCR 2015 Claudio Grandi INFN Bologna.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
Referaggio sigla CALCOLO D. Bonacorsi, G. Carlino, P. Morettini CCR – Roma 9 Settembre 2014.
Overview del middleware gLite Guido Cuscela INFN-Bari II Corso di formazione INFN su aspetti pratici dell'integrazione.
DA e controlli DAFNE Riccardo Gargana Frascati 13/12/ /12/13.
Progetto iSCSI Report alla CCR 12-13/12/2006 Alessandro Tirel – Sezione di Trieste.
ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 5 settembre 2013.
Netgroup (Rapporto di aggiornamento alla Commissione) Stefano Zani (INFN CNAF) CCR Roma, Ottobre 2013.
Sistema di Monitoraggio Integrato Paolo Mastroserio, Gennaro Tortone, Silvio Pardi Presenta per il gruppo Silvio Pardi.
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
Aggiornamento Netgroup R.Gomezel Commissione Calcolo e Reti LNF 29/09/ /10/2009.
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
L’infrastruttura del progetto ReCaS Paolo Lo Re on behalf of ReCaS collaboration.
Referaggio Calcolo ATLAS Gianpaolo Carlino INFN Napoli CNAF, 11 Maggio 2012 Attività di Computing ATLAS Attività di Computing in Italia Risorse e Richieste.
ATLAS: il calcolo A. De Salvo A. De Salvo – 1 settembre 2015.
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
PRIN «Calcolo LHC» Attività previste Finanziamenti Sinergie CCR12 Dicembre 2012L.Perini1.
PRIN NAPOLI Enzo Capone, Gianpaolo Carlino, Alessandra Doria, Rosario Esposito, Leonardo Merola, Silvio Pardi, Arturo Sanchez Pineda.
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
ATLAS PRIN Next Steps Alessandro De Salvo
ATLAS PRIN Roma1 - status Alessandro De Salvo
Transcript della presentazione:

ATLAS PRIN Alessandro De Salvo A. De Salvo – 12 novembre 2015 Cloud Computing Condivisione di risorse tra gruppi EventIndex LHCONE PoD T2D

Cloud Computing  Utilizzo del Cloud Computing per servizi o elaborazione dati  Servizi di grid  Workload Management  Servizi interattivi on-demand  Virtualized WN con Panda  Cluster di analisi su Cloud  Data Preservation  Altri tipi di servizi in alta affidabilità Roma 2

Cloud Computing: risultati  Test su OpenStack (Grizzly -> Kilo)  Implementazione e test dei principali servizi grid in cloud  WN/UI  Inclusi test di elasticità e interfacciamento con batch system  Squid  Scaling e performance aggregation con LBaaS  Integrazione con servizi di intallazione e configurazione  Integrazione dell’infrastruttura e della contestualizzazione con Foreman/Puppet  Test con Docker e Ansible (Kollaglue)  Integrazione con altri servizi per HA e scalabilità  Ovirt  Percona XtraDB  Applicazione dei risultati al progetto di Tier2 Distribuito  Sviluppi futuri  Integrazione completa con il Tier-2 Distribuito  Test con altri sistemi di storage (CEPH, DynaFed, …)  Completa elasticità dei servizi 3

Condivisione di risorse tra gruppi  Condivisione delle stesse risorse utilizzate per il lavoro su Grid nel centro locale ATLAS Tier-2  Condivisione di risorse tra gruppi diversi  Creazione di comunità di utenti con servizi uniformi di calcolo a livello dipartimentale  Capacità di utilizzo di risorse di calcolo distribuite Milano 4

Condivisione di risorse tra gruppi: risultati  Implementazione di un super-pool HTCondor multi-gruppo  Sistema capace di far coesistere job di tipo multi-core e single-core in modo dinamico  Possibilità di run di job paralleli  Implementazione di un sistema di monitoring  Basato su Ganglia  Risorse di storage basate su CEPH  Sviluppi futuri  Inclusione di più gruppi  Utilizzo concorrente di risorse del Tier-2  Ulteriori test e miglioramenti con CEPH 5

EventIndex: Progetto nel PRIN  Studiare la possibilità di semplificare il TagDB di ATLAS trasformandolo in un indice degli eventi (EventIndex) con puntatori allo storage che contiene gli eventi in vari formati (da RAW a NTUP)  EventIndex è l'equivalente del catalogo di una biblioteca  Sostituzione del database in Oracle con storage strutturato (Hadoop)  Divisione delle tre categorie di dati nei Tag:  Identificazione dell'evento e quantità immutabili (lumi block, trigger pattern)  Quantità dipendenti dalla ricostruzione (topologia, particelle, ecc.)  Puntatori ai files con gli eventi (GUID e offset interni)  Utilizzazione della tecnologia più appropriata per ogni categoria di dati  Sviluppo (o adattamento) dei servizi esterni: event counting, picking, skimming, consistency checks  Connessione a ProdSys e DDM per l'upload dei dati e la loro utilizzazione 6 Genova

EventIndex: risultati  Tutti i componenti più mportanti sono stati implementati e sono funzionanti  Data Collection (Producer/Consumer)  Stoccaggio dei dati in HDFS  Organizzazione dei dati in Hadoop e indicizzazione  Interfaccia di decoding del trigger  Sistema di query: interfacce CLI, Web e per event picking (EventLookup)  Monitoring in Kibana al CERN  Dati del Run-1 importati e funzionamento a regime per il Run-2  Sviluppi futuri  Ottimizzazioni  Ulteriore automazione del data flow  Interconnessioni di sistema e miglioramenti al monitoring  Controlli automatici di completamento di produzione 7

PoD per PBS, gLite-WMS e Panda  Perfezionare e testare PoD, Proof on Demand, un insieme di tool pensati per instanziare, on demand, su richiesta dell’utente, un cluster PROOF con risorse di calcolo non dedicate ma gestite da un generico RMS locale o globale  Batch system  gLite-WMS  PanDA  Test del plugin di PoD per Panda, con i dati acceduti con protocollo XrootD/FAX e protocollo file: tre diverse analisi reali e test di solo accesso al disco, sulla Cloud IT e CERN  Test di performance di accesso al disco  Job che legge circa 40% dell’evento  Test di “calibrazione” con solo accesso al disco in lettura (dell’intero dato)  Utilizzati: DPM, StoRM/GPFS, EOS  FAX  LAN, WAN  Test di latenza di startup LNF Milano 8

PoD per Prodsys2, Federazione HTTP e Dynamic Workers Addition  Prodsys di ATLAS evolve con Prodsys2: configurare PoD e JEDI per poter ancora eseguire PoD con PanDA  PROOF aggiornato con dynamic workers addition  Questo risolve il problema dello spreco di risorse e dei tempi di attesa: la startup latency viene notevolmente ridotta  Studi di startup latency ripetuti e confronto con risultati 2013  ROOT viene aggiornato per accedere ai dati con protocollo HTTP  Ripetuti test di accesso con HTTP  Testato il test bed della Federazione HTTP LNF 9

PoD: risultati  Effettuati test completi del plugin di PoD per PanDA con analisi reali  Effettuati studi approfonditi della startup latency e test con la funzionalità di dynamic workers addition  Effettuati test approfonditi di accesso al disco con XrootD/FAX e protocollo file  Effettuati test con HTTP/Federazione HTTP  Sviluppi nell’immediato futuro:  Ripetere anche con Prodsys2 un’attività di test più intensiva con più utenti e diverse analisi “reali” e con accesso al disco con protocollo XrootD e HTTP  Ripetere test di “calibrazione” con versione attuale, più matura, della federazione HTTP. 10

LHCONE  Sviluppo di una nuova generazione di reti geografiche di comunicazione dati (overlay L2 network) denominata LHCONE (LHC Open Network Environment)  Configurazione dinamica degli apparati attivi (router o switch multilayer) che costituiscono la rete stessa  Realizzazione di servizi di Bandwidth on Demand (BOD)  Integrazione con il software di esperimento Napoli 11

LHCONE: risultati  Integrazione di tutti i siti in LHCONE  Sistemi automatici di monitoraggio delle performance di rete e tracciamento dei problemi  Scrittura della documentazione  Sviluppi futuri  Continuare la sperimentazione con i protocolli SDN 12

Tier-2 Distribuito  Realizzazione e test di un prototipo di Tier-2 distribuito tra Napoli e Roma  Infrastruttura di rete comune con collegamento Point-to-Point tramite VLAN dedicata (GARR)  Storage distribuito sincrono, in modo da poter effettuare operazioni di failover e/o crash recovery  Utilizzo di una infrastruttura ad alta affidabilità per i servizi di base  Utilizzo di una infrastruttura Cloud per la gestione dei servizi e per il running dei payload utente  Studi di affidabilità del sistema, scalabilità e failover attivo trasparente di un intero sito Tier-X Napoli Roma 13

Tier-2 Distribuito: risultati  Analisi di fattibilità per un Tier-2 Distribuito  In collaborazione con il GARR  Misure di latenza, performance e affidabilità del sistema di storage  Simulazione di siti geograficamente distribuiti O(1000) km  Fine tuning per ottenere l’affidabilità necessaria per un sistema di produzione  Analisi di resilienza e affidabilità del workload (VM) intra-sito  Fine tuning di storage e rete per ottenere la resilenza necessaria per crash recovery/migrazione/alta affidabilità di due o più siti  Sviluppi futuri  Estensione completa dell’infrastruttura di Cloud al Tier-2 Distribuito  Inclusione di altri siti e cambio di tipologia di rete (MPLS) 14