ATLAS Computing Model Alessandro De Salvo

Slides:



Advertisements
Presentazioni simili
ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 5 settembre 2013.
Advertisements

ATLAS PRIN Alessandro De Salvo A. De Salvo – 12 novembre 2015 Cloud Computing Condivisione di risorse tra gruppi EventIndex LHCONE PoD T2D.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 1 1 News dal computing Gianpaolo Carlino INFN Napoli Atlas Italia, Milano, 17/11/09 Nuovo.
Parma, 22 Settembre 2010 G. Carlino – ATLAS, Attività di 7 TeV 1 ATLAS Attività di TeV Attività di computing Attività di computing.
ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 5 settembre 2013.
ATLAS Italia – Sestri Levante, 15 Giugno 2010 G. Carlino – Richieste Run Efficiency = time for physics / total time LHC Efficiency = time with colliding.
1 Bari, 21 Settembre 2011 G. Carlino – ATLAS: il calcolo ATLAS: il Calcolo Attività di Computing nel 2011 Attività di Computing nel 2011 Richieste Tier2.
ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 25 maggio 2015.
ATLAS: il calcolo A. De Salvo A. De Salvo – 1 settembre 2015.
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
PRIN NAPOLI Enzo Capone, Gianpaolo Carlino, Alessandra Doria, Rosario Esposito, Leonardo Merola, Silvio Pardi, Arturo Sanchez Pineda.
+ Call di Big Data (EINFRA- 1). + La call … + + Cosa abbiamo in mano (come INFN) 1. L’infrastruttura 1 Tier Tier2 O(25000) cores O(20) PB di Disco.
ATLAS computing Roberto Carlin Commissione I Roma 1/7/08 F. Bossi, C.Bozzi, R. Carlin, R. Ferrari, D. Lucchesi, D. Martello, M. Morandin, M. Taiuti.
KLOE - Referee Luca Lista, Andrea Perrotta, Vincenzo Vagnoni.
Alessandro De Salvo Status dei Tier2 di ATLAS Alessandro De Salvo
Domenico Elia1 Calcolo ALICE: stato e richieste finanziarie (aggiornamenti) Domenico Elia Riunione Referee Calcolo LHC / Bologna, Riunione con.
Il calcolo per l’esperimento GERDA: prospettive per la Fase II Luciano Pandola INFN, Laboratori del Gran Sasso e Laboratori del Sud Workshop della CCR,
Torino, Andrea Dainese 1 Andrea Dainese (INFN – LNL) Stato del Tier-2 ALICE a Legnaro.
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
VO-Neural Project e GRID Giovanni d’Angelo Dipartimento di Scienze Fisiche Università degli Studi di Napoli Federico II Martina Franca 12 – 23 Novembre.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Il calcolo ATLAS a Napoli nel 2014/2015
Attività Big Data/Data Science in HEP (CERN e US)
Cms.
Summary di (quasi) tutti gli utenti non presentati…
Riunione INFN – Bologna, 17 January 2013
G. Carlino, D. Lucchesi, V. Vagnoni
Metodologie Quantitative per il Calcolo Scientifico
Attività su middleware Grid e sua evoluzione
Calorimetro LAR ATLAS Italia Roma 28 novembre 2008
2009 LHC Run Computing Gianpaolo Carlino INFN Napoli Highlights from:
Dichiarazione dei servizi di sito nel GOCDB
2009 LHC Run Computing Gianpaolo Carlino INFN Napoli Highlights from:
Analysis framework of distributed thread and malware data-sources
Halina Bilokon Vitaliano Chiarella Simonetta Gentile
Commissione Scientifica III stato e richieste finanziarie
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Richieste preliminari calcolo non LHC
From 8 to 80 boxes. From FBSNG to Condor CPU Satura !
Attivita’ gruppo GE sul top
Introduzione alla sessione sull’analisi per gli esperimenti LHC
Assegnazione risorse Stato INFN CNAF,
ATLAS: il calcolo Alessandro De Salvo
Lamberto Luminari CSN Maggio 2005
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Analisi dei dati dell’Esperimento ALICE
JetWalk: Agenda e review committee
Le strategie per l’analisi Workshop CCR e INFN-GRID 2009
Aggiornamento sullo stato del Tier-2 di Catania
ATLAS-Italia Tier-3 Dario Barberis Università e INFN Genova
Attvità Computing – Inverno 08/09
(Breve) Riassunto del workshop WLCG
Belle II Computing: Accesso alle risorse di storage via http/webdav
Referaggio Calcolo ATLAS
Riunione con Referee Calcolo LHC stato e richieste finanziarie
Distributed cache proposal
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
ATLAS PRIN Next Steps Alessandro De Salvo
Job Application Monitoring (JAM)
ONEDATA - distributed data caching -
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Highlights del meeting ESPP di Cracovia Settembre 2012 (FISICA DI G1)
Stato Computing ATLAS Gianpaolo Carlino INFN Napoli
ATLAS: il calcolo Alessandro De Salvo
La richiesta si basa sulle seguenti considerazioni:
ATLAS Italia Computing Richieste 2007 (Tier-2 e locali)
Analisi dati astronomici sulla GRID COMETA con HEAsoft
ATLAS PRIN Roma1 - status Alessandro De Salvo
Storage and Data management Vladimir Sapunenko
Transcript della presentazione:

ATLAS Computing Model Alessandro De Salvo 19-02-2015 A. De Salvo – 19 febbraio 2015

Roadmap Il Computing Model di ATLAS che verrà descritto oggi si riferisce per la quasi totalità al Run2 Molto difficile ipotizzare quello che succederà nei run successivi, sia da un punto di vista tecnologico che di strategie Molte applicazioni e parametri, utili per i successivi sviluppi, verranno definiti in modo più accurato una volta che si avrà sufficiente esperienza con il sistema durante il Run2 Pur non ipotizzando grosse differenze tra Run2 e Run3 non si possono quindi fare previsioni su quello che accadrà dopo il Run2 In parte questo è anche vero per il Run2 stesso, all’interno del quale probabilmente ci saranno comunque delle piccole evoluzioni Al momento non sono definite altre roadmap al di fuori di quanto verrà applicato direttamente al Run2 2

Nuovo Computing Model di ATLAS nel Run2 Nuovo sistema di computing Rucio (Data Management) Prodsys-2 (Workload Management) FAX ed Event Service per ottimizzare l’utilizzo delle risorse Ottimizzazione della Produzione ed Analisi Run-1: 75% / 25% (slots occupancy ~ cputime usage) Run-2: 90% / 10% (stima grossolana) La maggior parte dell’analisi (Derivation) sarà spostata sulla (group) production L’analisi rimanente sarà più veloce e I/O intensive Riduzione del merging e produzione di file più grandi Code dinamiche in Panda, basate sui requirement dei job Direct I/O (xrootd e WebDAV/HTTPS) 3

Lifetime dei dati Modello di lifetime dei dati Ogni dataset avrà un lifetime settato in fase di creazione La lifetime può essere infinita (ad esempio per i dati RAW) e può essere estesa, ad esempio se il dataset è stato utilizzato di recente oppure se esiste una eccezione conosciuta Ogni dataset avrà una retention policy, ad esempio i RAW saranno memorizzati in doppia copia su tape e gli AOD almeno una copia su tape Durante la loro lifetime I dataset verranno contrassegnati come dati primari, e quindi non cancellabili I dataset con lifetime spirata verranno contrassegnati come secondari e potranno scomparire in ogni momento dai dischi e dai tape, ad eccezione dei Group disk e LocalGroup disks Utilizzo maggiore del tape, ma non dal punto di vista degli utenti finali, tranne casi particolari 4

Novità del Computing di ATLAS nel Run2 Utilizzo più efficiente delle risorse Maggiore flessibilità nel Computing Model (Clouds/Tiers) Eliminazione dei ruoli stretti T1/T2/T3 Global Panda queue Global Storage Pool (STABLE, UNSTABLE, VOLATILE) Diminuzione delle risorse utilizzate (multicore) Ottimizzazione del workflow delle analisi (Derivation Framework/Analysis Model) La maggior parte delle analisi: Processeranno una grande mole di dati Utilizzeranno meno tempo di CPU Un singolo job di analisi sui dataset derivati può utilizzare fino a 40MB/s (vs. 4 MB/s nel Run-1 con gli AOD) Utilizzo di risorse opportunistiche Grid, Cloud, HPC, Volunteer Computing 5

Risorse opportunistiche: HPC S. Campana – ATLAS Jamboree – Dec 2014 6

Risorse opportunistiche: Cloud S. Campana – ATLAS Jamboree – Dec 2014 7

Risorse opportunistiche: Volunteer Computing Boinc-based Low priority jobs with high CPU-I/O ratio Non-urgent Monte Carlo simulation Need virtualisation for ATLAS sw environment CERNVM image and CVMFS No grid credentials or access on volunteer hosts ARC middleware for data staging The resources should look like a regular Panda queue ARC Control Tower ATLAS @ HOME CERN ARC Control Tower Panda Server ARC CE Boinc server (vLHC@Home) Volunteer PC Boinc Client VM Shared Directory Grid Catalogs and Storage DB on demand BOINC PQ Shared NFS D. Cameron – Pre-GDB on Volunteer Computing – Nov 2014 Volunteers growth Continuous 2000-3000 running jobs almost 300k completed jobs 500k CPU hours 14M events 50% CPU efficiency Currently >10000 volunteers 300 new volunteers/week 8

Storage Federation Goal reached ! >96% data covered We deployed a Federate Storage Infrastructure (*): all data accessible from any location Analysis (and production) will be able to access remote (offsite) files Jobs can run at sites w/o data but with free CPUs. We call this “overflow”. S. Campana – ATLAS Jamboree – Dec 2014 9

Nuovi tipi di Reprocessing nel Run2 Derivation Framework Modello in super-streaming, con scopo finale la produzione per (gruppi di) analisi Potenzialmente può risolvere problemi nell’input di AOD Esegue operazioni intensive di CPU su eventi selezionati I lumi-block completi appaiono solo dopo il passaggio del Derivation Framework AODtoAOD Reprocessing Risolve problemi che necessitano solo di input di AOD Intrinsecamente correlato con il Derivation Framework RAWtoAOD - Fast Reprocessing Riprocessamento veloce dove vengono aggionate solo le Condition Data RAWtoAOD - Full Reprocessing Riprocessamento veloce dove vengono applicate le nuove calibrazioni e viene aggiornato il software 10

S. Campana – ATLAS Jamboree – Dec 2014 Derivation Framework S. Campana – ATLAS Jamboree – Dec 2014 11

Analysis Model per il Run2 S. Campana – ATLAS Jamboree – Dec 2014 Common analysis data format: xAOD replacement of AOD & group ntuple of any kind Readable both by Athena & ROOT Data reduction framework Athena to produce group derived data sample (DxAOD) Centrally via Prodsys Based on train model one input, N outputs from PB to TB S. Campana – ATLAS Jamboree – Dec 2014 12

Event facilities Event Service Event Index Event level processing, implementato a livello di ProdSys (e pilot) L’event service verrà inzialmente utilizzato su risorse tradizionali (grid/cloud) e successivamente anche su HPC e oltre Inizialmente sarà usato per la simulazione, per poi essere ampliato a tutto il resto, fino all’utilizzo di un Event Streaming Service Integrazione con G4Hive e Multi-Threading Event Index Semplificazione del TagDB di ATLAS, trasformandolo in un indice degli eventi (EventIndex), con puntatori allo storage che contiene gli eventi in vari formati (da RAW a NTUP) Basato su Hadoop Imminente sostituzione del TagDB con l’EventIndex 13

Performance del software Ricostruzione Raggiunto il fattore 3 di miglioramento rispetto al Run-1, previsto dal nuovo Computing Model! Dimensione degli AOD Raggiunta la dimensione prevista dal Computing Model 14

D. Charlton – ATLAS Italia – Feb 2015 Computing resources D. Charlton – ATLAS Italia – Feb 2015

Infrastruttura italiana ATLAS in Italia continuerà ad usare per il Run2 il Tier1 e i Tier2 allo stesso modo del Run1 Tier1 + 4 Tier2 (Tier2 di tipo ‘S’ – Stable) con risorse sempre più equalizzate Interfaccia primaria di tipo Grid Full mesh con accesso ai dati locali e tramite Federazioni di Storage Cambiamenti in fase di studio o di sviluppo Interfacce di tipo Cloud Prototipo di Tier-2 distribuito Progetto PRIN LHC-StoA, tra NA e RM Possibile estensione a più siti T2 Attualmente il target è quello della condivisione di servizi in HA multiregione, ma può anche essere esteso Attività promettente, limitata solo dall’esigua quantità di manpower che può essere dedicato a tale scopo

Conclusioni Il computing di ATLAS si è evoluto in modo sostanziale per il Run2 Ma è molto difficile immaginare cosa accadrà dopo Molti cambiamenti importanti DDM (Rucio) ProdSys 2 Data lifetime model Derivation framework e fast reprocessing … Grande lavoro fatto dagli sviluppatori per aumentare le performance Raggiunto un fattore 3 di velocità in più sulla ricostruzione Fast simulation in preparazione (2016)

Backup slides

Software & reprocessing in 2015/2016 P Laycock – ATLAS sw workshop 02/2015 19

Tabella dei parametri per il 2015-2017