ATLAS: il calcolo Alessandro De Salvo 5-9-2013 A. De Salvo – 5 settembre 2013.

Slides:



Advertisements
Presentazioni simili
23/01/01Alberto Masoni – GR1 - Roma1 I MODELLI DI CENTRI REGIONALI POSIZIONE DI ALICE ITALIA CENTRO ITALIANO: CPU 450 KSI95, DISCO 400 TB (INSIEME TIER-1.
Advertisements

Introduzione alle attivita Software e Computing di Atlas Napoli M. Biglietti – G. Carlino – F. Conventi - A. Doria – L. Merola - A. Migliaccio Software:
1 La farm di ATLAS-Napoli 1 Gb/s 7 nodi con 2 CPU PIII a 1 GH, RAM 512 MB, 2 schede di rete a 100 Mb/s. Server con 2 CPU PIII a 1 GH, RAM 1 GB, 2 schede.
Proposta di integrazione e consolidamento delle risorse presenti nellinfrastruttura Grid dellItalia Meridionale (L. Merola, )
Test del Monitoraggio del Tracker usando un Tier2 M.S. Mennea, G. Zito, N. De Filippis Università & INFN di Bari Riunione Consorzio – Torino 18 Novembre.
Riunione CRESCO Infrastruttura HPC Cresco Analisi Preliminare.
La facility nazionale Egrid: stato dell'arte Egrid-Team Trieste, 9 ottobre 2004.
LNL CMS M.Biasotto, Firenze, 22 maggio Hardware e tools di installazione Massimo Biasotto INFN – Lab. Naz. di Legnaro.
Benvenuti a Un incontro informativo di grande valore ed alto contenuto sulla Virtualizzazione e sistemi ad alta disponibiltà per le PMI.
Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.
Alessia Tricomi Università & INFN Catania
INFN-BOLOGNA-T3 L. Rinaldi I siti Tier-3 nel modello di calcolo di Atlas Configurazione del sito INFN-BOLOGNA-T3 Attività di Analisi e Produzione Attività.
Analysis unibo una proposta. Work flow di una tipica analisi 1.Simulazione di piccoli campioni di eventi per studio segnale 2.Generazione in grande.
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.
16 Maggio CSN1 Computing-Software-Analysis CMS-INFN TEAM Analisi in CMS: stato e prospettive del supporto italiano.
Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)
CSN Maggio 2005 P. Capiluppi Il Computing Model (LHC) nella realta’ italiana u I Computing models degli esperimenti LHC gia’ presentati a Gennaio.
Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.
Tier-2 Tier-2 ATLAS (Osservazioni sulla proposta dei referee del calcolo LHC) Lamberto Luminari CSN1 – Roma, 3 Aprile 2006.
Workshop CCR Otranto - giugno 2006 Gruppo storage CCR Status Report Alessandro Brunengo.
Calcolo esperimenti LHC 2004 F. Ferroni, P. Lubrano, A. Martin, M. Morandin, M. Sozzi.
Halina Bilokon ATLAS Software di fisica DC1 – DC2 DC1 aprile fine 2003 (versioni di software  3.x.x – 7.x.x)  Validation del Software  Aggiornamento.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 5 settembre 2013.
Storage (ieri, oggi e domani) Luca dell’Agnello INFN-CNAF.
ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 3 maggio 2013.
ATLAS PRIN Alessandro De Salvo A. De Salvo – 12 novembre 2015 Cloud Computing Condivisione di risorse tra gruppi EventIndex LHCONE PoD T2D.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Calcolo a LHC CB 23 maggio 2011 Quadro generale Gare CPU e disco.
Riunione PRIN STOA - Bologna - 18 Giugno 2014 Testbed del T2 distribuito Napoli-Roma Dr. Silvio Pardi INFN-Napoli Riunione PRIN STOA – Bologna 18 Giugno.
D. Martello Dip. Fisica - Lecce Sintesi piani esperimenti CSN2 CNAF 7-marzo-2007.
Referaggio CALCOLO Esperimenti non LHC G. Carlino, D. Lucchesi, V. Vagnoni CSN1 – Lecce 30 Settembre 2015.
Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 1 1 News dal computing Gianpaolo Carlino INFN Napoli Atlas Italia, Milano, 17/11/09 Nuovo.
PRIN «Calcolo LHC» Attività previste Finanziamenti Sinergie CCR12 Dicembre 2012L.Perini1.
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
Parma, 22 Settembre 2010 G. Carlino – ATLAS, Attività di 7 TeV 1 ATLAS Attività di TeV Attività di computing Attività di computing.
Il primo anno di presa dati di LHC L’esperienza di calcolo nell’esperimento ATLAS Attività condotte nel 2010 e prospettive future Lorenzo Rinaldi (INFN-CNAF)
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
Referaggio sigla CALCOLO D. Bonacorsi, G. Carlino, P. Morettini CCR – Roma 9 Settembre 2014.
ATLAS e CMS Relazione dei referees A. Cardini, M. Grassi, G. Passaleva, A. Passeri, V.Vagnoni.
19 Ottobre 2012ATLAS Milano1 Stato delle risorse locali di calcolo L. Carminati, L. Perini, D. Rebatto, L. Vaccarossa.
Referaggio, 17 Marzo 2010 G. Carlino – ATLAS – Referaggio Tier2 1 Referaggio Tier2 ATLAS Attività di Computing 2009 Attività di Computing 2009 Stato dei.
1 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Relezione Riunioni Referaggio Calcolo ATLAS Computing Model News Computing.
Uso della rete geografica e richieste di upgrade CCR 31/3/2015 (Roma) S.Zani.
Progetto ReCaS status update Giuseppe Andronico WS CCR, Catania 28 Maggio 2014.
CNAF, 13 Maggio 2011 G. Carlino – Referaggio Computing ATLAS 1 ATLAS Referaggio Tier2 Attività di TeV Attività di TeV Richieste.
Atlas TDAQ E. Pasqualucci INFN Roma. Sommario Attivita’ di fine 2008 – inizio 2009 Preparazione per i run con fasci Trigger con luminosita’ iniziali 16/9/20092E.
Referaggio Calcolo ATLAS II Gianpaolo Carlino INFN Napoli Catania, 12 Settembre 2012 Risorse e Richieste 2013 nei preventivi Aggiornamento in seguito all’allungamento.
Attività Gruppo Virtualizzazione Andrea Chierici CNAF CCR
G. Maggi 24/1/2006 Il Progetto del TIER2 di Bari Giorgio Maggi.
Referaggio CALCOLO Esperimenti non LHC G. Carlino, D. Lucchesi, V. Vagnoni CSN1 – Catania 1 Ottobre 2014.
ATLAS NAPOLI Software & Computing e il Tier-2 Gianpaolo Carlino INFN Napoli Il gruppo ATLAS di Napoli Le attività Software & Computing Il prototipo Tier-2.
Domenico Elia1CdG Tier1-Tier2 / CNAF ALICE Tier2 sites Domenico Elia CdG Tier1-Tier2 Bologna, 15 Aprile 2015  Infrastruttura e risorse, coordinamento.
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
Silvia Arezzini 2 luglio 2014 Consiglio di Sezione per Preventivi.
ATLAS Italia – Sestri Levante, 15 Giugno 2010 G. Carlino – Richieste Run Efficiency = time for physics / total time LHC Efficiency = time with colliding.
1 Bari, 21 Settembre 2011 G. Carlino – ATLAS: il calcolo ATLAS: il Calcolo Attività di Computing nel 2011 Attività di Computing nel 2011 Richieste Tier2.
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
Calcolo ALICE1 Calcolo ALICE: stato e richieste Domenico Elia e Massimo Masera Referee Calcolo LHC / Pisa, Riunione con Referee Calcolo LHC Pisa,
L’infrastruttura del progetto ReCaS Paolo Lo Re on behalf of ReCaS collaboration.
Referaggio Calcolo ATLAS Gianpaolo Carlino INFN Napoli CNAF, 11 Maggio 2012 Attività di Computing ATLAS Attività di Computing in Italia Risorse e Richieste.
L.Perini Milano: 10 Gennaio Ex-ATLAS-Grid (Tier2 incluso) l Ruolo dei Tiers in ATLAS e grid l Le persone di Milano e le attività l Le infrastrutture.
Attività Gruppo Virtualizzazione Andrea Chierici CNAF Riunione CCR
ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 25 maggio 2015.
ATLAS: il calcolo A. De Salvo A. De Salvo – 1 settembre 2015.
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
Richieste Tier Alessandro De Salvo A. De Salvo – 4 giugno 2013.
ATLAS: il calcolo Alessandro De Salvo
ATLAS: il calcolo Alessandro De Salvo
Transcript della presentazione:

ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 5 settembre 2013

2013 ATLAS data Logical data: singola copia dei dati prodotti Physical data: insieme di tutte le copie prodotte e replicate nelle cloud ITALY NTUP ESD AOD HITS DESD 2.5 PB 2e3 1.5e3 1e3 0.5e PHYSICAL DISK PHYSICAL DATA ALL ATLAS 70e3 60e3 50e3 40e3 30e3 20e3 10e AOD NTUP HITS RAW ESD 40 PB 25e3 20e3 15e3 10e3 5e HITS DESD NTUP AOD ESD 80e3 90 PB 30e3 35e3 LOGICAL DATA PHYSICAL DISK ALL ATLAS AOD NTUP HITS RAW ESD e3 0 40e3 60e3 80e3 10e4 12e4 14e4 160 PB PB

Efficienza trasferimento al primo tentativo: 93% 100% considerando i retries Dati disponibili in tempo “quasi reale”: media trasferimento AOD dal Tier0 a un Tier1: 2.7 h per il completamento dei dataset Export dal Tier0 ai Tier1 RAW: 1 copia primaria (disco) + 1 copia custodial (tape) ESD: 1 copia primaria e 1 copia secondaria (su disco in siti diversi) AOD: 2 copie primarie + 1 copia secondaria +copie secondarie ai Tier2 con il sistema dinamico di replica. Nel run2 il numero di repliche primarie degli AOD scenderà a 1 per i T1 e 1 per i T2. Gli AOD meno utilizzati verranno trasferiti su tape, dal quale potranno comunque essere usati in caso di necessità I T2D (MI, NA, RM) posseggono anche copie primarie di alcuni tipi di dati Significativa riduzione del numero di copie e di formati di dati replicati nella griglia rispetto agli anni passati Suddivisione per attività: Data Brokering: replica dinamica dei dati Data Consolidation: pre-placement (T1-T1) Data export 3

ATLAS: Utilizzo risorse Tier 1 in Italia Pledge INFN-T1 : 8.79% INFN-T1 ATLAS T1s Sep 2012Sep e5

ATLAS: Utilizzo risorse Tier 2 in Italia Pledge 2012 Pledge siti T2  Frascati  Milano  Napoli  Roma 1 5 Site reliability/availability Sistema di replica dinamico dei dati PD2P, basato sulla popolarità del dati, già dal Ottimizzazione dell’uso del disco dei Tier2 permettendo la copia di dati interessanti. Napoli Milano Frascati Roma 4.5e4 3 PB

ATLAS: Utilizzo Tier 2 & Tier 3 in Italia Tier-3 Lecce Bologna Genova Roma 3 Cosenza Pavia Roma 2 Frascati Milano Napoli Roma 1 Milano Frascati Tier-3 Napoli Roma 1 CNAF e8 9e7

Frascati Roma1 Milano Napoli Utilizzo risorse in Italia: Accounting Tier 2 Aug12 Sep12 Aug12 Sep12 Aug12 Sep12 Aug12 Sep12 Problemi pubbliicazione 7

Utilizzo delle risorse per il  2013  Possibile riprocessamento dei dati e MC per studi ulteriori  Produzione di ulteriore nuovo MC per l’analisi  Attività molto intensa di analisi utente e di gruppo  2014  Produzione di sample più grandi di MC per il run ad alta energia  Reprocessing completo finale dei dati e MC del , utilizzando l’evoluzione del modello dei dati preparato per la presa dati del 2015  Attività di preparazione del Run 2 (full dress reharsal)  2015  Processamento e riprocessamento dei nuovi dati ad alta energia  Produzione associata di MC per I nuovi dati  Incremento di attività utente e di gruppo 8

Preparazione al run del 2015  ATLAS ha piani ambiziosi per l’upgrade delle attività di Software e Computing  Software: ricostruzione, simulazione, analisi  Ottimizzazione delle performance degli algoritmi, utilizzando in modo più adeguato le CPU moderne  Riduzione dell’utilizzo di memoria  Parallelismo a livello di evento e di algoritmo  Riduzione della dimensione degli eventi  Computing distribuito  Nuovo sistema di Data Management (Rucio)  File based data management, subscriptions and rules,..  Upgrade del Production System (PanDA + JEDI + DEfT)  New TRF, log file merging, …  Merging at T2s, dynamic job definition based on scouts, …  Procedure operative e workflow  Ottimizzazione delle analisi di gruppo e utenti finali 9

Cambi nel workflow di analisi  Il formato AOD sembra non essere l’ “Analysis Object Data” per la maggior parte delle analisi  La produzione dei formati di dati di gruppo (D3PD/NTUP) è effettuata centralmente  La situazione corrente rallenta l’analisi, crea problemi nella Grid, riempiendo I dischi, e non scala al 2015 con il Run 2  E’ necessario cambiare il modello di analisi e il suo workflow per aumentare il thoughput  Aggiornamento del workflow  Aggiornamento del formato degli AOD per farlo diventare direttamente leggibile da ROOT  Introduzione di un reprocessing AOD2AOD per ottimizzare l’utilizzo delle risorse  Introduzione di un “Derivation framework” per la produzione di formati di gruppo specifici, tramite skimming/slimming/thinning degli AOD secondo un modello a treno, rimpiazzando il modello corrente per la produzione di DPD  Introduzione di un common analysis framework, che metta a disposizione dei tool di analisi più semplici e una integrazione migliore con la Grid 10

Nuovi protocolli di accesso ai dati  Sperimentazione dei nuovi protocolli di accesso  xrootd e HTTP supportano lo streaming su WAN  Sperimentazione dei protocolli di accesso remoti e comparazione con i protocolli di storage nativi a disposizione  I protocolli verranno adottati sulla base delle performance, dell’affidabilità e della semplificazione che manifesteranno  Valutazione successiva di un modello per la rottura del modello di località dei dati per i job  Impatto sull’infrastruttura (storage e network)  Migrazione finale all’infrastruttura di Storage Federato  Attualmente basato su sulla tecnologia xrootd (FAX)  L’utilizzo dello storage federato comporterà un cambio di paradigma, sia a livello centrale che a livello utente  Possibilità di accesso diretto ai file anche su siti che non hanno un file system Posix (es. GPFS al CNAF, …), quindi ad esempio tutti I siti DPM (LNF, NA, RM, …)  Utilizzo più massiccio della rete  Maggiore affidabilità di analisi e ottimizzazione dello spazio disco 11

Uso di risorse opportunistiche  Cloud commerciali a basso costo o gratuite  Utilizzo di VM allocate staticamente in una cloud è stato ampiamente dimostrato in produzione (includendo anche la farm HLT)  ATLAS si concentrerà ad ottimizzare la gestione dinamica delle risorse di calcolo attraverso delle interfacce di provisioning di VM (ad esempio OpenStack)  Il piano consiste nell’integrare la AutoPilot Factory 2 con OpenStack/EC2  Si lavorerà sull’ottimizzazione del workflow per l’utilizzo di risorse opportunistiche  Il nuovo “event server”, ossia il dispatcher di eventi per la parallelizzazione dei task, sarà molto utile in questo ambito  Possibilità di utilizzo di risorse di tipo HPC, ma alcuni problemi  Whole-node scheduling  Assenza di disco nei nodi  Nessuna connessione outbound 12

Partecipazione italiana alle attività di ATLAS  ATLAS Italia partecipa alle attività di computing di ATLAS in diverse aree di lavoro  Cloud support [all]  Database [D. Barberis]  Installazione del software (CVMFS e distribuzione) [A. De Salvo]  Monitoring [S. Tupputi]  Network infrastructure (LHCONE) [E. Capone, A. De Salvo]  Scrutiny Group [G. Carlino]  Storage [A. De Salvo, A. Doria, E. Vilucchi]  Federazioni di xrootd e HTTPD  DPM  VO management [A. De Salvo]  Altre attività (PRIN)  Cloud Computing  Hadoop (EventIndex)  Network Infrastructure (LHCONE)  Proof on Demand  La partecipazione alle rimanenti attività è largamente limitata dalla disponibilità di persone  Attività sulle GPU, inserite in un FIRB  Interesse della comunità per GPU e multiprocessing/ottimizzazione del codice, ma NON c’è manpower  2 FTE al CERN, pagati dall’INFN in-kind e riconosciuti come M&O-A 13

Responsabilità italiane nel calcolo di ATLAS  ATLAS database  Dario Barberis [coord]   Coordinamento calcolo ATLAS IT  Alessandro De Salvo [coord]    Grid software release / CVMFS  Alessandro De Salvo [coord]   SAM monitoring  Salvatore Tupputi [deputy coord]   Scrutiny Group  Gianpaolo Carlino   VO management  Alessandro De Salvo [coord] 

Risorse Disponibili CPU CPUFrascatiMilanoNapoliRomaTotale HP To be pledged Le CPU totali a disposizione dei Tier2 comprendono anche risorse che non pledged: CPU per uso locale (cluster proof) o in griglia ma dedicate principalmente alle attività italiane (Tier3) finanziate con fondi vari –Proof on Demand, share per analisi e simulazione MC per il ruolo atlas/it le CPU obsolete (fino al 2013 e già rifinanziate) ancora in produzione ma in corso di spegnimento CPU non a completa disposizione dei siti –(es. scope a NA, SuperB a LNF) Queste CPU concorrono alla definizione della linea blu dell’accounting che in alcuni casi è significativamente maggiore della linea rossa Nel conto delle CPU pledged sono comprese le CPU gara CNAF 2013 ancora da installare CPU disponibili 2013 “pledged” 15

Risorse Disponibili 2013 – Disco DiscoFrascatiMilanoNapoliRomaTotale Totale disponibile to be pledged 3517 Lo storage totale disponibile nei Tier2 comprende anche l’area locale in cui sono conservati i dati di tutti gli utenti italiani (LOCALGROUP), non solo gli utenti locali La dimensione di queste aree è di circa 100 TB per Tier2 In gran parte già occupata, gli utenti dovranno cancellare i dati vecchi non più necessari per fare spazio ai dati del 2013 l’utilizzo di queste aree è irrinunciabile per cui il loro volume va sottratto allo storage da dichiarare pledged Storage disponibile 2013 “pledged” 16

ATLAS: Risorse Obsolete nel 2014/2015 Le CPU obsolete sono le macchine con più di 3 anni di vita Lo storage obsoleto comprende le SAN con più di 5 anni di vita La sostituzione del materiale obsoleto, specie per i dischi, è fondamentale per il buon funzionamento dei centri e quindi dell’intero sistema di computing italiano di ATLAS CPU 2014 (HS06) CPU 2015 (HS06) Disco 2014 (TBn) Disco 2015 (TBn) Frascati Milano Napoli Roma Tot Risorse obsolete 2014/

Risorse Attività ATLAS 2014 Lo Scrutiny Group ha approvato ad aprile 2013 le seguenti risorse per ATLAS 18 Nuove richieste di ATLAS (09/2013), ancora non approvate dall’RRB

Richiesta Risorse I Le risorse necessarie per il 2014 sono determinate dalla volontà di conservare il ruolo significativo nel computing di ATLAS acquisito negli ultimi anni conservando gli share di risorse pledged per le attività centrali: Tier1: 10% Tier2: 9% CPU e 7% Disco e di garantire la competitività agli utenti italiani mediante l’uso di risorse dedicate nei Tier2 e Tier3 Richieste aggiornate a settembre 2013 ATLAS Share IT ATLAS IT 2014 ATLAS IT disponibile Delta (da RRB) Attività 2014 CPU T1 (kHS06) % * Disco T1 (PB) 3510% * CPU T2 (kHS06) 4259% Disco T2 (PB) 527% * Pledge

Richiesta Risorse II Le risorse per le attività italiane sono già disponibili e non inclusi nel disponibile “pledged” 2013 e non sono necessarie ulteriori richieste Attività 2013 Attività Italiane Obs Richieste 2014 Tot CPU T2 (kHS06) Disco T2 (TB) Attività 2013 Attività Italiane Obs Richieste 2014 Tot CPU T2 (kHS06) Disco T2 (TB) Recas - Napoli Totale 20 Richieste effettive

Risorse CPU Attività ATLAS Richieste di ATLAS per il , aggiornate al 28/08/2013, non ancora referate 21 I valori in [] sono relativi alle richieste presentate in precedenza

Risorse Disco Attività ATLAS Richieste di disco ATLAS per il , aggiornate al 28/08/2013, non ancora referate 22

Conclusioni  Il Computing di ATLAS ha dimostrato di essere robusto ed affidabile per il processamento dei dati, sia MC che analisi finale, tuttavia sono stai individuati dei punti dove è necessario migliorare  Durante il LS1 il Computing Model di ATLAS subirà un sostanziale cambiamento, apportando modifiche sia al codice di ricostruzione/analisi sia ai servizi infrastrutturali  L’Italia contribuisce in modo sostanziale alle attività centrali di calcolo e tramite i centri nazionali (T1 e T2)  ATLAS sta tentando di ridurre l’incremento del 2015, pur bilanciando in parte con il 2014  Le richieste sono diminuite in conseguenza delle nuove risorse provenienti dal progetto RECAS nelle sedi di BA, NA, CS e CT  RECAS può soddisfare anche l’incremento di richieste di ATLAS, a discapito del 2015  E’ comunque fondamentale fornire supporto ai Tier2 esistenti per quel che riguarda le dismissioni 23

Backup slides 24

Availability = time_site_is_available/total_time Reliability = time_site_is_available/ (total_time-time_site_is_sched_down) Availability / Reliability

Risorse Obsolete nel 2014 Le CPU obsolete sono le macchine comprate nel 2010 e installate fine 2010 inizi 2011 (non sono comprese le macchine installate successivamente). Le CPU hanno garanzia triennale Lo storage obsoleto comprende le SAN comprate nel 2008 e installate giugno Garanzia quinquennale Le dismissioni di Napoli sono finanziate da RECAS La sostituzione del materiale obsoleto, secie per i dischi, è fondamentale per il buon funzionamento dei centri e quindi dell’intero sistema di computing italiano di ATLAS CPU (HS06) Disco (TBn) Frascati11870 Milano Napoli Roma Tot Tot – NA Risorse obsolete

Utilizzo risorse in Italia: Federazione T2 Pledge 2012 Pledge

Il sistema di replica dinamico dei dati PD2P, basato sulla popolarità del dati, già dal 2010 ha ottimizzato l’uso del disco dei Tier2 permettendo la copia di dati interessanti. Circa +90 TB al mese Nessun rischio saturazione, si possono cancellare i dati secondari Utilizzo del disco nei Tier 2 ATLAS Italia Terabytes 500 NTUP AOD ESD DAOD 28

Availability = time_site_is_available/total_time Reliability = time_site_is_available/ (total_time-time_site_is_sched_down) Availability / Reliability

Multiprocessing e concurrent framework  Le risorse Grid in WLCG sono limitate come agreement a 2GB/core  Il software di ricostruzione di ATLAS fatica a mantenere questo limite  Non è ancora possibile girare la ricostruzione a 64 bit tranne che in nodi speciali dove è disponibile più memoria  Tale situazione certamente peggiora con l’aumento dell’energia e del pileup  Le nuove tecnologie vanno in direzione di CPU many-core, perciò l’approccio corrente non è più sostenibile, nonché l’ultilizzo di eventuali risorse HPC praticamente impossibile  ATLAS prevede di rendere operativo AthenaMP durante LS1 e iniziare lo sviluppo di un nuovo framework concorrente con Full threading e parallelismo a livello di eventi e algoritmi  Collaborazione con IT/OpenLab, PH-SFT, LHCb e CMS  Questo nuovo approccio richiederà anche la migrazione del sistema di Computing distribuito, a partire dalle configurazioni delle code fino alle convenzioni di nomenclatura dei file  Necessaria una chiara strategia per i siti, in fase di sviluppo  Nonostante l’approccio di AthenaMP, per job di ricostruzione ad alto pile up si avrà comunque, secondo le proiezioni correnti, una RSS/core di circa 3GB, mentre per altri tipi di job sarà minore  Ogni sito che girerà la ricostruzione dovrà fornire delle code multicore 30

Utilizzo della farm HLT durante LS1  La farm HLT di ATLAS verrà usata come un “sito” Grid opportunistico durante LS1  ~14k core, corrispondenti ad un grande T2 (se non un T1)  Infrastruttura overlay di tipo Cloud basata su OpenStack  CERN IT (Agile), CMS (HLT Farm) e BNL già utilizzano OpenStack 31

ATLAS: as study case for GPU sw trigger ATLASThe ATLAS trigger system has to cope with the very demanding conditions of the LHC experiments in terms of rate, latency, and event size. LHC luminosityThe increase in LHC luminosity and in the number of overlapping events poses new challenges to the trigger system, and new solutions have to be developed for the fore coming upgrades ( ) GPUs high level triggerGPUs are an appealing solution to be explored for such experiments, especially for the high level trigger where the time budget is not marginal and one can profit from the highly parallel GPU architecture ATLAS GPUsmuon identification and reconstructionWe intend to study the performance of some of the ATLAS high level trigger algorithms as implements on GPUs, in particular those concerning muon identification and reconstruction. Slide from G. Lamanna / A. Messina 32

Altre evoluzioni  Completa migrazione ed utilizzo dell’ATLAS Grid Information System in produzione  Definitivo abbandono dei servizi di IS di Grid in favore di AGIS  Abbandono anche del WMS, finora utilizzato ancora solo per le installazioni del software  Installation System migrato completamente ad AGIS + Panda  Sorgente primaria di informazioni per Panda e DDM  Migrazione ad SL6  Inizio ufficiale delle migrazioni ad SL6 a giugno 2013  Alcune delle release necessitano di una patch per funzionare con l’analisi a causa delle opzioni diverse di compilazione  Possibile soluzione generica trovata di recente, in fase di test  In ogni caso le release più utilizzate sono state già sistemate o comunque funzionanti nativamente  Migrazione ad IPv6  Test dei servizi con IPv6 necessario  SHA-2  Migrazione imminente, necessario un controllo dei servizi  Finalizzazione dell’integrazione di gLexec in Panda 33

PRIN: Cloud Computing  Utilizzo del Cloud Computing per servizi o elaborazione dati  Servizi di grid  Workload Management  Servizi interattivi on-demand  Virtualized WN con Panda  Cluster di analisi su Cloud  Data Preservation  Altri tipi di servizi in alta affidabilità  OpenStack + glusterfs + cloud-init  In collaborazione con il gruppo cloud INFN  Stessa infrastruttura di base di CERN Agile Infrastructure  Possibilità di unire più siti grid in una unica infrastruttura  Sperimentazione su Tier2 distribuito, tramite LHCONE  Stato  Facility iniziale, esportabile anche ad altri siti entro fine anno Roma 34

PRIN: EventIndex  Studiare la possibilità di semplificare il TagDB di ATLAS trasformandolo in un indice degli eventi (EventIndex) con puntatori allo storage che contiene gli eventi in vari formati (da RAW a NTUP)  EventIndex è l'equivalente del catalogo di una biblioteca  Sostituzione del database in Oracle con storage strutturato (Hadoop)  Divisione delle tre categorie di dati nei Tag odierni:  Identificazione dell'evento e quantità immutabili (lumi block, trigger pattern)  Quantità dipendenti dalla ricostruzione (topologia, particelle, ecc.)  Puntatori ai files con gli eventi (GUID e offset interni)  Utilizzo della tecnologia più appropriata per ogni categoria di dati  Sviluppo (o adattamento) dei servizi esterni  Event counting, picking, skimming, consistency checks  Connessione a ProdSys e DDM per l'upload dei dati e la loro utilizzazione  Stato  Testbed attivo al CERN Genov a 35

PRIN: PoD per PBS, gLite-WMS, Panda  Dedicare alcune risorse di calcolo ad una farm da utilizzare per l'analisi con PROOF.  Sviluppare e perfezionare PoD, Proof on Demand, un insieme di tool pensati per interagire con un RMS locale o globale ed avviare i demoni di PROOF.  Test per provare i plugin di PoD per PBS e PanDA (gLite- WMS non più supportato da ATLAS), con i dati acceduti con protocollo XrootD e in futuro anche HTTP:  Test di performance di accesso al disco  Job che legge circa 40% dell’evento  Test di latenza di startup  Stato  Infrastruttura funzionante tramite PanDA  Test di performance e scalabilità in corso  Talk a CHEP 2013 LNF Milano Napoli 36

PRIN: LHCONE  Sviluppo di una nuova generazione di reti geografiche di comunicazione dati (overlay L2 network) denominata LHCONE (LHC Open Network Environment)  Configurazione dinamica degli apparati attivi (router o switch multilayer) che costituiscono la rete stessa  Realizzazione di servizi di Bandwidth on Demand (BOD)  Integrazione con il software di esperimento  Stato  Infrastruttura stabile già in produzione al T1 e nei T2  Ottimizzazione e studi su configurazioni dinamiche in corso  Sperimentazione su T2 distribuito in fase di allestimento  Inter-site VLAN (NA-RM)  Failover di servizi core in WAN, con collegamento a 10 Gbps (GARR-X) a bassa latenza Napoli 37

GPU: GAP Realtime (FIRB) “Realization of an innovative system for complex calculations and pattern recognition in real time by using commercial graphics processors (GPU). Application in High Energy Physics experiments to select rare events and in medical imaging for CT, PET and NMR.”  FIRB partito ad inizio del 2013  Per ciò che riguarda la comunità HEP, verrà studiato l’utilizzo di trigger hardware di basso livello con latenza ridotta e trigger software di alto livello  Si studieranno I casi di NA62 L0 e l’High Level Muon Trigger di ATLAS come “casi fisici”  Roma coinvolta nello studio del trigger di ATLAS 38

Trigger rate 2015 Luminosity expected to increase from 7×10 33 to 2×10 34 corresponding to about a factor 3 in rates Pile up will increase affecting the effective trigger rates Moving to √s=14 TeV cross sections will increase on average by a factor 2.5 Rates would increase by about one order of magnitude. To keep the increase within a factor ~2 (50kHz→100kHz L1 and 450Hz→1kHz EF) selections have to be improved/tightened minimizing the impact on physics. PS: The physics (Higgs, top...) remains the same. 39 Slide from C. Gatti / D. Orestano

Trigger menu 2012 vs 2015 Current menu scaled to Slide from C. Gatti / D. Orestano

Trigger menu 2012 vs 2015 Menu at 2×10 34 and 14 TeV 41 Slide from C. Gatti / D. Orestano Increase single e/gamma threshold Increase single and di muon thresholds Increase single and di tau thresholds Increase Jet and MET thresholds

Milano: status report Miglioramenti sui tre indicatori principali della qualità del T2 Realiability, data management e produttività. Interventi per migliorare la reliabilty Completa riorganizzazione del file system GPFS con divisione degli storage in storage pools Disaccoppiamento completo di localgroupdisk su h/w dedicato (isolamento dei guasti) Upgrade a StoRM (EMI-3) Nessun grave incidente hardware dal primo di maggio (contro una media di due al mese nel periodo gennaio 2013 – maggio 2013) Interventi per migliorare la velocità dei trasferimenti Upgrade dei gridftp servers con schede di rete a 10Gb/s Aggiornamento all’ultima versione di gridftp Interventi per migliorare la produttività A seguito della ritrovata stabilità dello storage abbiamo completato la riorganizzazione della sala macchine per l’installazione prompt di tutto il nuovo hardware. 42 Slide from C. Gatti / D. Orestano