ATLAS: il calcolo Alessandro De Salvo 5-9-2013 A. De Salvo – 5 settembre 2013.

Slides:

Advertisements

Presentazioni simili

23/01/01Alberto Masoni – GR1 - Roma1 I MODELLI DI CENTRI REGIONALI POSIZIONE DI ALICE ITALIA CENTRO ITALIANO: CPU 450 KSI95, DISCO 400 TB (INSIEME TIER-1.

Advertisements

Introduzione alle attivita Software e Computing di Atlas Napoli M. Biglietti – G. Carlino – F. Conventi - A. Doria – L. Merola - A. Migliaccio Software:

1 La farm di ATLAS-Napoli 1 Gb/s 7 nodi con 2 CPU PIII a 1 GH, RAM 512 MB, 2 schede di rete a 100 Mb/s. Server con 2 CPU PIII a 1 GH, RAM 1 GB, 2 schede.

Aspetti critici rete LAN e WAN per i Tier-2

Test del Monitoraggio del Tracker usando un Tier2 M.S. Mennea, G. Zito, N. De Filippis Università & INFN di Bari Riunione Consorzio – Torino 18 Novembre.

Riunione CRESCO Infrastruttura HPC Cresco Analisi Preliminare.

La facility nazionale Egrid: stato dell'arte Egrid-Team Trieste, 9 ottobre 2004.

Gruppo Directory Services Rapporto dell'attivita' svolta - Marzo 2000.

Alessia Tricomi Università & INFN Catania

INFN-BOLOGNA-T3 L. Rinaldi I siti Tier-3 nel modello di calcolo di Atlas Configurazione del sito INFN-BOLOGNA-T3 Attività di Analisi e Produzione Attività.

FESR Consorzio COMETA Giuseppe Andronico Industry Day Catania, 30 Giugno 2011 IaaS, PaaS e SaaS: cosa significano per le aziende.

Analysis unibo una proposta. Work flow di una tipica analisi 1.Simulazione di piccoli campioni di eventi per studio segnale 2.Generazione in grande.

CCR 14-15/03/2006 Status Report Gruppo Storage CCR.

3 Aprile CSN1 P. Capiluppi Tier2 CMS Italia.

Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.

Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)

CSN Maggio 2005 P. Capiluppi Il Computing Model (LHC) nella realta’ italiana u I Computing models degli esperimenti LHC gia’ presentati a Gennaio.

Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.

Tier-2 Tier-2 ATLAS (Osservazioni sulla proposta dei referee del calcolo LHC) Lamberto Luminari CSN1 – Roma, 3 Aprile 2006.

Calcolo esperimenti LHC 2004 F. Ferroni, P. Lubrano, A. Martin, M. Morandin, M. Sozzi.

Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.

WLCG e PRIN STOA Sviluppo di tecnologie per l'ottimizzazione dell'accesso ai dati di LHC Attività, fondi, sinergie CCR 7 Febbraio 2013L.Perini1.

Review dei Tier-2 degli esperimenti LHC S.Pirrone INFN-Sezione di Catania per il gruppo dei referee CNS Giugno 2014 LNGS.

ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 3 maggio 2013.

ATLAS PRIN Alessandro De Salvo A. De Salvo – 12 novembre 2015 Cloud Computing Condivisione di risorse tra gruppi EventIndex LHCONE PoD T2D.

BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.

26 Giugno 2007CSN1 - Frascati1 Temi di attualità nella CCR Accanto alla tradizionale attività di controllo dei finanziamenti per le infrastrutture di calcolo.

Riunione PRIN STOA - Bologna - 18 Giugno 2014 Testbed del T2 distribuito Napoli-Roma Dr. Silvio Pardi INFN-Napoli Riunione PRIN STOA – Bologna 18 Giugno.

D. Martello Dip. Fisica - Lecce Sintesi piani esperimenti CSN2 CNAF 7-marzo-2007.

Referaggio CALCOLO Esperimenti non LHC G. Carlino, D. Lucchesi, V. Vagnoni CSN1 – Lecce 30 Settembre 2015.

Atlas Italia - Milano, 17/11/2009 G. Carlino – News dal Computing 1 1 News dal computing Gianpaolo Carlino INFN Napoli Atlas Italia, Milano, 17/11/09 Nuovo.

PRIN «Calcolo LHC» Attività previste Finanziamenti Sinergie CCR12 Dicembre 2012L.Perini1.

Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.

1 referee-BaBar CSN I, LNF giugno 2007 RELAZIONE DEI REFEREE DI BaBar M.De Palma, C.Luci, C.Troncon, B.Gobbo(calcolo) 26 giugno 2007.

Parma, 22 Settembre 2010 G. Carlino – ATLAS, Attività di 7 TeV 1 ATLAS Attività di TeV Attività di computing Attività di computing.

CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.

Referaggio sigla CALCOLO D. Bonacorsi, G. Carlino, P. Morettini CCR – Roma 9 Settembre 2014.

ATLAS e CMS Relazione dei referees A. Cardini, M. Grassi, G. Passaleva, A. Passeri, V.Vagnoni.

17 GennaioTier2 Milano G. Costa 1 17-Gennaio-2006.

Referaggio, 17 Marzo 2010 G. Carlino – ATLAS – Referaggio Tier2 1 Referaggio Tier2 ATLAS Attività di Computing 2009 Attività di Computing 2009 Stato dei.

1 Firenze, 6 Settembre 2011 G. Carlino – Relazione Referaggi Computing ATLAS Relezione Riunioni Referaggio Calcolo ATLAS Computing Model News Computing.

Uso della rete geografica e richieste di upgrade CCR 31/3/2015 (Roma) S.Zani.

ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 5 settembre 2013.

1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera

19/4/2013 D. Menasce, M. Serra - Referaggio Progetti INFRA e WLCG 1.

Stato e previsione rete nelle sedi INFN Survey ed ipotesi di sviluppo fino al 2018 CCR 8-10 Settembre 2018 (Roma) 1 S.Zani (Netgroup)

Atlas TDAQ E. Pasqualucci INFN Roma. Sommario Attivita’ di fine 2008 – inizio 2009 Preparazione per i run con fasci Trigger con luminosita’ iniziali 16/9/20092E.

Referaggio Calcolo ATLAS II Gianpaolo Carlino INFN Napoli Catania, 12 Settembre 2012 Risorse e Richieste 2013 nei preventivi Aggiornamento in seguito all’allungamento.

Attività Gruppo Virtualizzazione Andrea Chierici CNAF CCR

G. Maggi 24/1/2006 Il Progetto del TIER2 di Bari Giorgio Maggi.

Referaggio CALCOLO Esperimenti non LHC G. Carlino, D. Lucchesi, V. Vagnoni CSN1 – Catania 1 Ottobre 2014.

ATLAS NAPOLI Software & Computing e il Tier-2 Gianpaolo Carlino INFN Napoli Il gruppo ATLAS di Napoli Le attività Software & Computing Il prototipo Tier-2.

20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.

Silvia Arezzini 2 luglio 2014 Consiglio di Sezione per Preventivi.

Referee ALICE C.Agodi, D.Calvo, A.Di Ciaccio, P.Iaselli, S.Pirrone CSN3 – Torino, 17 - settembre 2013.

ATLAS Italia – Sestri Levante, 15 Giugno 2010 G. Carlino – Richieste Run Efficiency = time for physics / total time LHC Efficiency = time with colliding.

1 Bari, 21 Settembre 2011 G. Carlino – ATLAS: il calcolo ATLAS: il Calcolo Attività di Computing nel 2011 Attività di Computing nel 2011 Richieste Tier2.

CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.

Il calcolo per l’esperimento GERDA Luciano Pandola INFN, Laboratori del Gran Sasso Riunione della CSN2, LNF Frascati, 29 Novembre 2011.

L’infrastruttura del progetto ReCaS Paolo Lo Re on behalf of ReCaS collaboration.

Referaggio Calcolo ATLAS Gianpaolo Carlino INFN Napoli CNAF, 11 Maggio 2012 Attività di Computing ATLAS Attività di Computing in Italia Risorse e Richieste.

L.Perini Milano: 10 Gennaio Ex-ATLAS-Grid (Tier2 incluso) l Ruolo dei Tiers in ATLAS e grid l Le persone di Milano e le attività l Le infrastrutture.

Aggiornamento AFS R.Gomezel Commissione Calcolo e Reti Presidenza 5/10/2010-7/10/2010.

Attività Gruppo Virtualizzazione Andrea Chierici CNAF Riunione CCR

ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 25 maggio 2015.

ATLAS: il calcolo A. De Salvo A. De Salvo – 1 settembre 2015.

Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.

Richieste Tier Alessandro De Salvo A. De Salvo – 4 giugno 2013.

ATLAS: il calcolo Alessandro De Salvo

ATLAS: il calcolo Alessandro De Salvo

Transcript della presentazione:

ATLAS: il calcolo Alessandro De Salvo A. De Salvo – 5 settembre 2013

ATLAS: Utilizzo risorse Tier 2 in Italia Pledge 2012 Pledge siti T2  Frascati  Milano  Napoli  Roma 1 2 Sistema di replica dinamico dei dati PD2P, basato sulla popolarità del dati, già dal Ottimizzazione dell’uso del disco dei Tier2 permettendo la copia di dati interessanti. Il calcolo è un investimento importante ma con le performance ottenute, ai massimi livelli internazionali, è di fondamentale importanza per il raggiungimento dei risultati di fisica in tempi rapidi Site reliability/availability

Review dei Tier2  La giunta ha richiesto una review dei Tier2 italiani  Il 3 settembre è stata inviata la richiesta di redigere un documento di max 10 pagine per ogni sito, da completare entro il 15 novembre 2013  Storia dei Tier2 e particolarità dei centri  Infrastrutture, funzionamento e performance  Sostenibilità per il 2015 e oltre  Risorse umane  Possibili criticità dei centri  Termine della review: febbraio

Utilizzo delle risorse per il  2013  Possibile riprocessamento dei dati e MC per studi ulteriori  Produzione di ulteriore nuovo MC per l’analisi  Attività molto intensa di analisi utente e di gruppo  2014  Produzione di sample più grandi di MC per il run ad alta energia  Reprocessing completo finale dei dati e MC del , utilizzando l’evoluzione del modello dei dati preparato per la presa dati del 2015  Attività di preparazione del Run 2 (full dress reharsal)  2015  Processamento e riprocessamento dei nuovi dati ad alta energia  Produzione associata di MC per I nuovi dati  Incremento di attività utente e di gruppo 4

Preparazione al run del 2015  ATLAS ha piani ambiziosi per l’upgrade delle attività di Software e Computing  Software: ricostruzione, simulazione, analisi  Ottimizzazione delle performance degli algoritmi, utilizzando in modo più adeguato le CPU moderne  Riduzione dell’utilizzo di memoria  Parallelismo a livello di evento e di algoritmo  Riduzione della dimensione degli eventi  Computing distribuito  Nuovo sistema di Data Management (Rucio)  File based data management, subscriptions and rules,..  Upgrade del Production System (PanDA + JEDI + DEfT)  New TRF, log file merging, …  Merging at T2s, dynamic job definition based on scouts, …  Procedure operative e workflow  Ottimizzazione delle analisi di gruppo e utenti finali 5

Cambi nel workflow di analisi  Il formato AOD sembra non essere l’ “Analysis Object Data” per la maggior parte delle analisi  La produzione dei formati di dati di gruppo (D3PD/NTUP) è effettuata centralmente  La situazione corrente rallenta l’analisi, crea problemi nella Grid, riempiendo I dischi, e non scala al 2015 con il Run 2  E’ necessario cambiare il modello di analisi e il suo workflow per aumentare il thoughput  Aggiornamento del workflow  Aggiornamento del formato degli AOD per farlo diventare direttamente leggibile da ROOT  Introduzione di un reprocessing AOD2AOD per ottimizzare l’utilizzo delle risorse  Introduzione di un “Derivation framework” per la produzione di formati di gruppo specifici, tramite skimming/slimming/thinning degli AOD secondo un modello a treno, rimpiazzando il modello corrente per la produzione di DPD  Introduzione di un common analysis framework, che metta a disposizione dei tool di analisi più semplici e una integrazione migliore con la Grid 6

Nuovi protocolli di accesso ai dati  Sperimentazione dei nuovi protocolli di accesso  xrootd e HTTP supportano lo streaming su WAN  Sperimentazione dei protocolli di accesso remoti e comparazione con i protocolli di storage nativi a disposizione  I protocolli verranno adottati sulla base delle performance, dell’affidabilità e della semplificazione che manifesteranno  Valutazione successiva di un modello per la rottura del modello di località dei dati per i job  Impatto sull’infrastruttura (storage e network)  Migrazione finale all’infrastruttura di Storage Federato  Attualmente basato su sulla tecnologia xrootd (FAX)  L’utilizzo dello storage federato comporterà un cambio di paradigma, sia a livello centrale che a livello utente  Possibilità di accesso diretto ai file anche su siti che non hanno un file system Posix (es. GPFS al CNAF, …), quindi ad esempio tutti I siti DPM (LNF, NA, RM, …)  Utilizzo più massiccio della rete  Maggiore affidabilità di analisi e ottimizzazione dello spazio disco 7

Uso di risorse opportunistiche  Cloud commerciali a basso costo o gratuite  Utilizzo di VM allocate staticamente in una cloud è stato ampiamente dimostrato in produzione (includendo anche la farm HLT)  ATLAS si concentrerà ad ottimizzare la gestione dinamica delle risorse di calcolo attraverso delle interfacce di provisioning di VM (ad esempio OpenStack)  Il piano consiste nell’integrare la AutoPilot Factory 2 con OpenStack/EC2  Si lavorerà sull’ottimizzazione del workflow per l’utilizzo di risorse opportunistiche  Il nuovo “event server”, ossia il dispatcher di eventi per la parallelizzazione dei task, sarà molto utile in questo ambito  Possibilità di utilizzo di risorse di tipo HPC, ma alcuni problemi  Whole-node scheduling  Assenza di disco nei nodi  Nessuna connessione outbound 8

Partecipazione italiana alle attività di ATLAS  ATLAS Italia partecipa alle attività di computing di ATLAS in diverse aree di lavoro  Cloud support [all]  Database [D. Barberis]  Installazione del software (CVMFS e distribuzione) [A. De Salvo]  Monitoring [S. Tupputi]  Network infrastructure (LHCONE) [E. Capone, A. De Salvo]  Scrutiny Group [G. Carlino]  Storage [A. De Salvo, A. Doria, E. Vilucchi]  Federazioni di xrootd e HTTPD  DPM  VO management [A. De Salvo]  Altre attività (PRIN)  Cloud Computing  Hadoop (EventIndex)  Network Infrastructure (LHCONE)  Proof on Demand  La partecipazione alle rimanenti attività è largamente limitata dalla disponibilità di persone  Attività sulle GPU, inserite in un FIRB  Interesse della comunità per GPU e multiprocessing/ottimizzazione del codice, ma NON c’è manpower  2 FTE al CERN, pagati dall’INFN in-kind e riconosciuti come M&O-A 9

Responsabilità italiane nel calcolo di ATLAS  ATLAS database  Dario Barberis [coord]   Coordinamento calcolo ATLAS IT  Alessandro De Salvo [coord]    Grid software release / CVMFS  Alessandro De Salvo [coord]   SAM monitoring  Salvatore Tupputi [deputy coord]   Scrutiny Group  Gianpaolo Carlino   VO management  Alessandro De Salvo [coord] 

Risorse Disponibili CPU CPUFrascatiMilanoNapoliRomaTotale HP To be pledged Le CPU totali a disposizione dei Tier2 comprendono anche risorse che non pledged: CPU per uso locale (cluster proof) o in griglia ma dedicate principalmente alle attività italiane (Tier3) finanziate con fondi vari –Proof on Demand, share per analisi e simulazione MC per il ruolo atlas/it le CPU obsolete (fino al 2013 e già rifinanziate) ancora in produzione ma in corso di spegnimento CPU non a completa disposizione dei siti –(es. scope a NA, SuperB a LNF) Queste CPU concorrono alla definizione della linea blu dell’accounting che in alcuni casi è significativamente maggiore della linea rossa Nel conto delle CPU pledged sono comprese le CPU gara CNAF 2013 ancora da installare CPU disponibili 2013 “pledged” 11

Risorse Disponibili 2013 – Disco DiscoFrascatiMilanoNapoliRomaTotale Totale disponibile to be pledged 3517 Lo storage totale disponibile nei Tier2 comprende anche l’area locale in cui sono conservati i dati di tutti gli utenti italiani (LOCALGROUP), non solo gli utenti locali La dimensione di queste aree è di circa 100 TB per Tier2 In gran parte già occupata, gli utenti dovranno cancellare i dati vecchi non più necessari per fare spazio ai dati del 2013 l’utilizzo di queste aree è irrinunciabile per cui il loro volume va sottratto allo storage da dichiarare pledged Storage disponibile 2013 “pledged” 12

ATLAS: Risorse Obsolete nel 2014/2015 Le CPU obsolete sono le macchine con più di 3 anni di vita Lo storage obsoleto comprende le SAN con più di 5 anni di vita La sostituzione del materiale obsoleto, specie per i dischi, è fondamentale per il buon funzionamento dei centri e quindi dell’intero sistema di computing italiano di ATLAS CPU 2014 (HS06) CPU 2015 (HS06) Disco 2014 (TBn) Disco 2015 (TBn) Frascati Milano Napoli Roma Tot Risorse obsolete 2014/

Risorse Attività ATLAS 2014 Lo Scrutiny Group ha approvato ad aprile 2013 le seguenti risorse per ATLAS 14

Richiesta Risorse I Le risorse necessarie per il 2014 sono determinate dalla volontà di conservare il ruolo significativo nel computing di ATLAS acquisito negli ultimi anni conservando gli share di risorse pledged per le attività centrali: Tier1: 10% Tier2: 9% CPU e 7% Disco e di garantire la competitività agli utenti italiani mediante l’uso di risorse dedicate nei Tier2 e Tier3 ATLAS Share IT ATLAS IT 2014 ATLAS IT disponibile Attività 2014 CPU T1 (kHS06) % * 3.6 Disco T1 (PB) 3310% * 0 CPU T2 (kHS06) 3909% Disco T2 (PB) 497%3.5 0 * Pledge

Richiesta Risorse II Le risorse per le attività italiane sono già disponibili e non inclusi nel disponibile “pledged” 2013 e non sono necessarie ulteriori richieste Attività 2013 Attività Italiane Obs Richieste 2014 K€ CPU T2 (kHS06) Disco T2 (TB) Prezzi stimati: CPU = 12 k€/kHS Disco = 350 k€/PB Attività 2013 Attività Italiane Obs Richieste 2014 K€ CPU T2 (kHS06) Disco T2 (TB) Recas - Napoli Totale 16 Richieste effettive

Richiesta Risorse III Overhead per rete e server aggiuntivi Algoritmo Bozzi (cfr. presentazione CSN1 Bari Settembre 2011): Rete: 6% (cpu) + 5% (disco) = 12.8 k€ Server: 7% (cpu + disco) = 16.1 k€ A cosa servono: Rete: switch di rack Server: servizi di grid A cosa corrispondo questi finanziamenti: Rete: 4.3 k€ per Tier2, uno switch (escluso NA) Per collegare le nuove risorse e/o sostituire i primi switch ormai fuori manutenzione Server: 5.4 k€ per Tier2, un server per sezione (escluso NA) 17

Richieste Totali Le richieste di Napoli, come d’accordo con i referee, vengono inserite solo per tracciare le risorse, ma verranno azzerate in quanto saranno fornite da Recas Risorse T2

Conclusioni  Il Computing di ATLAS ha dimostrato di essere robusto ed affidabile per il processamento dei dati, sia MC che analisi finale, tuttavia sono stai individuati dei punti dove è necessario migliorare  Durante il LS1 il Computing Model di ATLAS subirà un sostanziale cambiamento, apportando modifiche sia al codice di ricostruzione/analisi sia ai servizi infrastrutturali  L’Italia contribuisce in modo sostanziale alle attività centrali di calcolo e tramite i centri nazionali (T1 e T2)  Le richieste sono diminuite in conseguenza delle nuove risorse provenienti dal progetto RECAS nelle sedi di BA, NA, CS e CT  E’comunque fondamentale fornire supporto ai Tier2 esistenti per quel che riguarda le dismissioni  I Tier2 italiani verranno sottoposti a review, il cui termine è previsto per febbraio

Backup slides 20

Risorse Obsolete nel 2014 Le CPU obsolete sono le macchine comprate nel 2010 e installate fine 2010 inizi 2011 (non sono comprese le macchine installate successivamente). Le CPU hanno garanzia triennale Lo storage obsoleto comprende le SAN comprate nel 2008 e installate giugno Garanzia quinquennale Le dismissioni di Napoli sono finanziate da RECAS La sostituzione del materiale obsoleto, secie per i dischi, è fondamentale per il buon funzionamento dei centri e quindi dell’intero sistema di computing italiano di ATLAS CPU (HS06) Disco (TBn) Frascati11870 Milano Napoli Roma Tot Tot – NA Risorse obsolete

Utilizzo risorse in Italia: Federazione T2 Pledge 2012 Pledge

Il sistema di replica dinamico dei dati PD2P, basato sulla popolarità del dati, già dal 2010 ha ottimizzato l’uso del disco dei Tier2 permettendo la copia di dati interessanti. Circa +90 TB al mese Nessun rischio saturazione, si possono cancellare i dati secondari Utilizzo del disco nei Tier 2 ATLAS Italia Terabytes 500 NTUP AOD ESD DAOD 23

Availability = time_site_is_available/total_time Reliability = time_site_is_available/ (total_time-time_site_is_sched_down) Availability / Reliability

Multiprocessing e concurrent framework  Le risorse Grid in WLCG sono limitate come agreement a 2GB/core  Il software di ricostruzione di ATLAS fatica a mantenere questo limite  Non è ancora possibile girare la ricostruzione a 64 bit tranne che in nodi speciali dove è disponibile più memoria  Tale situazione certamente peggiora con l’aumento dell’energia e del pileup  Le nuove tecnologie vanno in direzione di CPU many-core, perciò l’approccio corrente non è più sostenibile, nonché l’ultilizzo di eventuali risorse HPC praticamente impossibile  ATLAS prevede di rendere operativo AthenaMP durante LS1 e iniziare lo sviluppo di un nuovo framework concorrente con Full threading e parallelismo a livello di eventi e algoritmi  Collaborazione con IT/OpenLab, PH-SFT, LHCb e CMS  Questo nuovo approccio richiederà anche la migrazione del sistema di Computing distribuito, a partire dalle configurazioni delle code fino alle convenzioni di nomenclatura dei file  Necessaria una chiara strategia per i siti, in fase di sviluppo  Nonostante l’approccio di AthenaMP, per job di ricostruzione ad alto pile up si avrà comunque, secondo le proiezioni correnti, una RSS/core di circa 3GB, mentre per altri tipi di job sarà minore  Ogni sito che girerà la ricostruzione dovrà fornire delle code multicore 25

Utilizzo della farm HLT durante LS1  La farm HLT di ATLAS verrà usata come un “sito” Grid opportunistico durante LS1  ~14k core, corrispondenti ad un grande T2 (se non un T1)  Infrastruttura overlay di tipo Cloud basata su OpenStack  CERN IT (Agile), CMS (HLT Farm) e BNL già utilizzano OpenStack 26

ATLAS: as study case for GPU sw trigger ATLASThe ATLAS trigger system has to cope with the very demanding conditions of the LHC experiments in terms of rate, latency, and event size. LHC luminosityThe increase in LHC luminosity and in the number of overlapping events poses new challenges to the trigger system, and new solutions have to be developed for the fore coming upgrades ( ) GPUs high level triggerGPUs are an appealing solution to be explored for such experiments, especially for the high level trigger where the time budget is not marginal and one can profit from the highly parallel GPU architecture ATLAS GPUsmuon identification and reconstructionWe intend to study the performance of some of the ATLAS high level trigger algorithms as implements on GPUs, in particular those concerning muon identification and reconstruction. Slide from G. Lamanna / A. Messina 27

Altre evoluzioni  Completa migrazione ed utilizzo dell’ATLAS Grid Information System in produzione  Definitivo abbandono dei servizi di IS di Grid in favore di AGIS  Abbandono anche del WMS, finora utilizzato ancora solo per le installazioni del software  Installation System migrato completamente ad AGIS + Panda  Sorgente primaria di informazioni per Panda e DDM  Migrazione ad SL6  Inizio ufficiale delle migrazioni ad SL6 a giugno 2013  Alcune delle release necessitano di una patch per funzionare con l’analisi a causa delle opzioni diverse di compilazione  Possibile soluzione generica trovata di recente, in fase di test  In ogni caso le release più utilizzate sono state già sistemate o comunque funzionanti nativamente  Migrazione ad IPv6  Test dei servizi con IPv6 necessario  SHA-2  Migrazione imminente, necessario un controllo dei servizi  Finalizzazione dell’integrazione di gLexec in Panda 28

PRIN: Cloud Computing  Utilizzo del Cloud Computing per servizi o elaborazione dati  Servizi di grid  Workload Management  Servizi interattivi on-demand  Virtualized WN con Panda  Cluster di analisi su Cloud  Data Preservation  Altri tipi di servizi in alta affidabilità  OpenStack + glusterfs + cloud-init  In collaborazione con il gruppo cloud INFN  Stessa infrastruttura di base di CERN Agile Infrastructure  Possibilità di unire più siti grid in una unica infrastruttura  Sperimentazione su Tier2 distribuito, tramite LHCONE  Stato  Facility iniziale, esportabile anche ad altri siti entro fine anno Roma 29

PRIN: EventIndex  Studiare la possibilità di semplificare il TagDB di ATLAS trasformandolo in un indice degli eventi (EventIndex) con puntatori allo storage che contiene gli eventi in vari formati (da RAW a NTUP)  EventIndex è l'equivalente del catalogo di una biblioteca  Sostituzione del database in Oracle con storage strutturato (Hadoop)  Divisione delle tre categorie di dati nei Tag odierni:  Identificazione dell'evento e quantità immutabili (lumi block, trigger pattern)  Quantità dipendenti dalla ricostruzione (topologia, particelle, ecc.)  Puntatori ai files con gli eventi (GUID e offset interni)  Utilizzo della tecnologia più appropriata per ogni categoria di dati  Sviluppo (o adattamento) dei servizi esterni  Event counting, picking, skimming, consistency checks  Connessione a ProdSys e DDM per l'upload dei dati e la loro utilizzazione  Stato  Testbed attivo al CERN Genov a 30

PRIN: PoD per PBS, gLite-WMS, Panda  Dedicare alcune risorse di calcolo ad una farm da utilizzare per l'analisi con PROOF.  Sviluppare e perfezionare PoD, Proof on Demand, un insieme di tool pensati per interagire con un RMS locale o globale ed avviare i demoni di PROOF.  Test per provare i plugin di PoD per PBS e PanDA (gLite- WMS non più supportato da ATLAS), con i dati acceduti con protocollo XrootD e in futuro anche HTTP:  Test di performance di accesso al disco  Job che legge circa 40% dell’evento  Test di latenza di startup  Stato  Infrastruttura funzionante tramite PanDA  Test di performance e scalabilità in corso  Talk a CHEP 2013 LNF Milano Napoli 31

PRIN: LHCONE  Sviluppo di una nuova generazione di reti geografiche di comunicazione dati (overlay L2 network) denominata LHCONE (LHC Open Network Environment)  Configurazione dinamica degli apparati attivi (router o switch multilayer) che costituiscono la rete stessa  Realizzazione di servizi di Bandwidth on Demand (BOD)  Integrazione con il software di esperimento  Stato  Infrastruttura stabile già in produzione al T1 e nei T2  Ottimizzazione e studi su configurazioni dinamiche in corso  Sperimentazione su T2 distribuito in fase di allestimento  Inter-site VLAN (NA-RM)  Failover di servizi core in WAN, con collegamento a 10 Gbps (GARR-X) a bassa latenza Napoli 32

GPU: GAP Realtime (FIRB) “Realization of an innovative system for complex calculations and pattern recognition in real time by using commercial graphics processors (GPU). Application in High Energy Physics experiments to select rare events and in medical imaging for CT, PET and NMR.”  FIRB partito ad inizio del 2013  Per ciò che riguarda la comunità HEP, verrà studiato l’utilizzo di trigger hardware di basso livello con latenza ridotta e trigger software di alto livello  Si studieranno I casi di NA62 L0 e l’High Level Muon Trigger di ATLAS come “casi fisici”  Roma coinvolta nello studio del trigger di ATLAS 33

Trigger rate 2015 Luminosity expected to increase from 7×10 33 to 2×10 34 corresponding to about a factor 3 in rates Pile up will increase affecting the effective trigger rates Moving to √s=14 TeV cross sections will increase on average by a factor 2.5 Rates would increase by about one order of magnitude. To keep the increase within a factor ~2 (50kHz→100kHz L1 and 450Hz→1kHz EF) selections have to be improved/tightened minimizing the impact on physics. PS: The physics (Higgs, top...) remains the same. 34 Slide from C. Gatti / D. Orestano

Trigger menu 2012 vs 2015 Current menu scaled to Slide from C. Gatti / D. Orestano

Trigger menu 2012 vs 2015 Menu at 2×10 34 and 14 TeV 36 Slide from C. Gatti / D. Orestano Increase single e/gamma threshold Increase single and di muon thresholds Increase single and di tau thresholds Increase Jet and MET thresholds

Risorse CPU Attività ATLAS Richieste di ATLAS per il , aggiornate al 28/08/2013, non ancora referate 37 I valori in [] sono relativi alle richieste presentate in precedenza

Risorse Disco Attività ATLAS Richieste di disco ATLAS per il , aggiornate al 28/08/2013, non ancora referate 38

ATLAS: Richiesta Risorse 2015 [preliminare] Le risorse per le attività italiane 2014/2015 sono già disponibili e non inclusi nel disponibile “pledged” e non sono necessarie ulteriori richieste Prezzi stimati: CPU = 12 k€/kHS Disco = 350 k€/PB 39 Attività Italiane 2015Obs2015 Richieste 2015 k€2015 CPU T2 [kHS06] Disco T2 [TB] Totale PRELIMINARE (+ networking e server) Valori preliminari non referati, aggiornati al 28/08/2013. I valori finali saranno disponibili a ottobre ATLAS Share IT ATLAS IT 2015 ATLAS IT disponibile Attività 2015 CPU T1 (kHS06) % * 10.7 Disco T1 (PB) 3910% * 0.6 CPU T2 (kHS06) 5309% Disco T2 (PB) 557%

Missioni 40 Responsabilita' Calcolo TOT MU nomedettaglio responsabiilita'Livellomu CNAFTupputiSAM monitoring deputy coordL31 GEBarberisATLAS database coordinatorL24 NACarlinoScrutiny GroupL22 RM1De SalvoGRID softw release coordL21 De SalvoV0 managerL22 De SalvoCoord nazionaleL11 11