CNAF e Tier 1 Presentazione alla Commissione Scientifica Nazionale 2 dell’ INFN 25 novembre 2013 G. Maron 1.

Slides:



Advertisements
Presentazioni simili
Virtualizzazione nell’INFN Andrea Chierici 11 Dicembre 2008.
Advertisements

L’infrastruttura del progetto ReCaS Paolo Lo Re on behalf of ReCaS collaboration.
IL blueprint e le esigenze per il progetti internazionali (EMI e EGI- InSPIRE) L. Gaido, INFN Torino Riunione del Comitato di Coordinamento IGI Roma, 12.
Il Calcolo non LHC in CSN1 G. Carlino, INFN Napoli CSN1 – Firenze 20 Luglio 2015.
+ Call di Big Data (EINFRA- 1). + La call … + + Cosa abbiamo in mano (come INFN) 1. L’infrastruttura 1 Tier Tier2 O(25000) cores O(20) PB di Disco.
ATLAS computing Roberto Carlin Commissione I Roma 1/7/08 F. Bossi, C.Bozzi, R. Carlin, R. Ferrari, D. Lucchesi, D. Martello, M. Morandin, M. Taiuti.
KLOE - Referee Luca Lista, Andrea Perrotta, Vincenzo Vagnoni.
Utilizzo e Richieste infrastrutture di calcolo esperimenti LHC & non LHC G. Carlino, INFN Napoli CSN1 – Roma 7 Luglio 2016.
The INFN Tier-1: migrazione verso l’ampliamento Cristina Vistoli – INFN CNAF.
Torino, Andrea Dainese 1 Andrea Dainese (INFN – LNL) Stato del Tier-2 ALICE a Legnaro.
Claudio Grandi INFN Bologna Centres of Excellence in H2020 Claudio Grandi INFN-Bologna.
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Dip. di Fisica & INFN - Univ. Del Salento
SCoPE - Stato dei Lavori
Cms.
Gestione Farm Tema centrale della sessione: utilizzo del batch- system nelle varie sedi T1 e T2, ma anche altre farm grid e farm di sezione requirements,
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Integrazione tier3 in Grid Paolo Veronesi, Luciano Gaido
D. Martello, F. Ricci, F. Ruggieri
CALCOLO CSN B.Bertucci.
Una panoramica su ismb Ottobre 2016.
Piani di sviluppo e consolidamento
Una panoramica su ismb Ottobre 2016.
DIT Relazione situazione economico-finanziaria
Claudia Battista Tempi e Modi di GARR-X Claudia Battista
I costi del Calcolo LHC un update –
IGI BLUEPRINT LAVORI IN CORSO
Servizio Calcolo Alessandro Brunengo.
Tier 2 dell’esperimento Atlas ai LNF
Comput-ER l'infrastruttura di calcolo distribuito in Emilia Romagna
G. Carlino, D. Lucchesi, V. Vagnoni
Massimo Masera CSNIII Roma, 20 marzo 2012
Metodologie Quantitative per il Calcolo Scientifico
Attività su middleware Grid e sua evoluzione
Risultati ultimi mesi Piano di lavoro prossimi mesi Reclutamento
Collegamento a Garr-X Il collegamento alla nuova rete Garr-X dovrà garantire il massimo della efficienza nella gestione della banda. Per identificare opportunamente.
G. Carlino, D. Lucchesi, V. Vagnoni
Nuovo sito della Commissione Calcolo e Reti
Una panoramica su ismb Ottobre 2016.
Michele Punturo INFN Perugia
Attivita’ e compiti del Servizio Impianti Calcolo e Reti
Richieste preliminari calcolo non LHC
Stato tape CDG 6/10/2016.
Stato Acquisti Switch/Router T2
Introduzione alla sessione sull’analisi per gli esperimenti LHC
Assegnazione risorse Stato INFN CNAF,
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
ALICE CALCOLO richieste finanziarie e proposte di assegnazione 2017
Aggiornamento sullo stato del Tier-2 di Catania
Attvità Computing – Inverno 08/09
Care and Feeding of the ALICE Grid
(Breve) Riassunto del workshop WLCG
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
TAVOLA ROTONDA introduzione
Drafts H2020.
CMS.
CNAF – Proposte B.Bertucci.
Agenda CE IGI
CNAF B.Bertucci, CDG
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Massimo Masera Catania, 20 dicembre 2012
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Calcolo “locale” ATLAS-Mi
Risultati del questionario sui servizi middleware aggiuntivi
IGI e l’impatto sui servizi calcolo
La richiesta si basa sulle seguenti considerazioni:
Report dei referee di Kloe
Storage and Data management Vladimir Sapunenko
Commissione Calcolo e Reti
Transcript della presentazione:

CNAF e Tier 1 Presentazione alla Commissione Scientifica Nazionale 2 dell’ INFN 25 novembre 2013 G. Maron 1

Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron2 INFN ha una buona struttura di calcolo che sta lavorando bene, ora anche integrata dai centri PON Il CNAF svolge egregiamente la funzione di Tier1 per LHC, ma supporta anche il calcolo di tutti i maggiori esperimenti INFN. Il trend di questo è in crescita e va incoraggiato (vedi dopo) Garr ci ha fornito (finalmente) l’infrastruttura ottica che ci serviva per avere un back-bone a 10 Gbps. Questo è un salto quantico, andare adesso a bande più elevate è solo un problema di apparati di rete, ma non di infrastruttura. CINECA è diventato un polo attraente per il ns calcolo teorico, dobbiamo facilitare l’accesso dai nostri siti (rete, ma anche procedure di accesso e autorizzazione, storage condiviso per le configurazioni e i risultati, ecc. ) Questo scenario estremamente interessante va indirizzato e coordinato per fare in modo che la somma degli sforzi dia risultante massima.

Il CNAF oggi 3 T1 Calcolo scientifico per gli esperimenti INFN Servizi Nazionali Ricerca e Sviluppo Grid R&D Servizi Nazion Servizi Nazion User Support SI Contr. Nazion Contr. Nazion Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron

Il Tier 1 Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron4 Particle physics Tier2 Alice Atlas Astro-particle and neutrino physics CPU shares LHCb CMS Servizi e risorse Floor 1000 m 2 Standard service di WLCG per 20 collaborazioni scientifiche 16k job slots (195 kHS06), risorse in fair share Mass storage su dischi con o senza tape 13 PB disco, 16 PB tapes 1 tape library con slot (50 PB) Servizi e risorse Floor 1000 m 2 Standard service di WLCG per 20 collaborazioni scientifiche 16k job slots (195 kHS06), risorse in fair share Mass storage su dischi con o senza tape 13 PB disco, 16 PB tapes 1 tape library con slot (50 PB) Organizzazione T1 Farming unit Storage unit Network service Facility management group Organizzazione T1 Farming unit Storage unit Network service Facility management group Manpower 22 persone (21 FTE) 50% con contratti temporanei, alcuni servizi critici gestiti da personale non staff Problemi a garantire il supporto h24 per 365 giorni Manpower 22 persone (21 FTE) 50% con contratti temporanei, alcuni servizi critici gestiti da personale non staff Problemi a garantire il supporto h24 per 365 giorni T1 Grid User Support CMS LHCb Atlas Alice Astro-particle and neutrino physics Particle physics Disk shares Organizzazione Grid Operations User Support Middleware (vedi R&D) Organizzazione Grid Operations User Support Middleware (vedi R&D)

Utilizzo del T1 negli ultimi mesi Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron5 CPU Disco Tape Rete T1 Grid User Support

Possibilità di espansione futura L’infrastruttura di cpu, storage e rete è scalabile, ma alcuni aspetti potrebbero diventare critici (per esempio power), vanno esplorate nuove soluzioni. L’infrastruttura del centro mette a disposizione per uso IT un max di 1.4 MW con proporzionale capacità di smaltimento del calore prodotto – Attualmente usati 600 kW – 135 racks in totale (ma c’è spazio per installazione di nuovi), 34 liberi per future espansioni – Le espansioni previste per LHC LS1 e LS2 non dovrebbero creare problemi. Da tenere presente l’evoluzione tecnologica dei low power processor (da esplorare da subito) che ci permetterà di andare anche temporalmente oltre. Budget – Speriamo almeno costante – Problema con la bolletta elettrica, da puntare su soluzioni di risparmio energetico, che potrebbero però richiedere un investimento non trascurabile Impianti di raffreddamento Low power processor Ottimizzazione del codice !! Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron6 T1 Grid User Support

User Group Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron7 T1 Grid User Support

Le attività di R&D sono sostanzialmente focalizzate su tre filoni – Infrastruttura di calcolo distribuito: Cloud Computing, evoluzione della GRID di LHC, integrazione GRID /CLOUD, Cloud applicata a esperimenti e siti INFN, integrazione GRID pubbliche e GRID proprietarie. Proposte di progetti CLOUD per call nazionali e europee – Tecnologia del software Tecnologia del software; software engineering; software management. sviluppo di progetti software orientati agli esperimenti INFN (on/off –line) – Tracking Tecnologico Studio di nuove architetture di processori nelle due dimensioni potenza di calcolo e basso consumo High speed networking Costituzione di un open lab, vero laboratorio aperto dove fare confluire la tecnologia di punta delle industrie che operano nel ICT (possibile fonte di finanziamento) Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron8 Ricerca e Sviluppo R&D

Servizi Nazionali Sistema Informativo – dal 2010 il Sistema Informatico viene splittato tra CNAF e LNF spostando il sistema contabile al CNAF e migrandolo su piattaforma Linux RHC. Al CNAF vengono gestiti i sistemi: contabile, presenze, mandato informatico, reportistica, portale utente Servizio Contratti Nazionali – gestione centralizzata contratti nazionali hdw e sw su fondi CCR Servizi Nazionali – gestisce e mantiene servizi informatici fondamentali per INFN Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron9 Servizi Nazion Servizi Nazion SI Contr. Nazion Contr. Nazion

Il cnaf oggi: il personale Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron10

Quattro pilastri per il futuro del CNAF Supporto al calcolo scientifico delle attività sperimentali e teoriche dei gruppi INFN Forte potenziamento delle attività di innovazione e sviluppo orientato ai sistemi distribuiti, ma anche verso le necessità degli esperimenti (computing model, sviluppo software di componenti del sistema on/off line, ecc. ecc. ) Attrazione di fondi esterni per finanziare il reclutamento del personale Trasferimento tecnologico Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron11

… in modo più esplicito.. 1 Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron12 Il CNAF deve rafforzare il suo ruolo di centro di eccellenza per l’intero computing dell’INFN estendendo le sue attività allo sviluppo di software e all’esplorazione di nuove tecnologie di punta da utilizzare negli esperimenti. Il CNAF opera in un ecosistema (interno ed esterno all’INFN) costituito da più attori, è fondamentale stabilire con loro piena collaborazione e sinergia per poterne sfruttare appieno le potenzialità e le risorse (CCR, Università, GARR, CINECA, CERN, industria). il CNAF deve rafforzare il suo ruolo negli esperimenti/progetti INFN (LHC, ma anche progetti ESFRI come CTA, Auger, KM3Net oppure progetti per il calcolo teorico) sia come centro di calcolo T1, ma anche specifici progetti software orientati all’off-line e alla frontiera tra on-line e off-line (e.g. HLT farm, storage, ecc.) degli esperimenti stessi.

… in modo più esplicito 2 … Vanno favorite le attività per l’implementazione di una infrastruttura CLOUD nazionale ed europea con fondi H2020, possibilmente nel quadro dei requisiti degli esperimenti e coordinati con loro. Deve aumentare la capacità di attrarre fondi esterni (EU; MIUR, ma anche fondazioni private, ecc, ) coordinandosi con tutti i soggetti dell’ecosistema. Gli sforzi principali vanno su progetti che abbiano un qualche comun denominatore in linea con la linea di ricerca dell’INFN, ma partecipazioni opportunistiche ad altri progetti scientifici di interesse nazionale e nella road map di H2020 vanno incoraggiate (per esempio progetti ESFRI non di fisica come EMSO gestito da INGV – Paolo Favali). Il trasferimento tecnologico verso soggetti privati o pubblici è una fonte di finanziamento relativamente «facile» e poco dispendiosa in termini di risorse umane. Va perseguita e, nel limite delle capacità, rafforzata Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron13

Fonti di finanziamento esterno L’esperienza acquisita (GRID) e in acquisizione (CLOUD) nel calcolo distribuito, ma più in generale tutto il know how presente al CNAF, ci permette di partecipare a call nazionali e internazionali EU horizon 2020, «European research infrastructure», primi progetti finanziati nel 2015: – Call 1: «ESFRI Projects» – Call 2: «Integrating and opening research infrastructures of pan- European interest» Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron14

Fonti di finanziamento esterno – Call 3: «e-infrastructure: “Managing, preserving and computing with big research data” Towards global data e-infrastructure – Research Data Alliance «Pan European HPC Infrastructure and services», per esempio una infrastruttura HPC a supporto del CINECA, Tier 0 di PRACE e dove INFN ha un forte interesse per il suo calcolo teorico di punta. «Centers of excellence for computing applications “, per esempio CERN + T1 europei, da esplorare. Future and Emerging Technologies (FET) – ipotetica iniziativa “EuroExa” (INFN, CINECA, EUROTECH, … ). Il CNAF potrebbe essere interessato agli aspetti sistemistici e di sviluppo software. Progetti “Smart Cities”, trasferimento tecnologico, ma anche progetti ponte in attesa di h2020 – PRISMA – Open City Platform (50% del finanziamento al CNAF) Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron15

T1 per CSN2 Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron16 Farm: ultimi 12 mesi Ams_prod

Tier1 Farm  Farm composta da ~1000 wn  Prima decade Agosto: installate CPU gara 2013  “Stress test” da parte di AMS (Agosto)  ~ core ( ~180 KHS06 con SL6)  ~ 14.2 % CPU destinata ad exp di GR II  Farm ~ sempre satura  “premiato” uso continuo ma possibile allocazione “straordinaria” per compensare uso “bursty” (es. Xenon da 21/11)  Settembre: migrazione farm a SL6 2014: pledge gia’ soddisfatte – con molto hw fuori manutenzione (da sostituire!) – AQ in finalizzazione » Revisione del capitolato per inserire TCO Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron17

Tier1 Storage  Capacità di stoccaggio dati di ~ 13 PByte su disco  ~ 1.9 PB in ordine (phase-out di ~1 PB)  0,9 disponibili per il 2014  Accesso ad alta velocità (~ 70 GB/s di banda aggregata)  5 MB/s di banda garantita per job verso lo storage  ~ 1.75 PB-N assegnati ad exp GR II (previsti ~2 PB-N)  Assegnazione disco (  slide)  Libreria 16 PByte su nastri magnetici  1 PB in ordine  ~ 2.2 PB usati da exp GR II  2014: upgrade drive ed espansione capacità  In acquisizione 2 drive T10Kd (5 TB  8 TB)  In finalizzazione richiesta AQ per 6000 tape  Uso “standard” e LTDP Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron18

Status Storage 2013 Gran parte degli exp portati a pledge a Ottobre 2013 – AMS overpledge (+100 TB rispetto a 2013) Ma alcuni exp ancora underpledge (*) – Argo ~ 80 TB-N – Magic ~ 20 TB-N – Virgo ~ 23 TB-N – Pamela ~6 TB-N – CMS ~400 TB-N Necessario intervento su storage (27/11) per portare exp CSN2 a pledge (*) Non conteggiato buffer comune di fronte a tape (~150 TB-N) Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron19

Assegnazioni 2013 ~20% (medio) di overpledge per CPU Buffer comune disco per tape non conteggiato Intervento 27/11 per portare a pledge disco tutti exp (Pamela +8 TB-N) Tape aggiunte secondo necessita’ Experiment % CPU (HS06)DISK TB-NTAPE TB pledge reali pledgerealipledgereali AMS ARGO AUGER FERMI/GLAST MAGIC PAMELA Icarus Xenon Borexino Gerda CTA Opera Virgo TOTALE GRUPPO II Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron20

Storage 2014 Richiesta di nuovo storage ~1.4 PB-N (CSN2: ~600 TB-N) – Delta significativi per AMS, Auger AQ 2014 non ancora finalizzato, 1.6 PB, installato entro 9/2014 – In corso revisione modello di storage – Minimizzare “spostamenti” per nuove assegnazioni In corso acquisizione storage (~1.9 PB) per sostituzione parziale disco in phase-out (Dicembre 2013). Circa 1 PB di margine per soddisfare richieste prima parte 2014 (per esempio TB a CSN2) Acquisti “mirati” durante 2014 per consolidare Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron21

Assegnazioni 2014 ~30% di overpledge per CPU Buffer comune disco per tape non conteggiato Tape aggiunte secondo necessita’ Experiment% CPU (HS06)DISK TB-NTAPE TB pledgedisponibilipledgedisponibilipledgedisponibili AMS ARGO AUGER FERMI/GLAST MAGIC PAMELA Icarus Xenon Borexino Gerda CTA Opera Virgo TOTALE GRUPPO II Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron22

Nota su uso Tier1 Servizi base offerti a tutti esperimenti Farm (batch system e UI), HSM, disco – Accesso a farm in locale (da UI) e via grid – Accesso a storage via srm Protocolli supportati: file, gridftp, xrootd, http/webdav Disponibilita’ a studiare soluzioni ad hoc per requirement “non standard” esperimenti Prossimi sviluppi : – Cluster HPC con GPU – CPU on demand (anche interattivo) su Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron23

Conclusioni Gli esperimenti di CSN2 sono sempre più presenti al CNAF Vogliamo favorire questo trend invitando i nuovi esperimenti, ma anche quelli già in presa dati che non si appoggiano ancora al CNAF, di utilizzare il nostro T1 per il loro data processing e data storage Ma non solo, le competenze presenti al CNAF permettono un coinvolgimento più stretto con gli esperimenti, in particolare: – Definizione del computing model dell’esperimento – Partecipazione allo sviluppo del software, on/off line – Ottimizzazione del codice e parallelizzazione su architetture many cores. – Processing farm altamente parallele Dobbiamo però trovare un modo di collaborare più effettivo del presente, partecipando se possibile direttamente agli esperimenti, alle call per fondi esterni (h2020, miur, ecc.) e condividendo, per quanto di competenza, le fonti di finanziamento,in particolare per le risorse umane. Presentazione del CNAF alla CSN2 del 25 novembre 2013, G. Maron24