ATLAS T2 Risposte alle domande aggiuntive della review Alessandro De Salvo 28-1-2014 A. De Salvo – 28 gennaio 2014.

ATLAS T2 Risposte alle domande aggiuntive della review Alessandro De Salvo 28-1-2014 A. De Salvo – 28 gennaio 2014

Potenza dei siti [Q] Fornire il valore numerico degli HS06 pledged e medi utilizzati (non cores)  Il pledge totale dei siti è espresso come totale della federazione italiana dei T2 di ATLAS  Totale 2012 (01/04/2012 -> 31/03/2013): 26600 HS06  Totale 2013 (01/04/2013 -> 31/03/2014): 33000 HS06  Internamente sono stati assegnati dei sub-pledge associati a seconda delle caratteristiche e dello stato dei siti 2

Potenza dei siti [2] 3

Potenza dei siti [3]  Grafici ottenuti dalla dashboard di ATLAS  Stima conservativa della potenza utilizzata, ad esempio non vengono conteggiati i jobs nei quali i pilot non prendono il payload  Possibile correzione fino ad un massimo del 10%  In alcuni dei periodi in cui si è andati sotto il pledge si è trattato di periodi di attività minore dell’esperimento (ad esempio a dicembre 2013)  Alcuni problemi importanti hanno fatto scendere talvolta la produttività dei siti  Lavori in sala macchine a Frascati a fine 2012 e inizio 2013  Problemi con I dischi e con Storm a Milano, con successiva riorganizzazione dei dati, terminata a luglio 2013  In termini assoluti negli ultimi 2 anni la federazione dei T2 di ATLAS ha sempre garantito più del pledge 4

[Q] Milano: Fornire l’availability media dell’ultimo anno Availability = time_site_is_available/total_time Reliability = time_site_is_available/ (total_time-time_site_is_sched_down) Availability / Reliability T2 5

Efficienza di CPU [Q] Fornire l’efficienza di CPU media (CPT/WCT) del sito  Ottima efficienza di CPU in tutti i siti  Media superiore al 90%  Efficienza migliore nei job di produzione, peggiore per le analisi utente 6 Napoli Milano Frascati Roma 0 10 1 MC sim MC reco XP Validation MC reco Group prod Others Unknown Testing

Efficienza di CPU [1]  Ottima efficienza di CPU dei siti italiani rispetto alle altre cloud 7

[Q] Frascati, Milano, Napoli: Fornire la misura o la stima dei consumi del Tier-2, l’efficienza energetica in termini di rapporto fra consumi e potenza di CPU media utilizzata e se misurabile il PUE [Q] Roma: Indicare come si e’ misurato il PUE  In tabella vengono riportati i consumi, il PUE e l’efficienza energetiche  Mediando su un periodo per il quale sono disponibili le misurazioni dei consumi elettrici  Considerando il massimo  Il PUE (Power Usage Effectiveness) è ottenuto, ove possibile, come rapporto della potenza totale media impegnata sulla potenza informatica media utilizzata  Tutti i siti sono simili a livello di hardware  Per Roma si è considerata la frazione di risorse di ATLAS sul totale (fattore 11/21) per la stima dei valori dei consumi relativi  Gli HS06 utilizzati per le medie sono stati ottenuti tramite la dasboard di ATLAS Consumi ed efficienza energetica [1] 8

 Stima delle efficienze  Frascati  Attualmente il Tier-2 si trova all’interno di un’unica sala calcolo  Non è disponibile il consumo dei singoli rack, ma la misura totale della sala  La misurazione effettuata va considerata come indicativa ed è basata sui consumi di alcuni rack di riferimento.  Non abbiamo ritenuto opportuno effettuare una misurazione precisa dato che avrebbe comportato lo spegnimento della farm con le inefficienze che ne conseguono e perché comunque saremo in grado di effettuare una stima precisa una volta terminato il trasferimento nella nuova sala.  Il consumo della parte IT del TIER-2 è stato stimato intorno a 32 kW, rispetto ad un carico complessivo IT di 80 kW di tutta la sala calcolo  La determinazione del PUE è complessa, dal momento che l’impianto di produzione dell’acqua refrigerata è condiviso con altre utenze.  Il carico termico della sala calcolo rappresenta  circa il 25% del carico complessivo della centrale nel periodo invernale  il 20% nel periodo estivo, dal momento che il sistema è impiegato anche nel condizionamento. Consumi ed efficienza energetica [2] 9

 Stima delle efficienze  Frascati  Nel calcolo del PUE sono stati tenuti in conto i consumi di tutti gli ausiliari, ovvero i CRAC in sala, le pompe, l’UTA, le perdite dell’UPS e il condizionamento dell’UPS. Pertanto il risultato è aderente alla realtà senza troppe approssimazioni.  I consumi relativi alla produzione dell’acqua refrigerata sono attribuiti pro-quota. Ne risulta che il PUE attuale in inverno è 1.66, mentre in estate è leggermente migliore, dal momento che la centrale frigo ha un carico maggiore più vicino alla condizione di progetto. Si sottolinea che il PUE è calcolato in una situazione particolarmente sfavorevole di basso utilizzo della sala. Aumentando l’utenza in sala, il PUE migliorerà. Alcune ottimizzazioni sono in corso per ridurre i consumi della ventilazione.  Inoltre, è in corso un progetto per una Green Infrastructure, che consentirà di recuperare il calore dissipato.  Salvo imprevisti il lavoro sarà realizzato nel corso dell’anno 2014 e, per i mesi per cui è possibile il recupero di calore per riscaldamento, si avrà un PUE = 1.24.  Per quanto riguarda l’efficienza energetica, considerando un carico di HS pari a 7584 HS06 (misurato dalla dashboard di ATLAS in un periodo di riferimento), si ottiene  Efficienza informatica media: 32000Wh/7584 HS = 4,22 Consumi ed efficienza energetica [3] 10

 Stima delle efficienze  Napoli  Il sito è molto eterogeneo essendo distribuito su 2 sale (SCoPE e INFN) e con la sala INFN completamente rinnovata con RECAS, ma non ancora in produzione  L’infrastruttura RECAS fornirà misure puntuali del consumo di ogni rack  Una misura diretta dei consumi è possibile solo su 1 dei 3 rack ATLAS nella sala INFN.  Per ogni rack è però possibile leggere la corrente assorbita sulle presiere. E’ stata quindi effettuata una misura indiretta, confrontando le correnti dei singoli rack con quella del rack per il quale è disponibile la misura di potenza assorbita. I diversi sfasamenti delle linee elettriche possono comportare un errore nella stima delle potenza anche del 20%  Il consumo stimato per le sole risorse di calcolo è di 43 kW ± 20%, di cui 9.5 kW nella sala INFN  Una misura del consumo per il condizionamento del Tier2 non è possibile per sala SCoPE che ospita molte risorse universitarie anche obsolete.  Una misura diretta dei consumi del chiller della sala INFN non è disponibile in quanto non sono presenti analizzatori dedicati, ma possiamo fornire una stima indiretta:  Ci basiamo sull’ Indice di Efficienza Energetica EER (Energy Efficiency Ratio) del chiller, dato dal rapporto tra cooling capacity su potenza assorbita, che da specifiche è 2.5. Ciò significa che per sottrarre 9.5 kW termici dai nostri rack si spendono 9.5/2.5 kW elettrici  A ciò si aggiungono circa 0.5 kW per i moduli di ventilazione dei rack  Il PUE stimato della sala INFN risulta quindi  [ 9.5 (consumo IT) + 1.5 (ventole) + 9.5/2.5(consumo chiller) ] / 9.5 (consumo IT) ] = 1.56 Consumi ed efficienza energetica [4] 11

 Stima delle efficienze  Milano  n. 2 gruppi frigoriferi, con consumo massimo di 33,2 kW ciascuno, che servono l’intera sala macchine (Tier2 e Servizio Calcolo)  la frazione di consumo elettrico del Tier2 rispetto all’intera sala macchine è in media del 53%  la frazione di tempo in cui le due macchine sono contemporaneamente attive osservata durante la giornata lavorativa è di circa 1/3  la stima del consumo medio del condizionatore per la sola parte Tier2 è quindi pari a (33,2 kW x 4/3 macchine) * 53% = 23,5 kW  Roma  A Roma viene effettuata una misura continua della potenza assorbita da tutti i dispositivi (ATLAS+CMS) sotto UPS, relativi a  Apparati di calcolo e reti  Pompe per la circolazione dell'acqua, il cui consumo però è trascurabile ammontando a circa 3 kW totali. Inoltre il consumo effettivo è di ~1 kW, in quanto viene attivata solo una pompa per volta  I rack (10) attualmente installati, ognuno dei quali consuma 1 kW per la ventilazione e i controlli di monitoring, per un totale di ~10 kW  Le misure di potenza rilevate sull’UPS sono stabili sui 90 kW totali ATLAS + CMS  10 kW (rack) + 80 kW (potenza informatica) = ~90 kW di carico sull’UPS (ATLAS+CMS)  Tutta la potenza impiegata per il raffreddamento (ad esclusione delle pompe e dei rack) non è sotto UPS, perciò il PUE è calcolato come potenza erogata dal quadro elettrico principale diviso potenza erogata dall'UPS, detratta del consumo dei rack  La potenza erogata dal quadro elettrico principale non è sotto monitor continuo, quindi è stata misurata a campione e risulta abbastanza stabile su un valore di 120 kW  Da tutto ciò ne consegue che il consumo totale del sistema di condizionamento (ATLAS+CMS) è pari a 120 (tot) – 90 (UPS) + 10 (10 rack) = 40 kW  Il PUE risulta essere quindi 120 kW (P tot ) / 80 kW (P inf ) = 1.5  Considerando un rapporto tra ATLAS e CMS di 11/21, corrispondenti alla frazione di risorse installate, si può quindi stimare un consumo totale per ATLAS di 63 kW e un consumo informatico di 42 kW Consumi ed efficienza energetica [5] 12

 Le efficienza energetiche mostrate, a seconda della disponibilità dei dati, sono ottenute come  EFF inf-av : rapporto tra il consumo informatico medio e gli HS06 medi nel periodo di riferimento  EFF tot-av : rapporto tra il consumo totale medio e gli HS06 medi nel periodo di riferimento  EFF inf-peak : rapporto tra il consumo informatico a pieno carico e gli HS06 totali  EFF tot-peak : rapporto tra il consumo totale a pieno carico e gli HS06 totali Consumi ed efficienza energetica [6] 13 I valori mostrati per Frascati e Napoli sono stime affette da errore fino ad un massimo del ~20%

Contributi CSN/CCR/GE per infrastruttura [Q] Riassumere i contributi forniti da CSN, CCR e GE negli ultimi 5 anni per lo sviluppo dell’infrastruttura e il funzionamento del sito  In generale nessun sito ha ricevuto contributi da CSN e GE per l’infrastruttura  Contributi CCR  Frascati:  2012: 23kEuro di contributo al Router 10 Gbps  Milano:  2010: 30kEuro Router 10 Gbps  Napoli:  2010: 30kEuro Router 10 Gbps  Roma (ATLAS + CMS):  2010: 42 k€ + 25 k€ per Router 10 Gbps, switch servizi, ottiche  2013: 9.5 k€ batterie UPS, finanziamento straordinario consumo  2013: 20 k€ Router di frontiera T2 14

Manutenzione dei siti [1] [Q] Frascati, Napoli, Roma: definire l’impegno da parte della struttura ospitante per la manutenzione ordinaria e straordinaria dei componenti dell’infrastruttura.  Manutenzione ordinaria  Frascati  La manutenzione ordinaria degli impianti elettrici e di condizionamento sono curate dal personale INFN dei servizi tecnici con l’ausilio di ditte esterne assieme alle analoghe attività relative all’acceleratore e ai servizi generali, in un’ottica di economia di scala e di gestione  Di fatto presso a Frascati sono sempre presenti le competenze necessarie per risolvere qualsiasi problema relativo agli impianti. La manutenzione, gestita da un punto di vista tecnico, ha un costo notevolmente inferiore a quello ottenibile con l’affidamento di analoghe attività a società di servizi  Milano  La manutenzione dei locali è a carico dell’Ateneo, mentre la manutenzione dell’infrastruttura specifica per Centro di Calcolo è a carico della Sezione  Con il nuovo edificio, l’Ateneo potrebbe farsi carico anche della manutenzione del Condizionamento almeno in parte (materia di discussione per la nuova Convenzione) 15

Manutenzione dei siti [2] [Q] Frascati, Napoli, Roma: definire l’impegno da parte della struttura ospitante per la manutenzione ordinaria e straordinaria dei componenti dell’infrastruttura.  Manutenzione ordinaria  Napoli  Gli impianti di raffreddamento, chiller e rack sono in manutenzione a carico della Sezione INFN, per quanto riguarda gli impianti che servono la sala INFN-RECAS, e dell’Università per quanto riguarda la sala SCoPE  L’Università si fa inoltre carico della manutenzione di tutte le parti degli impianti elettrici ad esclusione della parte interna alla sala RECAS-INFN, a carico del Dipartimento di Fisica e della Sezione INFN  Il Direttore della Sezione garantisce quindi la copertura delle spese di manutenzione ordinaria degli impianti a carico della Sezione  Roma  La manutenzione dei locali è a carico dell’Ateneo, mentre la manutenzione dell’infrastruttura specifica per Centro di Calcolo è a carico della Sezione 16

Manutenzione dei siti [3] [Q] Frascati, Napoli, Roma: definire l’impegno da parte della struttura ospitante per la manutenzione ordinaria e straordinaria dei componenti dell’infrastruttura.  Manutenzione straordinaria  Vale quanto detto per la manutenzione ordinaria, fino ad un limite di spesa compatibile con il bilancio delle Sezioni e in collaborazione con i relativi dipartimenti delle università, ove applicabile  La CCR interviene nel caso in cui le sezioni non ce la facciano (ad esempio per gli UPS, etc.)  Le sezioni e/o i dipartimenti negli ultimi anni si sono fatti carico di alcuni lavori di entità anche non trascurabili, ad esempio  Milano (2009-2010): sostituzione delle macchine per condizionamento e del rifacimento dei canali trasporto aria  Napoli: contributi generali anche del dipartimento alle spese di calcolo e reti  Roma (2013): sostituzione delle ventole del condizionamento e aggiunta di un chiller  Frascati (2012-2013): lavori di ampliamento della sala calcolo 17

Consumo del T2 rispetto al totale della struttura [Q] Frascati: Indicare una stima della percentuale dei consumi del Tier-2 rispetto a quello globale del laboratorio  Il consumo totale del Tier-2, compresi gli ausiliari, è pari al consumo IT x PUE  Prendendo la condizione più sfavorevole, PUE = 1.66 si ottiene  Consumo T2 = 1.66 x 32 x 8760 = 465000 kWh annui  I LNF hanno un consumo annuo di 15÷35 milioni di kWh, a seconda del funzionamento dell’acceleratore  In questo contesto il consumo imputabile al Tier-2 è compreso tra ~3,1 % e ~1.4% 18

Link a 10 Gbps [Q] Frascati: fornire una stima temporale sull’installazione del link 10 Gbps  Il link a 10 Gbps per il Tier-2 è stato richiesto di recente alla CCR  Il router a 10 Gbps sarà ospitato nella nuova sala di calcolo, dove verrà spostato anche il Tier-2  Le presiere necessarie per l’alimentazione dei nuovi rack, e quindi anche del router, arriveranno entro un mese a partire da oggi 19

Green infrastructure [Q] Frascati: Osserviamo che è in corso un progetto per una Green Infrastructure. Commentare sul risparmio e il recupero possibile  Progetto già inserito nella documentazione della review  Il progetto riguarda alcune integrazioni alla centrale frigorifera che serve sia il DC che altri impianti  integrandosi con infrastrutture parzialmente esistenti, consente di recuperare il calore normalmente dissipato, proveniente dal condizionamento, per il riscaldamento di edifici  Il lavoro sarà realizzato nel corso dell’anno 2014, salvo imprevisti, con fondi ordinari, che trovano copertura nelle spese evitate per attività di manutenzione straordinaria già quantificate, e stimate indispensabili per il funzionamento degli impianti tradizionali  In questo momento è in corso la progettazione esecutiva dell’opera e si sono avviate alcune attività  In tale prospettiva una riduzione del carico termico del DC, comprometterebbe l’efficacia del sistema, mentre un aumento di carico consentirebbe di estendere il beneficio ad altri edifici  L’intervento consentirà di eliminare la centrale termica “ Adone” del 1965, che ha un consumo di circa 70.000 Smc e, a fronte di un lieve incremento di consumo elettrico della centrale frigorifera, consentirà un risparmio di circa 55 k€/anno  Con questo intervento, per i mesi per cui è possiblie il recupero di calore per riscaldamento, si avrà un PUE = 1,24.  Altro progetto  LNF ha anche sottoposto un progetto più ambizioso di R&D nel progetto per i premiali 2013 “smartDC”, che prevede la realizzazione di un impianto innovativo di trigenerazione e continuità, a servizio del centro di calcolo, basato sull’utilizzo di celle a combustibile a carbonati fusi, in collaborazione con alcune imprese che hanno manifestato vivo interesse anche al di là dell’assegnazione dei fondi premiali  Attualmente si sta approfondendo la possibilità di realizzare il progetto con vari finanziamenti ed incentivi  Il progetto consentirebbe il massimo sfruttamento dell’energia primaria (metano) per l’alimentazione delle apparecchiature, del loro raffreddamento e della continuità di alimentazione 20

Convenzioni [Q] Indicare la data di scadenza della convenzione per la fornitura di energia elettrica con l’Universita’ e se questa prevede limitazioni di utilizzo del Tier-2.  Le date di scadenza delle convenzioni per ogni centro, ove applicabile, sono riassunte nella tabella che segue, insieme all’informazione sulle eventuali limitazioni per i Tier-2 21

Richieste per realizzazione infrastrutture [Q] Milano: indicare se per la realizzazione della nuova infrastruttura sono previste richieste a CSN, CCR e GE  Non sono previste richieste a CSN, CCR e GE per la realizzazione della nuova infrastruttura 22

Personale e FTE [1] [Q] Frascati: indicare quante persone contribuiscono ai 3 FTE quotati  Frascati  Le persone più direttamente coinvolte nella gestione del Tier-2 sono 8, tra cui due tecnologi informatici di esperimento (1.5 FTE)  Elisabetta Vilucchi – 1 FTE  Agnese Martini – 0.5 FTE  Altro personale di esperimento, diviso per tipo di attività (0.9 FTE)  Gestione del Tier-3 e delle attività locali (PROOF on Demand, i vari tool di analisi e il software di ATLAS)  Roberto Di Nardo (A.R.) – 0.2 FTE  Marianna Testa (Art. 23) – 0.2 FTE  Responsabile del gruppo ATLAS, direttamente coinvolto in tutte le attività del Tier-2  Mario Antonelli – 0.3 FTE  Supporto dal punto di vista organizzativo alle attività in cui il sito viene coinvolto  P. Laurelli – 0.2 FTE  Personale del centro di calcolo (0.6 FTE)  Responsabile del centro  Massimo Pistoni – 0.3 FTE  Tecnico per la gestione degli apparati di rete  Spigone – 0.3 FTE 23

Personale e FTE [1] [Q] Napoli, Milano: indicare esplicitamente la corrispondenza fra FTE e persone coinvolte sia a tempo indeterminato che determinato  Milano  Supporto al Tier2 di Milano da parte del personale del servizio calcolo integrato (0.5 FTE)  I contributi più significativi (0.3 FTE) provengono da  Francesco Prelz (PT INFN), 0.15 FTE  Stefano Barberis (tecnologo TD INFN), 0.15 FTE  Lo 0.2 restante si distribuisce equamente sul resto del personale menzionato  INFN: 1 PT, 2 Tecnologi (1 TD), 2 tecnici  Dipartimento: 1 EP, 1 Tecnico laureato, 1 tecnico  Supporto al Tier2 di Milano da parte del personale stabilizzabile, riguardo alla parte specifica GRID e ATLAS (1.4 FTE)  David Rebatto (0.7 FTE)  Luca Vaccarossa (0.7 FTE) 24

Personale e FTE [2] [Q] Napoli, Milano: indicare esplicitamente la corrispondenza fra FTE e persone coinvolte sia a tempo indeterminato che determinato  Napoli  Gestione e coordinamento delle attività, svolte da personale dell’esperimento ATLAS  Gianpaolo Carlino (Primo Ricercatore INFN) – Resp. del Tier2 – 0.6 FTE  Alessandra Doria (Tecnologo INFN) – Resp. Operativo del Tier2 – 0.8 FTE  Leonardo Merola (Professore Ordinario UNINA) – Resp. Progetto Potenziamento RECAS – 0.3 FTE  Guido Russo (Professore Ordinario UNINA) – Resp. Rapporti Istruttori RECAS – 0.3 FTE  Arturo Sanchez (A.R. PRIN STOA) – gestione del “Tier3” – 0.5 FTE  Personale dell’INFN, del SCR o pagato con fondi RECAS, per la co-gestione delle risorse di calcolo e delle infrastrutture di rete  Rosario Esposito (CTER INFN) – gestione risorse e servizi GRID – 0.2 FTE  Paolo Lo Re (Primo Tecnologo INFN) – Rete – 0.2 FTE  Silvio Pardi (Art. 23 su fondi ordinari INFN) – Rete e risorse RECAS – 0.3 FTE  Ulteriori 3 TD finanziati con fondi RECAS che avevano preso servizio da poco ai tempi della scrittura del documento  Luigi Mea (Art. 15) – impianti  Pasquale Castellano (Art. 15) – risorse di calcolo  Roberto Cevenini (co.co.co) – risorse di calcolo 25

Criticità del personale [Q] Milano: indicare se il personale con contratto a tempo determinato è critico per la sopravvivenza del Tier-2  Il personale con contratto a tempo determinato non è critico per la sopravvivenza del centro, che sarebbe assicurata, per quanto a prezzo di un doloroso ri-arrangiamento, tenendo comunque conto che la Sezione ha bandito un posto di tecnologo con profilo da Servizio Calcolo  Tuttavia la continuazione dell’apporto di una delle persone TD con specifiche competenze Tier2 (ATLAS e GRID/Calcolo Distribuito) è decisivo se si vuole espandere e rilanciare il centro (anche eventualmente come multidisciplinare), come sarebbe reso possibile dall’ampliamento dell’infrastruttura che avverrà a carico dell’Ateneo  Vale la pena di notare che la sezione ha in organico 1 unità di personale, afferente al servizio calcolo (dott. Mauro Campanella), che da molti anni è distaccato presso il GARR (sede di Milano). Se fosse possibile fare sì che questa persona fosse assunta da GARR, si libererebbe un posto in organico che la sezione bandirebbe per un tecnologo con profilo Tier2 26

Uso opportunistico per altri gruppi di ricerca [Q] Indicare se le risorse del Tier-2 sono disponibili per uso opportunistico per altri gruppi di ricerca.  Tutti i Tier2 sono aperti a più di una VO  Tralasciando le VO di dteam, infngrid e ops  Opportune politiche di sharing sono state implementate per fare in modo che l’utilizzo da parte delle altre VO non inficiasse sui pledge previsti per Atlas e non interferisse con le attività degli utenti  In ogni caso l’uso delle risorse dei Tier2 da parte di tali VO è normalmente basso, al momento attuale 27 Altro ATLAS Frascati Altro ATLAS Milano Altro ATLAS Napoli Altro ATLAS Roma CDF

Supporto ad altri gruppi di ricerca [Q] Indicare se ci sono gruppi di ricerca oltre ad ATLAS supportati direttamente dal Tier-2  Frascati, Napoli e Roma supportano anche altri gruppi di ricerca  Frascati  Il Tier-2 di Frascati ha già supportato il calcolo della VO SuperB, ospitando alcune risorse di calcolo finanziate dal gruppo locale dell’esperimento  Analogamente, per esigenza del gruppo di Frascati di Belle, il Tier-2 supporta anche il calcolo di questa VO  Napoli  Per tutta la durata della sua attività la VO SuperB ha avuto nel Tier2 di Napoli uno dei centri in cui effettuare le proprie produzioni ufficiali, con uno share minimo garantito (che veniva aumentato in caso di occasionali necessità) e con 5TB di storage a disposizione in GRID  Il progetto RECAS ha portato ad una forte sinergia con il gruppo Belle2 che collabora con il Tier2 di ATLAS ed è aiutato alla gestione delle proprie attività di calcolo  Roma  Il Tier-2 di Roma supporta gli studi di neural net su macchine parallele (gruppo dei Teorici), fornendo un testbed snello per lo sviluppo del software che poi dovrà girare su macchine HPC (ad esempio al Cineca)  L’infrastruttura di configurazione (puppet) è utilizzata anche da Virgo per la gestione delle proprie macchine del Tier-2 28

Integrazione ATLAS/CMS a Roma [1] [Q] Roma: valutare i pro e contro di una eventuale unione col Tier-2 di CMS  I Tier-2 di ATLAS e CMS a Roma sono già strettamente uniti in molti aspetti  Infrastruttura di base  Locali  Cooling  Rete  Distribuzione elettrica  …  Servizi software  Batch system LSF comune  Monitoring e allarmistica  Installazione del software  Lo storage è gestito con sistemi diversi, secondo le linee guida degli esperimenti, le competenze acquisite in questi anni e le collaborazioni WLCG alle quali si partecipa. Pertanto una eventuale unificazione dello storage è impossibile.  ATLAS: DPM  CMS: dCache  I WN sono configurati in modo molto simile e stiamo già lavorando per ottenere una configurazione unica gestita via puppet  Al momento i WN di ATLAS e quelli di CMS si trovano in code batch diverse, accessibili rispettivamente dai job Grid delle rispettive VO  Nulla osta a abilitare l’accesso incrociato ai WN, a livello di batch system oppure di code di ATLAS / CMS  I CE (al momento 4 per ATLAS e 3 per CMS) sono al momento separati, ma è possibile abilitare le rispettive VO sui CE relativi 29

Integrazione ATLAS/CMS a Roma [2] [Q] Roma: valutare i pro e contro di una eventuale unione col Tier-2 di CMS  Pro  Aggiungere l’accesso sia ad ATLAS che a CMS a tutti i nodi di calcolo può aumentare l’efficenza media del sito, ma solo nel caso in cui uno dei due esperimenti abbia un calo significativo di attività, cosa che negli anni passati non è mai accaduta  Contro  La fusione riguarderebbe essenzialmente solo i nodi di calcolo e i CE, dal momento che lo storage non è unificabile e il resto è già comune  Allo stato attuale, vista l’attività degli esperimenti già a partire da prima dell’inizio della della presa dati, l’efficienza non gioverebbe dalla fusione dei due siti  Unire i servizi richiederebbe la ridenominazione GRID di uno dei due siti (oggi INFN-Roma1 e INFN-Roma1-CMS), cosa che, per motivi tecnici, porterebbe al fermo del sito per circa due mesi, per consentire la propagazione in tutto il mondo dell’informazione relativa  Da un punto di vista degli esperimenti e degli utenti della comunità locale questo è difficilmente giustificabile  In particolare, fare questo durante la presa dati può essere complicato in quanto il sito di ATLAS è sito di calibrazione, e quindi soggetto a policy particolari (ad esempio, durante il periodo di presa dati, il centro di Roma deve produrre le costanti di calibrazione entro 24/48 ore dalla presa dati). Anche effetturae questa operazione durante il data challenge 2014 è complicato, in quanto verranno provate tutte le nuove funzionalità dell’infrastruttura software dell’esperimento. 30

Espansione dei siti [1] [Q] Il modello di calcolo di LHC potrebbe evolvere verso un numero minore di centri di maggiori dimensioni. Per questioni di economia di scala questi centri potrebbero essere multidisciplinari. Dire quali sono in termini di infrastruttura e/o personale i possibili margini di espansione del vostro sito  Strettamente parlando possiamo fare un discorso di espansione in termini di infrastruttura in due modi:  Espansione fisica delle infrastrutture delle sale di calcolo  Questo varia da sito a sito, come verrà spiegato in seguito  Rimpiazzo delle apparecchiature obsolete  In questo caso si è già dimostrato che ogni 4 anni si è in grado di raddoppiare la potenza il centro senza occupare spazio aggiuntivo o incrementare i consumi  Per assurdo, già ora, se decidessimo di sostituire tutte le apparecchiature con macchine più aggiornate si avrebbe più del doppio della potenza attuale 31

Espansione dei siti [2]  Personale e gestione del centro: situazione attuale  Tutti i centri hanno sviluppato o adottato tecnologie di automazione a vari livelli  Installazione  Configurazione  Monitoring  Controllo remoto  Self-healing  Procedure di emergenza (shutdown automatici totali o selettivi, riduzione di potenza, ecc.)  Tutti questi sistemi sono in genere automatici e richiedono un intervento limitato da parte dei sistemisti  La capacità di gestire un centro da parte di un pool di responsabili non scala linearmente con il numero di risorse gestite, ma piuttosto in modo logaritmico  Le necessità di personale non aumentano in modo proporzionale all’aumento delle risorse  Le nuove tecnologie hardware tendono sempre più ad incrementare la potenza a parità di elementi da gestire, questo significa che a parità di sforzo umano per la gestione si può incrementare in modo ampio la capacità dei centri 32

Espansione dei siti [3]  Personale e gestione del centro: futuro  In futuro, con le tecnologie di tipo cloud (o magari anche nuove tecnologie), la gestione dei centri verrà ulteriormente alleggerita, a causa di alcuni fattori importanti  Soluzioni industry-standard  Completa remotizzazione dei centri, attraverso tecnologie di virtualizzazione e/o di cooperazione multi-centro  Standardizzazione delle unità di calcolo (ad esempio VM pre-configurate, fornite dagli esperimenti o da chi richiede potenza di calcolo in genere)  Gestione completamente remotizzata/automatizzata dei servizi specifici di esperimento (già tutto ciò che ruota attorno a CVMFS ne è un esempio)  Infrastruttura più leggera, più vicina alle realtà commerciali, ma allo stesso momento fruibile completamente sia a livello centralizzato (esperimenti) che locale (utenti e gruppi di analisi)  Il PRIN di LHC va nella direzione giusta e ci aiuterà ad estendere i centri anche ad altre discipline e attività  Molta attività sulle infrastrutture, ad esempio di cloud e di accesso dati  Semplificazione degli accessi e standardizzazione  Potenziale utilizzo più esteso dei centri da parte di comunità le quali finora non hanno potuto utilizzare il nostro tipo di calcolo soprattutto per la complessità di utilizzo e di modalità di accesso 33

Espansione dei siti: specificità [1]  Frascati  Grazie ai lavori effettuati, attualmente il sito ha spazio a sufficienza, potenza elettrica e raffreddamento per espandersi senza problemi ospitando machine di calcolo di altri esperimenti  In particolare, senza ricorrere ad altri lavori, la farm può andare ben oltre il triplo delle sue dimensioni, allo stato attuale di utilizzo della sala  Per quanto riguarda il personale, questo ha già maturato esperienza supportando il calcolo di altri esperimenti quali SuperB e Belle  Questi gruppi, infatti, hanno inserito le loro risorse di calcolo nella farm del Tier-2 avendo così la possibilità di fare calcolo senza l’onere della gestione di un Tier  Pertanto non c’è alcuna difficoltà a supportare diverse attività di calcolo di interesse dei Laboratori, costituendo una unica farm, poichè, dal punto di vista tecnico, non occorre aumentare il personale linearmente 34

Espansione dei siti: specificità [2]  Napoli  Grazie alle infrastrutture installate per il progetto Recas, il sito di Napoli ha ampio margine di espansione delle risorse, disponendo di 16 rack di cui solo 11 popolati al momento  Considerando le acquisizioni in corso rimangono 2 rack liberi, ai quali si possono aggiungere almeno altre 42U provenienti da dismissioni e riposizionamenti nel rack già popolati  La struttura di rete progettata per Recas prevede un ampio margine di crescita, con uno switch di centro stella HP 10508 con integrate 280 porte Ethernet 10Gbps ed una rete di management separata già equipaggiata di switch e connessioni per ogni rack  Per ciò che riguarda gli impianti, sia il sistema di raffreddamento sia la cabina elettrica da 1 MW sono progettati per sostenere la massima espansione del centro, anche con l’aggiunta di ulteriori 3 rack, quindi permettono l’espansione senza alcuna modifica  L’esperienza nella gestione di risorse per gruppi diversi è stata negli anni scorsi acquisita mediante la collaborazione del personale di ATLAS nel Gruppo Tecnico Trasversale del progetto SCOPE  Il progetto aveva l’obiettivo di realizzare un sistema di calcolo multidisciplinare (Scienze del Microcosmo e del Macrocosmo, Scienze della Vita, Scienze dei Materiali e dell’Ambiente) ed ha quindi affrontato e risolto le numerose problematiche relative alla condivisione delle risorse tra applicazioni profondamente diverse come ad esempio tecniche avanzate di scheduling  L’obiettivo stesso di Recas è di realizzare un centro multidisciplinare, supportando gli esperimenti ATLAS, Belle2, Km3Net ed altri che potranno via via aggiungersi, oltre a dare spazio ad applicazioni di altre scienze ed industriali che sono in fase di definizione 35

Espansione dei siti: specificità [3]  Milano  La sala macchine nel nuovo edificio è progettata con un’espansione di circa 110 metri quadri rispetto all’attuale, con 2000 prese da 10 A e capacità di ospitare 50 racks  UPS e condizionamento saranno dimensionati per una potenza massima di 300kW  Approssimativamente queste caratteristiche dovrebbero permettere di ospitare l’evoluzione del Tier2 ATLAS e del Servizio Calcolo e in aggiunta un’altra attività di calcolo e storage di dimensioni vicine al Tier2, almeno nei primi 4-5 anni di funzionamento della nuova sala macchine  Roma  Il Tier2 occupa 10 rack (ATLAS+CMS) e si puo’ espandere fino a 14 rack senza modifiche dell’infrastruttura elettrica e di cooling, senza costi aggiuntivi (a parte ovviamente l’acquisto dei rack) e negli spazi di nostra competenza  Questo corrisponde ad un incremento del 40% del centro  Un aumento del numero di rack oltre 14 richiede un aggiornamento dell’infrastruttura di base, sia elettrica che di cooling, e una trattativa sugli spazi  Non si vedono problemi particolari da un punto di vista del personale per la gestione del centro fino all’espandibilità qui definita 36

ATLAS T2 Risposte alle domande aggiuntive della review Alessandro De Salvo 28-1-2014 A. De Salvo – 28 gennaio 2014.

Presentazioni simili

Presentazione sul tema: "ATLAS T2 Risposte alle domande aggiuntive della review Alessandro De Salvo 28-1-2014 A. De Salvo – 28 gennaio 2014."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

ATLAS T2 Risposte alle domande aggiuntive della review Alessandro De Salvo 28-1-2014 A. De Salvo – 28 gennaio 2014.

Presentazioni simili

Presentazione sul tema: "ATLAS T2 Risposte alle domande aggiuntive della review Alessandro De Salvo 28-1-2014 A. De Salvo – 28 gennaio 2014."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back