ATLAS T2 Risposte alle domande aggiuntive della review Alessandro De Salvo A. De Salvo – 28 gennaio 2014
Potenza dei siti [Q] Fornire il valore numerico degli HS06 pledged e medi utilizzati (non cores) Il pledge totale dei siti è espresso come totale della federazione italiana dei T2 di ATLAS Totale 2012 (01/04/2012 -> 31/03/2013): HS06 Totale 2013 (01/04/2013 -> 31/03/2014): HS06 Internamente sono stati assegnati dei sub-pledge associati a seconda delle caratteristiche e dello stato dei siti 2
Potenza dei siti [2] 3
Potenza dei siti [3] Grafici ottenuti dalla dashboard di ATLAS Stima conservativa della potenza utilizzata, ad esempio non vengono conteggiati i jobs nei quali i pilot non prendono il payload Possibile correzione fino ad un massimo del 10% In alcuni dei periodi in cui si è andati sotto il pledge si è trattato di periodi di attività minore dell’esperimento (ad esempio a dicembre 2013) Alcuni problemi importanti hanno fatto scendere talvolta la produttività dei siti Lavori in sala macchine a Frascati a fine 2012 e inizio 2013 Problemi con I dischi e con Storm a Milano, con successiva riorganizzazione dei dati, terminata a luglio 2013 In termini assoluti negli ultimi 2 anni la federazione dei T2 di ATLAS ha sempre garantito più del pledge 4
[Q] Milano: Fornire l’availability media dell’ultimo anno Availability = time_site_is_available/total_time Reliability = time_site_is_available/ (total_time-time_site_is_sched_down) Availability / Reliability T2 5
Efficienza di CPU [Q] Fornire l’efficienza di CPU media (CPT/WCT) del sito Ottima efficienza di CPU in tutti i siti Media superiore al 90% Efficienza migliore nei job di produzione, peggiore per le analisi utente 6 Napoli Milano Frascati Roma MC sim MC reco XP Validation MC reco Group prod Others Unknown Testing
Efficienza di CPU [1] Ottima efficienza di CPU dei siti italiani rispetto alle altre cloud 7
[Q] Frascati, Milano, Napoli: Fornire la misura o la stima dei consumi del Tier-2, l’efficienza energetica in termini di rapporto fra consumi e potenza di CPU media utilizzata e se misurabile il PUE [Q] Roma: Indicare come si e’ misurato il PUE In tabella vengono riportati i consumi, il PUE e l’efficienza energetiche Mediando su un periodo per il quale sono disponibili le misurazioni dei consumi elettrici Considerando il massimo Il PUE (Power Usage Effectiveness) è ottenuto, ove possibile, come rapporto della potenza totale media impegnata sulla potenza informatica media utilizzata Tutti i siti sono simili a livello di hardware Per Roma si è considerata la frazione di risorse di ATLAS sul totale (fattore 11/21) per la stima dei valori dei consumi relativi Gli HS06 utilizzati per le medie sono stati ottenuti tramite la dasboard di ATLAS Consumi ed efficienza energetica [1] 8
Stima delle efficienze Frascati Attualmente il Tier-2 si trova all’interno di un’unica sala calcolo Non è disponibile il consumo dei singoli rack, ma la misura totale della sala La misurazione effettuata va considerata come indicativa ed è basata sui consumi di alcuni rack di riferimento. Non abbiamo ritenuto opportuno effettuare una misurazione precisa dato che avrebbe comportato lo spegnimento della farm con le inefficienze che ne conseguono e perché comunque saremo in grado di effettuare una stima precisa una volta terminato il trasferimento nella nuova sala. Il consumo della parte IT del TIER-2 è stato stimato intorno a 32 kW, rispetto ad un carico complessivo IT di 80 kW di tutta la sala calcolo La determinazione del PUE è complessa, dal momento che l’impianto di produzione dell’acqua refrigerata è condiviso con altre utenze. Il carico termico della sala calcolo rappresenta circa il 25% del carico complessivo della centrale nel periodo invernale il 20% nel periodo estivo, dal momento che il sistema è impiegato anche nel condizionamento. Consumi ed efficienza energetica [2] 9
Stima delle efficienze Frascati Nel calcolo del PUE sono stati tenuti in conto i consumi di tutti gli ausiliari, ovvero i CRAC in sala, le pompe, l’UTA, le perdite dell’UPS e il condizionamento dell’UPS. Pertanto il risultato è aderente alla realtà senza troppe approssimazioni. I consumi relativi alla produzione dell’acqua refrigerata sono attribuiti pro-quota. Ne risulta che il PUE attuale in inverno è 1.66, mentre in estate è leggermente migliore, dal momento che la centrale frigo ha un carico maggiore più vicino alla condizione di progetto. Si sottolinea che il PUE è calcolato in una situazione particolarmente sfavorevole di basso utilizzo della sala. Aumentando l’utenza in sala, il PUE migliorerà. Alcune ottimizzazioni sono in corso per ridurre i consumi della ventilazione. Inoltre, è in corso un progetto per una Green Infrastructure, che consentirà di recuperare il calore dissipato. Salvo imprevisti il lavoro sarà realizzato nel corso dell’anno 2014 e, per i mesi per cui è possibile il recupero di calore per riscaldamento, si avrà un PUE = Per quanto riguarda l’efficienza energetica, considerando un carico di HS pari a 7584 HS06 (misurato dalla dashboard di ATLAS in un periodo di riferimento), si ottiene Efficienza informatica media: 32000Wh/7584 HS = 4,22 Consumi ed efficienza energetica [3] 10
Stima delle efficienze Napoli Il sito è molto eterogeneo essendo distribuito su 2 sale (SCoPE e INFN) e con la sala INFN completamente rinnovata con RECAS, ma non ancora in produzione L’infrastruttura RECAS fornirà misure puntuali del consumo di ogni rack Una misura diretta dei consumi è possibile solo su 1 dei 3 rack ATLAS nella sala INFN. Per ogni rack è però possibile leggere la corrente assorbita sulle presiere. E’ stata quindi effettuata una misura indiretta, confrontando le correnti dei singoli rack con quella del rack per il quale è disponibile la misura di potenza assorbita. I diversi sfasamenti delle linee elettriche possono comportare un errore nella stima delle potenza anche del 20% Il consumo stimato per le sole risorse di calcolo è di 43 kW ± 20%, di cui 9.5 kW nella sala INFN Una misura del consumo per il condizionamento del Tier2 non è possibile per sala SCoPE che ospita molte risorse universitarie anche obsolete. Una misura diretta dei consumi del chiller della sala INFN non è disponibile in quanto non sono presenti analizzatori dedicati, ma possiamo fornire una stima indiretta: Ci basiamo sull’ Indice di Efficienza Energetica EER (Energy Efficiency Ratio) del chiller, dato dal rapporto tra cooling capacity su potenza assorbita, che da specifiche è 2.5. Ciò significa che per sottrarre 9.5 kW termici dai nostri rack si spendono 9.5/2.5 kW elettrici A ciò si aggiungono circa 0.5 kW per i moduli di ventilazione dei rack Il PUE stimato della sala INFN risulta quindi [ 9.5 (consumo IT) (ventole) + 9.5/2.5(consumo chiller) ] / 9.5 (consumo IT) ] = 1.56 Consumi ed efficienza energetica [4] 11
Stima delle efficienze Milano n. 2 gruppi frigoriferi, con consumo massimo di 33,2 kW ciascuno, che servono l’intera sala macchine (Tier2 e Servizio Calcolo) la frazione di consumo elettrico del Tier2 rispetto all’intera sala macchine è in media del 53% la frazione di tempo in cui le due macchine sono contemporaneamente attive osservata durante la giornata lavorativa è di circa 1/3 la stima del consumo medio del condizionatore per la sola parte Tier2 è quindi pari a (33,2 kW x 4/3 macchine) * 53% = 23,5 kW Roma A Roma viene effettuata una misura continua della potenza assorbita da tutti i dispositivi (ATLAS+CMS) sotto UPS, relativi a Apparati di calcolo e reti Pompe per la circolazione dell'acqua, il cui consumo però è trascurabile ammontando a circa 3 kW totali. Inoltre il consumo effettivo è di ~1 kW, in quanto viene attivata solo una pompa per volta I rack (10) attualmente installati, ognuno dei quali consuma 1 kW per la ventilazione e i controlli di monitoring, per un totale di ~10 kW Le misure di potenza rilevate sull’UPS sono stabili sui 90 kW totali ATLAS + CMS 10 kW (rack) + 80 kW (potenza informatica) = ~90 kW di carico sull’UPS (ATLAS+CMS) Tutta la potenza impiegata per il raffreddamento (ad esclusione delle pompe e dei rack) non è sotto UPS, perciò il PUE è calcolato come potenza erogata dal quadro elettrico principale diviso potenza erogata dall'UPS, detratta del consumo dei rack La potenza erogata dal quadro elettrico principale non è sotto monitor continuo, quindi è stata misurata a campione e risulta abbastanza stabile su un valore di 120 kW Da tutto ciò ne consegue che il consumo totale del sistema di condizionamento (ATLAS+CMS) è pari a 120 (tot) – 90 (UPS) + 10 (10 rack) = 40 kW Il PUE risulta essere quindi 120 kW (P tot ) / 80 kW (P inf ) = 1.5 Considerando un rapporto tra ATLAS e CMS di 11/21, corrispondenti alla frazione di risorse installate, si può quindi stimare un consumo totale per ATLAS di 63 kW e un consumo informatico di 42 kW Consumi ed efficienza energetica [5] 12
Le efficienza energetiche mostrate, a seconda della disponibilità dei dati, sono ottenute come EFF inf-av : rapporto tra il consumo informatico medio e gli HS06 medi nel periodo di riferimento EFF tot-av : rapporto tra il consumo totale medio e gli HS06 medi nel periodo di riferimento EFF inf-peak : rapporto tra il consumo informatico a pieno carico e gli HS06 totali EFF tot-peak : rapporto tra il consumo totale a pieno carico e gli HS06 totali Consumi ed efficienza energetica [6] 13 I valori mostrati per Frascati e Napoli sono stime affette da errore fino ad un massimo del ~20%
Contributi CSN/CCR/GE per infrastruttura [Q] Riassumere i contributi forniti da CSN, CCR e GE negli ultimi 5 anni per lo sviluppo dell’infrastruttura e il funzionamento del sito In generale nessun sito ha ricevuto contributi da CSN e GE per l’infrastruttura Contributi CCR Frascati: 2012: 23kEuro di contributo al Router 10 Gbps Milano: 2010: 30kEuro Router 10 Gbps Napoli: 2010: 30kEuro Router 10 Gbps Roma (ATLAS + CMS): 2010: 42 k€ + 25 k€ per Router 10 Gbps, switch servizi, ottiche 2013: 9.5 k€ batterie UPS, finanziamento straordinario consumo 2013: 20 k€ Router di frontiera T2 14
Manutenzione dei siti [1] [Q] Frascati, Napoli, Roma: definire l’impegno da parte della struttura ospitante per la manutenzione ordinaria e straordinaria dei componenti dell’infrastruttura. Manutenzione ordinaria Frascati La manutenzione ordinaria degli impianti elettrici e di condizionamento sono curate dal personale INFN dei servizi tecnici con l’ausilio di ditte esterne assieme alle analoghe attività relative all’acceleratore e ai servizi generali, in un’ottica di economia di scala e di gestione Di fatto presso a Frascati sono sempre presenti le competenze necessarie per risolvere qualsiasi problema relativo agli impianti. La manutenzione, gestita da un punto di vista tecnico, ha un costo notevolmente inferiore a quello ottenibile con l’affidamento di analoghe attività a società di servizi Milano La manutenzione dei locali è a carico dell’Ateneo, mentre la manutenzione dell’infrastruttura specifica per Centro di Calcolo è a carico della Sezione Con il nuovo edificio, l’Ateneo potrebbe farsi carico anche della manutenzione del Condizionamento almeno in parte (materia di discussione per la nuova Convenzione) 15
Manutenzione dei siti [2] [Q] Frascati, Napoli, Roma: definire l’impegno da parte della struttura ospitante per la manutenzione ordinaria e straordinaria dei componenti dell’infrastruttura. Manutenzione ordinaria Napoli Gli impianti di raffreddamento, chiller e rack sono in manutenzione a carico della Sezione INFN, per quanto riguarda gli impianti che servono la sala INFN-RECAS, e dell’Università per quanto riguarda la sala SCoPE L’Università si fa inoltre carico della manutenzione di tutte le parti degli impianti elettrici ad esclusione della parte interna alla sala RECAS-INFN, a carico del Dipartimento di Fisica e della Sezione INFN Il Direttore della Sezione garantisce quindi la copertura delle spese di manutenzione ordinaria degli impianti a carico della Sezione Roma La manutenzione dei locali è a carico dell’Ateneo, mentre la manutenzione dell’infrastruttura specifica per Centro di Calcolo è a carico della Sezione 16
Manutenzione dei siti [3] [Q] Frascati, Napoli, Roma: definire l’impegno da parte della struttura ospitante per la manutenzione ordinaria e straordinaria dei componenti dell’infrastruttura. Manutenzione straordinaria Vale quanto detto per la manutenzione ordinaria, fino ad un limite di spesa compatibile con il bilancio delle Sezioni e in collaborazione con i relativi dipartimenti delle università, ove applicabile La CCR interviene nel caso in cui le sezioni non ce la facciano (ad esempio per gli UPS, etc.) Le sezioni e/o i dipartimenti negli ultimi anni si sono fatti carico di alcuni lavori di entità anche non trascurabili, ad esempio Milano ( ): sostituzione delle macchine per condizionamento e del rifacimento dei canali trasporto aria Napoli: contributi generali anche del dipartimento alle spese di calcolo e reti Roma (2013): sostituzione delle ventole del condizionamento e aggiunta di un chiller Frascati ( ): lavori di ampliamento della sala calcolo 17
Consumo del T2 rispetto al totale della struttura [Q] Frascati: Indicare una stima della percentuale dei consumi del Tier-2 rispetto a quello globale del laboratorio Il consumo totale del Tier-2, compresi gli ausiliari, è pari al consumo IT x PUE Prendendo la condizione più sfavorevole, PUE = 1.66 si ottiene Consumo T2 = 1.66 x 32 x 8760 = kWh annui I LNF hanno un consumo annuo di 15÷35 milioni di kWh, a seconda del funzionamento dell’acceleratore In questo contesto il consumo imputabile al Tier-2 è compreso tra ~3,1 % e ~1.4% 18
Link a 10 Gbps [Q] Frascati: fornire una stima temporale sull’installazione del link 10 Gbps Il link a 10 Gbps per il Tier-2 è stato richiesto di recente alla CCR Il router a 10 Gbps sarà ospitato nella nuova sala di calcolo, dove verrà spostato anche il Tier-2 Le presiere necessarie per l’alimentazione dei nuovi rack, e quindi anche del router, arriveranno entro un mese a partire da oggi 19
Green infrastructure [Q] Frascati: Osserviamo che è in corso un progetto per una Green Infrastructure. Commentare sul risparmio e il recupero possibile Progetto già inserito nella documentazione della review Il progetto riguarda alcune integrazioni alla centrale frigorifera che serve sia il DC che altri impianti integrandosi con infrastrutture parzialmente esistenti, consente di recuperare il calore normalmente dissipato, proveniente dal condizionamento, per il riscaldamento di edifici Il lavoro sarà realizzato nel corso dell’anno 2014, salvo imprevisti, con fondi ordinari, che trovano copertura nelle spese evitate per attività di manutenzione straordinaria già quantificate, e stimate indispensabili per il funzionamento degli impianti tradizionali In questo momento è in corso la progettazione esecutiva dell’opera e si sono avviate alcune attività In tale prospettiva una riduzione del carico termico del DC, comprometterebbe l’efficacia del sistema, mentre un aumento di carico consentirebbe di estendere il beneficio ad altri edifici L’intervento consentirà di eliminare la centrale termica “ Adone” del 1965, che ha un consumo di circa Smc e, a fronte di un lieve incremento di consumo elettrico della centrale frigorifera, consentirà un risparmio di circa 55 k€/anno Con questo intervento, per i mesi per cui è possiblie il recupero di calore per riscaldamento, si avrà un PUE = 1,24. Altro progetto LNF ha anche sottoposto un progetto più ambizioso di R&D nel progetto per i premiali 2013 “smartDC”, che prevede la realizzazione di un impianto innovativo di trigenerazione e continuità, a servizio del centro di calcolo, basato sull’utilizzo di celle a combustibile a carbonati fusi, in collaborazione con alcune imprese che hanno manifestato vivo interesse anche al di là dell’assegnazione dei fondi premiali Attualmente si sta approfondendo la possibilità di realizzare il progetto con vari finanziamenti ed incentivi Il progetto consentirebbe il massimo sfruttamento dell’energia primaria (metano) per l’alimentazione delle apparecchiature, del loro raffreddamento e della continuità di alimentazione 20
Convenzioni [Q] Indicare la data di scadenza della convenzione per la fornitura di energia elettrica con l’Universita’ e se questa prevede limitazioni di utilizzo del Tier-2. Le date di scadenza delle convenzioni per ogni centro, ove applicabile, sono riassunte nella tabella che segue, insieme all’informazione sulle eventuali limitazioni per i Tier-2 21
Richieste per realizzazione infrastrutture [Q] Milano: indicare se per la realizzazione della nuova infrastruttura sono previste richieste a CSN, CCR e GE Non sono previste richieste a CSN, CCR e GE per la realizzazione della nuova infrastruttura 22
Personale e FTE [1] [Q] Frascati: indicare quante persone contribuiscono ai 3 FTE quotati Frascati Le persone più direttamente coinvolte nella gestione del Tier-2 sono 8, tra cui due tecnologi informatici di esperimento (1.5 FTE) Elisabetta Vilucchi – 1 FTE Agnese Martini – 0.5 FTE Altro personale di esperimento, diviso per tipo di attività (0.9 FTE) Gestione del Tier-3 e delle attività locali (PROOF on Demand, i vari tool di analisi e il software di ATLAS) Roberto Di Nardo (A.R.) – 0.2 FTE Marianna Testa (Art. 23) – 0.2 FTE Responsabile del gruppo ATLAS, direttamente coinvolto in tutte le attività del Tier-2 Mario Antonelli – 0.3 FTE Supporto dal punto di vista organizzativo alle attività in cui il sito viene coinvolto P. Laurelli – 0.2 FTE Personale del centro di calcolo (0.6 FTE) Responsabile del centro Massimo Pistoni – 0.3 FTE Tecnico per la gestione degli apparati di rete Spigone – 0.3 FTE 23
Personale e FTE [1] [Q] Napoli, Milano: indicare esplicitamente la corrispondenza fra FTE e persone coinvolte sia a tempo indeterminato che determinato Milano Supporto al Tier2 di Milano da parte del personale del servizio calcolo integrato (0.5 FTE) I contributi più significativi (0.3 FTE) provengono da Francesco Prelz (PT INFN), 0.15 FTE Stefano Barberis (tecnologo TD INFN), 0.15 FTE Lo 0.2 restante si distribuisce equamente sul resto del personale menzionato INFN: 1 PT, 2 Tecnologi (1 TD), 2 tecnici Dipartimento: 1 EP, 1 Tecnico laureato, 1 tecnico Supporto al Tier2 di Milano da parte del personale stabilizzabile, riguardo alla parte specifica GRID e ATLAS (1.4 FTE) David Rebatto (0.7 FTE) Luca Vaccarossa (0.7 FTE) 24
Personale e FTE [2] [Q] Napoli, Milano: indicare esplicitamente la corrispondenza fra FTE e persone coinvolte sia a tempo indeterminato che determinato Napoli Gestione e coordinamento delle attività, svolte da personale dell’esperimento ATLAS Gianpaolo Carlino (Primo Ricercatore INFN) – Resp. del Tier2 – 0.6 FTE Alessandra Doria (Tecnologo INFN) – Resp. Operativo del Tier2 – 0.8 FTE Leonardo Merola (Professore Ordinario UNINA) – Resp. Progetto Potenziamento RECAS – 0.3 FTE Guido Russo (Professore Ordinario UNINA) – Resp. Rapporti Istruttori RECAS – 0.3 FTE Arturo Sanchez (A.R. PRIN STOA) – gestione del “Tier3” – 0.5 FTE Personale dell’INFN, del SCR o pagato con fondi RECAS, per la co-gestione delle risorse di calcolo e delle infrastrutture di rete Rosario Esposito (CTER INFN) – gestione risorse e servizi GRID – 0.2 FTE Paolo Lo Re (Primo Tecnologo INFN) – Rete – 0.2 FTE Silvio Pardi (Art. 23 su fondi ordinari INFN) – Rete e risorse RECAS – 0.3 FTE Ulteriori 3 TD finanziati con fondi RECAS che avevano preso servizio da poco ai tempi della scrittura del documento Luigi Mea (Art. 15) – impianti Pasquale Castellano (Art. 15) – risorse di calcolo Roberto Cevenini (co.co.co) – risorse di calcolo 25
Criticità del personale [Q] Milano: indicare se il personale con contratto a tempo determinato è critico per la sopravvivenza del Tier-2 Il personale con contratto a tempo determinato non è critico per la sopravvivenza del centro, che sarebbe assicurata, per quanto a prezzo di un doloroso ri-arrangiamento, tenendo comunque conto che la Sezione ha bandito un posto di tecnologo con profilo da Servizio Calcolo Tuttavia la continuazione dell’apporto di una delle persone TD con specifiche competenze Tier2 (ATLAS e GRID/Calcolo Distribuito) è decisivo se si vuole espandere e rilanciare il centro (anche eventualmente come multidisciplinare), come sarebbe reso possibile dall’ampliamento dell’infrastruttura che avverrà a carico dell’Ateneo Vale la pena di notare che la sezione ha in organico 1 unità di personale, afferente al servizio calcolo (dott. Mauro Campanella), che da molti anni è distaccato presso il GARR (sede di Milano). Se fosse possibile fare sì che questa persona fosse assunta da GARR, si libererebbe un posto in organico che la sezione bandirebbe per un tecnologo con profilo Tier2 26
Uso opportunistico per altri gruppi di ricerca [Q] Indicare se le risorse del Tier-2 sono disponibili per uso opportunistico per altri gruppi di ricerca. Tutti i Tier2 sono aperti a più di una VO Tralasciando le VO di dteam, infngrid e ops Opportune politiche di sharing sono state implementate per fare in modo che l’utilizzo da parte delle altre VO non inficiasse sui pledge previsti per Atlas e non interferisse con le attività degli utenti In ogni caso l’uso delle risorse dei Tier2 da parte di tali VO è normalmente basso, al momento attuale 27 Altro ATLAS Frascati Altro ATLAS Milano Altro ATLAS Napoli Altro ATLAS Roma CDF
Supporto ad altri gruppi di ricerca [Q] Indicare se ci sono gruppi di ricerca oltre ad ATLAS supportati direttamente dal Tier-2 Frascati, Napoli e Roma supportano anche altri gruppi di ricerca Frascati Il Tier-2 di Frascati ha già supportato il calcolo della VO SuperB, ospitando alcune risorse di calcolo finanziate dal gruppo locale dell’esperimento Analogamente, per esigenza del gruppo di Frascati di Belle, il Tier-2 supporta anche il calcolo di questa VO Napoli Per tutta la durata della sua attività la VO SuperB ha avuto nel Tier2 di Napoli uno dei centri in cui effettuare le proprie produzioni ufficiali, con uno share minimo garantito (che veniva aumentato in caso di occasionali necessità) e con 5TB di storage a disposizione in GRID Il progetto RECAS ha portato ad una forte sinergia con il gruppo Belle2 che collabora con il Tier2 di ATLAS ed è aiutato alla gestione delle proprie attività di calcolo Roma Il Tier-2 di Roma supporta gli studi di neural net su macchine parallele (gruppo dei Teorici), fornendo un testbed snello per lo sviluppo del software che poi dovrà girare su macchine HPC (ad esempio al Cineca) L’infrastruttura di configurazione (puppet) è utilizzata anche da Virgo per la gestione delle proprie macchine del Tier-2 28
Integrazione ATLAS/CMS a Roma [1] [Q] Roma: valutare i pro e contro di una eventuale unione col Tier-2 di CMS I Tier-2 di ATLAS e CMS a Roma sono già strettamente uniti in molti aspetti Infrastruttura di base Locali Cooling Rete Distribuzione elettrica … Servizi software Batch system LSF comune Monitoring e allarmistica Installazione del software Lo storage è gestito con sistemi diversi, secondo le linee guida degli esperimenti, le competenze acquisite in questi anni e le collaborazioni WLCG alle quali si partecipa. Pertanto una eventuale unificazione dello storage è impossibile. ATLAS: DPM CMS: dCache I WN sono configurati in modo molto simile e stiamo già lavorando per ottenere una configurazione unica gestita via puppet Al momento i WN di ATLAS e quelli di CMS si trovano in code batch diverse, accessibili rispettivamente dai job Grid delle rispettive VO Nulla osta a abilitare l’accesso incrociato ai WN, a livello di batch system oppure di code di ATLAS / CMS I CE (al momento 4 per ATLAS e 3 per CMS) sono al momento separati, ma è possibile abilitare le rispettive VO sui CE relativi 29
Integrazione ATLAS/CMS a Roma [2] [Q] Roma: valutare i pro e contro di una eventuale unione col Tier-2 di CMS Pro Aggiungere l’accesso sia ad ATLAS che a CMS a tutti i nodi di calcolo può aumentare l’efficenza media del sito, ma solo nel caso in cui uno dei due esperimenti abbia un calo significativo di attività, cosa che negli anni passati non è mai accaduta Contro La fusione riguarderebbe essenzialmente solo i nodi di calcolo e i CE, dal momento che lo storage non è unificabile e il resto è già comune Allo stato attuale, vista l’attività degli esperimenti già a partire da prima dell’inizio della della presa dati, l’efficienza non gioverebbe dalla fusione dei due siti Unire i servizi richiederebbe la ridenominazione GRID di uno dei due siti (oggi INFN-Roma1 e INFN-Roma1-CMS), cosa che, per motivi tecnici, porterebbe al fermo del sito per circa due mesi, per consentire la propagazione in tutto il mondo dell’informazione relativa Da un punto di vista degli esperimenti e degli utenti della comunità locale questo è difficilmente giustificabile In particolare, fare questo durante la presa dati può essere complicato in quanto il sito di ATLAS è sito di calibrazione, e quindi soggetto a policy particolari (ad esempio, durante il periodo di presa dati, il centro di Roma deve produrre le costanti di calibrazione entro 24/48 ore dalla presa dati). Anche effetturae questa operazione durante il data challenge 2014 è complicato, in quanto verranno provate tutte le nuove funzionalità dell’infrastruttura software dell’esperimento. 30
Espansione dei siti [1] [Q] Il modello di calcolo di LHC potrebbe evolvere verso un numero minore di centri di maggiori dimensioni. Per questioni di economia di scala questi centri potrebbero essere multidisciplinari. Dire quali sono in termini di infrastruttura e/o personale i possibili margini di espansione del vostro sito Strettamente parlando possiamo fare un discorso di espansione in termini di infrastruttura in due modi: Espansione fisica delle infrastrutture delle sale di calcolo Questo varia da sito a sito, come verrà spiegato in seguito Rimpiazzo delle apparecchiature obsolete In questo caso si è già dimostrato che ogni 4 anni si è in grado di raddoppiare la potenza il centro senza occupare spazio aggiuntivo o incrementare i consumi Per assurdo, già ora, se decidessimo di sostituire tutte le apparecchiature con macchine più aggiornate si avrebbe più del doppio della potenza attuale 31
Espansione dei siti [2] Personale e gestione del centro: situazione attuale Tutti i centri hanno sviluppato o adottato tecnologie di automazione a vari livelli Installazione Configurazione Monitoring Controllo remoto Self-healing Procedure di emergenza (shutdown automatici totali o selettivi, riduzione di potenza, ecc.) Tutti questi sistemi sono in genere automatici e richiedono un intervento limitato da parte dei sistemisti La capacità di gestire un centro da parte di un pool di responsabili non scala linearmente con il numero di risorse gestite, ma piuttosto in modo logaritmico Le necessità di personale non aumentano in modo proporzionale all’aumento delle risorse Le nuove tecnologie hardware tendono sempre più ad incrementare la potenza a parità di elementi da gestire, questo significa che a parità di sforzo umano per la gestione si può incrementare in modo ampio la capacità dei centri 32
Espansione dei siti [3] Personale e gestione del centro: futuro In futuro, con le tecnologie di tipo cloud (o magari anche nuove tecnologie), la gestione dei centri verrà ulteriormente alleggerita, a causa di alcuni fattori importanti Soluzioni industry-standard Completa remotizzazione dei centri, attraverso tecnologie di virtualizzazione e/o di cooperazione multi-centro Standardizzazione delle unità di calcolo (ad esempio VM pre-configurate, fornite dagli esperimenti o da chi richiede potenza di calcolo in genere) Gestione completamente remotizzata/automatizzata dei servizi specifici di esperimento (già tutto ciò che ruota attorno a CVMFS ne è un esempio) Infrastruttura più leggera, più vicina alle realtà commerciali, ma allo stesso momento fruibile completamente sia a livello centralizzato (esperimenti) che locale (utenti e gruppi di analisi) Il PRIN di LHC va nella direzione giusta e ci aiuterà ad estendere i centri anche ad altre discipline e attività Molta attività sulle infrastrutture, ad esempio di cloud e di accesso dati Semplificazione degli accessi e standardizzazione Potenziale utilizzo più esteso dei centri da parte di comunità le quali finora non hanno potuto utilizzare il nostro tipo di calcolo soprattutto per la complessità di utilizzo e di modalità di accesso 33
Espansione dei siti: specificità [1] Frascati Grazie ai lavori effettuati, attualmente il sito ha spazio a sufficienza, potenza elettrica e raffreddamento per espandersi senza problemi ospitando machine di calcolo di altri esperimenti In particolare, senza ricorrere ad altri lavori, la farm può andare ben oltre il triplo delle sue dimensioni, allo stato attuale di utilizzo della sala Per quanto riguarda il personale, questo ha già maturato esperienza supportando il calcolo di altri esperimenti quali SuperB e Belle Questi gruppi, infatti, hanno inserito le loro risorse di calcolo nella farm del Tier-2 avendo così la possibilità di fare calcolo senza l’onere della gestione di un Tier Pertanto non c’è alcuna difficoltà a supportare diverse attività di calcolo di interesse dei Laboratori, costituendo una unica farm, poichè, dal punto di vista tecnico, non occorre aumentare il personale linearmente 34
Espansione dei siti: specificità [2] Napoli Grazie alle infrastrutture installate per il progetto Recas, il sito di Napoli ha ampio margine di espansione delle risorse, disponendo di 16 rack di cui solo 11 popolati al momento Considerando le acquisizioni in corso rimangono 2 rack liberi, ai quali si possono aggiungere almeno altre 42U provenienti da dismissioni e riposizionamenti nel rack già popolati La struttura di rete progettata per Recas prevede un ampio margine di crescita, con uno switch di centro stella HP con integrate 280 porte Ethernet 10Gbps ed una rete di management separata già equipaggiata di switch e connessioni per ogni rack Per ciò che riguarda gli impianti, sia il sistema di raffreddamento sia la cabina elettrica da 1 MW sono progettati per sostenere la massima espansione del centro, anche con l’aggiunta di ulteriori 3 rack, quindi permettono l’espansione senza alcuna modifica L’esperienza nella gestione di risorse per gruppi diversi è stata negli anni scorsi acquisita mediante la collaborazione del personale di ATLAS nel Gruppo Tecnico Trasversale del progetto SCOPE Il progetto aveva l’obiettivo di realizzare un sistema di calcolo multidisciplinare (Scienze del Microcosmo e del Macrocosmo, Scienze della Vita, Scienze dei Materiali e dell’Ambiente) ed ha quindi affrontato e risolto le numerose problematiche relative alla condivisione delle risorse tra applicazioni profondamente diverse come ad esempio tecniche avanzate di scheduling L’obiettivo stesso di Recas è di realizzare un centro multidisciplinare, supportando gli esperimenti ATLAS, Belle2, Km3Net ed altri che potranno via via aggiungersi, oltre a dare spazio ad applicazioni di altre scienze ed industriali che sono in fase di definizione 35
Espansione dei siti: specificità [3] Milano La sala macchine nel nuovo edificio è progettata con un’espansione di circa 110 metri quadri rispetto all’attuale, con 2000 prese da 10 A e capacità di ospitare 50 racks UPS e condizionamento saranno dimensionati per una potenza massima di 300kW Approssimativamente queste caratteristiche dovrebbero permettere di ospitare l’evoluzione del Tier2 ATLAS e del Servizio Calcolo e in aggiunta un’altra attività di calcolo e storage di dimensioni vicine al Tier2, almeno nei primi 4-5 anni di funzionamento della nuova sala macchine Roma Il Tier2 occupa 10 rack (ATLAS+CMS) e si puo’ espandere fino a 14 rack senza modifiche dell’infrastruttura elettrica e di cooling, senza costi aggiuntivi (a parte ovviamente l’acquisto dei rack) e negli spazi di nostra competenza Questo corrisponde ad un incremento del 40% del centro Un aumento del numero di rack oltre 14 richiede un aggiornamento dell’infrastruttura di base, sia elettrica che di cooling, e una trattativa sugli spazi Non si vedono problemi particolari da un punto di vista del personale per la gestione del centro fino all’espandibilità qui definita 36