La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Domenico Elia1 Review Tier-2 ALICE Domenico Elia (INFN Bari) Discussione Review Tier-2 / Roma 27-28.1.2014 Discussione Review Tier-2 Roma, 27-28 Gennaio.

Presentazioni simili


Presentazione sul tema: "Domenico Elia1 Review Tier-2 ALICE Domenico Elia (INFN Bari) Discussione Review Tier-2 / Roma 27-28.1.2014 Discussione Review Tier-2 Roma, 27-28 Gennaio."— Transcript della presentazione:

1 Domenico Elia1 Review Tier-2 ALICE Domenico Elia (INFN Bari) Discussione Review Tier-2 / Roma 27-28.1.2014 Discussione Review Tier-2 Roma, 27-28 Gennaio 2014

2 Domenico Elia2Discussione Review Tier-2 / Roma 27-28.1.2014 Outline Risposte dettagliate in ordine per i 4 siti:  Bari  partendo dal punto comune su pledge e loro utilizzo medio  Catania  Padova-LNL  Torino Ulteriori dettagli nelle risposte documentate dei siti: https://dl.dropboxusercontent.com/u/33945945/Review%20T2%20ALICE%20final/ReviewT2-risposte%20Catania.docx https://dl.dropboxusercontent.com/u/33945945/Review%20T2%20ALICE%20final/ReviewT2-risposte%20Torino.docx Grazie ai colleghi in ciascun sito per la collaborazione!

3 Domenico Elia3Discussione Review Tier-2 / Roma 27-28.1.2014 Bari, Catania, LNL, Torino 1.HS06 pledged e medi utilizzati nei periodi Apr 2012 – Mar 2013 e Apr 2013 – Dic 2013 Apr 2012 – Mar 2013 e Apr 2013 – Dic 2013 Qualche considerazione sul metodo: -per ciascuno dei periodi, considerati i rispettivi pledge HS06 (2012 e 2013) -precisazioni e/o ritocchi sui valori di pledge: BARI pledge 2012 corretti rispetto a quanto nel doc di review (3800 HS06 non erano nel pledge 2012, acquistati su fondi DOT3 a fine 2012, arrivati a febbraio 2013, installati a Marzo 2013) pledge 2012 e 2013 ridotti di 300 core, per problema UPS CATANIApledge 2013 integrati con parte non dismessa TORINOpledge 2012 e 2013 ridotti di 250 core (AF e sviluppo) -stimato il core medio: 10 HS06/core, per tutti tranne che per CT (8) corrispondenza con la valutazione dei siti in buon accordo con benchmark a campione di ALICE -estratto il dato in WCT da HLRMON, quindi convertito in HS06 -qualche controllo con monitoring locale (ove possibile) o di esperimento

4 Domenico Elia4Discussione Review Tier-2 / Roma 27-28.1.2014 Bari, Catania, LNL, Torino 1.HS06 pledged e medi utilizzati nei periodi Apr 2012 – Mar 2013 e Apr 2013 – Dic 2013 Apr 2012 – Mar 2013 e Apr 2013 – Dic 2013 Pledge 2012 (HS06) Pledge effettivi (3) HS06/core Forniti (HS06) (1) Impiego (%) Bari 6400 (2) 512010474093 Catania 520048708461095 Padova-LNL 8400797010717090 Torino 9400660010463070 Periodo Aprile 2012 – Marzo 2013 (1)Dati HLRMON (WCT in giorni normalizzato al periodo e ad HS06) (2)Pledge 2012 di Bari corretto: 3800 HS06 da fondi DOT3, installati a Marzo 2013 (3)Acquisti 2012 installati a Luglio 2012 (consegnati a Giugno). Inoltre: per Bari: sottratti 300 core per un periodo di 3 mesi (problema UPS) per Torino: sottratti 250 core (impiegati nella AF)

5 Domenico Elia5Discussione Review Tier-2 / Roma 27-28.1.2014 Bari, Catania, LNL, Torino 1.HS06 pledged e medi utilizzati nei periodi Apr 2012 – Mar 2013 e Apr 2013 – Dic 2013 Apr 2012 – Mar 2013 e Apr 2013 – Dic 2013 Pledge 2013 (HS06) Pledge effettivi (2) HS06/core Forniti (HS06) (1) Impiego (%) Bari 9000600010372062 Catania 310052008471090 Padova-LNL 8300 1010570127 Torino 7800530010457086 (1)Dati HLRMON (WCT in giorni normalizzato al periodo e ad HS06) (2)Tutta la CPU già installata (nessun acquisto nel 2013). Tuttavia: per Bari: sottratti 300 core per tutto il periodo (problema UPS) per Catania: nessuna dismissione, HS06 effettivi pari ai pledge 2012 per Torino: sottratti 250 core (impiegati nella AF) Periodo Aprile 2013 – Dicembre 2013

6 Domenico Elia6Discussione Review Tier-2 / Roma 27-28.1.2014 Bari 2.Discussione percentuale di utilizzo ALICE Al netto del problema sull’UPS (Dicembre 2012), con conseguente riduzione del totale di slot disponibili (-300 core), la percentuale di impiego del pledge è stata sensibilmente ridotta (62%) a causa di ulteriori e molteplici fattori Tracciamento degli eventi nel periodo in questione (Aprile – Dicembre 2013): Periodi di stop 4 – 12/5: CREAM CE fault, SLC5->SLC6 transition (9 gg) 17 – 18/5: Restart servizi per fixing problema certificati (2 gg) 28/6 – 9/7: Power cut dipartimento, crash redirettore Xrootd, reinstallazione su nuova macchina (10 gg) 11/9: CE replacement (1 g) 30/9: Restart VO box (1 g) 30/10 – 5/11: Transizione a CVMFS e reinstallazione Cream CE (5 gg) 13 – 15/12: Power cut dipartimento, farm fuori produzione (3 gg) Totale di 31 gg  10% dell’intero periodo

7 Domenico Elia7Discussione Review Tier-2 / Roma 27-28.1.2014 Bari 2.Discussione percentuale di utilizzo pledge Aprile 2013 Maggio 2013 CREAM CE fault, SLC5->SLC6 transition (9 gg) Restart servizi per fixing problema certificati (2 gg)

8 Domenico Elia8Discussione Review Tier-2 / Roma 27-28.1.2014 Power cut dipartimento, crash redirettore Xrootd, reinstallazione su nuova macchina (10 gg) Transizione a CVMFS e reinstallazione Cream CE (5 gg) Luglio 2013 Novembre 2013 Bari 2.Discussione percentuale di utilizzo pledge

9 Domenico Elia9Discussione Review Tier-2 / Roma 27-28.1.2014 Al netto del problema sull’UPS (Dicembre 2012), con conseguente riduzione del totale di slot disponibili (-300 core), la percentuale di impiego del pledge è stata sensibilmente ridotta (62%) a causa di ulteriori e molteplici fattori Tracciamento degli eventi nel periodo in questione (Aprile – Dicembre 2013): Periodi di ridotta attività: 1 – 23/6: 200 job running, manutenzione UPS (23*2/3 = 15 gg) 9 – 29/7: 350 job running, riduzione potenza (20*1/2 = 10 gg) 30/7 – 19/8: 300 job running, riduzione potenza (20*1/2 = 10 gg) 23 – 26/8: 100 job running, coda ALICE scarsa (4*5/6 = 3 gg) 14 – 21/11: 150 job running, coda ALICE scarsa (8*3/4 = 6 gg) 27 – 29/11, 12/12: coda ALICE vuota (3 gg) 19 – 31/12: stop attività ALICE, manutenzione e test (10 gg) Totale di 57 gg  20% dell’intero periodo Bari 2.Discussione percentuale di utilizzo pledge

10 Domenico Elia10Discussione Review Tier-2 / Roma 27-28.1.2014 200 job running, manutenzione UPS (23*2/3 = 15 gg) 300 job running, riduzione potenza (20*1/2 = 10 gg) Giugno 2013 Agosto 2013 coda ALICE scarsa (3 gg) Bari 2.Discussione percentuale di utilizzo pledge

11 Domenico Elia11Discussione Review Tier-2 / Roma 27-28.1.2014 power cut dipartimento (3 gg) coda ALICE scarsa (6 gg) Novembre 2013 coda ALICE vuota (3 gg) Dicembre 2013 stop attività ALICE, manutenzione e test (10 gg) Bari 2.Discussione percentuale di utilizzo pledge

12 Domenico Elia12Discussione Review Tier-2 / Roma 27-28.1.2014 Bari 2.Discussione percentuale di utilizzo pledge Situazione rientrata alla normalità dopo il break di fine anno (19/12 – 14/1): -sia Bari che gli altri siti in piena produzione -regolare il fill dalla batch queue ALICE Gennaio 2014 Azione coordinamento Tier-2: situazione dei siti monitorata mensilmente per attivare sinergie e, quando possibile, minimizzare la persistenza di problemi.

13 Domenico Elia13Discussione Review Tier-2 / Roma 27-28.1.2014 Bari, Catania, LNL, Torino 3.Ranking ALICE site availability Estratto dai report mensili EGI (tutto 2013): -non è un ranking che ALICE utilizza per classificazione/valutazione dei siti -Tier-2 INFN soddisfacenti (tutti sopra la media) Average90.6% BA94.7% CT93.9% PD-LNL99.7% TO92.4% LNLBATOCT

14 Domenico Elia14Discussione Review Tier-2 / Roma 27-28.1.2014 Bari 4.Precisazioni misura o stima consumi ed efficienza energetica efficienza energetica Potenza fornita dall’UPS (Par. 2.3.2 documento BA):99.4 kW Consumo della farm nelle stesse condizioni:152 kVA L’UPS alimenta sia la farm che i Servizi della Sezione (server WEB, Mail server, DNS, etc). La potenza complessiva viene spesa, oltre che per raffreddare la sala calcolo, anche per raffreddare altri due ambienti: quello con i servizi di Sezione e quello con gli UPS. Un calcolo preciso del PUE è complicato da fare senza misurazioni aggiuntive oltre quelle fornite dai display presenti sull’alimentazione elettrica. Una buona indicazione è data dal coefficiente di prestazione ottenuto dividendo la potenza complessivamente assorbita (in kVA) per la potenza erogata dagli UPS (in kW), assumendo che quest’ultima coincida con la potenza informatica: 152 / 99.4 = 1.53 (misure a Novembre 2013)*. * Per ottenere il PUE il numeratore va diminuito (cosphi e perdite nell’UPS), il denominatore va diminuito per tener conto dell’assorbimento delle residue unità di ventilazione alimentate attraverso UPS. Il coefficiente di prestazione così calcolato può avere una dipendenza dal periodo nell’anno in cui viene calcolato.

15 Domenico Elia15Discussione Review Tier-2 / Roma 27-28.1.2014 Bari 5.Contributi da CSN3, CCR e GE ultimi 5 anni per sviluppo infrastruttura e funzionamento sito per sviluppo infrastruttura e funzionamento sito CCR 2009 2010 19500 Moduli per il centro stella della LAN: -1 modulo 4 porte 10 Gbit fibra -Gbic ottico 10 Gbit -4 moduli 4 porte 10 Gbit rame 2011 16000 4 moduli con 4 porte in rame 10 Gbit ciascuna e relativi cavi 2012 8000 2 moduli con 4 porte 10 Gbit/s per lo switch centrale della sala calcolo (rete Tier-2) + 8 cavi 10 Gbit 2013 18500 Sostituzione batterie UPS

16 Domenico Elia16Discussione Review Tier-2 / Roma 27-28.1.2014 Bari 6.Impegno della struttura ospitante per manutenzione ordinaria e straordinaria infrastruttura manutenzione ordinaria e straordinaria infrastruttura L’Università di Bari contribuisce attraverso: -fornitura e manutenzione dei locali -manutenzione dell’alimentazione elettrica e fornitura energia elettrica La Sezione INFN copre le manutenzioni ordinarie. Contributi 2009-2013: 20092010201120122013 Manutenzione Chiller10001200 Riparazione compressore, sostituzione gas18001000 Manutenzione impianto antincendio20002400 Riparazione impianto antincendio300 Manutenzione APC (rack + In Row)84008600 11100 Riparazione UPS (oltre contributo CCR)11800 TOTALE (k€)11.412.214.327.4 Manutenzione straordinaria: la Sezione copre se possibile, altrimenti viene chiesto contributo a CCR

17 Domenico Elia17Discussione Review Tier-2 / Roma 27-28.1.2014 Bari 7.Completamento descrizione personale con persone in ruoli manageriali e di esperimento persone in ruoli manageriali e di esperimento Altro personale che svolge attività per i Tier-2, non incluso nella tabella del documento originario della review: TipologiaFTE Staff TI: POGiorgio P. MaggiActivity coordination30 % Staff TI: Ric. Univ.Alexis PompiliData management CMS5 % Staff TI: I Ric. INFNMarcello MaggiData management CMS5 % Staff TI: PAGiovanna SelvaggiContact person CMS20 % Staff TI: Ric. Univ.Nicola De FilippisAnalysis requirements CMS5 % Staff TI: PADomenico Di BariResp. locale Tier-2 ALICE10 % Staff TI: Ric. Univ.Giuseppe BrunoAnalysis requirements ALICE5 % Staff TI: Ric. INFNDomenico EliaResp. calcolo ALICE10 %

18 Domenico Elia18Discussione Review Tier-2 / Roma 27-28.1.2014 Bari 8.Risorse disponibili per uso opportunistico da parte di altri gruppi di ricerca da parte di altri gruppi di ricerca La farm di Bari è da sempre organizzata come centro multidisciplinare. Risorse aggiuntive, rese disponibili mantenendo attive risorse della farm oltre il periodo di ammortamento e compatibilmente con i consumi elettrici, vengono messe a disposizione di utenti che le usano in modo opportunistico attraverso middleware Grid o con account locale sul cluster. Oltre che ad utenti locali, la farm è aperta ad alcune VO internazionali, come BIOMED e COMPCHEM, a cui viene garantito uso opportunistico delle risorse computazionali. Attività svolte nel 2013: figure 2 (next slide) e 3 del documento review di Bari. Informazioni interattive: http://cloud-mysql.ba.infn.it/

19 Domenico Elia19Discussione Review Tier-2 / Roma 27-28.1.2014 Bari 8.Risorse disponibili per uso opportunistico da parte di altri gruppi di ricerca da parte di altri gruppi di ricerca

20 Domenico Elia20Discussione Review Tier-2 / Roma 27-28.1.2014 Bari 9.Margini di espansione del sito Le risorse computazionali presenti nella farm di Bari comprendono sia le risorse dei Tier-2 di ALICE e CMS che risorse acquistate da altri esperimenti INFN (PAMELA, FERMI-GLAST, T2K, Totem, Magic5, gruppo teorico) e perfino risorse acquistate da gruppi non INFN. La gestione della farm è stata sempre improntata ad assicurare ai contributori delle risorse un uso corrispondente al loro contributo. In molti casi l’uso da parte di altri gruppi (diversi da CMS e Alice) non è stato puramente opportunistico ma è stato fornito un vero e proprio supporto agli utenti. Questo approccio ha permesso di acquisire utenti anche da altri gruppi di ricerca della Sezione e del Dipartimento di Fisica e più in generale dell’Università di Bari, ma soprattutto ha dato la possibilità di contribuire a progetti multidisciplinari come quelli svolti in collaborazione con la comunità di bioinformatica (quali LIBI, Bioinfogrid, BioVeL). L’attività opportunistica su progetti esterni ha dimostrato già una sua autosostenibilità evidente dalla continuità temporale dei progetti citati (dal 2005 al 2014).

21 Domenico Elia21Discussione Review Tier-2 / Roma 27-28.1.2014 Bari 9.Margini di espansione del sito Infrastruttura Il progetto ReCaS rappresenta per Bari un momento di forte espansione sia per quanto riguarda la parte infrastrutturale sia per quanto riguarda le risorse computazionali: più di un fattore due rispetto alle risorse attualmente disponibili. Il centro parte con circa 600 kW di potenza IT e 60 Rack utilizzabili. In queste condizioni è possibile ospitare fino a 35-40 mila core e diverse decine di PetaByte di storage (considerando le CPU e i dischi attualmente in produzione). Il centro di calcolo di ReCaS prevede la possibilità di scalare l'infrastruttura fino a 80 Rack e 1 MW di carico IT. E’ necessario aggiungere che sfruttando il progetto ReCaS, si sta procedendo ad una valutazione sistematica di diversi tool di gestione della farm: ci aspettiamo che, pur con un raddoppio delle dimensioni della farm, non sia necessario un incremento di personale. Per raggiungere la scala finale di ReCaS ovviamente la quantità di personale necessario non sarà lineare.

22 Domenico Elia22Discussione Review Tier-2 / Roma 27-28.1.2014 Bari 9.Margini di espansione del sito Personale E’ stato di recente approvato dal Direttivo un bando di tecnologo per il Servizio Calcolo della Sezione di Bari. Inoltre, come descritto nel documento di review, negli anni scorsi la gestione del Tier-2 è stata realizzata attraverso una serie di contratti su fondi esterni, in generale dell’INFN ma talvolta anche dell’Università di Bari, sfruttando al massimo tutte le sinergie tra gli obiettivi dei progetti e le attività di gestione della farm. L’esperienza fin qui maturata sui progetti su fondi esterni ci fa ben sperare che anche per il futuro questa strada sia ancora percorribile. Infine, all’interno del progetto ReCaS si sta mettendo particolare attenzione, soprattutto in riferimento alle risorse acquisite nel progetto dell’Università, affinchè il centro di calcolo diventi autosostenibile. Questo ci fa sperare che ulteriori unità di personale possano essere pagate in futuro anche dall’Università stessa.

23 Domenico Elia23Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 3.Precisazioni misura o stima consumi ed efficienza energetica efficienza energetica I consumi del sito di Catania sono costantemente misurati e monitorati sin dal mese di Febbraio 2006. Il totale di energia consumata in questo periodo di 96 mesi ammonta a circa: -3.43 GWh per la parte relativa al calcolo ed allo storage -2.04 GWh per la parte relativa al cooling Il PUE della Computing Room di Catania è pari a 1.59. Come indicato nella sez. 7 documento di review, la sala machine di Catania ospita risorse di calcolo “non-Grid” e “non-Tier-2” per un totale, insieme alle risorse del Tier-2 menzionate nel report, di circa 6.930 HS06. Tenendo conto che il consumo istantaneo per calcolo e storage è attualmente di circa 60 kW, e nei limiti dell’approssimazione 1 HS06  1 Gflop*, il sito di Catania ha un’efficienza energetica di circa 115 MFlop/W. * http://wiki.chipp.ch/twiki/bin/view/LCGTier2/PhoenixSetupAndSpecshttp://wiki.chipp.ch/twiki/bin/view/LCGTier2/PhoenixSetupAndSpecs

24 Domenico Elia24Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 4.Contributi da CSN3, CCR e GE ultimi 5 anni per sviluppo infrastruttura e funzionamento sito per sviluppo infrastruttura e funzionamento sito CSN IIIGE 2009-2011 160000 Contributo forfettario per energia elettrica relativa agli anni antecedenti al 2012 2010 25000 UPS da 48 kW (espandibile fino a 160 kW) 2011 2012 19000 Sostituzione batterie dei due UPS più vecchi, da 40 e 80 kW 2013

25 Domenico Elia25Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 5.Impegno della struttura ospitante per manutenzione ordinaria e straordinaria infrastruttura manutenzione ordinaria e straordinaria infrastruttura Nello stesso periodo degli ultimi 5 anni, la Sezione INFN di Catania (con fondi di Direzione, di Dotazioni di Gruppo e dei singoli Gruppi di Ricerca) ha sostenuto i seguenti costi: -manutenzione ordinaria degli apparati di raffreddamento, dei quadri elettrici e del gruppo elettrogeno: € 16000 -manutenzione ordinaria degli UPS: € 15000 -contributo forfettario per il pagamento dell’energia elettrica per gli anni antecedenti al 2012:  € 90000

26 Domenico Elia26Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 5.Impegno della struttura ospitante per manutenzione ordinaria e straordinaria infrastruttura manutenzione ordinaria e straordinaria infrastruttura Oltre al finanziamento locale della Sezione di Catania, l’Università di Catania si fa carico della manutenzione ordinaria e straordinaria della cabina elettrica del Dipartimento di Fisica e Astronomia che ospita il Tier-2 e di tutta la linea di potenza fino al trasformatore di media tensione (20 kV) situate all’interno del campus. A questo proposito, è degno di nota l’intervento straordinario (già menzionato nel report) effettuato il 12 Luglio 2013 per la sostituzione di un interruttore da 20 kV e per l’installazione di un combinatore telefonico che, in caso di distacchi, avvisa la ditta incaricata della manutenzione, il cui contratto adesso è 24x7 e totalmente a carico dell’Università. Dal 12 Luglio non c’è più stata alcuna interruzione e ciò ha avuto un effetto benefico sulle statistiche di affidabilità e nella frazione di job “done” del Tier-2 di Catania rispetto al totale dei job “done” da tutti i Tier-2 di ALICE in Italia. Il costo dell’interruttore sostituito è di circa € 15.000, a carico dell’Università.

27 Domenico Elia27Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 6.Data di scadenza della convenzione per la fornitura di energia elettrica e limiti di utilizzo. fornitura di energia elettrica e limiti di utilizzo. Spiegare come influirà la realizzazione dell’impianto Spiegare come influirà la realizzazione dell’impianto fotovoltaico e indicare lo stato del progetto. fotovoltaico e indicare lo stato del progetto. La convenzione tra la Sezione INFN e l’Università di Catania è valida fino al 24 Aprile 2019 e non prevede alcuna specifica limitazione. Inoltre essa non fa alcun riferimento ad alcun impianto fotovoltaico per cui l’effettiva realizzazione o meno di quest’ultimo non inficia quanto concordato tra le parti. Circa lo stato dell’impianto fotovoltaico, è in corso una valutazione tecnico- economica per la produzione della documentazione necessaria a predisporre il Preliminare di Gara.

28 Domenico Elia28Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 7.Risorse disponibili per uso opportunistico da parte di altri gruppi di ricerca da parte di altri gruppi di ricerca Come indicato nel report, le risorse del Tier-2 sono ad uso esclusivo di ALICE. Tuttavia, nel data center della Sezione INFN di Catania ci sono delle risorse di calcolo (52 core per un totale di circa 330 HS06) e di storage (14 TB) aggiuntive, gestite in modalità “grid”, che supportano le seguenti Virtual Organisation (VO): Italiane: gridit (scopo: multi-disciplinare); inaf (scopo: astronomia ed astrofisica); infngrid (scopo: esperimenti INFN vari); superbvo.org (scopo: SuperB); theophys (scopo: fisica teorica – iniziative del Gruppo IV dell’INFN);

29 Domenico Elia29Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 7.Risorse disponibili per uso opportunistico da parte di altri gruppi di ricerca da parte di altri gruppi di ricerca Come indicato nel report, le risorse del Tier-2 sono ad uso esclusivo di ALICE. Tuttavia, nel data center della Sezione INFN di Catania ci sono delle risorse di calcolo (52 core per un totale di circa 330 HS06) e di storage (14 TB) aggiuntive, gestite in modalità “grid”, che supportano le seguenti Virtual Organisation (VO): Internazionali: auger (scopo: fisica dei raggi cosmici); cms (scopo: fisica delle alte energie); dteam (scopo: operations); enmr.eu (scopo: bioinformatica); euindia (scopo: collaborazioni multi-disciplinari con l’India); eumed (scopo: collaborazioni multi-disciplinari con i paesi del Mediterraneo e dell’Africa sub-sahariana); lhcb (scopo: fisica delle alte energie); oper.vo.eu-eela.eu (scopo: operations); ops (scopo: operations); prod.vo.eu-eela.eu (scopo: collaborazioni multi-disciplinari con i paesi dell’America Latina); vo.aginfra.eu (scopo: science agrarie); vo.dch-rp.eu (scopo: beni culturali).

30 Domenico Elia30Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 7.Risorse disponibili per uso opportunistico da parte di altri gruppi di ricerca da parte di altri gruppi di ricerca Accanto alle risorse di tipo “grid” dedicate alle VO ufficiali, la computer room di Catania ospita pure 3 siti “grid” che fanno parte della training infrastructure GILDA*, interamente dedicate alla formazione ed alla disseminazione. Come indicato nel report, GILDA è stata usata finora in più di 350 eventi formativi (tutorial, scuole estive, scuole virtuali, corsi universitari e post-universitari, ecc.) organizzati in circa 60 nazioni in tutto il mondo. Il totale di queste risorse ammonta a 64 core (corrispondenti a circa 360 HS06) e a circa 0.5 TB di storage su disco. Alle summenzionate risorse vanno aggiunti 264 core (per un totale di circa 1400 HS06) e 90 TB di storage su disco, di competenza di CMS, che vengono però usati tramite account locali e non via Grid. * http://gilda.ct.infn.ithttp://gilda.ct.infn.it

31 Domenico Elia31Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 7.Risorse disponibili per uso opportunistico da parte di altri gruppi di ricerca da parte di altri gruppi di ricerca Oltre alle risorse di tipo “Grid” ed a quelle ad accesso “non-Grid”, sono recentemente (dopo la stesura del report) stati installati a Catania due siti di tipo “cloud”, uno equipaggiato con OpenNebula e l’altro con OpenStack, che risiedono su 2 server fisici (uno finanziato dal progetto speciale INFN Grid e l’altro dalla CCR) e possono fornire, ciascuno, fino ad un massimo di 30 macchine virtuali dual core (o qualsiasi altra combinazione di un numero minore di machine virtuali con un numero maggiore di core per macchina virtuale). Entrambi i siti sono in corso di certificazione da parte dell’EGI Federated Cloud Task Force. N.B.: il consumo in termini di energia elettrica di tutte le risorse di calcolo e storage elencate nel presente punto 7 è computato nei valori forniti nel report e nel punto 3 precedente.

32 Domenico Elia32Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 8.Indicare se ci sono gruppi di ricerca oltre ad ALICE supportati dal Tier-2 ALICE supportati dal Tier-2 Come si evince da quanto riportato nel precedente punto 7, il Tier-2 è riservato ad ALICE ma la Sezione di Catania gestisce risorse sia di tipo “grid” che “cloud” che sono di supporto a diversi gruppi di ricerca, sia a livello nazionale che internazionale, nell’ambito di progetti nazionali ed europei.

33 Domenico Elia33Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 9.Esplicitare le attività scientifiche svolte dal gruppo legate alla presenza del Tier-2 gruppo legate alla presenza del Tier-2 Il gruppo ALICE di Catania è pienamente coinvolto nelle attività di analisi dati con particolare riferimento allo studio delle risonanze. All’interno del gruppo è stato sviluppato il codice ufficiale utilizzato dalla collaborazione ed il gruppo ha da sempre una leadship nella conduzione delle analisi relative alle principali risonanze barioniche e mesoniche, nei diversi sistemi in collisione (pp, Pb-Pb e p-Pb): Angela Badalà è stata convenor del PAG (Physics Analysis Group) Risonanze nell’ambito del PWG-LF (Physics Working Group su Light Flavour). Il gruppo ha condotto e conduce anche attività relative a simulazione e test dei rivelatori di ALICE, in particolare per il calorimetro elettromagnetico (EMCAL) e il rivelatore a pixel (SPD). Ulteriori dettagli e lista delle pubblicazioni connesse con le attività di analisi e simulazione del gruppo sono fornite in documento a parte.

34 Domenico Elia34Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 9.Esplicitare le attività scientifiche svolte dal gruppo legate alla presenza del Tier-2 gruppo legate alla presenza del Tier-2 Oltre alle attività di Fisica condotte grazie alla presenza del Tier-2, a Catania ci sono ovviamente anche quelle legate allo sviluppo tecnologico portato avanti all’interno dei progetti “grid” e “cloud” regionali, nazionali ed europei. Queste hanno prodotto svariate decine di paper e di contributi a congressi: dettagli disponibili nella pagina di Google Scholar di Roberto Barbera*. * http://scholar.google.com/citations?hl=en&user=W5helEUAAAAJhttp://scholar.google.com/citations?hl=en&user=W5helEUAAAAJ

35 Domenico Elia35Discussione Review Tier-2 / Roma 27-28.1.2014 Catania 10. Margini di espansione del sito Grazie a progetti quali ReCaS e PRISMA, nel corso del corrente anno il sito di Catania aumenterà sensibilmente le proprie risorse di calcolo e di storage e queste verranno gestite, insieme a quelle del Tier-2 e a quelle menzionate nel punto 7, dal personale indicato nel report. Da un punto di vista infrastrutturale, il sito di Catania può certamente supportare crescite pari a diverse volte la dimensione che sarà raggiunta a fine 2014. Manpower: un aumento delle risorse di un fattore 2 rispetto alle dimensioni di “fine 2014” è considerato un valore limite senza un aumento conseguente del numero di unità di personale per la loro gestione. Considerando l’impiego di tool adeguati, ulteriori incrementi delle risorse di calcolo rispetto al fattore 2 in ogni caso non implicherebbero una crescita lineare del personale di gestione del centro.

36 Domenico Elia36Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 3.Precisazioni misura o stima consumi ed efficienza energetica efficienza energetica Legnaro (dai dati nel documento di review): PUE = (75+50) / 75 = 1.7 Il consumo medio attuale è di circa 75 kW per le macchine in sala e circa 50 kW per il raffreddamento, quindi ampiamente entro i limiti dell’infrastruttura Padova (dai dati nel documento di review): consumo macchine: 43% di 200 kW = 86 kW raffreddamento: 35 kW PUE = 121 / 86 = 1.4 W / HS06 ~ 6

37 Domenico Elia37Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 4.Contributi da CSN3, CCR e GE ultimi 5 anni per sviluppo infrastruttura e funzionamento sito per sviluppo infrastruttura e funzionamento sito CCR 2008 11000 Finanziamento parziale modulo 4 porte 10 Gbit per HP5400 + tran-sceiver per collegamento con PD 2010 16000 Switch centro stella T2 2010 9500 Manutenzione fibra LNL-PD 2011 18000 Reintegro centro stella T2 2011 9500 Manutenzione fibra LNL-PD 2012 12000 Ottiche 10 Gbit ER per link LNL-PD 2012 9500 Manutenzione fibra LNL-PD Vedi anche commenti al punto 8.

38 Domenico Elia38Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 5.Impegno della struttura ospitante per manutenzione ordinaria e straordinaria infrastruttura manutenzione ordinaria e straordinaria infrastruttura Legnaro: -Energia elettrica: a carico dei Laboratori -Raffreddamento: manutenzione dei chiller a carico dei Laboratori -UPS: manutenzione e sostituzione batterie a carico dei Laboratori -Rete: l’infrastruttura di rete interna (esclusi quindi i collegamenti verso l’esterno) per la parte Tier-2 è a carico di ALICE e CMS tramite il finanziamento al T2 di CSN1 e CSN3. La parte rimanente a carico dei Laboratori (principalmente Servizio Calcolo, con eventuali contributi degli esperimenti locali che usufruiscono di macchine in sala); gli apparati e le ottiche per l'accesso verso l'esterno, sia a GARR-X che al link Legnaro-Padova, sono stati finanziati dalla CCR. I contratti di manutenzione delle fibre sono a carico del GARR e quindi rientrano nei contributi INFN→GARR.

39 Domenico Elia39Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 5.Impegno della struttura ospitante per manutenzione ordinaria e straordinaria infrastruttura manutenzione ordinaria e straordinaria infrastruttura Padova: -Energia elettrica: a carico dell’Università senza limiti di kW (convenzione in via di rinnovo, vedi punto 6) -Raffreddamento: manutenzione dell’impianto a carico della Sezione -UPS: manutenzione e sostituzione batterie a carico della Sezione -Rete: la rete interna alla sala è tipicamente a carico della Sezione. Acquisti specifici dedicati al Tier-2 (ad es. schede e ottiche 10Gb/s) sono a carico di CMS e ALICE tramite il finanziamento al Tier-2 di CSN1 e CSN3; gli apparati e le ottiche per l'accesso verso l'esterno, sia a GARR-X che al link Legnaro-Padova, sono stati finanziati dalla CCR. I contratti di manutenzione delle fibre sono a carico del GARR e quindi rientrano nei contributi INFN→GARR. Manutenzione straordinaria: Laboratori o Sezione coprono se possibile, altrimenti viene chiesto contributo a CCR

40 Domenico Elia40Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 6.Data di scadenza della convenzione per la fornitura di energia elettrica e limiti di utilizzo. fornitura di energia elettrica e limiti di utilizzo. Solo per Padova: la convenzione precedente e’ scaduta il 15-12-2013 ed attualmente e’ in fase di rinnovo. Nella bozza attuale non sono comunque previsti contributi espliciti per la corrente elettrica da parte dell’INFN, si confermano le condizioni attuali.

41 Domenico Elia41Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 7.Indicare una stima della percentuale dei consumi del Tier-2 rispetto al globale del laboratorio consumi del Tier-2 rispetto al globale del laboratorio Il consumo totale annuo dei Laboratori nel 2013 e’ stato di 18.479.570 kWh. Il consumo annuo del Tier-2 assumendo il valore medio indicato nel documento di 125 kW risulta di 125*24*365 = 1095000 kWh, pari al 6% del totale.

42 Domenico Elia42Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 8.Commenti sui costi aggiuntivi dovuti alla suddivisione del Tier-2 su due siti suddivisione del Tier-2 su due siti I costi aggiuntivi diretti sono quelli riguardanti il link in fibra ottica tra le due sedi: fino al 2012 il contratto di manutenzione della fibra era a carico dei Laboratori (9.5 k€ annui finanziati da CCR), dal 2013 e’ a carico del GARR, quindi il link LNL-PD rientra nel servizio che GARR fornisce all’INFN. A questo bisogna aggiungere il costo delle ottiche 10Gb di tipo ER (Extended Range) negli apparati su cui si attestano le fibre (dipende dall’apparato, ma ~5k€ ciascuna). Da notare che comunque la fibra non e’ ad uso esclusivo del Tier-2 ma e’ una risorsa disponibile per altri servizi e attivita’ in sinergia tra LNL e PD (vedi ad es. il progetto di cloud di calcolo scientifico in comune LNL-PD citato nel par. 7 del documento di review). Non ci sono stati altri costi tipo aumento infrastruttura ecc. in quanto entrambe le sedi erano gia’ dotate di computing room attrezzata.

43 Domenico Elia43Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 9.Completamento descrizione personale con persone in ruoli manageriali e di esperimento persone in ruoli manageriali e di esperimento Per quanto riguarda il personale di esperimento, sia per CMS che per ALICE c’e’ una persona che fa da “interfaccia” tra il Tier-2 e l’esperimento: -Stefano Lacaprara per CMS -Andrea Dainese per ALICE Come ruoli manageriali c’era Gaetano Maron fino ad ottobre 2013 ma ora non piu’ e la sua attivita’ verra’ coperta dal restante personale. Aggiungiamo inoltre i due responsabili del Calcolo delle due sedi (contributi per procedure di acquisto, infrastruttura sale, ecc.): Michele Gulmini per Legnaro e Michele Michelotto per Padova. Il contributo delle singole persone indicate e’ difficilmente quantificabile ma comunque complessivamente stimabile in FTE ~ 20%.

44 Domenico Elia44Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 10. Risorse disponibili per uso opportunistico da parte di altri gruppi di ricerca da parte di altri gruppi di ricerca Da sempre il Tier-2 ospita anche altre VO con delle code dedicate ma senza priorita’, quindi accesso alle risorse solo se sono lasciate libere da CMS e ALICE. La VO che piu’ di tutte ha sfruttato questo uso opportunistico e’ sempre stata LHCB, ma oltre a questa ci sono anche “enmr”, “superb”, “euindia” e “cdf”. Il grafico a fiaco è preso da HLRMon e mostra l’utilizzo del T2 Legnaro-Padova da parte di queste VO nell’ultimo anno.

45 Domenico Elia45Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 11. Margini di espansione del sito Per quanto riguarda l’aspetto del supporto di VO diverse (centro multidisciplinare), va notato che gia’ adesso Legnaro-Padova e’ Tier-2 ufficiale per 2 VO pienamente supportate. Oltre a queste, anche per altre VO minori in passato si e’ offerto un supporto ben maggiore di quello per un uso puramente “opportunistico”: -SuperB: setup di un SE dedicato e supporto produzioni MC, in collegamento col gruppo SuperB di Padova; -Agata: VO di un esperimento di gr.3 ospitato presso LNL nel periodo 2007-2010, ha usato il T2 per lo storage locale, il data management ed il data transfer verso altri siti (setup di SE dedicato e door gridftp); -Enmr: supporto all’integrazione in Grid e poi alle produzioni mediante persona nel progetto europeo EU-NMR nel team del T2 fino al 2010 (S. Badoer); -EuIndia: supporto all’integrazione in grid e poi alle produzioni mediante persona nel progetto europeo EU-IndiaGrid nel team del T2 fino a fine progetto (S. Fantinel). La VO lhcb e’ da sempre abilitata all’uso opportunistico: se pur non vi siano contatti diretti con l’ esperimento, viene naturalmente dato supporto tramite gli eventuali ticket GGUS dell’ infrastruttura EGI.

46 Domenico Elia46Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 11. Margini di espansione del sito Espandibilità del sito LNL (1/2) Calcoliamo la quantita’ massima di HS06 e TB che possono essere installati nella sala attuale ad infrastruttura esistente, senza quindi ipotizzare espansioni di spazio, potenza elettrica o raffreddamento. I rack in sala sono 22, di cui assumiamo 18 disponibili per il T2 e gli altri 4 per utilizzi diversi e servizi. Partiamo calcolando la densita’ per unita’ di rack di HS06 e TB con server e storage attuali (analoghi agli ultimi acquisti effettuati): -server: dual twin con 4 server 32 core su 2U => 64 core per U => 640 HS06 / U -storage: enclosure da 60HD da 4TB in 4U => 15 HD per U => 60 TB / U

47 Domenico Elia47Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 11. Margini di espansione del sito Espandibilità del sito LNL (2/2) I rack nella sala LNL non possono essere riempiti completamente (42 U) per vincoli di peso (max 700Kg di carico utile per rack) e di corrente elettrica (max 3*32A per rack). Con questi vincoli l’occupazione massima risulta: -rack di server: 12 enclosure 2U dual-twin pesano ~500Kg e assorbono ~3*28A, quindi con questi raggiungiamo il limite di potenza (~17 KW/rack).  max 24 U per rack di server -rack di storage: qui c’e’ solo il limite di peso, 5 enclosure 4U da 60HD pesano ~600Kg  max 20 U per rack di storage Ipotizzando di dedicare 9 rack ai server e 9 allo storage otteniamo: Max server: 9 rack * 24 U = 216 U => 138240 HS06 Max storage: 9 rack * 20 U = 180 U => 10800 TB Rapporto HS06/TB di ~13, non distante da quello reale in uso attualmente (~10 per CMS). Naturalmente si puo’ variare il rapporto HS06/TB a seconda delle esigenze.

48 Domenico Elia48Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 11. Margini di espansione del sito Espandibilità del sito Padova Facendo un calcolo analogo per Padova, dove i rack che possono essere dedicati al T2 sono 20, otteniamo gli stessi valori delle densita’: 640 HS06 / U e 60 TB / U In questo caso non ci sono vincoli di peso ma quelli di corrente elettrica per rack sono come per LNL (3 linee da 32A per rack), quindi i limiti sono: -rack di server: come per LNL => max 24 U per rack di server -rack di storage: fino a 9 enclosure 4U da 60HD => max 36 U per rack di storage Ipotizzando 12 rack di server e 8 rack di storage otteniamo: Max server: 12 rack * 24 U = 288 U => 184320 HS06 Max storage: 8 rack * 36 U = 288 U => 17280 TB Sommando le capacita’ max delle due sale: Max server: 322560 HS06 Max storage: 28080 TB

49 Domenico Elia49Discussione Review Tier-2 / Roma 27-28.1.2014 Padova-LNL 11. Margini di espansione del sito Naturalmente Legnaro non avrebbe problemi ad espandersi in maniera anche più significativa potendo contare su un campus con numerose aree libere e sulla disponibilità di una infrastruttura elettrica progettata per fornire potenze ragguardevoli e tipiche del mondo degli acceleratori. Servirebbero in questo caso investimenti mirati allo scopo e che in questo momento non sono però nella road map del laboratorio. Sommando le capacita’ max delle due sale: Max server: 322560 HS06 Max storage: 28080 TB

50 Domenico Elia50Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 2.Giustificare l’uso del pledge per la VAF. Dire se è accounted dall’esperimento. se è accounted dall’esperimento. Le AAF (ALICE Analysis Facilities) sono uno dei due canali approvati dall'esperimento attraverso i quali è possibile produrre risultati ufficiali. La VAF (Virtual AF), come tutte le AAF, è a disposizione di tutta la collaborazione e non solo della comunità locale; tuttavia, per le loro caratteristiche, queste forniscono alle comunità locali un maggiore controllo sui dati a loro disposizione. In particolare la comunità italiana dell'esperimento supporta il lavoro di R&D e le attività di produzione tanto che lo sviluppo di Analysis Facilities basate su tecnologie Cloud è uno dei pilastri delle attività del PRIN STOA-LHC, che però come è noto non prevede il finanziamento di risorse hardware.

51 Domenico Elia51Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 3.Discussione percentuale di utilizzo pledge Al netto delle slot destinate alla VAF (250 core), la percentuale di impiego del pledge è risultata ridotta (70%) nel periodo Aprile 2012 – Marzo 2013. Le attività di R&D, setup e upgrade della VAF e dell'infrastruttura Cloud IaaS, unite all’intempestiva e inattesa dimissione di una persona chiave nello sviluppo e nella gestione del centro (Riccardo Brunetti) hanno provocato alcune inefficienze di gestione (tempi lunghi nella riparazione di guasti o ripristino dell'operatività dopo attività di aggiornamento, lentezza nella messa in produzione delle risorse, eccetera) che spesso riduceva il numero di job slot effettivamente disponibili. A questo si sono sovrapposti alcuni incidenti, tra cui per esempio un guasto a un UPS che ha provocato una serie di problemi a catena nell'alimentazione elettrica, con una serie di stop e un periodo a ridotta operatività tra giugno e luglio 2012, e un altro incidente (problema di configurazione dei nodi) a fine dicembre 2012. Questi due soli episodi hanno contribuito per circa un quarto (8%) alla percentuale di risorse inutilizzate da ALICE.

52 Domenico Elia52Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 3.Discussione percentuale di utilizzo pledge Questi problemi sono oggi risolti, con un’infrastruttura più solida e una riorganizzazione delle attività e delle procedure di gestione del sito, come si può notare dalla migliore occupancy nel periodo più recente (86%). Analiticamente, il 14% di risorse inutilizzate in quest’ultimo periodo: incidente alla VO-Box di ALICE in aprile 2013 due incidenti in agosto 2013, non immediatamente risolvibili da remoto interruzione della produzione di ALICE dovuta a un incidente al CERN (root certificate di AliEn scaduto) riduzione job slot disponibili tra agosto e settembre per un problema di raffreddamento (guasto a una pompa del sistema di produzione dell'acqua refrigerata e problema di approvvigionamento del pezzo di ricambio) sensibile riduzione della produzione di ALICE durante lo stop natalizio In alcuni casi i job slot non occupati da ALICE sono stati occupati da altri esperimenti LHC o dalla VO Biomed e PANDA, in altri il tipo di incidente (problema con il CE CREAM, per esempio) precludeva la sottomissione anche da parte degli altri utenti Grid.

53 Domenico Elia53Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 5.Precisazioni misura o stima consumi ed efficienza energetica efficienza energetica Per come sono realizzati gli impianti elettrico e di refrigerazione del Centro di Calcolo di Torino, è impossibile disaccoppiare i consumi elettrici e la potenza termica dissipata dal Tier-2 da quelle corrispondenti ad altri utilizzatori ospitati in sala macchine: il chiller dell'infrastruttura APC/Schneider lavora in cooperazione con due condizionatori ambientali che raffreddano l'intera sala macchine. Questa ospita anche diverse farm "private" con macchine anche molto vecchie e inefficienti UPS di piccole dimensioni; una stima che prendesse in considerazione l'intero centro di calcolo sarebbe molto pessimistica per quanto riguarda il Tier-2.

54 Domenico Elia54Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 5.Precisazioni misura o stima consumi ed efficienza energetica efficienza energetica Una stima molto approssimativa, calcolata in modo conservativo, è data dal rapporto seguente: P Quadro = potenza totale erogata dal quadro elettrico P blade = potenza assorbita da due blade enclosure temporaneamente alimentate da un altro quadro P CDZ = potenza assorbita da un condizionatore ambientale P PDU = potenza erogata dalla Power Distribution Unit che alimenta il Tier-2 P Servizi = potenza assorbita dall’UPS che alimenta gli armadi dei servizi generali di sezione Il valore è sovrastimato in quanto il quadro elettrico (P Quadro ) alimenta anche numerose altre piccole utenze difficili da scorporare; è quindi da considerare come un limite superiore. L’efficienza energetica, stimata dagli stessi parametri, è di ~ 6 W/HS06, anche questo ampiamente sovrastimato.

55 Domenico Elia55Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 6.Contributi da CSN3, CCR e GE ultimi 5 anni per sviluppo infrastruttura e funzionamento sito per sviluppo infrastruttura e funzionamento sito La CCR ha finanziato in due tranche, nel 2010 e 2012, l'acquisto del core switch modulare del Tier-2 attualmente usato per tutta l'infrastruttura Cloud, e il relativo uplink 10Gb, per complessivamente 27 kEUR (il resto dei moduli e delle porte sono poi stati acquistati con gli overhead dei fondi di CSNIII). Non ci sono stati ulteriori finanziamenti infrastrutturali riferibili al Tier-2 né da CCR né dalla GE né dalle CSN.

56 Domenico Elia56Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 7.Impegno della struttura ospitante per manutenzione ordinaria e straordinaria infrastruttura manutenzione ordinaria e straordinaria infrastruttura L’Università contribuisce attraverso: -manutenzione del sistema antincendio e dei locali -manutenzione dell’alimentazione elettrica e fornitura energia elettrica La manutenzione ordinaria dell'infrastruttura dell’intero Centro di Calcolo, escluse le manutenzioni della parte strettamente informatica, costa ~ 22 kEUR/anno ed è sostenuta dalla Sezione INFN (occasionalmente con il contributo dei gruppi o degli esperimenti). I contratti comprendono anche la manutenzione ordinaria degli apparati infrastrutturali dalla sala PoP-GARR (un UPS e due condizionatori), e di apparati infrastrutturali non esclusivamente riferibili al Tier-2 (due condizionatori ambientali per la sala macchine, uno per gli uffici e un UPS con relativo condizionatore di servizio). Il costo direttamente riferibile al solo Tier-2 è difficilmente scorporabile, ma potrebbe corrispondere molto approssimativamente al 60% di tale cifra.

57 Domenico Elia57Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 7.Impegno della struttura ospitante per manutenzione ordinaria e straordinaria infrastruttura manutenzione ordinaria e straordinaria infrastruttura Per quanto riguarda la manutenzione straordinaria, locali e antiincendio sono a carico dell’Università, mentre per il resto occorre valutare caso per caso: in quanto straordinaria, questa manutenzione non è prevedibile. Finora la Sezione è riuscita a farsi carico delle riparazioni di emergenza (come la sostituzione della pompa del chiller descritta sopra, costata in due successivi interventi circa 3500 EUR, e un precedente guasto all’altra pompa dello stesso condizionatore, la cui riparazione è costata 1800 EUR).

58 Domenico Elia58Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 8.Data di scadenza della convenzione per la fornitura di energia elettrica e limiti di utilizzo. fornitura di energia elettrica e limiti di utilizzo. Non c'è una convenzione specifica per la fornitura di energia elettrica. La convenzione generica tra la Sezione e il Dipartimento di Fisica scadrà nel giugno del 2019. Nella versione attuale non è previsto nulla che possa limitare l'attività del Tier-2.

59 Domenico Elia59Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 9.Completamento descrizione personale con persone in ruoli manageriali e di esperimento persone in ruoli manageriali e di esperimento Altro personale che svolge attività per il Tier-2, in aggiunta a Stefano Bagnasco e Stefano Lusso (1.5 FTE) già nel documento originario della review: Personale Strutturato: Massimo Masera (PA, ALICE, responsabile software ITS, fino al 2012 responsabile del Calcolo di ALICE-Italia) Stefania Bufalino (R, ALICE, coordinamento analisi su VAF) (5%) Elena Botta (R, ALICE, coordinamento analisi su VAF) (5%) Antonio Amoroso (TU, Contatto PANDA, porting del calcolo di PANDA sul Tier-2) (5%) Fabrizio Bianchi (PA, Contatto BELLE2) Marco Maggiora (PA, Contatto BESIII) Tempo determinato e studenti: Sara Vallero (Assegnista PRIN, ALICE) (100%) Dario Berzano (Dottorando, ALICE, sviluppo e supporto IaaS e VAF) (100%) Marco Leoncino, Stefano Trogolo (ALICE, porting analisi su VAF) Alessandro Degano (Borsista, Contatto CMS, porting calcolo di CMS sulla IaaS) (5%)

60 Domenico Elia60Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 10. Risorse disponibili per uso opportunistico da parte di altri gruppi di ricerca da parte di altri gruppi di ricerca Oltre alle VO LHC, il sito di Torino supporta esplicitamente le VO BIOMED, SUPERB, e PANDA (quest'ultima da diversi anni e con una piccola frazione di risorse dedicate) e, da quest'anno, anche CTA, BELLE2 e BESIII, con risorse dedicate finanziate dalle CSN, che stanno entrando in produzione in questi giorni. Da quando esiste l'infrastruttura Cloud IaaS, inoltre, le risorse sono disponibili per l'uso opportunistico anche al di fuori dell'accesso Grid attraverso il meccanismo, in via di ulteriore sviluppo, delle Virtual Farm on-demand, e i gruppi I e IV hanno recentemente finanziato l’acquisto di risorse dedicate all’uso estemporaneo.

61 Domenico Elia61Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 11. Margini di espansione del sito Per quanto riguarda lo spazio fisico, la sala macchine, con una banale riorganizzazione dello spazio, potrebbe agevolmente ospitare un raddoppio del numero di armadi, che potrebbero anche triplicare con qualche intervento più radicale (principalmente lo spostamento dell'UPS). L'impianto di distribuzione dell'acqua refrigerata è predisposto e opportunamente dimensionato per coprire tutta la sala, e anche le linee elettriche di alimentazione sono al momento usate circa al 30%. L'apparato di refrigerazione, la cui potenza di targa è 80 kW, è sfruttato nei momenti di massimo assorbimento per circa il 50%. Il principale fattore limitante viene al momento dall'UPS MGE/Schneider Galaxy 5000 da 80kVA, usato al momento al 60%.

62 Domenico Elia62Discussione Review Tier-2 / Roma 27-28.1.2014 Torino 11. Margini di espansione del sito Nell'ipotesi di sostituire tutte le macchine esistenti con quelle acquistate attraverso l'ultimo accordo-quadro (320 HS06/rack unit) e aggiungendo risorse di calcolo fino a saturare la capacità dell'UPS (supponendo che i consumi complessivi scalino con la sola potenza di calcolo) si arriva a calcolare che senza alcun intervento infrastrutturale la capacità di calcolo del sito può crescere fino a circa 22 kHS06 (doppio dell'installato attuale). Ipotizzando di attrezzare la sala con nuovi rack fino a saturazione dello spazio disponibile, e nell'ipotesi di occupare circa 1/3 dello spazio con unità di calcolo, si arriva a un limite inferiore di circa dieci volte la capacità attuale, che richiede però un adeguamento dell'UPS e dei chiller. Manpower: una crescita moderata (oltre alla crescita fisiologica delle risorse dedicate ad ALICE) è gestibile con il personale attuale, anche grazie alle semplificazioni introdotte con l'infrastruttura IaaS. In caso di necessità, una riorganizzazione che preveda il coinvolgimento del personale tecnico del Servizio Calcolo della sezione dovrebbe permettere di recuperare 0.5-1 FTE.


Scaricare ppt "Domenico Elia1 Review Tier-2 ALICE Domenico Elia (INFN Bari) Discussione Review Tier-2 / Roma 27-28.1.2014 Discussione Review Tier-2 Roma, 27-28 Gennaio."

Presentazioni simili


Annunci Google