Review dei Tier-2 degli esperimenti LHC S.Pirrone INFN-Sezione di Catania per il gruppo dei referee CNS Giugno 2014 LNGS
Review Tier 2 esperimenti LHC Luglio Gennaio 2014 Luglio 2013: GE e CSN1 e CSN3 decidono di fare una review dei Tier-2 per valutare la sostenibilità dei centri negli anni a venire Settembre 2013: la GE nomina i referee e definisce il mandato della review – D.Lucchesi (coord.), B.Bertucci, G.Carlino, C.Grandi, S.P., P.Spagnolo, V.Vagnoni – Richiesta inviata ai responsabili locali dei Tier-2, di concerto con i Direttori delle Sezioni coinvolte, di preparare una relazione rispondendo ad una serie di domande entro metà Novembre 2013 Novembre 2013: 10 documenti, 200 pagine in totale, resi disponibili al gruppo dei referee Gennaio 2014: analisi dei documenti terminata – Formulazione domande per chiarimenti da inviare ai centri Gennaio 2014: incontro in presidenza con i rappresentanti dei siti – Presentazione a caldo dei risultati della review In corso: redazione di una relazione scritta
I Tier-2 INFN 4 ALICE – Bari, Catania, LNL, Torino 4 ATLAS – Milano, LNF, Napoli, Roma1 4 CMS – Bari, LNL, Pisa, Roma1 1 LHCb – CNAF
Struttura dei documenti Breve storia del centro e stato attuale Descrizione dell'infrastruttura che ospita il Tier-2 includendo spazi, corrente elettrica e raffreddamento. Tabella che mostri le risorse di ciascun sito Infrastruttura di rete del Tier-2 Supporto della struttura ospitante per il pagamento del raffreddamento, corrente elettrica, rete o altri contributi Qualsiasi altro dettaglio che possa aiutare nel valutare il Tier2 ( PUE= power usage effectiveness….)
Domande Efficienza e ritorno dell'investimento – ciascun sito da all'esperimento di riferimento quanto questo si aspetta comparato al livello di finanziamento e supporto dato? – … Infrastruttura – il sito ha l'infrastruttura, spazio, potenza elettrica, raffreddamento e rete, necessari per ospitare l'espansione prevista per i prossimi 3 anni? Peculiarità – Il sito ha sviluppato caratteristiche che lo rendono unico e costituiscono un valore aggiunto per la struttura ospitante, come per esempio, ricerca tecnologica, esperienza sistemistica avanzata o altro? – Queste caratteristiche sono importanti e quantificabili per l'esperimento LHC di riferimento? Risorse umane – Il sito ha un numero sufficiente di persone per mantenere tutte le attività? Provvedimenti possibili – Sono state identificate delle possibili criticità che dovrebbero esser affrontate? – Dal confronto con gli altri Tier 2 sono emersi miglioramenti che possono essere apportati adottando pratiche gia in uso in altri Tier 2 ?
Tier-2 di Torino Findings – Sito multi-VO, supporta vari esperimenti tra cui BESIII, Belle2, CTA – Il personale del Tier-2 è molto coinvolto in attività di R&D su cloud – Virtual Analysis Facility (VAF) di Alice è in produzione per tutto l'esperimento – Attività di ricerca tecnologica con contributo alle operations dell’infrastruttura distribuita – Sito ha buone prestazioni anche in mancanza di un gruppo elettrogeno, unico Tier-2 che dichiara di non averne bisogno – Si evidenzia la necessità di un secondo chiller a breve termine – Il sito ha una moderata capacità di espandersi oltre le esigenze di LHC Commenti – Si nota che parte delle risorse pledged per il Tier-2 sono state usate per la costituzione della VAF e non accounted nel sistema dell'esperimento Raccomandazioni – Si raccomanda che il responsabile del sito e il coordinatore del calcolo nazionale interagiscano con il management di Alice perché l'attività della VAF sia riconosciuta e dichiarata a livello RRB nell'ambito delle risorse pledged e che il loro uso sia registrato nell'accounting del sito.
Tier-2 di Catania Findings – Il personale è sempre stato molto coinvolto in progetti di calcolo distribuito sia nello sviluppo che nelle operations Grid. Inoltre e' stato promotore di progetti con forte impatto sul territorio – Il personale e' fortemente coinvolto in molte attività di divulgazione e formazione. – Per quanto riguarda le possibilità di espansione, il sito ha già dimensioni maggiori rispetto alle esigenze del Tier-2 ed e' multidisciplinare – Il sito ha avuto negli ultimi due anni meno risorse pledged degli altri di Alice Commenti – Si osserva che sono stati risolti i problemi legati al pagamento dell'energia elettrica che si sono verificati negli anni E' in atto la convenzione per il pagamento della energia elettrica che non prevede alcun contributo per la realizzazione dell'impianto fotovoltaico. – Osserviamo che ci sono ancora margini di miglioramento per efficienza di CPU rispetto agli altri Tier-2 di Alice italiani, seppur in linea con la media mondiale.
Tier-2 di Legnaro-Padova Findings – Sito mostra ottime prestazioni rispetto a tutti i Tier-2 degli esperimenti Alice e CMS supportati – Il personale del sito è sempre stato molto attivo in attività di ricerca tecnologica e operations dell'infrastruttura distribuita – Sito multi-VO – Ad oggi il sito ha dimensioni molto maggiori rispetto alle esigenze dei Tier-2 Commenti – La distribuzione del sito su due sedi, sezione di Padova e laboratori di Legnaro, risulta particolarmente sinergica ed efficiente nell'ottimizzazione delle risorse umane e infrastrutturali
Tier-2 di Bari Findings – Il personale del sito e' attivo nell'ambito della ricerca tecnologica e delle operations di infrastruttura distribuita – Il sito ha sofferto ripetuti problemi tecnici e infrastrutturali che ne hanno ridotto l'utilizzo rispetto alle risorse pledged. I valori numerici sono nella tabella finale – Sito multi-VO – Ad oggi il sito ha dimensioni maggiori rispetto alle esigenze dei Tier-2 e si prevede una forte espansione grazie a RECAS Commenti – Si nota che è in corso il rinnovo della convenzione INFN- Università nel quale sarà ridiscusso anche il pagamento della corrente elettrica che potrebbe avere dei limiti di utilizzo
Tier-2 di Pisa Findings – Sito multidisciplinare in particolare ospita il Cluster Nazionale di Fisica Teorica – Sito multi-VO – La collaborazione con l'industria ha contribuito all'espansione del sito – Il Tier-2 rappresenta oggi il 20% del centro di calcolo che globalmente non offre particolari possibilità di espansione – Il personale del sito e' attivo nell'ambito della ricerca tecnologica – A causa di problemi contingenti sul hardware dello storage, ora risolti, si e’ verificata una limitata riduzione della availability. Commenti – Si nota la buona collaborazione con l'industria.
Tier-2 di Roma I (CMS) Findings – Utilizzo delle risorse è relativamente basso rispetto alle pledge anche a causa di ritardi nelle sostituzioni – Il sito risulta tra i migliori secondo le metriche di esperimento – Si evidenzia la necessità di una espansione del UPS. Commenti – Si nota che parte delle risorse pledged per il Tier-2 sono state usate per la calibrazione del calorimetro in locale e non accounted nel sistema dell'esperimento – Attualmente il sito non e' aperto all'uso opportunistico delle risorse ma si dichiara disponibile ad aprire ad altre VO senza fornire supporto Raccomandazioni – Si raccomanda di uniformare l'installazione dei worker nodes in modo da consentirne l'uso comune da parte delle VO ospitate – Si raccomanda che il personale tecnico e tecnologo sia condiviso nel supporto di entrambi i siti – Si raccomanda che in caso di un cambiamento di tecnologia per il calcolo distribuito i due siti siano unificati – Si raccomanda che le risorse utilizzare per attività ufficiale di calibrazione vengano trattate nel sistema di accounting
Tier-2 di Roma I (ATLAS) Findings – Il sito risulta tra i migliori di ATLAS nella metrica di esperimento – Il personale è coinvolto in attività di ricerca tecnologica su cloud – Si evidenzia la necessità di una espansione del UPS Raccomandazioni – Si raccomanda di uniformare l'installazione dei worker nodes in modo da consentirne l'uso comune da parte delle VO ospitate – Si raccomanda che il personale tecnico e tecnologo sia condiviso nel supporto di entrambi i siti – Si raccomanda che in caso di un cambiamento di tecnologia per il calcolo distribuito i due siti siano unificati
Tier-2 di Frascati Findings – Sito multi-VO – Personale coinvolto in progetti di ricerca sulla rete con collaborazioni a livello locale e attività di formazione – Progetto di green infrastructure in corso – I consumi del Tier-2 sono compresi tra 1.4% e 3.1% del consumo del laboratorio – Upgrade della rete a 10 Gbps prevista per febbraio-marzo – Il sito presenta ampi margini di espansione Commenti – Possibilità di riduzione del PUE grazie a progetti di recupero dell'energia – Notiamo che il responsabile del Tier-2 è una persona con contratto a tempo determinato
Tier-2 di Milano Findings – Sito multi-VO – Il personale del sito è attivo nell'ambito della ricerca tecnologia sull'infrastruttura distribuita – Il sito mostra periodi di bassa availability dovuti a problemi sul sistema di storage ora risolti. La media è comunque accettabile – E' prevista la costruzione da parte dell'università di un nuovo edificio per ospitare il centro di calcolo e il Tier-2. Ciò garantirà un discreto margine di espandibilità Commenti – Notiamo che c’è una significativa presenza di personale con contratto a tempo determinato nella gestione del sito
Tier-2 di Napoli Findings – Il personale del sito è ed è sempre stato attivo nell'ambito della ricerca tecnologica e delle operations sull’infrastruttura distribuita – Sito multidisciplinare – Ad oggi il sito ha dimensioni maggiori rispetto alle esigenze dei Tier-2 e si prevede un’ulteriore espansione grazie a RECAS Commenti – Non si rilevano particolari criticità
Tier-2 LHCb Non è stato oggetto di review, essendo questo completamente integrato all’interno dell’infrastruttura del Tier-1 al CNAF Si è tuttavia discusso dei cambiamenti del modello di calcolo di LHCb, che ora prevede che i Tier-2 possano essere dotati di disco e fare alcune delle funzioni che originalmente erano svolte in modo esclusivo dai Tier-1 – I cambiamenti al modello sono dovuti al fatto che LHCb ha strutturalmente una carenza di disco ai Tier-1 – Se le pledge vengono finanziate dai vari Paesi (e in particolare dall'INFN) moltiplicando le raccomandazioni del C-RSG per la frazione di autori (tipicamente la frazione di MOF-A), le risorse ottenute sono per definizione minori della raccomandazione, in quanto la somma delle frazioni degli autori dei soli Paesi dotati di Tier-1 (IT, UK, FR, DE, NL, ES) si attesta intorno al 65% Si pone anche per l’INFN la domanda di come garantire negli anni a venire una quota disco ritenuta “sufficiente” – Una possibilità è quella di creare un Tier-2 LHCb e dotarlo di un sistema di storage
* Tutti i siti hanno un rapporto used/pledge ridotto nel 2013 a causa della ritardata conclusione della gara ** Gli HS utilizzati tengono conto dell’uso locale di risorse pledged per la calibrazione del calorimetro non registrato nell’accounting WLCG (1/4 delle pledge) *** Gli HS utilizzati tengono conto dell’uso di risorse pledged per l’attività di analisi nella VAF non registrato nell’accounting WLCG (1/5 delle pledge)
Bari2015 Catania2019 Padova2013 (è stata rinnovata) Milano2016 Napoli2016 Pisa2017 Roma2018 Torino2019 Scadenza Convezioni Sezione – Università I costi legati ai locali / consumi elettrici sono a carico delle Università nell’ambito delle convenzioni tra INFN ed Atenei Convenzioni con università su consumi elettrici
Contributi CSN/CCR/GE per infrastruttura In tutte le strutture la sezione (direzione+eventuali overhead di esperimenti) copre i costi di manutenzione ordinari e straordinari degli impianti legati ai Tier-2 nei limiti delle disponibilità contributi extra erogati da CCR, CSN e GE in casi particolari La CCR copre generalmente i costi per HW legato alla connettività in rete per tutti i Tier-2 ed occasionalmente rotture di HW di infrastruttura (ad es. UPS) non coperti in sezione
Conclusioni La fotografia dei Tier-2 emersa da questa review evidenzia una situazione molto positiva In generale tutti i siti sono ben strutturati e l'utilizzo delle risorse ben ottimizzato Il personale è ben impiegato e in media si può evincere una partecipazione ad alto impatto scientifico sul calcolo degli esperimenti serviti Il coinvolgimento di personale a TD non risulta critico per la sopravvivenza dei siti ma ne garantisce eccellenza I siti hanno una infrastruttura adeguata L'efficienza energetica è stimata a spanne dell'ordine di (PUE) Si ritiene che sia importante che i siti si dotino di opportuna metodologia e strumentazione per la misurazione dell'efficienza energetica in modo da poter identificare criticità e ottimizzare i consumi elettrici