Il Calcolo non LHC in CSN1 G. Carlino, INFN Napoli CSN1 – Firenze 20 Luglio 2015
L’ infrastruttura di calcolo LHC CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC2 Il Calcolo LHC svolge e svolgerà sempre un ruolo primario per il calcolo in CSN1 L’infrastruttura messa in piedi per il calcolo LHC (T1 e 10 T2) ha raggiunto un livello di maturità e dimensioni tali da poter essere convenientemente ed efficacemente utilizzata da tutti gli esperimenti della commissione (e non solo) L’evoluzione tecnologica (cloud, rete..) rende possibile una centralizzazione delle risorse e l’abbandono dei cluster locali E’ logico e necessario pensare che tutti gli esperimenti INFN, non solo di CSN1, possano utilizzare questa infrastruttura allo scopo di ottimizzare l’utilizzo delle risorse di calcolo e minimizzare le spese L’infrastuttura non è comunque sufficiente per soddisfare le necessità dei prossimi anni: si sta investigando la possibilità di utilizzare risorse diverse (Recas Uni ……) laddove tecnicamente possibile ed economicamente conveniente
Osservazioni finali (Luglio 2014) CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC3 Gli esperimenti non LHC sono inseriti in gran parte nella infrastruttura LHC e molti hanno dimostrato notevoli capacità di adottare i più moderni tool E’ necessario che la CSN1 individui delle linee precise per il finanziamento del calcolo degli esperimenti Ricordiamo che la CSN1: non finanzia Tier3 LHC finanzia solo risorse di calcolo, costi infrastrutturali e di manutenzioni sono rimandati a strutture diverse (CCR, Sezioni, Fondi Esterni). Proponiamo che: Gli esperimenti che richiederanno notevoli risorse di calcolo (tipo Belle II) è necessario che definiscano accordi precisi tra la collaborazione e l’INFN e seguano la procedura standard per l’ufficializzazione dei siti Gli esperimenti che chiedono piccoli finanziamenti in termini strutturali (O(10kE) anno) è necessario che si integrino nell’infrastruttura esistente al fine di ottimizzare l’uso e la gestione delle risorse e tagliare i costi infrastrutturali. Le richieste devono essere giustificate in maniera dettagliata e devono chiarire quanto le risorse sono un contributo al calcolo dell’intero esperimento o solo per uso locale Casi particolari, infrastrutture già esistenti e operative da anni, valutati a parte
Il calcolo non LHC in CSN1 CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC4 Il Calcolo degli esperimenti LHC si basa su regole ben precise: MoU o accordi con le collaborazioni, risorse pledged in base al numero di autori Il Calcolo degli esperimenti non LHC è più variegato: Belle II ha assunto un modello simile a quello LHC: definizione di un MoU, share proporzionali agli autori, utilizzo delle infrastrutture del Tier1 e di Tier2 LHC NA62 intende calcolare al Tier1 con share proporzionali agli autori LHCf calcola al Tier1 Bes III, Compass (in parte) puntano ad utilizzare un Tier2 LHC Kloe è ovviamente un caso particolare, fungendo anche da Tier0 e Tier1
LHCf CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC5 Richieste finanziarie Risorse disponibili al CNAF: –CPU: 2 kHS - Disco: 30 TB Richieste: –Disco: 30 TB = 7.2 kE –Necessario in quanto la quota disponibile è quasi totalmente occupata referaggio con i referee dell’esperimento a settembre
NA 62 – Computing Model CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC6 Pass-0 reconstruction and calibrations at T0 Pass-1+ reprocessing at T1’s Analysis at T1’s Monte Carlo at T2’s Computing resources/year Two steps: First phase, process at T0 and distribute RECO to T1’s for analysis 30% of RECO at INFN-T1 Analysis: 300 TB disk 3 kHS06 CPU Step 2: T1’s also contribute to reprocessing +Additional disk for staging +50% +Additional CPU for processing: +100% +300 TB tapes for holding RAW Risorse finanziate per il 2015 al CNAF non ancora utilizzate, non presentano nuove richieste per il 2016
Belle II CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC7 Computing Model simile a quello WLCG: 1 Tier1 e 3 Tier2 (Napoli, Pisa e Torino) + altri siti per uso opportunistico (Frascati, Legnaro) In corso varie attività di computing e software: – Computing: produzione MC, sviluppo del CM, studi di networking (S. Pardi co- responsabile del networking), gestione del DIRAC server – Software: tracking, ECL, tool di analisi (PI, PG, LNF, NA)
Belle II CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC8 L’Italia ha partecipato alla campagna MC di primavera con un ottimo contributo (28%) maggiore alla percentuale degli autori (10%)
Belle II CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC9 Risorse necessarie fino alla presa dati Le richieste vengono presentate al BPAC per essere referate, stime disponibili ancora non ufficiali e referate Lavoro più lungo del previsto, è previsto che vengano fornite a breve. F. Bianchi, nuovo chair del Computing Scrutiny Group di Belle II e regional coordinator per l'Europa, è in charge Sono definiti i parametri di input ai calcoli: potenza per evento (HS06 sec) per simulazione, ricostruzione, segnale e background e dimensioni degli eventi Stima risorse necessarie
Belle II CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC10 Contributo Italiano (12%) per Risorse disponibili pledged: CNAF: 5 kHS TB Napoli / Recas: 13 kHS TB Risorse disponibili per uso occasionale non pledged 21 kHS in vari siti (NA e CS Recas, PI e TO) Richiesta Nuove Risorse 2016: non sono necessarie risorse aggiuntive 2017 – da anticipare al 2016 in s.j. o in tasca indivisa: – 6 kHS TB (~120 kE) al Tier2 di Torino – da referare a settembre Motivazione: necessità delle risorse a inizio 2017 e utilizzo condiviso con Bes III nella cloud elastica in corso di sperimentazione (vedi richieste Bes III)
Il Data Centre di Torino CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC11 Condivisione delle infrastrutture tra gli esperimenti. Esempio Sezione di Torino. necessaria per ovviare all’aumento di risorse nei siti e alla varietà di applicazioni senza un adeguato incremento del manpower Acquisti HW in comune (costi migliori) e trasparenti agli esperimenti L’approccio Cloud (IaaS) ottimizza la fornitura di risorse a utenti diversi Siti grid Farm Utenti singoli
Bes III CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC12 Modello di calcolo distribuito Torino unico sito con approccio grid on cloud in produzione Risorse disponibili: 2 kHS (+ 0.7 shared) e 50 TB 1 Gb/s bandwidth con IHEP sono in corso sperimentazioni su un test bed dedicato per la migrazione dell’intero computing model alla cloud RECAS 200 cores e 30 TB dedicati nel 2015 Utilizzo opportunistico di altre risorse Possibile aumento delle risorse dedicate nel 2016 se si dimostra di saturare le attuali
Bes III – Cloud Testbed a Torino CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC13 Attività IHEP – INFN, non solo BESIII Testbed previsto per attività progetto VLDATA in H2020 non finanziato (s.j.) Contributo sostanziale del Computing Centre della Sezione di Torino 64 core e 12 TB dedicati Replica di una infrastruttura di produzione full cloud Il goal è di ottenere una cloud elastica: istanziamento e rilasciamento elastico delle VM al fine di saturare l’uso delle risorse Estensione ad altri esperimenti (Belle II dalla fine del 2016) Richieste finanziarie Necessario aumentare il numero di core per simulare una reale infrastruttura di produzione con un numero adeguato di VM Richiedono subito il finanziamento di 100 core – 12 kE come anticipo del 2016 e non sono previste ulteriori richieste Sebbene sia un R&D riteniamo che effettivamente l’INFN tragga vantaggio da questa attività sia in termini di reputazione scientifica che economici: Richieste ridotte sull’infrastruttura di produzione (rispetto agli FTE) L’aumento dell’efficienza nell’uso delle risorse permette di ottenere gli stessi risultati con meno risorse (overlap delle risorse come al CNAF)
Compass CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC14 Il CM originale local storage oriented basato su una struttura a 2 Tier CERN –Central Data Recording –Ricostruzione Home Institutes –Produzione MC –Filtering –Analisi Integrazione nella GRID per produzione MC La collaborazione (italiana) si sta impegnando nei test di tool avanzati di gestione dei job e dei dati già usati in altri esperimenti LHC Passo fondamentale per il passaggio ad un completo sistema di computing distribuito e per interfacciarsi a qualsiasi sistema cloud
Compass CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC15 Nei maggiori centri internazionali (FR e DE Tier1) a disposizione risorse locali e non si prevede il passaggio a breve ad una forma di cloud L’esperimento vuole comunque definire un body per coordinare l’uso delle risorse locali nei vari paesi
Compass – Siti Italiani CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC16 Richieste finanziarie Torino: –CPU: 1 kHS = 12 kE & Disco: 20 TB = 4.4 kE –Aumento delle risorse per Drell-Yan data Trieste: –CPU: 0.5 kHS = 6 kE – Disco: 40 TB = 8.8 kE –Mantenimento dell’attuale potenza di calcolo solo a titolo indicativo, non discusse né referate
Compass – Siti Italiani: TO CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC17 Farm di Torino (stand alone cluster): 2.8 KHS CPU + ~50 TB Disk Il gruppo di Torino ha svolto nel 2014 dei test con esito positivo per integrarsi nell’ infrastruttura di cloud della sezione –Creazione di una replica dell’ attuale farm di esperimento –Esecuzione di MC, analisi e simulazione FLUKA Al momento in uso sia la farm standard (non migrata in cloud) sia la cloud con ~ 50 core Piani futuri: migrazione degli utenti sul cloud e installazione DIRAC server
Compass – Siti Italiani: TO CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC18 Monitoraggio dell’uso delle farm (jobs) -Necessari plot con l’utilizzo dei core o del WC/CPU time in funzione del tempo
Compass – Siti Italiani - TS CSN1 - 20/07/15G. Carlino - Il Calcolo non-LHC19 Farm di Trieste inserita in una farm di sezione multi-esperimento e multi- disciplinare di dimensioni 1/3-1/2 rispetto al Tier2 medio e dotata di una tape library per archivio –Compass ha a disposizione 2.4 kHS e 60 TB Possibile sia accesso locale che grid, in sperimentazione l’implementazione di un’infrastruttura cloud basata su OpenStack Attività standard: analisi e Monte Carlo production per studi sul p T wheighting methods Nuova attività: test del computing sulla locale infrastruttura –Infrastruttura di test basata su OpenStack con limitate risorse disponibili (10 TB e 40 core) Collaborazione con il gruppo di Alice TS Da avviare una discussione con il CNAF per il trasferimento dei dati ed eventuali attività