G. Carlino, D. Lucchesi, V. Vagnoni Referaggio CALCOLO Esperimenti non LHC G. Carlino, D. Lucchesi, V. Vagnoni CSN1 – Torino 13 Settembre 2017
Referaggio CALCOLO esperimenti non LHC Non c’è solo LHC Esperimenti non LHC di CSN1 che calcolano in Italia: Belle II, Bes III, CDF, Compass, Kloe, LHCf, NA62, Padme Esperimenti Tier1 Tier2 LHC Farm locali Belle II * NA – PI - TO Bes III TO - (NA) CDF Compass * (in test) TO TS KLOE * (tape) LHCF NA62 PADME LNF CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC Costi Unitari C.U. determinati in base all’esito di gare recenti e indagini di mercato 2016 – 2017 – 2018 CPU T1: 14 – 10 – 8 €/HS CPU T2: 12 – 10 – 8 €/HS Disco T1: 240 – 200 – 170 €/TBn Disco T2: 220 – 200 – 170 €/TBn Tape: 25 – 25 – 25 €/TB CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC Richieste 2017 non LHC Esperimenti Richieste CSN1 (k€) Richieste GE (k€) Belle II 80 68 Bes III 14.5 Compass 16.5 + 5. s.j. KLOE 142.5 + 3 s.j. 12.5 LHCF 19.5 NA62 5 PADME 53 18 Totale 2018 306.5 + 8 s.j. 115 Totale 2017 307 + 26 s.j. 99.5 Totale 2016 496.7 + 80 s.j. Totale 2015 388 + 52.5 s.j. CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC Belle II Ruolo importante pure nelle campagne MC 2016-17 con contributi superiori allo share IT Computing Model simile a quello WLCG: 1 Tier1 e 3 Tier2 (Napoli, Pisa e Torino) + altri siti per uso opportunistico (Cosenza, Frascati, Legnaro) Media 2017 piuttosto bassa. Nei periodi di run si utilizzano con alta efficienza le risorse ma molti periodi di interruzione dovuti ai ritardi per finalizzare le release sw o per preparare i Dress Rehearsal o i run di cosmici MANPOWER Schedula di attività troppo dense CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC Belle II – Attività 2018 Produzione MC (share 14%), presa dati Fase2 e Fase 3 CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Belle II – stima risorse BPAC Risorse necessarie nel 2018 Intensa attività di review nel BPAC (3 incontri da giugno 2016) che ha portato ad una stima realistica delle risorse 2018. Ancora da referare gli anni successivi CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Belle II – stima risorse CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Belle II – stima risorse IT Share IT = 14% Necessità di anticipo di parte delle risorse dell’anno successivo (25%) (2019 per risorse 2018) poiché il run si sviluppa su due anni con shutdown estivo CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC Belle II Pledge 2018 DIsponibili Nuove Proposta Richiesta CPU (kHS) Disco (TB) kE ITALIA 33 875 25 450 8 400 132 148 CNAF 9 150 4 200 66 68 Napoli 13 300 Pisa 80 Torino 3 Richiesta: 1 kHS a Pisa per l’Analysis Farm Interactive analysis farm (CMS + altri) già esistente e testata Approvata da Belle II Italia La CSN1 non finanzia Analysis Farm inoltre in CM di Belle prevede risorse per l’analisi. L’ultima fase di analisi sulle ntuple può essere effettuate su risorse esistenti nei siti CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC BES III Tier2 nell’ infrastruttura Cloud nella sezione di Torino Risorse dedicate: ~ 2 kHS + 60 TB Utilizzo di Recas Napoli con successo dal 2015 (senza risorse pledged) e non necessarie ulteriori risorse dedicate a Torino per le attività core Richieste nel DB: Torino = 7 kE Incremento RAM a GB per core per 2 server DELL utilizzati per R&D di un tool di installazione automatica della cloud, attività che costituisce un WP del progetto RISE ed è in collaborazione con Belle II per esportare la tecnologia anche nei siti giapponesi Ferrara: server HP Proliant in convenzione CONSIP = 7.5 kE Sostituzione vecchio server con uno nuovo molto performante per sviluppo codice, simulazione e analisi test beam CGEM Attività critica e continua che richiede gestione locale del server Proposta Torino – finanziamento con fondi dot1 Torino 2017 Ferrara - 7.5 kE (anticipabile/anticipata al 2017) CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC Compass – TO Richieste CPU: 0.5 kHS s.j. = 5 k€ Sostituzione risorse fuori manutenzione Disco: 20 TB = 4.5 k€ Nuova produzione Drell Yann Scheda FC = 1 k€ Proposte CPU: 4 k€ Dimostrato l’uso continuo e sufficientemente efficiente delle risorse ma non ancora efficacemente integrato nella cloud. I nodi non vengono rilasciati quando non in uso. Si chiede di ottimizzare questo aspetto coordinandosi con il Centro di Calcolo di Torino Disco: 3.5 k€ CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC Compass – TS Richieste CPU: 0.5 kHS = 5 k€ Sostituzione risorse obsolete Disco: 30 TB = 6 k€ Per caratterizzazione e tuning del RICH su RAW. Storage su EOS in via di saturazione con dati DVCS/SIDIS 2016-2017. Storage su gpfs saturo Proposte CPU: 4 k€ Risorse non finanziate da molti anni. Anche se non è ancora disponibile un accounting della farm in via eccezionale si propone il finanziamento poiché la collaborazione ha dimostrato attività per integrazione in Big Panda. Si richiede di finalizzare questa attività per poter utilizzare il CNAF. L’INFN non può garantire nel futuro il finanziamento di farm locali Disco: 5 k€ Spazio disco quasi saturo. Con questa assegnazione si saturerà subito. Da utilizzare lo spazio disco disponibile al CNAF CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC LHCf Risorse disponibili al CNAF CPU 4 kHS, Disco 70 TB Utilizzo continuo delle CPU, media ~3.66 kHS Disco occupato per metà (34 TB) Richiesta CPU : 2 kHS = 16 k€ Disco 20 TB = 3.5 k€ Richiesta e Proposta 2018 Disco – se necessario, fornitura in corso di 2018 Accounting CPU 5 kHS CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC NA62 Attività di computing prevalentemente al CERN. Interesse a sviluppare un computing model più maturo per le esigenze di analisi della collaborazione utilizzando più intensamente le risorse fuori CERN. Disponibili al CNAF: Disco: 250 TB CPU: 3 kHS Nuova Richiesta Tape: 200 TB = 2.5 k€ Proposta Tape 200 TB = 2.5 k€ \ CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC PADME Calcolo off-line Attività molto intesa e con ottimi risultati (anche per il limitato mp) Simulazione - PadmeMC Tutti i detector simulati Informazioni salvate in formato ROOT Tempi di simulazione: ~ 3 s/event - ~ 3 HS sec/event Dimensioni: O(10) kB/event (digi) Ricostruzione - PadmeReco In fase di sviluppo Input eventi da on-line o PadmeMC GRID Padme utilizza completamente e con successo al GRID: accesso al Tier2 di LNF (risorse pledged) e al CNAF Interfacce grid funzionanti verso la tape library del CNAF e il sistema di storage di LNF Copia automatica dei dati dal DAQ allo storage del TIer2 e alle librerie di LNF e del CNAF e del MC sulle librerie CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC PADME Richieste (tutte su RM1) CPU: 3 kHS (2 kHS@Tier2 LNF e 1 kHS@ CNAF) = 24 k€ Tape: 400 TB @ CNAF = 10 k€ Tape Library @ LNF = 19 k€ Discussione con KLOE per utilizzare la library a LNF per seconda copia RAW. Espansione 20 TB disco buffer e 500 TB tape (300 RAW + 100 sim + 100 reco) Proposte (al CNAF e LNF) CPU: 3 kHS 1.5 kHS @ Tier2 LNF = 12 k€ 1.5 kHS @ CNAF = 12 k€ Attività molto soddisfacente nell’utilizzo della GRID per tutte le attività. Necessità di bilanciare le CPU nei 2 siti Tape @ CNAF = 10 k€ Libreria @ LNF = 11.5 k€ Disco 20 TB = 3.5 kE Richiesta espansione spostata eventualmente al prossimo anno Tape 300 TB = 8 k€ Finanziata solo la seconda copia dei RAW CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC KLOE Il sistema di calcolo di KLOE si basa su nodi di calcolo e server con macchine PowerPC e sistema operativo proprietario IBM, libreria IBM con tape drive da 10 TB a cassetta e sistemi disco SAN/DAS come front-end della libreria e buffer Intenso lavoro di riorganizzazione delle risorse di calcolo CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Referaggio CALCOLO esperimenti non LHC KLOE – Richieste 2018 Capitolo Oggetto Richiesta Richiesta SJ CON 1 PB nastri + contingenza 26.5 3.0 MAN Dischi, librerie, server, switch, etc. 85.0 0.0 APP Forfait sostituzione guasti vecchi sistemi fuori manutenzione 15.0 Acquisto nuovo PowerPC Power8 in sostituzione di vecchi server libreria 16.0 Totale 142.5 Dalla manutenzione vanno scorporati 12 kE relativi alla manutenzione dei due vecchi server che vengono sostituiti nel caso di acquisto di un nuovo Power8 In aggiunta, rabbocco di 500 TB di tape al CNAF per copia secondaria (12.5 kE) Ma questi per il 2018 saranno finanziati dalla GE Sono comunque da inserire su CALC1-TIER1 CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
KLOE – Proposte assegnazione Capitolo Oggetto Assegnazione Assengazione SJ CON 1 PB nastri + contingenza 26.5 3.0 MAN Dischi, librerie, server, switch, etc. 73.0 0.0 APP Forfait sostituzione guasti vecchi sistemi fuori manutenzione 5.0 Acquisto nuovo PowerPC Power8 in sostituzione di vecchi server libreria 16.0 Totale 115.5 8.0 Il grosso delle spese è sostanzialmente incomprimibile, trattandosi di manutenzione di sistemi fuori garanzia La richiesta di 15 kE come forfait per guasti è ridotta a 5 kE SJ, con sblocco da richiedere in caso di necessita È supportata la richiesta di un nuovo Power8 da 16 kE (garanzie 3 anni), che consente di risparmiare 12 kE/anno di manutenzione dei due vecchi server che vengono sostituiti CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
KLOE – Futuro del Calcolo Ora che la presa dati è in dirittura d’arrivo, si pone in maniera più pressante il problema del sostentamento dell’infrastruttura per il calcolo offline sulla scala dei prossimi 5 anni Dato l’intreccio tra online e offline, durante la presa dati ridisegnare l’infrastruttura era complicato, esistendo il rischio di impattare sull’efficienza della presa dati stessa Arrivati a questo punto, i referee sono del parere che la collaborazione debba portare tutta l’infrastruttura per l’offline, sia lato server sia client, su architettura x86 e linux Per essere chiari, i referee non sono disposti a sostenere richieste di finanziamento per il 2019 di alcuna spesa di manutenzione ne’ sostituzione di apparati PowerPC CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
KLOE – Proposte assegnazione Il lavoro richiesto comprende porting di tutta la parte infrastrutturale, server e client, e relativi servizi software a macchine linux porting del codice di simulazione, analisi, etc. su macchine linux Ovviamente le macchine PowerPC già in uso potranno essere utilizzate dal 2019 in poi fino a fine vita senza manutenzione, e quindi senza fare su di loro esclusivo affidamento. In più saranno ovviamente disponibili le macchine recentemente finanziate ancora in garanzia I referee suggeriscono alla collaborazione di effettuare un’analisi approfondita da presentare in Primavera alla CSN1 e sono disposti a sostenere le eventuali richieste di mano d’opera aggiuntiva necessarie a completare l’opera di porting In assenza di questa operazione, la commissione si troverebbe a dover mantenere e rinnovare architetture PowerPC particolarmente costose su una scala di svariati anni, con costi per anno confrontabili o addirittura superiori a quelli richiesti per il 2018 i referee non ritengono che ciò sia praticabile CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC
Riepilogo Proposte Assegnazioni 2017 Esperimenti Richieste CSN1 (k€) Proposte GE (k€) Belle II 80 66 68 66 (34) Bes III 14.5 7.5 (2017)1 Compass 16.5 + 5 s.j. 16.5 KLOE 142.5 + 3 s.j. 115.5 + 8 s.j. 12.5 12.5 (12.5) LHCf 19.5 16 (3.5) NA62 5 5 (5) PADME 53 23.5 10 22 (10) Totale 2017 306 + 8 s.j. 221.5 + 8 s.j. 115 121.5 (65) 2 307 + 26 s.j. 246 + 41 s.j. 99.5 92.5 Totale 2016 496.7 + 80 s.j. 220.4 + 63 s.j. Totale 2015 388 + 52.5 s.j. 288 + 67 s.j. 1 - Anticipato al 2017 ed esclusa dal totale 2 – Proposte senza CPU CSN1 - 13/09/17 Referaggio CALCOLO esperimenti non LHC