Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoArnoldo Grimaldi Modificato 8 anni fa
1
Referaggio CALCOLO Esperimenti non LHC G. Carlino, D. Lucchesi, V. Vagnoni CSN1 – Catania 1 Ottobre 2014
2
Non c’è solo LHC CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC2 Esperimenti non LHC di CSN1 che calcolano in Italia: Belle II, Bes III, CDF, Compass, Kloe, LHCf, NA62 Nella riunione di luglio sono stati descritti i computing model e le attività degli esperimenti. –Non ritorniamo sull’argomento Richieste totali Il calcolo LHC è sempre predominante, ma le neces- sità degli altri esperimenti cominciano a diventare significative (~30%). Molti esperimenti in RUN richieste 2014: 301 + 40 s.j. EsperimentiRichieste (k€) Belle II79.5 Bes III7 + 14.5 s.j. CDF83 Compass50.5 KLOE61 + 38 s.j. LHCF3 NA62104 totale388 + 52.5 s.j.
3
Finanziamento calcolo CSN1 CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC3 Nella riunione di luglio sono stati discussi e definiti alcuni principi guida che guideranno i finanziamenti nei prossimi anni
4
Belle II – attività 2014 CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC4 La collaborazione ha svolto una campagna MC nella quale il contributo italiano è stato superiore alla quota di autori (10%) Organizzazione di una struttura di calcolo italiana: Tier1 al CNAF e Federazione dei Tier2. –Siti proposti in accordo con la CSN1: Napoli (RECAS), Pisa, Torino –In attesa di un parere definitivo dalla GE Preparazione di un MoU per la definizione della qualità dei servizi dei siti grid Ruolo importante nella definizione dei traffici di rete internazionali e tra i siti italiani Bandwidth tra i siti italiani (Mbps)
5
Belle II – attività 2015 CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC5 Produzione MC: 10 11 eventi, 4 PB disco, in produzione continua nell’anno (approvati dal BPAC nel 2014) –Quota italiana 10% –In base agli attuali parametri del CM (event size, CPU time, etc) = 400 TB e 13 kHS Detector studies –Studi tracking (10 6 eventi raw, 2 fb -1 ), studi calorimetro (10 6 eventi raw, 2 fb -1 ) + PID e SVD –30 TB, 1 kHS Software & Physics tools –Charm e semileptonici con missing energy (5*10 8 eventi mDST, 100 fb -1 ) –25 TB, 1 kHS Consolidamento del Computing Model (n.d. referee) e preparazione MoU
6
Belle II – richieste 2015 CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC6 Per le attività 2015 sono necessari 450 TB e 15 kHS Risorse disponibili (pledge-abili) = –50 TB + 0.7 kHS (ex SuperB) attualmente al CNAF –risorse ingenti a Napoli fornite da RECAS disponibili da ottobre 2014 Richieste Tier1: 100 TB (28 k€ nel DB) + 4.3 kHS (52 k€) Tier2 Napoli: 300 TB (75 k€) + 10 kHS (120 k€) Assegnati Tier1: 100 TB = 25 kE (riduzione dei CU disco al CNAF 250 €/TB) + 4.3 kHS = 43 kE (CU CPU 12 €/HS, compreso overlap CPU CNAF) Tier2: risparmio 195 k€ (ringraziare RECAS) In prospettiva l’esperimento chiede il 40% delle risorse al CNAF e il 20% in ognuno dei 3 Tier2 (non ancora concordato con i referee)
7
Infrastruttura Cloud Torino CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC7 La Sezione di Torino ha messo in piedi un’infrastruttura cloud che serve tutti gli esperimenti e gli utenti locali necessaria per ovviare all’aumento di risorse nei siti e alla varietà di applicazioni senza un adeguato incremento del manpower Acquisti HW in comune (costi migliori) e trasparenti agli esperimenti L’approccio Cloud (IaaS) ottimizza la fornitura di risorse a utenti diversi Siti grid Farm Utenti singoli Condivisione (e ottimizzazione) delle risorse Belle II, Bes III e Compass sono (o saranno a breve) completamente integrati
8
Bes III CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC8 Bes III è pienamente integrato nell’infrastruttura di Torino e ha dimostrato all’intera collaborazione (cinesi in primis) la validità dell’approccio. Le risorse disponibili sono il 3.3 % dell’intera collaborazione contro la quota italiana del 7.2%. Ma le attività di divulgazione del cloud computing nell’esperimento coprono la mancanza Test bed installato a IHEP, CERN e Dubna oltre che a Torino –Success rate 100% anche se sono necessari test di scaling –Performance confrontabili con siti non cloud Torino unico sito con approccio grid on cloud in produzione e dopo i risultati del test bed sta guidando la migrazione dell’intero computing model alla cloud. Complimenti! Cloud R&D ancora in corso su un testbed dedicato Partecipazione di UniTO al progetto VLDATA alla call H2020 EINFRA-1 INFN come resource provider si chiede personale dedicato per l’ R&D
9
Bes III – attività 2015 CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC9 Nei siti fuori Cina viene svolta la produzione MC (simulazione e ricostruzione) e i test (migrazione OS, upgrade BOSS). Non è prevista la ricostruzione dati (per limiti sulla bandwidth) Disco: 8 siti coinvolti, 50 TB ognuno come spazio disco minimo –30 TB random trigger –15 TB MC output –5 TB MC test CPU: –la produzione MC (had. decays) e test (bhabha e had. decays) occupa 11 mesi di WC time dei 200 core disponibili a efficienza 100%. –Se viene approvato VLDATA saranno da fare ulteriori test
10
Bes III – richieste 2015 CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC10 Disco: la collaborazione richiede che il minimo disco disponibile nei siti sia 50 TB –Già disponibili 20 TB, richiesto e approvato 30 TB = 7 k€ CPU: la collaborazione italiana si impegna a fornire 100 nuovi core (200 già disponibili) nell’ipotesi che il progetto VLDATA vinca la call. –Richiesti e approvati in s.j. all’approvazione 1 kHS = 12 kE Possibile anticipo del disco al 2014 per minimizzare i costi poiché è in preparazione una gara per ALICE da parte del centro di calcolo di Torino.
11
Compass CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC11 Il CM originale local storage oriented basato su una struttura a 2 Tier CERN –Central Data Recording –Ricostruzione Home Institutes –Produzione MC –Filtering –Analisi Integrazione nella GRID per produzione MC La collaborazione (italiana) si sta impegnando nei test di tool avanzati di gestione dei job e dei dati già usati in altri esperimenti LHC Passo fondamentale per il passaggio ad un completo sistema di computing distribuito e per interfacciarsi a qualsiasi sistema cloud
12
Compass in Italia – TO CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC12 Farm di Torino (stand alone cluster): Appena terminati dei test per l’integrazione nell’ infrastruttura di cloud della sezione –Creazione di una replica dell’ attuale farm di esperimento –Esecuzione di MC, analisi e simulazione FLUKA Test positivi, entro gennaio 2015 sposteranno la farm nella cloud 2.8 KHS CPU + 50 TB Disk –1.4 kHS e 20 TB non migrabili Molte attività previste nel 2015 –non quantificato il bisogno di risorse –accounting 2014 cluster stand alone: 2.4 kHS
13
Compass in Italia - TS CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC13 Farm di Trieste farm di sezione multiesperimento Risorse disponibili: 2.5 KHS CPU + 65 TB Disk + Tape Library Attività principale: effetti di spin e momento trasverso nel SIDIS con muoni di alta energia Funzionalità: replica (in copia spesso unica) dei mDST filtrati per le analisi, produzione MC (non recentemente) e analisi dei dati –attualmente con accesso locale ai dati Attività previste nel 2015 –Continuazione analisi dati SIDIS con bersaglio non polarizzato (2006) e polarizzato (2010), analisi dati DY 2015 e ottimizzazione SIDIS 2015-16 –Risorse necessarie: ~65 TB (40 mDST MC 2010, 15 TB prod MC di test 2016, 10 TB “spazio di lavoro”) –Migrazione su tape di 25 TB di spazio disco di dati analisi finite
14
Compass – richieste TO 2015 CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC14 Richieste –Rimpiazzo delle risorse non integrabili nell’infrastruttura cloud: CPU 1.4 kHS + Disco 20 TB –CPU 0.6 kHS aggiuntivi per analisi DY 2015 Assegnazioni –Rimpiazzi: 1.4 kHS = 17 k€ + 20 TB = 4.5 k€ –Per quanto riguarda le risorse aggiuntive di CPU (non assegnate), in caso di emergenza si potrà sfruttare la disponibilità fornita dalla farm comune –Richiesta di anticipare il disco (6.5 k€) per gara comune ALICE e BES Richieste dei referee: –l’assegnazione dovrebbe essere s.j. all’effettiva integrazione nella cloud. Riteniamo comunque che ciò avverrà nei tempi previsti visti l’esito dei test preliminari e la collaboratività del CdC di Torino –Necessità di monitorare l’uso delle risorse con un sistema di accounting ancora non esistente Nella prima parte del 2015 verificheremo il grado di soddisfacimento di queste richieste
15
Compass – richieste TS 2015 CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC15 La sezione di Trieste dispone di una farm di calcolo utilizzata da COMPASS per attività locali Riteniamo sia importante che COMPASS Italia faccia gli sforzi necessari per integrarsi completamente nell’infrastruttura TIer1/Tier2 –avendo la possibilità di sfruttare le risorse presenti nei siti italiani Nel breve termine, in collaborazione con il gruppo di TO, è necessario che TS si impegni ad utilizzare la cloud del Tier2 di Torino per il proprio calcolo Richieste –Consumo (tape): 2 k€ e manutenzione tape library: 2 k€ –Storage: 20 k€ (>40 TB a CU superiori a quelli standard) Consideriamo il 2015 come anno di transizione per cui riteniamo sia opportuno finanziare una parte dell’incremento di storage richiesto in modo da non danneggiare le attività di analisi e la competitività del gruppo Proposte –Manutenzione e consumi non assegnati in quanto non di pertinenza –Storage aggiuntivo: 30 TB k€ = 7 k€ al CU standard
16
NA62 CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC16 Documento NA62-14-03 pubblicato il 3 aprile –Richieste di risorse (tutte) a Tier1 basate su questo documento 1 anno = 1 PB di RAW, circa la stessa quantità di RECO non filtrati Si stima che sia possibile una riduzione di filtro pari a circa il 30% Per il 2015 si prevede di ricostruire al Tier-0 e poi distribuire i RECO per l’analisi ai Tier-1 Assumendo: 50% al CERN + 25% ciascuno a CNAF e RAL, risorse richieste: –250 TB di RECO + 75 TB di RECO filtrati (30 TB già disponibili) –3 kHS06 per l’analisi (300 HS già disponibili) In corso discussione per un modello di calcolo distribuito su Grid –Esperienza con DIRAC –Migrata la produzione Monte Carlo su DIRAC da parte dei gruppi UK Assegnazioni: –Disco 225 TB = 56 k € –CPU 220 kHS = 27 k€ –Taglio limitato nonostante le incertezze sul CM, per limitare la crescita nel 2016 Commenti Referee: –Ci proponiamo di verificare nel corso del 2015 il reale utilizzo delle risorse dopo la prima esperienza di presa dati e l’effettiva efficacia del CM
17
LHCf CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC17 Risorse disponibili al CNAF CPU 2 kHS, Disco 20 TB Uso medio delle risorse un po’ inferiore rispetto all’assegnazione 2014, ma comunque significativo e continuativo Evidente convenienza delle farm multi-esperimento, le CPU non si sprecano mai Richiesta 2005: 10 TB = 3 k€ approvata Accounting CPU 2 kHS
18
KLOE CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC18 Caso particolare rispetto al panorama del calcolo INFN, la farm ha funzioni di Tier0-1-2 con una componente online e una offline Risorse disponibili Storage: 250 TB CPU: 6 IBM servers, capacità di calcolo: 5 pb -1 /ora Tape library: 500 TB disponibili per nuovo data taking Archiviazione secondaria di dati al CNAF Sostanzialmente tutti sistemi power PC proprietari IBM –Tecnologia ortogonale a tutto il resto del calcolo INFN (in realtà a tutto il calcolo HEP) Molte macchine vecchie, talvolta obsolete –Costi di manutenzione e efficienza energetica
19
KLOE CSN1 - 17/07/14G. Carlino - Il Calcolo non-LHC19 Sono richiesti 40 kEuro per il contratto di manutenzione e 20 kEuro per ripristino eventuali rotture (stimate sulla base dell’esperienza passata) All'interno del contratto di manutenzione ci sono tutti quei sistemi il cui guasto porterebbe a un blocco immediato delle funzioni essenziali all'esperimento, nel dettaglio –Macchine per Online and DAQ –Macchine per DB –Server di dati –Server AFS –Meccanica della tape library Sono esclusi dal contratto tutti quei sistemi che possono essere mantenuti con parti spare che sono state acquistate, e cioè –Le CPU in apparato –Switch vari CISCO 6509, CISCO 6504, 8 CISCO 3500 e 4 CISCO 4000 Fiber Channel –Tutti gli array dischi per un totale di 250 TB, tutti veicolati attraverso Fiber Channel –Tutti i tape drive –La quasi totalità delle CPU offline Richieste 2015 per manutenzioni e ripristino rotture
20
KLOE Assegnazioni: –Manutenzione server e libreria: 34 k€ + 6 k€ s.j. –Sostituzioni eventuali rotture: 5 k€ + 7.5 k€ s.j.. –Storage cassette per libreria a LNF: 25 k€ s.j. NB: il CU delle cassette è molto più alto a LNF rispetto al CNAF poiché la tecnologia (e quindi la capacità) dei nastri e dei drive è obsoleta Probabilmente questo ha anche un impatto sui costi di manutenzione della libreria –Storage cassette per libreria al CNAF: 14 k€ s.j. Se KLOE ha prospettive di presa dati di alcuni anni, sarà necessario rivedere il modello di calcolo –Integrazione di KLOE nell’infrastruttura di calcolo dell’INFN, almeno per quanto riguarda la parte offline, abbandonando la farm basata su architettura proprietaria –Porting del software da Unix AIX per power PC a Linux –Vedi talk referee KLOE CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC20
21
CDF CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC21 CDF Data Preservation al CNAF La copia dei dati su tape è in corso e terminerà nel 2015 a causa di vari ritardi, da marzo a oggi 15 TB/giorno contro i 40 TB/giorno precedenti. Mancano ancora da copiare 2.1 PB, necessari 5 mesi. Possibilità di ridurre a 2-3 mesi aggiungendo 2 tape drive e aumentando la rate di pre-stage a FNAL In parallalo procede lo sviluppo del sistema di accesso e analisi dei dati per il futuro
22
CDF – richieste 2015 CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC22 Risorse disponibili al CNAF: 8 kHS e 470 TB Richieste 2015: Disco: mantenimento dello spazio disponibile CPU: mantenimento di metà delle risorse attuali = 4 kHS Potenza di calcolo necessaria per le attività previste, ovvero test per la preparazione del framework di analisi a lungo termine e analisi utenti Proposte Disco: riduzione a 400 TB, necessità di rimpiazzare 134 TB = 33 k€ CPU: riduzione a 4 kHS, necessità di rimpiazzare 2.25 kHS = 27 k€
23
Riepilogo assegnazioni CSN1 - 01/10/14Referaggio CALCOLO esperimenti non LHC23 EsperimentiRichieste (k€)Assegnazioni (k€) Belle II79.568 Bes III7 + 14.5 s.j. CDF8360 Compass50.530.5 KLOE61 + 38 s.j.36.5 + 52.5 s.j. LHCf33 NA6210483 totale388 + 52.5 s.j.288 + 67 s.j.
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.