Incontro annuale utenti ReCaS ALICE, CMS, CTA, DAMPE, FERMI, PAMELA Bari, 4 Luglio 2017 Le esigenze della FISICA SPERIMENTALE Domenico Elia (INFN Bari) per gli utenti: ALICE, CMS, CTA, DAMPE, FERMI, PAMELA Domenico Elia Incontro annuale utenti ReCaS / Bari, 4.7.2017
Incontro annuale utenti ReCaS / Bari, 4.7.2017 Contenuto e crediti Riscontro sintetico per ciascun utente: use case scientifico statistiche di utilizzo delle risorse ReCaS problematiche ed eventuali suggerimenti/proposte Utenti INFN gruppo I, II e III: ALICE (CSN3): DE, A. Franco, G. Vino CMS (CSN1): L. Cristella Utenti CSN2: CTA: L. Di Venere, E. Bissardi DAMPE: F. Gargano FERMI: F. Loparco PAMELA: A. Bruno Domenico Elia Incontro annuale utenti ReCaS / Bari, 4.7.2017
Incontro annuale utenti ReCaS / Bari, 4.7.2017 Use case (1): ALICE Tier-2 ALICE: BA uno dei 4 Tier-2 ALICE INFN (con CT, PD-LNL, TO) Analisi e storage dati (da ricostruzione raw data e MC): esecuzione workflow gestiti centralmente (AliEn): 75% MC e 25% Analisi storage dataset utilizzati anche da altri Tier Nodi di calcolo per Tier-1: BA fornisce nodi di calcolo al Tier-1 (link dedicato con CNAF) ALICE utilizza pienamente anche queste risorse (principalmente MC) Analysis Facility ALICE-IT: cluster per analisi interattiva sviluppata nel PRIN STOA-LHC condivisione dello storage con altre AF in siti ALICE INFN data federation con redirettore XRootD nazionale a BA Domenico Elia Incontro annuale utenti ReCaS / Bari, 4.7.2017
Incontro annuale utenti ReCaS / Bari, 4.7.2017 Use case (2): CMS Tier-2 CMS: BA uno dei 4 Tier-2 CMS INFN (con RM1, PI, PD-LNL) skimming e storage dati CMS: esecuzione workflow gestiti centralmente (WMAgent) esecuzione workflow gestiti da ingoli utenti (CRAB) storage e backup dataset processati (anche da altri Tier) analisi dati (CMS BA & Co): job sottomessi da utenti CMS con accesso interattivo alla farm Nodi di calcolo al Tier-1 (vedi ALICE) Web server di piccoli siti web: per condividere materiale per Redmine projects all’interno della collaborazione CMS Domenico Elia Incontro annuale utenti ReCaS / Bari, 4.7.2017
Incontro annuale utenti ReCaS / Bari, 4.7.2017 Use case (3): CTA Analisi dati e simulazione per CTA: progetto array di ~100 telescopi Cerenkov per studio raggi gamma ruolo e attività presente gruppo di BA: progettazione camera prototipo telescopio SCT (in collaborazione con USA) in corso: caratterizzazione dispositivi (SiPM) per primo prototipo attività future (prossimi mesi): validazione e calibrazione dispositivi prima della produzione di massa assemblaggio prototipo prevista fine 2017 analisi dati presi dal prototipo simulazioni dati di alto livello Domenico Elia Incontro annuale utenti ReCaS / Bari, 4.7.2017
Incontro annuale utenti ReCaS / Bari, 4.7.2017 Use case (4): DAMPE Analisi dati per DAMPE: backup parziale dati MC storage dataset opportunamente selezionati per specifiche analisi BA ospita redirettore XRootD: accesso dataset (reali e MC) di tutto l’esperimento per la comunità europea Uso del sistema HPC: macchina dedicata con GPU Nvidia Tesla K40 utilizzo librerie TensorFlow in Docker containers Docker containers con ambiente completo di lavoro: TensorFlow, ROOT6, Anaconda risorse utilizzate per analisi PID su MC e dati in orbita Domenico Elia Incontro annuale utenti ReCaS / Bari, 4.7.2017
Incontro annuale utenti ReCaS / Bari, 4.7.2017 Use case (5): FERMI e PAMELA Analisi dati per FERMI: studio emissione gamma: da sorgenti galattiche ed extra-galattiche, alta energia (100 MeV – 300 GeV) da Sole e Luna dall’atmosfera terrestre (“Earth Limb”) ricerca indiretta dark matter studio spettri di elettroni e ricerca anisotropie Analisi dati per PAMELA: misura radiazione carica nelle fasce di Van Hallen misura di eventi solari, effetti geomagnetici (“Space Weather”) ricostruzione di spettri energetici, distribuzioni angolari etc Domenico Elia Incontro annuale utenti ReCaS / Bari, 4.7.2017
Previsione utilizzo futuro Statistiche di utilizzo Sottosistema utilizzato Frequenza di utilizzo Previsione utilizzo futuro Numero job sottomessi Storage utilizzato ALICE Batch Quotidiana >> 1 anno ~2800/giorno ~1200 TB CMS Batch, HPC ~3500/giorno ~2000 TB CTA Settimanale - < 1 TB DAMPE > 1 anno ~10-20/giorno ~50 TB FERMI ~10/giorno ~40 TB PAMELA 1 anno ~100/giorno ~3 TB Domenico Elia Incontro annuale utenti ReCaS / Bari, 4.7.2017
Incontro annuale utenti ReCaS / Bari, 4.7.2017 Problemi/proposte (1): ALICE Ritardo messa in linea storage 2016: ultimo blocco (300 TB) acquistato fine 2016, online Giugno 2017: richiesta intervento assistenza per problemi hardware necessità ulteriore acquisizione (cavi etc) tempistica procedura di configurazione basso livello dischi e server Programmazione preventiva (h/w e man-power)? Problema potenzialmente sensibile per prossimo futuro (gare centralizzate, arrivo contemporaneo risorse ALICE+CMS a BA). Down 11-13 Aprile: non preventivato, “impegnativo” ripristino attività calcolo e storage Rendere più rapido il reboot del sistema (task force, procedure automatiche dedicate) ? Mancata pubblicazione dati accounting su FAUST: essenzialmente prima metà 2016, recuperabile il pregresso? Monitoraggio trasmissione dati al sistema di accounting? Domenico Elia Incontro annuale utenti ReCaS / Bari, 4.7.2017
Incontro annuale utenti ReCaS / Bari, 4.7.2017 Problemi/proposte (2): CMS Mount point non accessibili (/afs, /gps, ...): causa interventi tecnici senza preavviso Pagina di monitoring della farm per gli utenti (quali rack, pcs sono ON, non alimentati etc)? Software monitoring per amministratori: intervenire senza aspettare notifica utenti? Lunghe attese per utilizzare CPU/GPU sistema HPC: risolto a inizio anno ma riapparso di recente ... Front-end con poca memoria Assegnazione CPU non sempre fedele alle richieste: risolto nell’ultimo mese Down 11-13 Aprile (vedi ALICE) Per le attività machine learning utile disporre di più di un nodo dotato di TensorFlow Poter richiedere anche #GPU (oltre al #CPU) nella sottomissione al sistema HPC Domenico Elia Incontro annuale utenti ReCaS / Bari, 4.7.2017
Incontro annuale utenti ReCaS / Bari, 4.7.2017 Problemi/proposte (3): CTA, FERMI, DAMPE CTA: sporadici rallentamenti nell’accesso ai dati FERMI: spesso si osservano rallentamenti sulle macchine di front-end DAMPE: occasionalmente sensibile rallentamento macchine front-end: di solito legato ad attività di “manutenzione” dell’infrastruttura Potrebbe essere utile informare preventivamente gli utenti su questi interventi e su potenziali malfunzionamenti che potrebbero essere sperimentati in conseguenza. Si pensa di intensificare l’uso di TensorFlow, quindi servirebbero delle macchine dedicate basate su Docker containers. Sarebbe ovviamente molto utile avere anche su queste un sistema di gestione delle code di job. Domenico Elia Incontro annuale utenti ReCaS / Bari, 4.7.2017
Incontro annuale utenti ReCaS / Bari, 4.7.2017 Conclusione Esperimenti più che soddisfatti: clima di grande collaborazione e professionalità in ReCaS percepito sforzo continuo per migliorare il servizio agli utenti Problematiche e suggerimenti: generalmente difficoltà non particolarmente critiche qualche suggerimento, inteso nel consueto rapporto costruttivo Agli amministratori e colleghi coinvolti nella gestione del datacenter ReCaS: un sentito GRAZIE! Domenico Elia Incontro annuale utenti ReCaS / Bari, 4.7.2017