CMS HPC Italia.

Slides:



Advertisements
Presentazioni simili
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Advertisements

CMS E RUN II ( …III, …IV,…) TOMMASO BOCCALI INFN PISA BOLOGNA, 19 FEBBRAIO
Esperienza di Elastic Computing al Tier 1 Vincenzo Ciaschini & Donato de Girolamo CCR 16-20/5/2016.
Domenico Elia1CdG Tier1-Tier2 / CNAF ALICE Tier2 sites Domenico Elia CdG Tier1-Tier2 Bologna, 15 Aprile 2015  Infrastruttura e risorse, coordinamento.
Virtualizzazione nell’INFN Andrea Chierici 11 Dicembre 2008.
CCR, LNF ott 2011 Proposte assegnazioni server & storage L. Carbone, A. Gianoli, M. Serra.
Gruppo Netarch Incontro di lavoro della CCR Napoli gennaio 2010 Connessioni Tier1/Tier2 a GARR-X 1 GM, Incontro di lavoro della CCR – Napoli
Sistema Informativo. Mansioni Gestione della piattaforma hardware e sistemistica del sistema informativo INFN In realta’ il mansionario e’ in continua.
Dynamic Farm Espansione Dinamica di una Farm Vincenzo Ciaschini CCR 31/3/2015.
+ Call di Big Data (EINFRA- 1). + La call … + + Cosa abbiamo in mano (come INFN) 1. L’infrastruttura 1 Tier Tier2 O(25000) cores O(20) PB di Disco.
Eugenia Franzoni Il software libero Catnic Srl. Si può comprare un software?
LTSP (Linux Terminal Server Project) GNU/Linux ed Workshop di Enrico Teotti powered with Gentoo Linux Linux Day LUG Mantova.
Fabrizio Felici Linux e Windows a confronto, perché passare a Linux 27 ottobre 2007.
Attività PRIN STOA a Cagliari Alessandro De Falco Università/INFN Cagliari.
HLRmon per IGI: nuove funzionalità Enrico Fattibene INFN – CNAF
Orientamento. Il Kernel Il Kernel è un programma scritto in linguaggio vicino all'hardware che ha il compito di fornire ai processi in esecuzione sul.
User Mode Linux. Cos'è user mode linux ● User mode linux è un kernel linux che gira come un'applicazione nello spazio utente.
FOX BOARD 8+32 Argomenti trattati: ● Breve descrizione dell'hardware ● Overview del sistema di sviluppo ● Esame delle porte GPIO Hardware.
OpenWrt Diego Furlan. Panoramica ● Presentazione ● Download software ● Configurazione software ● Compilazione firmware ● Upload firmware ● Configurazione.
TOTEM referee C.Bini, P.Paolucci, A.Tricomi. Considerazioni generali - I 2011 anno molto positivo per TOTEM: – fine installazione rivelatore – primi risultati.
Gestione delle configurazioni Configuration management (CM) E` un processo che controlla le modifiche fatte a un sistema e gestisce le diverse versioni.
AFS NELLA SEZIONE DI PADOVA aree_utenti: attualmente nessuno ha la proria home in AFS e quasi nessuno utilizza l'area utenti di AFS. /usr/local: si preferisce.
Torino, Andrea Dainese 1 Andrea Dainese (INFN – LNL) Stato del Tier-2 ALICE a Legnaro.
Aggiornamenti gruppo WINDOWS CCR Riunione 5-7 ottobre 2010 Gianluca Peco.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Synapse Gestione e Flussi documentali
Corso per Webmaster base
Evoluzione del collegamento geografico e collaudo della nuova struttura CORE del TIER1 CDG – 06/10/2016 Stefano Zani
NAT, Firewall, Proxy Processi applicativi.
SCoPE - Stato dei Lavori
Riccardo Veraldi - Massimo Donatelli CCR 3-4 Marzo 2008
Cms.
Gestione Farm Tema centrale della sessione: utilizzo del batch- system nelle varie sedi T1 e T2, ma anche altre farm grid e farm di sezione requirements,
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Summary di (quasi) tutti gli utenti non presentati…
dCache Test effettuati al CNAF
Compilazione del kernel Linux
WPC069 Il deployment automatizzato di Windows 10
CMS.
HackLab Catanzaro Installazione DEBIAN Lezione 2
Breve report su corso RedHat Enterprise Virtualization (RH318)
Terza Lezione → Navigare nel file System → parte 2
Microcontrollori e microprocessori
Collaudo della nuova struttura CORE del TIER1 e migrazione delle risorse dalla attuale infrastruttura di rete a quella nuova CDG – 07/12/2016.
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Servizi Nazionali INFN
Pisa.
Sicurezza e Grid Computing
CMS T2: monitoring Cosa c’e’ / cosa vorremmo / cosa manca
Incontro al CINECA per HEP - summary
Estensioni elastiche CNAF – un po’ di idee e status report
KVM QEMU Virtual Machine Manager Massimo Nuvoli
I comandi.
Aggiornamenti dal Tier-1
(Breve) Riassunto del workshop WLCG
Workshop dei Gruppi di lavoro CCR Michele Michelotto at pd.infn.it
Report Calcolo Commisione III
Distributed cache proposal
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Calcolo “locale” ATLAS-Mi
Gruppo Proxmox ImoLUG: vedere provare condividere
Da circa 10 anni il fornisce agli utenti dei labs, che ne facciano richiesta, un servizio di storage via NFS. Come T2 viene fornito da qualche.
ai termini e ai principi informatici utili per utilizzare Linux
Fedora 21 – presente e futuro
I servizi di backup locale e backup in cloud
Job Management Systems ovvero
Gli archivi e le basi di dati
Parti interne del computer
Fare ricerca mai così facile!
Tommaso Boccali (INFN-Pisa / CERN)
Transcript della presentazione:

CMS HPC Italia

outline Utilizzo di HPC in CMS Alcuni esempi Marconi nello specifico ...

Overview di CMS Una iniziativa quasi in produzione: NERSC Cori: Cray XC basato su Intel Haswell – in fase di upgrade con inclusione di Intel Xeon Phi (Knights Landing) Edison: Cray XC30 basato su Intel Ivy Bridge Sistema davvero minimale: una release (1!) di CMSSW installata a mano, no CVMFS Ok per una singola produzione, ma non praticabile come risorsa multipurpose Sottomissione via BOSCO (ssh gateway) che si attacca ad uno SLURM Usa containers Due iniziative in fase di commissioning SDSC Comet: basato su Intel Xeon E5-2680v3 Stampede TACC: basato su Intel E5 8-core (Sandy Bridge) e Intel Xeon Phi (Knights Corner) Accesso basato su CE standard; + facile

CMS - NERSC Allocazione di 1.6 Mhours nel 2016 Accesso tramite gateway ssh (BOSCO) Integrazione con LRMS (SLURM) Linux minimale per Cray + containers Gestore è “shifter” ma al momento si usa un layer basato su Docker con incluso CMSSW. In fase di preparazione container shifter nativi con CVMFS Disponibile outbound connectivity. Inatallati squid server locali Set up della rete problematica, bandwidth limitata (700KB/s/job) Efficienza massima del 50% su workflow RECO

Amazon Tecnicamente: immagini che fanno partire direttamente HTCondor Startd e si connettono al global pool Accesso routed allo storage di FNAL Senza costi di rete, via EsNet FNAL e’ un closeSE di AWS per CMS Visto come sito autonomo in CMS Immagini EC2 hanno client CVMFS dentro Molto simile a setting di Indigo per chi ha seguito CdGA stamattina (e M$, solo mooolto piu’ grosso, e mooolto meno caro!)

Cineca/Marconi? Non c’e’ moltissima documentazione in rete, trovato solamente questo https://hpc- forge.cineca.it/files/CoursesDev/public/2016/Bologna/Marconi/Marconi_achitectu re.pdf

Valutazione delle partizioni A1 e A3 sono solo CPU apparentemente Ok per noi, utilizzabili da subito A2 ha KNL Forse utilizzabile come singoli cores stupidi (ma da provare, probabi,nente non basta la RAM) Comunque, sarebbe uno spreco ! A3 ha processori molto nuovi e “mi dicono gli esperti” che a parita’ di core, danno il doppio di Pflops grazie ad una nuova AVX512 Quindi sw compilato per architetture standard non avrebbe il boost di prestazioni D’altra parte, anche volendo passare a avx512 (ma e’ facile? E’ solo opzione di compilatore?) ci sarebbe il problema di avere una repository software specifica E la physics validation? Chi la fa? Senza usare avx512, spreco del 50% dei Pflops. A1 e’ la scelta migliore: processori noti che sappiamo utilizzare

A1 – valutazione della potenza Sito CINECA da’ 1512*36 = 54432 cores senza HyperThreading 108864 con HyperThreading E li valuta a 2 Pflops Hepspec06: un dual socket E5-2697 da 815 HS06 su 72 cores ((18+18)*2 con HT on) Per cui A1 sarebbe 815*1512 = 1.2 MHS06 Il doppio della CPU di tutti i T1 di CMS, per avere un’idea

Ambiente operativo (per quello che si capisce) PBS presente (non nel link, ma mi viene detto dai teorici pisani) Sistema operativo? Non specificato, mi sorprenderei fosse un problema (al max Docker) Networking? Locale assolutamente eccessivo per le nostre esigenze; WAN a noi andrebbe benissimo tutto tunnelling verso CNAF RAM: OK Disco locale: non specificato, ma sono macchine standard; qualcosa ci deve essere Come hint, su 72 cores a noi servirebbero > 200 GB

I dettagli possono complicare le cose Ci permetterebbero di caricare kernel modules? CVMFS e’ probabilmente il singolo punto in cui le cose si possono complicare Se non ci permettono di montarlo, anche con Docker diventa problematico (Docker non e’ una soluzione a questo problema) Ci sara’ un environment WLCG like? Certificati, CRL, etc… Probabilmente no … Docker? BOSCO?

Soluzioni possibili Estensione elastica del CNAF su cineca sarebbe largamente preferibile Accounting gratis (via CE CNAF e APEL) Come farlo? LSF: serve o tunnelling o DMZ; comunque servono demoni running HTCondor come batch system Dovremmo riuscire a usarlo anche come non root Serve infrastruttura lato CNAF, che se capisco si voleva comunque mettere in piedi

conclusioni Sulla carta, A1 dovrebbe essere ben utilizzabile da noi Il problema sono davvero I dettagli, soprattutto umani Quanto il CINECA sarebbe flessibile per eventuali installazioni personalizzate? (GULP: potremmo reinstallare macchine????) – chiaramente in questo modo si va in una situazione Bari-like, con una rete molto migliore Nella pratica, con un po’ di supporto lato CNAF, se ne vale la pena (no 100 cores per 1 mese), si puo’ e si deve fare …