La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

COSA: Computing on SoC Architecture D. Cesini – INFN-CNAF – CSNV – 30/09/2014 - Ferrara.

Presentazioni simili


Presentazione sul tema: "COSA: Computing on SoC Architecture D. Cesini – INFN-CNAF – CSNV – 30/09/2014 - Ferrara."— Transcript della presentazione:

1 COSA: Computing on SoC Architecture D. Cesini – INFN-CNAF – CSNV – 30/09/2014 - Ferrara

2 Proposta di progetto per CSN5 COSA: Computing On SOC Architecture DURATA: 2 anni da Gennaio 2015 SEDI: 7 INFN –CNAF, PI, PD, ROMA1, FE, PR, LNL BUDGET RICHIESTO:~70kEuro Anno I 30/09/2014 2 COSA Project – D. Cesini – Ferrara CSNV

3 Obiettivi Acquisizione know-how –Porting e benchmarking su System on Chip low power –Gestione di sistemi SoC in ambiente Linux –Benchmarking di architetture ibride Unificazione delle attività INFN di testing HW –Continuazione di COKA Porting su acceleratori tradizionali (GPU/MIC) –Continuazione di HEPMARK Benchmarking di x86 Studio di interconnessioni dedicate toroidali a bassa latenza tramite sistemi ARM+FPGA 3 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

4 System on Chip Low Power 4 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

5 System on Chip Low Power 530/09/2014COSA Project – D. Cesini – Ferrara CSNV

6 NON stiamo chiaramente pensando di comperare 1000 iPhone e usarli per fare lattice QCD Vogliamo usare questi processori in configurazione standard –rack di computer in centri di calcolo attrezzati –in ambiente Linux –per applicazioni di interesse INFN Cluster di SoC Development Board 6 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

7 Motivazioni Economica1: Electric Bill 7 Source: EUROSTAT Eur/100kWh 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

8 Motivazione Economica2: Commodity Wave Sono finiti i tempi in cui il supercalcolo si progettava le sue CPU Competitività economica della “commodity wave” utilizzando componenti –Prodotte in maggiore quantità, e quindi con minori costi industriali –Soggette a maggiore concorrenza –In un mercato in fase espansiva 8 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

9 HPC Trends -2 9 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

10 Shipment 10 Miliardi! ARM: architettura dominante telefoni e tablet X86: architettura dominante PC 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

11 La previsione MONTBLANC 11 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

12 Un solo Chip…..CPU + GPU  Calcolo parallelo “HPC” ARM ma non solo... 12 La maggior parte della potenza del SoC è nella GPU La vera sfida è riuscire a sfruttare la GPU per il calcolo in applicazioni di interesse Anche Intel (Atom), AMD (Kaveri), IBM (Power/Openpower) sono della partita 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

13 Applicazioni Area teorica (PR, FE) –Applicazioni parallele generalmente girate in ambienti HPC standard fluido-dinamica basata su modelli Lattice Boltzmann simulazione Monte Carlo di sistemi di Spin-Glass Simulazioni di Lattice Quantum CromoDynamics Area sperimentale (PI, PD, CNAF) –Applicazioni per High Level Trigger di esperimenti LHC –Montecarlo e analisi di esperimenti LHC –Applicazioni che necessitano di sistemi portatili Tomografia assiale Reti neurali (RM1) –codice DPSNN-STDP 13 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

14 CPU ARM: Risultati da paper CHEP di CMS 14 ARM più lento di un fattore 3-4 in assoluto ARM migliore di un fattore 3-5 relativamente alla potenza usata 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

15 HEPMARK –Benchmarking di architetture x86 tradizionali con applicazioni HEP non paralelle HEPSPEC COKA –Benchmarking e porting su acceleratori GPU/MIC –Applicazioni parallele Solo SoC? 15 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

16 Approccio coerente e controllato per il benchmarking dell’HW Confronto delle varie piattaforme più diretto A fattor comune esperienza ed effort economico Convergenza di attività 16 Convergenza delle attività sui SoC low power con le sigle HEPMARK e COKA all’interno del progetto COSA 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

17 Test preliminari su Tegra-K1 COKA Use Case – Lattice Boltzmann 17 Run su SoC Tesla K1 al CNAF e Fe: 15 GFLOPS 12GB/s P e < 10 Watt o Porting del codice quasi immediato o Performance e ottimizzazioni ancora da investigare o COKA fornisce una base consolidata di applicazini reali per il benchmarking 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

18 Investigazione delle esigenze del networking Molte unità di calcolo singolarmente poco potenti Requirement in termini di: –Latenza –Banda –Scalabilità Trovare la soluzione tecnologica migliore –Costi –Consumi Interconnessioni tra le schede low power 18 - Soluzioni commerciali esistenti (i.e. eth) - Prototipazione di soluzioni dedicate 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

19 Interconnesioni toroidali 3D 19 Configurabilità ed espandibilità ­architettura ARM a 32 bit oggi ­ 64 bit nel futuro prossimo Sistemi FPGA-based che integrano:  SoC multicore ARM  transceiver ad alta velocità Sviluppo volto a realizzare un sistema di interconnessione dedicato a SoC scalabile ed a bassa latenza 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

20 I Cluster di COSA 20 CNAF ROMA1 PD 4 board ARM+FPGA based + 1 server 16 board ARM+FPGA based + 4 server ex cluster COKA (2 server) + nuove acquisizioni (1 server) (server = cpu + acceleratori) Anno I + ~10 nuove board ~25 board SoC Based (GFLOPS nominali di 2 server tradizionali con GPU) Anno I Anno II Anno I Anno II Ex cluster HEPMARK + nuove acquisizioni (~ 3 server) + nuove acquisizione (~ 3 server) Anno I Anno II 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

21 Call H2020-LEIT-ICT4 21 LEIT-ICT Topics  New generation of components and systems  Advanced Computing o Customized and low-power computing–ICT4  Future Internet 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

22 ICT4.aICT4.bICT4.c Research&Innovation ActionsStimulate broad adoption ActionsSupport Actions 37M€17M€3M€ One or both the following themes: ● Integration of HW&SW components into fully working prototypes of low-power micro-servers. Specific emphasis is given on low-power, low-cost, high- density, secure, reliable, scalable small form-factor datacentres ("datacentre-in-a-box") [5-8M€] ● New programming approaches to exploit the full potential of the next generations of computing systems based on heterogeneous parallel architectures (beyond performance, optimisation should include energy efficiency). Proposals requesting a small contribution are expected. [2-4M€] One or both the following themes: ● Establish reference architectures and platforms for customised low-power heterogeneous computing systems delivering high performance functionality. [2-4M€] ● Bring together all actors along the value chain to customise and use advanced low power computing systems in cyber-physical systems. Clustered in large scale projects driven by networks of European centres of excellence to achieve critical mass and to better exploit EU- added value. [5-8M€] Support actions for cross- sectorial platform- building, for clustering of related research projects, for structuring the European academic and industrial research communities, for dissemination of programme achievements and impact analysis [2-4M€] Expected impact: ● Strengthening the technology competences of European suppliers and the academic community. ● Reduction of energy consumption of servers by 2 orders of magnitude as compared to state of the art in 2013. ● Double the productivity in efficiently programming and maintaining advanced computing systems powering cyber-physical systems as compared to state of the art in programming embedded systems in 2013. ● Increase the adoption of form-factor data-centres and heterogeneous highly parallel computing systems. ● Higher involvement of SMEs, both on the supply and the demand-side. ● Increased adoption of concurrency in applications across all sectors; higher degree of parallelism in applications LEIT -> ICT -> Advanced Computing -> ICT-4 ( Customised and low power computing )

23 Il “cluster”

24 Attività & WP WP1: Coordinamento WP2: Technology Tracking e Benchmarking WP3: Implementazione del prototipo al CNAF WP4: Sviluppo di interconnessioni di rete dedicate WP5: Application Porting WP6: Technology Transfer e Dissemination 24 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

25 Sedi Coinvolte & Personale 25 SedePersonaleFTEWP ROMA1 Alessandro Lonardo 0.2 Pier Stanislao Paolucci 0.2 Piero Vicini 0.1 Assegnista 1.0 1.61,2,4,5 CNAF Daniele Cesini 0.5 Andrea Ferraro 0.4 Lucia Morganti 0.5 Elisabetta Ronchieri 0.3 Andrea Chierici 0.2 Stefano Dal Pra 0.2 Luca Dell’Agnello 0.1 2.21,2,3,5,6 FE Fabio Schifano 0.5FTE Enrico Calore 0.6FTE 1.15 PD Mauro Morandin 0.1 Michele Michelotto 0.65 Lisa Zangrando 0.2 Alberto Crescente 0.3 Roberto Ferrari 0.3 1.552,5,6 PR Roberto Alfieri 0.5 Francesco Di Renzo 0.2 Roberto De Pietri 0.2 Roberto Covati 0.2 1.12,5 PI Tommaso Boccali 0.2 Claudio Bonati 0.1 Silvia Arezzini 0.15 Andrea Carboni 0.20 Alberto Ciampa 0.15 Simone Coscetti 0.20 1.02,5 LNLGaetano Maron0.42,5 TOTALE FTE8.95 30/09/2014

26 26 CNAFFEPDPRROMA1PI LNL TOT INV. WP1 INV WP2 51015 INV. WP3 14 CONS WP3 11 INV. WP4 15 INV. WP5 10 LICENZE SW WP5 2.5 CONS. WP4 22 CONS. WP6 22 TOT INV./CONS. 2012.51217 0 61.5 MISSIONI 222222 0 12 TOT2214.5142192 0 73.5 Budget Anno I INVENTARIABILE: 5 kEuro al CNAF per le prime board su cui eseguire test e per l’acquisto di board basate su nuove architetture mentre la tecnologia evolve 14 kEuro al CNAF per finanziare l’acquisto del cluster SoC - 500 euro i.e. a board ~ 25 unità 10 kEuro per l’acquisto di server tradizionali a PD per HEPMARK 10kEuro a FE per continuazione COKA (GPU&MIC) 15kEuro a ROMA1 per 4 sistemi FPGA di sviluppo ed un server, entrambi dal costo unitario di circa 3 keuro 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

27 Budget Anno II 27 CNAFFEPDPRROMA1PI LNL TOT INV./CONS. WP1 INV. WP2 51015 INV. WP3 55 INV. WP4 45 CONSUMO WP4 22 INV./CONS. WP5 10 CONSUMO WP6 22 TOT INV./CONS 10 1247 0 77 Missioni 222222 0 12 TOT12 142492 0 91 INVENTARIABILE: 45 kEuro ROMA1 per acquisire ulteriori 12 schede di sviluppo FPGA e ulteriori 3 server. 10 kEuro per l’acquisto di server tradizionali a PD per HEPMARK 10kEuro a FE per continuazione COKA (GPU&MIC) 5 kEuro al CNAF nuove unità nel cluster 5kEuro al CNAF per nuove board da testare mentre la tecnologia evolve 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

28 Backup 28 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

29 Post-PC Era 29 HEP! 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

30 HPC Trends 30 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

31 HPC Trends - 2 31 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

32 Esiste anche qualcosa di ingegnerizzato … 32 Boston Viridis Boston Viridis, DELL Copper, HP MoonShot In 2U: 48 SoC ARMv7(1.4 GHz) 4-core, each with 4 GB RAM 8x10Gbit/s internal networking; 24x DISK slots Under 300W under load ~ 20kEuro (?) Costo ancora troppo alto per noi A cluster in a single box.. 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

33 Porting completo dell’ambiente operativo di CMS su ARM –Simulazione, ricostruzione, analisi Come si fa? Meno complicato del previsto: –Il SW di CMS e’ solo open source: ci sono i sorgenti, basta ricompilare (beh, non cosi’ facile) –Su questi sistemi e’ presente un ambiente Linux completo, con lo stesso compilatore usato su sistemi x86 Cosa ci si aspetta da queste CPU? –Che vadano piu’ piano (Events/sec per esempio) –Che siano pero’ migliori se la metrica e’ Events/sec/W Test di CMS (Pisa + Princeton + CERN) 33 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

34 Affiancare alle CPU delle GPU sempre piu’ potenti –sono sullo stesso silicio delle CPU e’ un SoC Le stesse dei desktop ma… –A basso consumo ~ 50 volte meno delle schede desktop –A basso costo non possono costare più del cellulare le hai anche se non le vuoi, tanto vale usarle –Potenza ridotta ~ 5-10 volte meno –Meno memoria interna SoC per HPC? 34 La maggior parte della potenza del SoC è nella GPU La vera sfida è riuscire a sfruttare la GPU per il calcolo in applicazione di interesse 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

35 Quattro architetture in competizione –SoC ARMv7 based (32bit): Nvidia Tegra, Qualcomm Snapdragon, Samsung Exynos, Freescale imx6, TI OMAP/Keystone II, Mediatek MT659x, Allwinner A80, etc. –SoC ARMv8 based (64bit): AppliedMicro X-Gene, Qualcomm Snapdragon 805/810, Samsung Exynos 5433, Mediatek MT6732/MT6752, etc. SoC x86 based (64bit): Intel Avoton C2750, etc. SoC HSA based (64bit): AMD Kaveri, etc. Scenario Complesso 35 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

36 Calcolo “HPC” –Test di architetture per macchine di nuova generazione –Sviluppo di interconnessioni dedicate (“alla APE”) per sitemi di questo tipo Molti nodi poco potenti Calcolo HTC –Test di architetture e di possibile utilizzo di questo tipo di calcolo per (una frazione) di centri di calcolo INFN –Risparmio annuale di corrente elettrica facilmente stimabile in Meur/anno Knowledge base INFN –Sul porting di applicazioni in processori di tipo SoC e architetture ibride con acceleratori più tradizionali –Misurazione delle performance tramite metriche complesse Linee di sviluppo 36 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

37 X-Ray Tomography (CH-NET/UniBo) –sistemi portatili di X-ray e TAC per beni culturali. Difficile spostare una tempio romano in un laboratorio INFN) –post processing e CAD avviene in un momento successivo per l’impossibilita’ di avere potenza di calcolo in loco Use case: CH-NET 37 CT analysis of an Ancient Greek Bronze Head 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

38 HEPMARK2 in CSN5 nel 2012 e 2013 ed esteso al 2014 in accordo con i referee HEPMARK2 continua le misure e le attività di technology tracking dei processori per Worker Node per esperimenti HEP iniziate nella sigla HEPMARK Collaborazione con il gruppo della comunità HEPiX –RAL, CERN, GridKA FZK Collaborazione con progetto COKA Studio delle prestazioni relative ai consumi HS06 per watt, su architetture ATOM Intel o equivalenti AMD Studio delle prestazioni su architetture non x86 come per esempio ARM HEPMARK 38 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

39 COKA 39 kernel rilevanti "propagate" e "collide" riscritti in OpenCL, CUDA e C. Con acceleratori, se opportunamente programmati, un fattore 7-10 meglio delle CPU classiche. Nvidia Kepler GPU risulta migliore dei sistemi Xeon-PHI 2012-2014 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

40 LEIT-ICT4 4030/09/2014COSA Project – D. Cesini – Ferrara CSNV

41 Coordinamento del progetto –verifica dei suoi progressi –report periodici Acquisti HW –Gestione Centralizzata a CNAF e ROMA1 –hardware spedito ad altre sedi se necessario per questioni Oraganizzazione meeting periodici, sia face to face che telefonici –Tool necessari Agenda, phone conference system, docs, issue traker, etc… Eventualmente preparazione del futuro progetto europeo o regionale qualora si ritenga che esistono le condizioni e le motivazioni –identificazione partenariato –Sviluppo proposal Sedi: CNAF, ROMA1 WP1 41 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

42 Technology tracking per lo studio dell’evoluzione delle tecnologie low power –SoC commerciali e in produzione da parte di imprese private –SoC da progetti di ricerca, prototipi o in fase di progettazione (es. in EUROSERVER) –Interconnessioni disponibili (PCIe, RapidIO, AMBA, eth) Benchmarking sulle piattaforme SoC –micro benchmark, sviluppati ad hoc o reperiti dalla comunità –applicazioni e test suite standard (i.e. HEPSPEC, RODINIA, SHOC, HPL, etc) –applicazioni reali di interesse dell’ente e comunemente usate in letteratura come riferimento delle prestazioni di architetture computazionali Indicazioni necessarie alla scelta della piattaforma su cui basare i cluster di COSA Continuazione delle attività HEPMARK per il benchmarking delle architetture tradizionali –termine di paragone ai benchmark su architetture low power Studio e valutazione delle tecnologie software, compilatori e paradigmi di programmazioni, disponibili su SoC low-power Sedi coinvolte: TUTTE WP2 42 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

43 Implementazione del prototipo di cluster di schede SoC low power al CNAF –Aperto agli utenti Equiparabile ad un cluster minimale tradizionale con acceleratori di ultima generazione –due nodi con GPU Nvidia K40 ~8.4TFlops (SP) ~ 800W –il SoC Nvidia K1 ~ 326 Gflops ~ 11W Configurazione e mantenimento tool software –Compilatori –Librerie –Framework di sviluppo –Batch system Implementazione software di monitoraggio delle principali metriche di interesse del progetto Il WP3 dipende dal WP2 fino al PM9 per quanto riguarda la decisione della piattaforma SoC su cui basare il cluster al CNAF Dal secondo aggiornamento con ulteriori unità di calcolo –in base ai risultati emersi dal WP2 –nuove architetture low power Sedi coinvolte: CNAF WP3 43 25 schede ~ 275 W 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

44 Implementazione del prototipo di cluster a ROMA1 –Chiuso agli utenti Studio delle architetture di rete per sistemi SoC tramite ARM+FPGA Primo anno –4 kit di sviluppo + un server prestazioni del sistema di interconnessione fornito sui sistemi di sviluppo, i.e Gigabit Ethernet test sintetici sia a livello socket TCP/IP sia a livello di libreria message passing MPI Con WP5 studio delle prestazioni della applicazione DPSNN multi-nodo –indicazioni utili per lo sviluppo di una rete di comunicazione dedicata Dal secondo semestre del primo anno –Espansione a 16 nodi per scalabilità –Progettazione e realizzazione architettura di interconnessione dedicata a bassa latenza Sedi coinvolte: ROMA1 WP4 44 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

45 Porting su SoC a basso consumo delle applicazioni di interesse Valutazione performance con metriche complesse –performance/watt, performance/eur, performance/porting_effort Confronto con risultati su sistemi HPC di punta oggi disponibili basati su acceleratori GPU e MIC –Continuazione di COKA Area Teorica (Parma e Ferrara) –Fluido-dinamica basata su modelli Lattice Boltzmann (Ferrara) –Simulazione Monte Carlo di sistemi di Spin-Glass (Ferrara) –PDE iperboliche per gravità numerica (Parma) Area Sperimentale (Pisa, PD, CNAF) –High Level Trigger Applications –CMS Swstack –Tomografia assiale da CH-NET Area reti neurali (ROMA1) –Codice DPSNN-STDP WP5 45 Sedi coinvolte: TUTTE 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

46 Disseminazione –materiale di training per nuovi paradigmi di calcolo per sistemi eterogenei CUDA, OpenCL,OpenACC, etc.. –Inserimenti di tematiche di interesse in scuole INFN su calcolo ESC a Bertinoro –Promozione di eventi di disseminazione per il personale INFN Sedi coinvolte: PD, CNAF, ROMA1 WP6 46 30/09/2014COSA Project – D. Cesini – Ferrara CSNV

47 47 COSA Project – D. Cesini – Ferrara CSNV Budget Anno I 30/09/2014

48 X-Ray Tomography (CH-NET/UniBo) – sistemi portatili di X-ray e TAC per beni culturali. Difficile spostare un tempio romano in un laboratorio INFN – post processing e CAD avviene in un momento successivo per l’impossibilita’ di avere potenza di calcolo in loco Use case: CH-NET 48 CT analysis of an Ancient Greek Bronze Head 30/09/2014COSA Project – D. Cesini – Ferrara CSNV


Scaricare ppt "COSA: Computing on SoC Architecture D. Cesini – INFN-CNAF – CSNV – 30/09/2014 - Ferrara."

Presentazioni simili


Annunci Google