La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Progetto APE: supercomputer dedicati per applicazioni scientifiche APE Group Development Team INFN - Roma Istituto Nazionale di Fisica Nucleare Italian.

Presentazioni simili


Presentazione sul tema: "Progetto APE: supercomputer dedicati per applicazioni scientifiche APE Group Development Team INFN - Roma Istituto Nazionale di Fisica Nucleare Italian."— Transcript della presentazione:

1 Progetto APE: supercomputer dedicati per applicazioni scientifiche APE Group Development Team INFN - Roma Istituto Nazionale di Fisica Nucleare Italian National Institute for Nuclear Physics

2 HPC e simulazioni scientifiche: alcuni fatti…(1) –Computer e problemi di fisica (teorica, applicata,…) Eccezionale rilevanza scientifica Formidabile “technology driver” I risultati ottenibili possono giustificare corposi investimenti economici e tecnologici Purtroppo non ovunque… Research 18%, Finance 7%, Geophysics 5% Piero Vicini – INFN Roma 2 Corso Formazione HPC – Ott. 08

3 Applicazioni numeriche “large scale” –Applicazioni numeriche “large-scale” Richieste non-comuni di potenza computazionale e memoria (I/O, storage,…) Necessitano di architetture di calcolo parallele, “scalabili” ad alte prestazioni e che mostrino alta efficenza computazionale su classi di applicazioni specifiche: spesso piattaforme “dedicate” –Astrofisica e Fisica del plasma Oggi: 70-100 TF/s, 201x: >500 TFs/s Architettura dedicata: Grape (Japan/Europe) –High-Energy Physics (LQCD) Oggi: 10-50 TF/s, stime per il 201x: 500-1000 TFs/s Architettura dedicata: APE, QCDOC(USA/UK) –Climatologia, Earth sciences Oggi: 10-30 TF/s, 201x: alcuni progetti per 200-300 TF/s di potenza aggregata Earth Simulator (Japan) –Life Sciences (molecular dynamics, protein folding, in silico drug design,…) N*Petaflops IBM Blue/Gene (USA) –......... Priorita’ tematiche per HPC in Europa (Scientific Case HET Task Force) Piero Vicini – INFN Roma 3 Corso Formazione HPC – Ott. 08

4 Architetture di calcolo –“Capability computer architectures”, due classi complementari: Massively Parallel Processor (MPP) e Computer Cluster MPP sono sistemi paralleli “dedicati”, scalabili, realizzati con HW custom, per simulazione di problemi di taglia grande. Due sotto-classi: Grande numero di processori con performances limitate (economici) Modesto numero di processori ad alte performances Connessi da una rete efficente Cluster: tecnologia “commodity”, relativamente scalabili ma con costi e tempi di sviluppo limitati; si usano per simulazioni di problemi di taglia medio-piccola –Diffusione: 20% dei top 500 supercomputer sono MPP; 80% sono Cluster MPP mostrano una potenza di calcolo aggregata del 40% del totale; l’insieme dei Cluster equivale al rimanente 60% www.top500.org –Sfortunatamente: Non esiste il supercomputer “one-size-fit-all” : sostanziali differenze nelle “dimensioni” del problema Non esiste il supercomputer “one-architecture-fit-all”: differenze nei requisiti di architettura di memoria, bilanciamento, interconnessione Piero Vicini – INFN Roma 4 Corso Formazione HPC – Ott. 08

5 HPC e simulazioni scientifiche: alcuni fatti…(2) Piero Vicini – INFN Roma 5 Corso Formazione HPC – Ott. 08 –Emergono nuovi “constraints” e nuove metriche: La misura di performances “sustained vs peak” non e’ piu’ sufficente “Ultra large systems magnify small problems…”. Con la crescita delle dimensioni dei sistemi di calcolo bisogna tenere conto di: –#flops/W, #flops/m 3 (rack), #flops/$ (costi di procurement e costi operativi). –Per una macchina di classe Pflops: –Ogni extra Euro per GFlops costa MEuro –Ogni extra Watt per Gflops costa MW-> MEuro –Reliability (Affidabilita’). –Macchina da 1 Pflops con 10 5 processori. Se ho un single node HW failure ogni 5 anni -> 1 HW failure ogni 25 minuti!!! –software tools innovativi per semplificare la programmabilita’ e far crescere l’efficenza computazionale Si realizza la convergenza tra embedded computing e HPC Sistemi low power, alta efficenza, “ruggedized”,… Good news!!! Per i sistemi embedded Europa mantiene la leadership

6 INFN e Calcolo ad alte prestazioni Due classi di applicazioni: Calcolo per gli esperimenti di alta energia (LHC) PC Farms e Infrastruttura Grid Calcolo per la fisica teorica Prevalentemente simulazioni numeriche su reticolo Teoria di campo, QCD computazionale Fenomenologia delle particelle elementari Sistemi complessi, Turbolenza, Biologia computazionale Applicazioni “Small (medium) scale” con PC cluster Applicazioni “Large scale” con macchine dedicate APE, JANUS,… Piero Vicini – INFN Roma 6 Corso Formazione HPC – Ott. 08

7 Calcolo per gli esperimenti Piero Vicini – INFN Roma 7 Corso Formazione HPC – Ott. 08

8 Calcolo per gli esperimenti Piero Vicini – INFN Roma 8 Corso Formazione HPC – Ott. 08

9 Calcolo per gli esperimenti Piero Vicini – INFN Roma 9 Corso Formazione HPC – Ott. 08

10 Calcolo per gli esperimenti Piero Vicini – INFN Roma 10 Corso Formazione HPC – Ott. 08

11 Calcolo per gli esperimenti Piero Vicini – INFN Roma 11 Corso Formazione HPC – Ott. 08

12 Calcolo per gli esperimenti Piero Vicini – INFN Roma 12 Corso Formazione HPC – Ott. 08

13 Calcolo per gli esperimenti Piero Vicini – INFN Roma 13 Corso Formazione HPC – Ott. 08

14 Calcolo (non-APE) per la fisica teorica Piero Vicini – INFN Roma 14 Corso Formazione HPC – Ott. 08

15 Calcolo (non-APE) per la fisica teorica Piero Vicini – INFN Roma 15 Corso Formazione HPC – Ott. 08

16 Calcolo (non-APE) per la fisica teorica Piero Vicini – INFN Roma 16 Corso Formazione HPC – Ott. 08

17 LQCD (Lattice Quantum Chromo Dynamics) QCD studies the Physics of nucleons particles. QCD is the relativistic (4-dim) quantum field theory of Strong (non-perturbative) Interactions (6 “quark flavours” and their “messengers” gluons). QCD defines Fields: fermions (quarks) with 4 spin x 3 colors = 12 components vector (  (x)) Gauge forces (gluons) U(x,m) SU(3) matrix : Action (dynamic of the problem) Unfortunately, due to the complexity of the problem no paper & pencil (analytic) solutions are available but: we can trasform QCD in a discrete statistical problem and solve it with Monte Carlo methods on powerful computers -> LQCD (Lattice QCD) Piero Vicini – INFN Roma 17 Corso Formazione HPC – Ott. 08

18 LQCD: una applicazione “killer” per sistemi HPC LQCD is a killer application for parallel computers Requires small lattice spacing to avoid UV problems scaling down to the continuum Requires large lattice size to include all the physical problem Scaling law for computational costs goes with the 7th power of lattice size (!!) Norman Christ’s plot showing how many flops have been used in the last 20 years Piero Vicini – INFN Roma 18 Corso Formazione HPC – Ott. 08

19 Mapping della LQCD su architetture parallele Discretizzazione dello spazio-tempo continuo: –Dimensione del reticolo (L) grande abbastanza –Passo del reticolo (a) piccolo –Scala con la 7 th potenza della dimensione del reticolo!!! #flops ~ (L) 5..6 * (1/a) 6..7 * (1/m q ) 1..2 Partizione del reticolo in sotto reticoli da assegnare a differenti processori → LQCD espone un parallelismo “imbarazzante” Per ogni punto del reticolo si calcola l’inverso dell’operatore di Dirac (matrice complessa sparsa con elementi non-zero vicino alla diagonale) → Architettura SIMD (SPMD) → Supporto per aritmetica dei complessi Per ogni punto del reticolo il calcolo necessita di informazioni provenienti solo dal reticolo locale e dai reticoli “vicini” spaziali → Network di connessione a “primi vicini” (3D mesh) (a bassa latenza ed alte performances) L a P 00 P 01 P 10 P 11 Piero Vicini – INFN Roma 19 Corso Formazione HPC – Ott. 08

20 Progetto APE e IPs –Progetto APE –MPP per simulazioni di teorie di gauge su reticolo –APE1, APE100, APEmille, apeNEXT –Network d’interconnessione per PC Cluster –ApeNet –Le nostre “Intellectual Properties”: –Processori VLIW con Floating Point unit efficenti per calcoli su dataset complessi/reali (1 MAC per ciclo di macchina) –Rete d’interconnessione “3D torus”, ad alta efficenza e bassa latenza –Sistemi densi caratterizzati da elevato parallelismo e bassa frequenza di clock, elevato rapporto flops/m 3, flops/W, flops/$ –Compilatori ottimizzanti per linguaggi di programmazione standard e dedicati Piero Vicini – INFN Roma 20 Corso Formazione HPC – Ott. 08

21 APE (1988) APE100 (1993) APEmille (1999) apeNEXT (2004) Architettura SIMD SIMD++ # nodi 162048 4096 Topologia flexible 1Drigid 3Dflexible 3D Memoria 256 MB8 GB64 GB1 TB # registri (w.size) 64 (x32)128 (x32)512 (x32)512 (x64) frequenza 8 MHz25 MHz66 MHz200 MHz Potenza aggregata 1 GFlops100 GFlops1 TFlops7 TFlops Le quattro generazioni di APE Note: Con APE100 sviluppo VLSI del processore Da APEmille la collaborazione diventa internazionale (IT + DE + FR) Low clock -> Low Power -> Many processor per volume Architettura SIMD(++) e 3D Mesh network motivate dall’applicazione Piero Vicini – INFN Roma 21 Corso Formazione HPC – Ott. 08

22 Da APE1 ad apeNEXT C,AabB,D + - * Aa * Ab * Ba * Bb + + (a+ib)*(A+iB)+(C+i D) =(Aa-Bb+C)+i(Ab+Ba+D) APE1 (1988) 1GF APE100 (1992) 25GF, SP, REAL APEmille (1999) 128GF, SP, Complex apeNEXT (2004) 800GF, DP, Complex Piero Vicini – INFN Roma 22 Corso Formazione HPC – Ott. 08

23 Architettura di apeNEXT Reticolo 3D di nodi computazionali Processore Custom VLSI - 200 MHz (J&T) 1.6 GFlops per node (complex “normal”) 256 MB (1 GB) memoria per nodo Network di comunicazione a primo vicini “debolmente sincrona” YZ su backplane e board, X su cavi Locale/remoto = 8/16 => 200 MB/s per canale Scalable 25 GFlops -> 6 Tflops Processing Board, 16 nodi4 x 2 x 2 ~ 26 GF Crate (16 PB), 256 nodi 4 x 8 x 8 ~ 0.5 TF Rack (32 PB), 512 nodi8 x 8 x 8 ~ 1 TF Large systems,(8*n) x 8 x 8 Host system basato su PC Linux Z+(bp) Y+(bp) X+(cables) 02 46 810 1214 13 57 911 1315 J&T DDR-MEM X + … Z - Piero Vicini – INFN Roma 23 Corso Formazione HPC – Ott. 08

24 MicroArchitettura della FPU del J&T 4 multiplier4 adder/sub Pipelined “normal” complessa a*b+c (8 flop) per cycle Piero Vicini – INFN Roma 24 Corso Formazione HPC – Ott. 08

25 Assembling apeNEXT… J&T module PB BackPlane Rack J&T Asic Piero Vicini – INFN Roma 25 Corso Formazione HPC – Ott. 08

26 Ape1000 ed apeNEXT Apemille (2000): Italy 1365 GF Germany 650 GF UK 65 GF France 16 GF Totale 2 TF apeNEXT (2005): Costi di sviluppo = 2000 k€uro 1100 k€uro VLSI NRE 250 k€uro non-VLSI NRE 650 k€uro per acquisizione prototipo Manpower = 20 man/year Mass production cost ~ 0.5 €uro/Mflops Installazione: Italy 10.6 TF Germany 8.0 TF France 1.6 TF Totale 20.2 TF Piero Vicini – INFN Roma 26 Corso Formazione HPC – Ott. 08

27 apeNEXT computing centre “Laboratorio di Calcolo apeNEXT” –Sito d’installazione centralizzato per sistemi apeNEXT –10 Tflops di peak performances aggregata. 13 Sistemi “Torre” INFN 2 Sistemi “Torre” Orsay –~30 TB disk storage –5+1 technical support staff –Operativo da Febbraio 2006 –Occupazione media maggiore del 90% delle risorse Piero Vicini – INFN Roma 27 Corso Formazione HPC – Ott. 08

28 apeNET: 3D torus per PC Cluster Network d ’ interconnessione per PC cluster con topologia 3D toroidale per cluster di PC –apeLINK: PCI-X (133MHz) board 6 link LVDS, bidirezionali e full-duplex 700 MB/s per link per direzione (-> 8.4GByte/s) Link basati su National Instr. SERDES –Capacita ’ di routing e switching integrata –Alta banda passante e bassa latenza grazie all ’ adozione di un protocollo “ leggero ” Piero Vicini – INFN Roma 28 Corso Formazione HPC – Ott. 08

29 apeNET: risultati Sviluppi SW: RDMA, Network Driver, LAM/MPI Codici di LQCD e BioComputing 128 nodes 1U PC assemblati a Roma 128 blade nodes assemblati a Trento Piero Vicini – INFN Roma 29 Corso Formazione HPC – Ott. 08

30 Progetto SHAPES e DNP (Distributed Network Processor) 2006-2009: EU funded (1ME) INFN Roma to design & develop a novel network interconnect for the FP6 Shapes project:  Based on APENet  3D Torus topology  6 links  10 ports crossbar switch  multi-hop packet routing  RDMA HW support  Custom SERDES  A library of customizable components for ASIC and FPGA integration Piero Vicini – INFN Roma 30 Corso Formazione HPC – Ott. 08

31 What’s next after apeNEXT?: scenario (1) Oggi (www.top500.org): IBM Blue/Gene (“simile” ad APE), N*100TFlops 2005: Versione L Fine 2007: Versione P, 1 Petaflops/290K processori Clusters: N*10TFlops Futuro (2011 e oltre): USA: IBM, Blue/Gene evolution (Q), N*Petaflops Japan: NEC/Hitachi/University e FuJitsu: due progetti, 3 Petaflops per biotech e nanotech, silicio custom, rete di interconnessione dedicata (anche ottica) BlueGeneL : 65000 Nodi dual-core, 280 TF sust. BlueGeneP : 32 nodi quad-core, 460 GF/board. Piero Vicini – INFN Roma 31 Corso Formazione HPC – Ott. 08

32 What’s next after apeNEXT?: scenario (2) I limiti tecnologici fanno emergere nuove architetture di processori: 2004/2005 Intel: “no more 4GHz P4” i.e. non piu’ processori monolitici ad altissima frequenza L’alternativa e’ “parallel processors” multi-core, multi-tile integrazione su singolo chip di piu’ (molte!) unita’ di calcolo, a limitata frequenza e minore complessita’ con effort tecnologico sulla connettivita’ Oggi: IBM Cell BE (Sony+Toshiba) per PS3 Futuro: approccio estremo al multi-core/multi-tile (INTEL 80 Core processor) Piero Vicini – INFN Roma 32 Corso Formazione HPC – Ott. 08

33 IBM Cell BE Progetto IBM/Sony/Toshiba per PS3 400 M$ d’investimento (!!!) Controllore e’ “powerPC “(PPE) 8 unita’ vettoriali SIMD (SPE) SPE 4x2x4Ghz=32 GFs 256 GFs single precision 25 GFs double precision Interfaccia di memoria XDR RAM (25 GB/s) I/O ad alta velocita’ (76 GB/s) 200-250 W a 4GHz Pros: Esiste… Peak perfomances impressionanti Approccio estremo alla computazione vettoriale SIMD Cons (“la volpe e l’uva”…): Processore Stand-alone sistemi difficilmente scalabili Interfaccia di memoria “esotica” e non bilanciata per applicazioni scientifiche Centinaia di Watt!!! Programmabilita’ molto difficile, nessun supporto software per il parallelismo Piero Vicini – INFN Roma 33 Corso Formazione HPC – Ott. 08

34 MPP Infn vs “concorrenza”: analisi del gap tecnologico Quanto siamo indietro i.e il gap tecnologico e’ recuperabile? Un fattore 3.5 di picco ma…praticamente uguali per LQCD sustained N. ProcRpeak(TFs)Rsust(TFs)GF/proc(P)GF/Proc(S) Blue/Gene L65536367735.61.12 apeNEXT819213.28.01.60.97 i.e. “When I’ll grow up I will be the IBM…” Blue Gene e’ molto simile ad apeNEXT/QCDOC Esempio di trasferimento tecnologico accademia-industria E’ marginalmente piu’ veloce, rete 3D Torus “enhanced” Mostra (ovviamente!) valori dei parametri di sistema (Flops/W) simili ad APE Investimento enorme in application codes porting Piero Vicini – INFN Roma 34 Corso Formazione HPC – Ott. 08

35 Brainstorming Silicon shrink –apeNEXT: 0.18 um –oggi: 0.13 - 0.90 um –Nei prossimi anni: 0.65 – 0.45 um Die area per FP Node Caso peggiore: 8 nodi computazionali per chip (Tiled architecture) Piero Vicini – INFN Roma 35 Corso Formazione HPC – Ott. 08

36 Brainstorming(2) Performance scaling –La frequenza di clock cresce con il processo di silicio –Il consumo di potenza decresce con il processo di silicio –Multi-Tiles versus Single-Tile Piero Vicini – INFN Roma 36 Corso Formazione HPC – Ott. 08

37 Brainstorming Processori mlti-tile, “Smart memory hierarchy”, nuova ingegneria di sistema “3D – Integrazione di molti core/tile per singolo chip – Grandi buffer di memoria on-chip -> riduzione dei componenti per board – Tecnologia “stacked” per integrazione di sistemi multi-board – 256-512 FP Nodes per board, 32 board per rack apeNEXT rack Fattore 100… Piero Vicini – INFN Roma 37 Corso Formazione HPC – Ott. 08

38 PetAPE: la nuova generazione  Objective: provide adequate computational resources to INFN theoretical groups in 2009-2012 (and beyond)  2 projects but synergic deliveries, unified research line (interconnection network)  ApeNet+: addresses 2009-2010 LQCD requirements  Buy best cluster on market  Add custom 3D Torus network (based on DNP components)  PCIexpress card, based on APENet design  Update PHY if needed  Pet-Ape: addresses >2011 LQCD requirements  Custom VLSI processor  3D Torus network (based on DNP components)  Custom system engineering Piero Vicini – INFN Roma 38 Corso Formazione HPC – Ott. 08

39 Why apeNET+  Feasibility proven (previous generation)  “Natural” DNP test-bed  It's scalable, modular and cost effective interconnection technology  Minimal cost and restricted “time to market” for system update  PC update (procurement)  APENet+ Firmware update (man power...)  APENet+ HW update (minimal cost, reduced development effort)  3D Torus fits with the requirements of many scientific applications (DD-HMC, GROMACS, Gadget2)  3d torus is even better exploited in a multi-core environment,where a 4th dimension coordinate is assigned to each core Piero Vicini – INFN Roma 39 Corso Formazione HPC – Ott. 08

40 Custom vs PC Clusters PetApe - apeNEXT:Fattore 100 sul sustained APE-PC: Fattore 4-10 sul sustained. Piero Vicini – INFN Roma 40 Corso Formazione HPC – Ott. 08

41 ApOtto  ApOtto Multi-tile (8+1) processor (@45 nm)  RISC + 8 VLIW FP Core  Complex MAC single Precision  Real MAC Double precision  Hierchical network with DNP-based network controller  On-chip, high bandwidth, NOC  Off-chip 3D Torus, point-to-point  Hierarchical memory  On-chip – on-tile buffers:  Multiport RF  128 KB mem (DDM)  1 (up to 4) Gb of local mem bank per tile (DXM)  Shared on-chip mem (scratch pad)  Design re-use  apeNEXT J&T, ATMEL MagicV Piero Vicini – INFN Roma 41 Corso Formazione HPC – Ott. 08

42 ApOtto key numbers APOTTO Tile Microarchitecture: Complex SP &Real DP for high efficiency, very low power, and dense systems  Target clock frequency 0.5 GHz  32(40)/8 GFlops (SP/DP) aggregated perf.  DXM aggregated peak bandwidth: 18(36) GB/s  Tile to tile peak bandwidth (NoC): 18 GB/s  3DT aggregated peak bandwidth: 6 GB/s  3DT Chan. size: 20 wires (5(lines) *2 (bidir)*2 (diff.))  Die size preliminary estimation (45 nm)< 40mm2  Each tile less than 4 mm2  Power consumption estimation ~ 8W  Pinout: 600 functional pins + 300 power pins  360 pins for memories interface, 120 pins for 3DT, 100 pins for I/O and peripheral  Processor package: ~ 3.5*3.5 cm2 Piero Vicini – INFN Roma 42 Corso Formazione HPC – Ott. 08

43 Modul8+: APOTTO integration  Modul8+ is the elementary building block hosting 1 multi-tile processor + DXM memory chips + glue logic  Spare area for future enhancement  Double-side board 12cm x 4cm (L x H)  Procs + glue + “spare area”“ on upper side  Mems + connectors on the motherboard side  6 full-bidir, differential, LVDS-based channels  Total of 60 diff. pairs @ 1Gb/s (120 pins)  Feasibility demonstrated using SAMTEC connectors QTE family  70 diff. pairs (140 pins) on 10 cm connectors  Tested up to 8.5 GHz  2 lanes allows to host 3DT + General I/O  Estimated power consumption less than 13 W  ApOtto ~ 8 W  DDRx 1-4Gb(x16/32) @600Mhz -> 400 mW Piero Vicini – INFN Roma 43 Corso Formazione HPC – Ott. 08

44 System integration: TeraMotherboard+  TeraMotherboard+: 32 Modul8+, 1 TFlops of peak performances  Board size 50cm x 48cm, 32 Modul8+  “Simple” system: DC/DC converter + modules  “Regular” system: very effective 3D signals routing on a limited number of layers (estimated 6-7 layers for LVDS routing)  System integration  “Motherboard stacking” assembly  Single face (Modul8+ placed only on one side, female stacking connectors on other side, vertical or horizontal stacking)  Topology: TB+: 1x8x4; System: 32x8x4  X “off-board” connections placed on TB+: total of 32 X+ and 32 X- channels @20 -> 1280 wire/TB+  SAMTEC HD-MEZZ: 50 pins for linear cm (@8GHz) -> stacking connector < 30 cm  “Traditional” APE way: backplane + front cables  Backplane connector density to be verified Piero Vicini – INFN Roma 44 Corso Formazione HPC – Ott. 08

45 System power consumption TB+ Power consumption 0.4 KW 32 TB+ system -> 13KW. (Relatively) High but  many low power devices rather than a few high power devices (no HOT SPOT!!)  main heat sources (Modul8+ and DC/DC converters) are homogenously distributed on the whole surface of the motherboard Piero Vicini – INFN Roma 45 Corso Formazione HPC – Ott. 08

46 System Cooling Analysis  PetAPE system:  32 TeraMotherboard+ arranged in parallel with a pitch of 35.0mm.  i.e. TeraMotherboard+ hosts a “mid-plane” of 32 Modul8+ and 32 DC/DC converters for Modul8+ power supply  Analysis of cooling requirements (Ellison Equation) using simplified profile of TB+ (3 air-flow channels) with real dimensions :  HP: only components with significant volume (DC/DC and connectors), low profile components (height < 1.5mm) “merged” into the board, total dissipation by air-flow convection  Perfect matching between percentage of Air-flow and Power dissipations  0.5-1 m 3 /s total air-flow required Power Consumption (W) Channel Airflow Resistance Power Dissipation Percentage Airflow Percentage TeraMotherboard+70414100 Channel 1 (under Modul8+)11544700016.36%17.76% Channel 2 (over Modul8+)4483800063.64%60.91% Channel 3 (over DC/DC)14131300020.00%21.22% Piero Vicini – INFN Roma 46 Corso Formazione HPC – Ott. 08

47 PetApe SW Development Environment  Single Program Multiple Data  C/C++ & MPI programming environment  Painless recompilation of legacy code  Programmer can focus on the optimization of critical computational kernels  Code annotation to manage 2 level memory hierarchy  Pipelines friendly coding of computational loops  Explicit usage of predication statement  Use of intrinsics (compiler should support auto-vectorization but...)  Libraries  Blas, Lapack  QCD Libraries: DD-HMC, QDP++?, FermiQCD?, Chroma?  Advanced Tools (from EU Shapes project):  Optimizing task scheduler  Parallel platform simulator Piero Vicini – INFN Roma 47 Corso Formazione HPC – Ott. 08

48 PetAPE Collaboration  INFN Roma 1, INFN Roma 2 APE group  apeNET development collaboration, technological and scientific staff  SHAPES Partnership  ATMEL Roma, shares with INFN interests and people…  RISC+DSP architectures, Industrial applications  UniRoma1, Dipartimento Ing. Elettronica, Prof. Olivieri e Trifiletti  Silicon BackEnd (Floorplan, Synthesys and P&R) Chip testability experts  ST (Grenoble)+ Universita’ di Cagliari, Dip. Ingegneria Elettronica Prof. Raffo  SPIDERGON NoC Architecture + Silicon Foundry access  ETHZ Zurich, Prof. Thiele  coarse grain parallelism and automatic mapping /scheduling  TIMA and THALES  HDS (Hardware dependant software) e RTOS integration  TARGET Compiler Tech.  Retargetable Compilers: fine grain parallelism  RWTH Aachen Univ.  Fast Simulation of Heterogeneous Multi Proc. Systems (SystemC) Piero Vicini – INFN Roma 48 Corso Formazione HPC – Ott. 08

49 PetApe cost (NRE + Mass Production) ST 45 nm shuttle cost = 10 KEuro/mm2 Senior engineer chip RTL design e test 1 back-end expert (chipdesign phase only) Engineering (outsourcing…) CAD/Simulator Licenses Compiler, OS, libraries etc (NO outsourcing) VHDL and HW/SW and SYSTEM design Piero Vicini – INFN Roma 49 Corso Formazione HPC – Ott. 08

50 PetaFlop computing centre operating cost Piero Vicini – INFN Roma 50 Corso Formazione HPC – Ott. 08

51 Only a joke…  Prof. Bachem (spokesman of PRACE project..) Petaflops Computing Center:  120 ME HW investment  60 ME Infrastructure i.e. 50% of machine cost  ApeNEXT Computing Center  6 ME HW investment  less than 1 ME for infrastructure (15%)  Pet-Ape Petaflops Center  6 ME HW investment  According to “ Experts ” you have to pay 3ME for infrastructure  According to APE experience you can do it with 1.0-1.5 ME  You “ gain ” 1.5 ME (to spend for NRE) NRE ALMOST FOR FREE!!!! Piero Vicini – INFN Roma 51 Corso Formazione HPC – Ott. 08

52 Conclusioni(1) APE –4 generazioni di supercomputer paralleli; architettura valida per una ampia classe di simulazioni scientifiche; know-how scientifico/tecnologico/ingegneristico –Nonostante le limitate risorse di sviluppo APE mostra alte prestazioni per volume e costo (le idee contano…). L’esigenza scientifica… –Necessita’ di nuove architetture di calcolo (ed interesse ad usarle) in campi di ricerca che hanno problemi di simulazione di taglia grande … e il framework corrente –Europa ha la leadership nella tecnologia “embedded” che si dimostra utile, e ad oggi necessaria, per realizzare sistemi HPC –Iniziative Europee di successo (APE-INFN-Desy-Orsay) –Sinergie costruttive con Progetti Europei (SHAPES,…) Piero Vicini – INFN Roma 52 Corso Formazione HPC – Ott. 08

53 Conclusioni(2) Nell’immediato futuro il limite tecnologico “rinormalizza” la competizione… –non e’ piu’ possibile spingere sull’accelleratore della frequenza di clock… –nuove idee architetturali (multi-tile) e nuovi approcci ingegneristici; –nuovi modelli di programmazione e strumenti software adeguati; –expertise di programmazione efficente di architetture parallele … almeno per un breve periodo, le “buone idee” possono prevalere sull’eccellenza tecnologica Con la prossima generazione si potrebbe colmare il gap con gli attuali “word- class” supercomputers. Piero Vicini – INFN Roma 53 Corso Formazione HPC – Ott. 08

54 Referenze Ape papers –“Computing for LQCD: apeNEXT”, Computing in Science and Engineering, vol. 8, no. 1, pp. 18-29, Jan/Feb, 2006 –“APENet: LQCD clusters a la APE”, Nuclear Physics B Supplement, Volume 140, p. 826-828, hep-lat/0409071 Websites APE –http://apegate.roma1.infn.it/APE/ Portale APE di Roma (sito d ’ installazione) –http://www-zeuthen.desy.de/ape/html Portale APE di DESY Zeuthen Progetto Europeo SHAPES –www.shapes-p.org IBM Blue Gene e Cell Processor –http://www.research.ibm.com/bluegene/ –http://www.research.ibm.com/cell/ Piero Vicini – INFN Roma 54 Corso Formazione HPC – Ott. 08


Scaricare ppt "Progetto APE: supercomputer dedicati per applicazioni scientifiche APE Group Development Team INFN - Roma Istituto Nazionale di Fisica Nucleare Italian."

Presentazioni simili


Annunci Google