+ COSA (COmputing on Soc Architectures ) Tommaso Boccali – INFN Pisa.

Slides:

Advertisements

Presentazioni simili

Come scegliere un computer?

Advertisements

E835 & Hera-B Concezio Pisa, 21/12/2004. E835 (aka Jet-FNAL) timeline dell'esperimento –Presa dati conclusa nel Alcune analisi tuttora in corso.

Dr. Francesco Fabozzi Corso di Informatica

ECDL MODULO 1.1 Conoscere i sistemi di elaborazione

Time Sharing Il termine “Time Sharing” proviene dall'inglese e significa letteralmente “partizione di tempo”. Questa è una tecnica sviluppatasi negli.

Cluster openMosix Linux Day ’04 Caserta Ing. Diego Bovenzi.

Introduzione al calcolo parallelo SISTEMI INFORMATIVI AZIENDALI Pierpaolo Guerra Anno accademico 2009/2010.

Il Software: Obiettivi Programmare direttamente la macchina hardware è molto difficile: lutente dovrebbe conoscere lorganizzazione fisica del computer.

MAIS WP5 – Architectures Luca Negri Politecnico di Milano Roma – novembre 05.

Proposta di integrazione e consolidamento delle risorse presenti nellinfrastruttura Grid dellItalia Meridionale (L. Merola, )

Aspetti critici rete LAN e WAN per i Tier-2

MBS MILANO O PEN S OURCE M ANAGEMENT.

Riunione CRESCO Infrastruttura HPC Cresco Analisi Preliminare.

Supercalcolo al CILEA: risorse e opportunità CAPI /11/2005 Dr. Claudio Arlandini, PhD HPC System Administrator.

3. Architettura Vengono descritte le principali componenti hardware di un calcolatore.

WP 14 Grid Applications for Geophysics Istituto Nazionale di Geofisica e Vulcanologia INGV Progetto FIRB Grid.it Documento di rimodulazione.

Reti di Calcolatori L-S Un Sistema Decentrato di Allocazione del Carico per Applicazioni di Calcolo Distribuito Mauro Bampo.

LNL CMS M.Biasotto, Firenze, 22 maggio Hardware e tools di installazione Massimo Biasotto INFN – Lab. Naz. di Legnaro.

PRESENTAZIONE di RICCARDO

Modulo 1 - Concetti di base della Tecnologia dell'Informazione

Elettronica Digitale (II Parte) 10-11_5 1 ELETTRONICA DIGITALE II (5) 6/12 Il processo di assemblaggio.

Informatica Lezione 5 Scienze e tecniche psicologiche dello sviluppo e dell'educazione (laurea triennale) Anno accademico:

6 Febbraio 2006CSN1 - Roma1 MEG : relazione dei referees P. Cenci R. Contri P. Morettini M. Sozzi.

Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)

Linee di evoluzione delle ICT Uno sguardo al futuro dell’ICT nell’impresa Torino, 13 Luglio 2005

Calcolo ad alte prestazioni: situazione e prospettive Gianluigi Bodo INAF Osservatorio Astronomico di Torino.

Tier-2 Tier-2 ATLAS (Osservazioni sulla proposta dei referee del calcolo LHC) Lamberto Luminari CSN1 – Roma, 3 Aprile 2006.

Hardware Struttura fisica (architettura) del calcolatore formata da parti meccaniche, elettriche, elettroniche.

PcClusters, ALBERT100 e Grid Roberto Alfieri Parma,

Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.

7 FRASI DA NON DIRE.

Presentazione Servizi. Di Cosa Ci Occupiamo Hera02 cura per le Aziende i seguenti tre assetti: 1 – I servizi di Telecomunicazioni: Connessione Dati verso.

MS - NA62 TDAQ INFN – Settembre 2011 TDAQ in generale Distribuzione clock/trigger: progetto definito, moduli finali in arrivo (?), installazione prevista.

SEMINARI CAMO 2003 LA SIMULAZIONE NUMERICA COMPIE 50 ANNI

CDF Calcolo Another brick in the wall Paolo Morettini CSN1 Lecce Valerio Vercesi Settembre 2003.

24 Sett. 04Totem -Relazione dei referee1 CSN1 - Assisi 24/09/2004 TOTEM Relazione e proposte finanziarie Referee: G: Chiefari, M. Curatolo, M. de Palma.

Andrea Boitani Università Cattolica del Sacro Cuore Milano

Analisi matematica Introduzione ai limiti

COSA: Computing on SoC Architecture D. Cesini – INFN-CNAF – CSNV – 30/09/ Ferrara.

+ COSA (COmputing on Soc Architectures ) Michele Michelotto – INFN Padova.

Corso linux RiminiLUG presenta Rete a bassissimo budget per il piccolo ufficio architettura di rete LTSP in contesti professionali corso linux 2008.

Un computer per amico Anno scolastico 2001/2002 7°Circolo Autonomo Prato Funzione Obiettivo Nuove Tecnologie Ins: Angela Tinghi.

CNAF 6 Novembre Layout del testbed  wn a OS SL5.0 8 GB RAM kernel xen_3.1.0 SMP  wn a OS SL5.0 8 GB RAM kernel.

Implementazioni di un analizzatore di protocollo Esistono quattro fondamentali tradeoff per la realizzazione di un analizzatore di protocollo:  Analisi.

Workshop CCR e INFN-GRID Hotel Cala di Lepre Palau, maggio 2009 Il futuro di INFGRID nell'era IGI:

26 Giugno 2007CSN1 - Frascati1 Temi di attualità nella CCR Accanto alla tradizionale attività di controllo dei finanziamenti per le infrastrutture di calcolo.

Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.

Test di porting su architetture SoC F. Pantaleo for T. Boccali.

Riunione CSN1, Roma, Giugno 2015F. Bedeschi, INFN-Pisa 1 Riunione CSN1 F. Bedeschi, Roma, Giugno 2015  Sommario  Comunicazioni  Premiali 2014  MOF-LHC.

CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.

FESR Consorzio COMETA - Progetto PI2S2 Il Tier-2 di ALICE a Catania Roberto Barbera Università di Catania e INFN Visita Referee.

Utilizzo della VO di theophys per il calcolo lattice QCD G. Andronico M. Serra L. Giusti S. Petrarca B. Taglienti.

Riunione SICR 16/2/2015. Rete Intervento 6509 – Sostituzione scheda avvenuta con successo – Fase di configurazione nuova scheda – Spostamento link? Mercoledi.

Progetto iSCSI Report alla CCR 12-13/12/2006 Alessandro Tirel – Sezione di Trieste.

Uso della rete geografica e richieste di upgrade CCR 31/3/2015 (Roma) S.Zani.

Aggiornamento sui lavori di ampliamento degli impianti infrastrutturali del TIER1 e stato delle risorse Cristina Vistoli – Massimiliano Fiore INFN-CNAF.

Il futuro della infrastruttura Grid INFN : le risorse economiche e le competenze ” Workshop CCR INFN GRID 2011.

1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera

19/4/2013 D. Menasce, M. Serra - Referaggio Progetti INFRA e WLCG 1.

Uno sguardo al prossimo futuro 1 Workshop Atlas RPC Roma1 26/3/2015 R. Santonico.

Referaggio TIER2 di Pisa 30 giugno 2006 Silvia Arezzini (Servizio Calcolo e Reti)

P. Morettini. Organizzazione della CCR Le principali attività della CCR consistono da un lato nell’assegnazione di fondi per le infrastrutture di rete.

Attività Gruppo Virtualizzazione Andrea Chierici CNAF CCR

G. Maggi 24/1/2006 Il Progetto del TIER2 di Bari Giorgio Maggi.

Silvia Arezzini 2 luglio 2014 Consiglio di Sezione per Preventivi.

Gruppo Server Commissione Calcolo e Reti 15 Marzo 2006.

M. Citterio CDS Milano – 9 Luglio 2014 Servizio di Elettronica 1.Attivita’ previste per il Strumentazione/Attrezzature, capacita’ di calcolo e software.

L’infrastruttura del progetto ReCaS Paolo Lo Re on behalf of ReCaS collaboration.

Status Acceleratore e budget. Status Nell’ Ottobre 2010 abbiamo terminato la stesura di un nuovo “CDR2” pubblicato su:

Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.

Transcript della presentazione:

+ COSA (COmputing on Soc Architectures ) Tommaso Boccali – INFN Pisa

+ Outline Motivazione Stato dell’arte Risultati attesi Impatto su INFN/Pisa 2

+ Motivazioni Il calcolo scientifico su larga scala si divide in modo un po’ arbitratrio fra calcolo ad alte prestazioni (HPC) e calcolo ad alto thruoghtput (HTC); la differenza e’ tipicamente nel tipo del problema che si vuole affrontare 3

+ HPC Fare un singolo calcolo (semplifico) che necessita una potenza di calcolo enorme, e che un singolo processore non puo’ portare a termine in tempi accettabili Lattice QCD Simulazioni gravitazionali Fluidodinamica … HPC e’ usato per questo: si cerca di simulare un processore molto potente mettendone insieme tanti. Questa simulazione e’ tanto piu sensata quanto piu’ l’interazione dei processori simuli le funzioni di un unico processore (per esempio multicore) Il fattore piu’ difficile da simulare sono la banda e la latenza fra i singoli core, e la mancanza di una memoria condivisa HPC 4

+ Macchine tipiche Ormai da molti anni I sistemi HPC (“I supercomputer”) sono realizzati ustilizzando processori commerciali in grande numero, con o senza chip vettoriali acnto, ma comunque con una interconnessione di rete ben maggiore di quella di cui sono dotati i PC standard Nel nostro piccolo, il cluster Zefiro dei teorici e’ connesso cia Infiniband, a 40 Gbit/s Apenet BlueGene/Q 5

+ HTC Le macchine “HTC” in pratica non esistono, sono tante macchine standard poco interconnesse, e messe in un unico posto (“farm”) I problemi HTC sono facilmente parallelizzabili (produzione MonteCarlo: task infinitamente divisibili, nessuna interazione fra i nodi di calcolo richiesti, simulazioni meccanica statistica) Il calcolo di LHC e’ eseguito su sistemi HTC: farm di calcolo che utilizzano componenti standard, estensibili in pratica all’infinito per l’assenza di correlezione fra i nodi 6

+ In entrambi i casi … Questo macchine costano (HTC < HPC), ma non e’ questo il punto Queste macchine hanno un alto costo di esercizio Esempio di un tipico nodo di calcolo HTC ~1000 HS06 (vediamo dopo, e’ un’unita’ di misura di potenza di calcolo, come tante altre) ~10000 Euro Vita media 3-4 anni ~ 1kW di consumo ~0.5 kW di costo aggiuntivo per raffreddarla 7

+ Due problemi da affrontare 1. Il calcolo (LHC, per esempio) ha dei costi difficilmente sostenibili nel prossimo decennio Per avere speranza, dobbiamo riuscire a utilizzare le macchine con prezzo/prestazioni migliore 2. In ogni caso, anche se le risorse non aumentassero in modo eccessivo, quello che sta aumentando e’ il costo elettrico per kWh E su lungo termine non si sa “chi paghi la corrente” 8

+ Esempio: un nodo di calcolo LHC standard da gara kEur costo di procurement 9 kEur costo di esercizio (1 Wy = Eur) Nel caso dei Tier2 e del Tier1 di LHC, ospitati in una struttura che costa > 1 MEur (soprattutto per i costi dell’infrastruttura di raffreddamento) L’nfrastruttura non e’ una tantum, va mantenuta e cambiata 9

+ Unita’ di misura varie In generale (ovvieta’) un computer che consuma meno costa meno Sia come costo diretto (per tenerlo acceso) Sia come costo indiretto (per raffreddarlo) Sia perche’ l’infrastruttura costa meno Unita’ tipiche che misurano la “potenza di calcolo” sono Si2k, HS06, Sf2k, Flops (non ci soffermiamo su cosa siano, tanto lavoreremo solo in “relatico”) Pero’ dal punto di vista del budget quello che conta davvero e’ HS06/Eur (per esempio), o limitandosi al consumo elettrico HS06/W In un’ottica piu’ da fisico, un processore che simula 1 evento in 5 min consumando 1 W, e’ meglio di uno che simula lo stesso evento in 1 min consumando 100 W Events/sec/W 10

+ (nota: un problema EU e soprattutto IT) Il problema del consumo elettrico e’ prettamente nostro Italia fino a 2x piu’ cara del resto d’Europa Italia fino a 3x piu’ cara di USA 11

+ Italia +60% rispetto alla Francia Italia +15% rispetto alla media Europea 12

+ ~2x rispetto a USA 13

+ La seconda faccia del problema Per ora ho parlato del problema elettrico, ora passiamo al problema tecnologico Sono finiti i tempi in cui il supercalcolo si progettava le sue CPU Per essere competitivi dal punto di vista del costo (HS06/Eur), e’ necessario essere sulla cosiddetta “commodity wave”, cioe’ utilizzare le componenti che Siano prodotte in maggiore quantita’, e quindi con minori costi industriali Siano soggetti a maggiore concorrenza Sian in fase espansiva (non un mercato morente) 14

+ Quindi? Il mercato dei processori standard (quelli dei PC) e’ Saturo – nuove acquisizioni sono inesistenti, solo sostitzioni Non piu soggetto a concorrenza vera (Intel e’ in pratica unico vendor) Quali sono i mercati che ”tirano”? I videogiochi: schede grafiche ad alta potenza, usate per simulare ambienti realistici Consumi alti, potenza alta Il mercato portatile (telefoni e tablet) Consumi bassi (devono poter funzionare a batteria), potenza cosi’ cosi’ 15

+ 16

+ Shipment ARM: architettura dominante telefoni e tablet X86: architettura dominante PC Miliardi! 17

+ HEP! 18

+ ARM, ma non solo Le architetture emergenti portatili riescono a avere un basso consumo tipicamente ustilizzando soluzioni System On a Chip (SoC) Un solo chip = 19

+ Legge di Moore Diceva “raddoppio della potenza delle CPU ogni 2 anni a partita’ di costo” (che vuol dire +40% anno) X86 (server tipici di OGGI): Stime CERN dicono che questo si contrarra’ a +20% nel prossimo decennio ARM: Attualmente seguono Moore, quindi rate di miglioramento doppio Tecnologia ancora non matura, + facile avere aumenti sostanziali 20

+ Ok, ma che ci facciamo? NON stiamo chiaramente pensando a comperare 1000 iPhones e usarli per fare lattice QCD Vogliamo usare queste CPU in configurazione standard (rack di computer in centri di calcolo attrezzati), in ambiente Linux, sia in configurazione HTC che HPC Domanda: si possono fare cose serie con queste CPU? Assolutamente si’! 21

+ Esiste anche qualcosa di ingegnerizzato … Boston Viridis Boston Viridis, DELL Copper, HP MoonShot In 2U: 48 SoC ARMv7(1.4 GHz) 4-core, each with 4 GB RAM 8x10Gbit/s internal networking; 24x DISK slots Under 300W under load ~ 20kEuro (?) Costo ancora troppo alto per noi A cluster in a single box.. 22

+ Tests di sw CHEP

+ Tests di CMS (Pisa + Princeton + CERN) Porting completo dell’ambiente operativo di CMS Simulazione, ricostruzione, analisi Come si fa? Meno complicato del previsto: Il SW di CMS e’ solo open source: ci sono i sorgenti, basta ricompilare (beh, non cosi’ facile) Su questi sistemi e’ presente un ambiente Linux completo, con lo stesso compilatore usato su sistemi x86 Cosa ci si aspetta da queste CPU? Che vadano piu’ piano (Events/sec per esempio) Che siano pero’ migliori se la metrica e’ Events/sec/W 24

+ Risultati dal paper CHEP ARM piu’ lento di un fattore 3-4 in assoluto ARM migliore di un fattore 3-5 relativamente alla potenza usata 25

+ 10 W 26

+ SoC per HPC? Di nuovo ci salvano i videogiochi. La tendenza dell’ultimo paio di anni e’ affiancare alle CPU delle GPU sempre piu’ potenti Queste sono niente altro che le stesse GPU dei desktop, ma di nuovo nella versione a basso consumo E necessariamente a basso costo: il CHIP in un cellulare non puo’ costare in tutto piu’ di qualche decina di $ Consumo: ~ 50 volte meno delle schede desktop Potenza (Gflops) ~ 5-10 volte meno Costo: sono sullo stesso silicio delle CPU (e’ un SoC, per cui ce le hai anche se non le vuoi) 27

+ Linee di sviluppo per COSA 1. Calcolo HPC 1. Test di architetture per macchine future basate su SoC 2. Sviluppo di interconnessioni specifiche (alla “APE”) per sistemi di questo tipo, per 2. Calcolo HTC 1. Test di architetture e di possibile utilizzo di questo tipo di calcolo per (una frazione) di centri di calcolo INFN Risparmio annuale di corrente elettrica facilmente stimabile in Meur/anno 2. Preparazione di un cluster da far utilizzare agli esperimenti come testbed 3. Applicazioni 1. Formare una knowledge base INFN sul porting di applicazioni HPC/HTC ai processori SoC 2. Aiutare gli esperienti interessati al porting e al testing delle loro applicazioni 28

+ Altro possibile utilizzo In COSA entrerebbe X-Ray Tomography (UniBo), che realizza sistemi portatili di X-ray e TAC per beni culturali. Attualmente si dispone di sistemi portatili per l’acquisizione immagini (difficile spostare una tempio romano in un laboratorio INFN), ma tutta la fase di post processing e di CAD avviene in un momento successivo, per l’impossibilita’ di avere potenza di calcolo in loco.X-Ray Tomography Tali sistemi sono usati in medicina, nei beni culturali nell'industria. In particolare sono stati sviluppati strumenti tomografici per l'analisi di grandi oggetti, anche trasportabili, e per la microtomografia ad alta risoluzione. Nel progetto ci si occuperà in una prima fase del porting degli algoritmi computazionalmente più complessi su GPU low power. CT analysis of an Ancient Greek Bronze Head 29

+ WPs WP1: Coordinamento (Cesini/CNAF) WP2: Technology tracking & benchmarking (Michelotto/PD) WP3: Implementazione del prototipo (Lonardo/Roma1 per HPC, Ferraro/CNAF per HTC) WP4: Application Porting (Schifano/FE area teorica, Boccali/PI are Esperimenti) WP5: Technology Transfer and dissemination (Morandin/PD, Maron/CNAF) 30

+ Sedi /WP – Mooolto preliminare A Pisa: Attivita’ di porting di applicazioni Test di prototipi (con schede di test singole in arrivo) Dissemination 31

+ 32

+ A Pisa Abbiamo gia’ esperienza di porting e di gestione di sistemi di questo tipo Paper CHEP, alcuni dei primi sistemi in Italia presenti da tempo Porting di codice Lattice alle GPU Stiamo ordinando sistemi di questo tipo con cadenza semestrale, per testing Abbiamo sia comunita’ HPC (CMS, LHCb), che HTC (Teorici) interessate Possibili interazioni con fisica medica? C’e’ interesse in generale nell’INFN a capire come poter tendere verso una maggiore sostenibilita’ del calcolo scientifico Abbiamo al piano sopra il DipInf, con cui abbiamo gia’ collaborazioni in ambiti simili, che risulterebbero rafforzate 33

+ Coinvolgimento di Pisa Richiesta 1 FTE per aprire la sigla Gruppi interessati CMS Boccali XX% Coscetti 20% (PRIN) Servizio Calcolo Carboni 20% (assegnista calcolo) Ciampa 15% Arezzini 15% Teorici Bonati 10% (Assegno teorico) Altri contattati … vedremo 34

+ Altri progetti analoghi (ma di respiro molto piu’ lungo) 35

+ Altra prospettiva H2020 ha una linea specifica su low power computing: la call LEIT-ICT4 del programma Horizon 2020 potrebbe essere il giusto framework per finanziare la seconda fase del progetto COSA nella creazione di un cluster SoC di produzione basato sul know-how ed esperienza acquisiti nella prima fase. La ICT4 è divisa in tre action: Research&Innovation Actions (37 €), Stimulate broad adoption Actions (17 €), Support Actions (3 M€). La nostra proposta potrebbe essere inserita tra le Research&Innovation Actions in particolare nel topic “Integration of HW&SW components” per la creazione di prototipi funzionanti di server low-power per datacenter (la call fa riferimento alla parola "datacentre-in-a-box"). Questo topic prevede proposte finanziate da 5 a 8M€. Un altro topic di interesse è quello dal titolo “Stimulate broad adoption” che ha l’obiettivo di creare una architettura di riferimento per sistemi eterogenei low-power in grado di fornire unzionalità di tipo high performance. 36

+ Conclusioni Conclusioni? 37