Test di porting su architetture SoC F. Pantaleo for T. Boccali.

Test di porting su architetture SoC F. Pantaleo for T. Boccali

Outline Soprattutto tests sulla Nvidia Jetson TK1 Soprattutto tests sulla Nvidia Jetson TK1 – Qualcosa su Odroid XU Nessun real update sul SW degli esperimenti LHC Nessun real update sul SW degli esperimenti LHC – Mostro qualcosa di CHEP – Vero scoglio e’ la (non) acquistabilita’ di ARMv8 a 64 bit Ce ne e’ uno a Princeton, di recente uno al CERN Ce ne e’ uno a Princeton, di recente uno al CERN ROOT5 con ARMv7 non ha mai funzionato fino in fondo, e il ROOT team ha preferito non spendere energie per farlo funzionare ROOT5 con ARMv7 non ha mai funzionato fino in fondo, e il ROOT team ha preferito non spendere energie per farlo funzionare La cosa cambia completamente con ROOT6/ARMv8 … ma ancora non ne ho avuto uno fra le mani La cosa cambia completamente con ROOT6/ARMv8 … ma ancora non ne ho avuto uno fra le mani CMS (not official): funziona tutto al volo CMS (not official): funziona tutto al volo Tanti piccoli test di SW hand-made, reale Tanti piccoli test di SW hand-made, reale – Soprattutto codice teorico e/o generatori MC

CHEP: CMS: CMS: – http://indico.cern.ch/event/304944/session/8/c ontribution/493/material/slides/0.pdf ARMv8

Atom/ARMv8 alla pari come evt/s/thread e scalabilita’

Evt/(s*W) = Evt/(J) = direttamente traducibile in Ev/$ dato il prezzo della corrente Sembrerebbe da questi numeri che Intel abbia piu’ che colmato il gap? Notare pero’ che questo X-gene1 e’ lontano dall’essere ottimizzato

NVIDIA Jetson TK1 Noi 2 GB <200 Euro Arriva equipaggiata con Ubuntu 14.04 CUDA kit completo 10-15W max

Odroid XU Ubuntu 13.10 2 GB RAM 4-core Cortex A9 5 W

Tests eseguiti Codice scalare HEP Codice scalare HEP – Generatori MC, ROOT, Analisi CMS/Higgs Codice Multi threaded teorico Codice Multi threaded teorico – Parallelizzazione codice Passarino Codice CUDA teorico Codice CUDA teorico – Claudio Bonati Intel XEON vs Intel Atom vs Nvidia K1 vs Odroid Intel XEON vs Intel Atom vs Nvidia K1 vs Odroid – Non sempre tutte le combinazioni possibili…

PYTHIA Standard test MC05 (500 eventi, pp 14 TeV, Jets e loro caratteristiche) Standard test MC05 (500 eventi, pp 14 TeV, Jets e loro caratteristiche) Suite completa di test (> 20) Suite completa di test (> 20) MacchinaReal Time 05Tutti i testsRatio 05 (X/Intel) Odroid u2 30m22.565s45m0.935s 9 Nvidia K113m41.977s 26m10.149s 2.8 IntelCore i7-2600 CPU @ 3.40GHz 4m32.135s 9m23.435s 1 Marvell ARMADA XP (Dell Copper) 51m1.198s 79m52.159s 8.8

ROOT Calcolo dei ROOTMarks Calcolo dei ROOTMarks MacchinaROOTMark s Ratio ROOTMarks (X/Intel) Odroid u2 309 0.14 Nvidia K15830.26 IntelCore i7- 2600 CPU @ 3.40GHz 22141 Marvell ARMADA XP (Dell Copper) 1570.07

CMS Analysis test Macro per calcolare fit alla massa dell’Higgs Macro per calcolare fit alla massa dell’Higgs – dati veri dell’analisi H to bb – Macro root compilata – Comprende I/O sequenziale (~ 1 GB di root files) MacchinaZinvHRatio ZinvH(X/Intel) Odroid u2 238 sec 10.8 Nvidia K1110 sec5.0 IntelCore i7- 2600 CPU @ 3.40GHz 22 sec1 Marvell ARMADA XP (Dell Copper) 443 sec20

Test di codice teorico Case Study: Higgs Dalitz Decay Case Study: Higgs Dalitz Decay Tesi di laurea di P. Viviani (UniTo): parallelizzazione codice NLO di Passarino Tesi di laurea di P. Viviani (UniTo): parallelizzazione codice NLO di Passarino Integrazione su spazio delle fasi, tempo scalare per integrazione: Integrazione su spazio delle fasi, tempo scalare per integrazione: – O(10 6 ) punti da integrare: mesi su CPU scalare single thread – Codice fortran, non immediatamente riscrivibile in C++

Performance Utilizzati: Utilizzati: – 2x Intel Xeon E5-2660 2.2 GHz (16 cores total) – 4x Intel Xeon E7-4820 2 GHz (32 cores total) – Intel Atom SoC C2750 2.4 GHz (8 cores, cluster di 4 nodi = 32 cores) – Una prima nota: il codice scala in modo quasi perfetto, non ci sono lock e/o inter thread communication a parte il reduce finale

XEON i5 XEON i7 Scaling ottimale in tutti i casi (HT attivo)

Nvidia K1 (OpenMP + FastFlow) CPUSeq timeBest parallel time Multi thread scaling Single core wrt i5 I5 2.2 GHz670 sec35.3 sec191 I7 2.0 Ghz1060 sec30.5 sec351.6 Atom 2.4 GHz 1960 sec285 sec6.92.9 Nvidia K11680 sec530 sec3.22.5 Un po’ sorprendente …

Come andare oltre? Serve test serio su SW di produzione HEP Serve test serio su SW di produzione HEP – Temo pero’ che serva davvero ARMv8 prima … avete stime? Servirebbe qualcosa di fisica applicata (come da progetto), per esempio Servirebbe qualcosa di fisica applicata (come da progetto), per esempio – Simulazioni di fisica medica ?

Questions?Questions?

BackupBackup

FastFlow UniPi, UniTo (vedere anche: Concurrency Forum Meeting)Concurrency Forum Meeting

Test di porting su architetture SoC F. Pantaleo for T. Boccali.

Presentazioni simili

Presentazione sul tema: "Test di porting su architetture SoC F. Pantaleo for T. Boccali."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Test di porting su architetture SoC F. Pantaleo for T. Boccali.

Presentazioni simili

Presentazione sul tema: "Test di porting su architetture SoC F. Pantaleo for T. Boccali."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back