CNAF 6 Novembre 2007. 2 Layout del testbed  wn-01-03-01-09-a OS SL5.0 8 GB RAM kernel 2.6.18-xen_3.1.0 SMP  wn-01-03-01-10-a OS SL5.0 8 GB RAM kernel.

CNAF 6 Novembre 2007

2 Layout del testbed  wn-01-03-01-09-a OS SL5.0 8 GB RAM kernel 2.6.18-xen_3.1.0 SMP  wn-01-03-01-10-a OS SL5.0 8 GB RAM kernel 2.6.18-8.1.15.el5PAE SMP  La lama wn-01-03-01-09-a e' dedicata a XEN 2 macchine: xen24 e xen25  La lama wn-01-03-01-10-a e’ dedicata a Vmware 2 macchine: vmware1 e vmware2  Le quattro macchine virtuali sono tutte biprocessore Intel(R) Xeon(R) CPU 5130 @ 2.00GHz 2 GB di RAM OS RHEL4U4 kernel 2.6.9-42.ELsmp  Le macchine reali sono quadriprocessore

3 Filesystem per le immagini  Le immagini delle macchine virtuali sia per XEN sia per Vmware sono istallate sopra un filesystem GPFS 3.2 servito dalle due lame wn-01-03-01-09-a e wn-01-03-01-10-a mount point sulle macchine reali /gpfs_test Il file system e’ stato ricavato da due partizioni dei dischi locali delle macchine  Prestazioni di gpfs_test da macchina reale Scrittura di un file da 10 GB, bs=64k: throughput 0.93 Gb/s Lettura di un file da 10 GB, bs=64k: throughput 1.1 Gb/s  Prestazioni su filesystem locale da Vmware Scrittura di un file da 10 GB, bs=64k: throughput 0.35 Gb/s Lettura di un file da 10 GB, bs=64k: throughput 0.073 Gb/s  Prestazioni su filesystem locale da XEN Scrittura di un file da 10 GB, bs=64k: throughput 0.49 Gb/s Lettura di un file da 10 GB, bs=64k: throughput 0.50 Gb/s

4 XEN  kernel e pacchetti XEN versione 3.1.0  Per quanto riguarda il network, abbiamo provato sia ioemu (che emula la scheda di rete in ambiente HVM) sia netfront (che permette di girare in domU driver paravirtualizzati, cioe' PV on HVM) Per usare netfront per la scheda di rete abbiamo dovuto compilare i driver PV xen-platform-pci, xen-balloon e xen-vnif, i cui sorgenti sono disponibili nei sorgenti xen 3.1.0

5 Test netperf con ioemu  netperf con test TCP_STREAM (tutto a default)  La macchina di origine e' indicata dalla prima colonna, mentre quella destinazione dalla prima riga  prestazioni della scheda di rete scadenti, sotto 100 Mbps XEN-HVMXEN-DOM0EXTERNAL XEN-HVM 0.087 Gb/s 0.056 Gb/s 0.058 Gb/s XEN-DOM0 0.44 Gb/s 8.5 Gb/s 0.94 Gb/s EXTERNAL 0.36 Gb/s 0.94 Gb/s 8.5 Gb/s

6 Test netperf con netfront  Stesso test netperf  usando netfront per la scheda di rete e quindi moduli di rete paravirtualizzati nella macchina virtuale  le cose migliorano notevolmente e le prestazioni di rete di una macchina virtuale XEN diventano del tutto confrontabili con quelle di una macchina reale. XEN-PV-HVM-1XEN-PV-HVM-2XEN-DOM0EXTERNAL XEN-PV-HVM-1 8.8 Gb/s 1.0 Gb/s 2.9 Gb/s 0.94 Gb/s XEN-PV-HVM-2 1.0 Gb/s 8.8 Gb/s 2.9 Gb/s 0.94 Gb/s XEN-DOM0 4.4 Gb/s 8.5 Gb/s 0.94 Gb/s EXTERNAL 8.5 Gb/s

7 Vmware  Vmware Server 1.0.4  problema noto: perdita di scatti del clock della macchina virtuale in situazioni di grosso carico. l'orologio rallenta e la macchina rimane indietro nel tempo creando problemi a tutte le applicazioni che si basano sul tempo di clock Per ovviare a questo problema abbiamo istallato e configurato i vmware tools per sincronizzare il clock della macchina virtuale, aggiungendo nel file di configurazione della macchina virtuale tools.syncTime = "TRUE“ tools.syncTime.period = "1“ Queste impostazioni ri-sincronizzano il clock della macchina virtuale con quello della machina ospitante ogni secondo

8 Vmware ulteriori tuning  Abbiamo inoltre aggiunto alla configurazione delle macchine vmware MemTrimRate = "0“ sched.mem.pshare.enable="FALSE“ mainMem.useNamedFile="FALSE“  In particolare l'ultimo parametro evita che venga fatto uno snapshot della memoria della macchina virtuale su disco, cosa che rallenta un po' l'accesso alla memoria.

9 Test di rete vmware  Stesso test netperf fatto con XEN  prestazioni di vmware sono peggiori rispetto a xen (con modulo di rete paravirtualizzato) comunque non male nel complesso VMWARE-1VMWARE-2VMWARE-HOSTEXTERNALXEN-PV-HVM VMWARE-1 5.0 Gb/s 0.58 Gb/s 0.70 Gb/s 0.78 Gb/s VMWARE-2 0.58 Gb/s 5.0 Gb/s 0.70 Gb/s 0.78 Gb/s VMWARE-HOST 0.71 Gb/s 8.5 Gb/s 0.94 Gb/s EXTERNAL 0.44 Gb/s 0.94 Gb/s 8.5 Gb/s 0.94 Gb/s XEN-PV-HVM 0.44 Gb/s 0.94 Gb/s 8.5 Gb/s

10 Grafici test di rete  Trasmissione e ricezione verso/da macchina reale esterna

11 Prime considerazioni  Innanzitutto una cosa interessante e' che l'uso di immagini di macchine virtuali sopra GPFS funziona molto bene.  Ottima stabilita' del sistema dopo un po' di tuning iniziale nessun problema sotto condizioni di carico notevoli. dopo le ottimizzazioni la rete delle macchine virtuali funziona decentemente (nel caso di vmware) e ottimamente (nel caso di xen).

12 Test di accesso alla memoria  Questo test consiste in un semplice programma C che alloca 256 MB di memoria e li scrive tutti byte per byte per 200 volte

13 Test di accesso alla memoria

14 prestazioni GPFS sopra macchine virtuali  Utilizzato mount point di produzione /storage/software Fattore di replicazione x2 2 GPFS diskserver per I dati, piu’ 2 per I metadati Durante I test due disckerver erano in uso in lettura da argo2 (circa 0.48 Gb/s consumati in lettura da argo) Scritti/letti file da 10 GB (throughput effettivo x2 nel caso di scrittura), bs=64k  Xen singola macchina Scrittura: 0.32 Gb/s, CPU load 100% (mmfsd 55%) Lettura: 0.57 Gb/s, CPU load 100% (mmfsd 60%)  Vmware singola macchina Scrittura: 0.31 Gb/s, CPU load 170% (mmfsd 150%) Lettura: 0.58 Gb/s, CPU load 120% (mmfsd 100%)

15 prestazioni GPFS sopra macchine virtuali (II)  xen24 e xen25 in simultanea Scrittura: 0.21 x2 Gb/s, CPU load 60% (mmfsd 30%) Lettura: 0.31 x2 Gb/s, CPU load 50% (mmfsd 30%)  vmware1 e vmware2 in simultanea Scrittura 0.22 x2 Gb/s, CPU load 130% (mmfsd 110%) Lettura: 0.33 x2 Gb/s, CPU load 90% (mmfsd 80%)  2 xen e 2 vmware in simultanea Scrittura: 0.18 x2 Gb/s xen, 0.19 x2 Gb/s vmware Lettura: 0.21 x2 Gb/s xen, 0.21 x2 Gb/s vmware

16 prestazioni GPFS sopra macchine reali  worker node reale Scrittura: 0.44 Gb/s, CPU load 30% (25% mmfsd) Lettura: 0.57 Gb/s, CPU load 15% (12% mmfsd)  2 worker node reali Scrittura: 0.4 x2 Gb/s, CPU load 30% (25% mmfsd) Lettura: 0.36 x2 Gb/s, CPU load 15%(12% mmfsd)

17 Grafico prestazioni GPFS  I throughput sono al netto dei dati trasferiti e per processo  Per ottenere il throughput totale aggregato Per la scrittura moltiplicare per 2 a causa del fattore di replicazione GPFS Nel caso di 2 macchine in simultanea moltiplicare per 2 Nel caso di 4 macchine in simultanea moltiplicare per 4

18 Simulazione LHCb  Programma di simulazione Gauss v30r4, generazione e simulazione Geant4 di eventi bb con decadimenti inclusivi

19 Test 16-processore  Programma di simulazione Gauss v30r4, generazione e simulazione Geant4 di eventi bb con decadimenti inclusivi  Programma di ricostruzione Brunel v31r10, ricostruzione di eventi bb inclusivi Input file completamente in cache, no I/O overhead

20 Confronto macchine blade HP e 16-processore Secondi per evento Rapporto dei secondi per evento Rapporto delle frequenze di clock (2.93 GHz)/(2 GHz) (2.93 GHz)/(2 GHz)

21 Test di memoria su 16-processore  Allocazione di 1 GB di memoria e scrittura 50 volte byte per byte.  I processi sono stati fatti partire settando la CPU affinity in modo da mandare i processi sulle CPU volute  Le CPU sono numerate 0, 2, 4 e 6 Vedete /proc/cpuinfo sotto la voce physical Ogni CPU con 4 CORE che qui sotto sono numerati 0, 1, 2 e 3 Per ogni test e' riportata la durata in secondi deivari mem  1 mem su CPU 0: CPU 0 CORE 0: 36.12 secondi  2 mem su CPU 0: CPU 0 CORE 0: 57.33 secondi CPU 0 CORE 1: 57.41 secondi  3 mem su CPU 0: CPU 0 CORE 0: 58.18 secondi CPU 0 CORE 1: 88.25 secondi CPU 0 CORE 2: 89.13 secondi  4 mem su CPU 0: CPU 0 CORE 0: 112.49 secondi CPU 0 CORE 1: 110.99 secondi CPU 0 CORE 2: 112.53 secondi CPU 0 CORE 3: 113.15 secondi

22  2 mem su CPU 0 e 2 mem su CPU 2: CPU 0 CORE 0: 61.15 secondi CPU 0 CORE 1: 60.40 secondi CPU 2 CORE 0: 60.96 secondi CPU 2 CORE 1: 61.03 secondi  4 mem su 4 CPU diverse: CPU 0 CORE 0: 45.44 secondi CPU 2 CORE 0: 45.39 secondi CPU 4 CORE 0: 45.54 secondi CPU 6 CORE 0: 45.45 secondi  1 mem su CPU 0, 1 mem su CPU 2, 2 mem su CPU 4: CPU 0 CORE 0: 39.67 secondi CPU 2 CORE 0: 39.30 secondi CPU 4 CORE 0: 69.57 secondi CPU 4 CORE 1: 68.62 secondi Test di memoria su 16-processore (II)

23 Test di memoria su 16-processore (III)  16 mem su tutte le CPU: CPU 0 CORE 0: 179.87 secondi CPU 0 CORE 1: 178.95 secondi CPU 0 CORE 2: 178.62 secondi CPU 0 CORE 3: 177.79 secondi CPU 2 CORE 0: 181.20 secondi CPU 2 CORE 1: 181.20 secondi CPU 2 CORE 2: 181.27 secondi CPU 2 CORE 3: 181.27 secondi CPU 4 CORE 0: 178.88 secondi CPU 4 CORE 1: 177.67 secondi CPU 4 CORE 2: 179.20 secondi CPU 4 CORE 3: 179.85 secondi CPU 6 CORE 0: 181.21 secondi CPU 6 CORE 1: 180.82 secondi CPU 6 CORE 2: 179.08 secondi CPU 6 CORE 3: 181.27 secondi

CNAF 6 Novembre 2007. 2 Layout del testbed  wn-01-03-01-09-a OS SL5.0 8 GB RAM kernel 2.6.18-xen_3.1.0 SMP  wn-01-03-01-10-a OS SL5.0 8 GB RAM kernel.

Presentazioni simili

Presentazione sul tema: "CNAF 6 Novembre 2007. 2 Layout del testbed  wn-01-03-01-09-a OS SL5.0 8 GB RAM kernel 2.6.18-xen_3.1.0 SMP  wn-01-03-01-10-a OS SL5.0 8 GB RAM kernel."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

CNAF 6 Novembre 2007. 2 Layout del testbed  wn-01-03-01-09-a OS SL5.0 8 GB RAM kernel 2.6.18-xen_3.1.0 SMP  wn-01-03-01-10-a OS SL5.0 8 GB RAM kernel.

Presentazioni simili

Presentazione sul tema: "CNAF 6 Novembre 2007. 2 Layout del testbed  wn-01-03-01-09-a OS SL5.0 8 GB RAM kernel 2.6.18-xen_3.1.0 SMP  wn-01-03-01-10-a OS SL5.0 8 GB RAM kernel."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back