La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Massimo Masera CSNIII Roma, 20 marzo 2012

Presentazioni simili


Presentazione sul tema: "Massimo Masera CSNIII Roma, 20 marzo 2012"— Transcript della presentazione:

1 Massimo Masera CSNIII Roma, 20 marzo 2012
CALCOLO Massimo Masera CSNIII Roma, 20 marzo 2012

2 Sommario Dati raccolti nell’ultimo anno e tipi di attività di calcolo
Problemi: Memoria Efficienza di CPU Uso delle risorse Contributo INFN al calcolo di ALICE Situazione di CPU e DISCO ai Tier-2 Calcolo - ALICE 20/3/2012

3 Dati raccolti nel 2011 Dall’aprile 2011 ALICE ha raccolto 5.7×108 eventi p-p a 7 TeV e a novembre 4.3×108 eventi Pb-Pb a √sNN=2.76 TeV Per il run di ioni si sono usati trigger di centralità  eventi mediamente molto più “grandi” rispetto al run 2010 Si sono raccolti 4.1 PB di dati RAW Custodial copy su nastro al Tier-0 I dati relativi a run di fisica sono stati replicati ai Tier-1 e salvati su TAPE Al CNAF 0.5 PB su nastro E’ stato completato a febbraio 2012 il secondo passo di ricostruzione dei dati Pb-Pb Calcolo - ALICE 20/3/2012

4 Tipi di attività 22% Reco + analysis train 22% Analisi caotica
56% Monte Carlo Calcolo - ALICE 20/3/2012

5 Ricostruzione: problemi di memoria
Il software di ricostruzione utilizza molta memoria. In particolare per: in p-p: trigger di alta molteplicità e pile-up in Pb-Pb: trigger di centralità Nel caso di Pb-Pb la ricostruzione ha attualmente bisogno di 4GB di RAM per processo Ricostruzione possibile in pochi centri: CERN, Karlsruhe, CNAF In particolare al CNAF, l’allocazione delle risorse è molto flessibile e la coda di ricostruzione per i nostri job è stata messa in funzione non appena lo abbiamo richiesto (grazie!!!) Per circa il 25% degli eventi si è dovuto operare in split mode  più job per run con un numero limitato di chunk ciascuno (non ci sono memory leaks, ma memory thrashing) La riduzione dell’uso della memoria è la top priority del gruppo di core offline negli ultimi mesi. Si agisce su vari fronti: Tracking nella TPC e nell’HLT Ottimizzazione dell’ I/O Obiettivo: poter fare il terzo passo di ricostruzione Pb-Pb senza dovere ricorrere a soluzioni ad hoc Calcolo - ALICE 20/3/2012

6 Ricostruzione e analisi: efficienza
L’efficienza di CPU (rapporto tra tempo di CPU e tempo trascorso) è stata particolarmente bassa nella prima metà del 2011 Si tratta di un problema multifattoriale essenzialmente legato alle operazioni di I/O locale e, soprattutto, remoto. Diverse misure sono state prese (cfr. presentazione di settembre): Nel MC: un unico accesso al Offline Conditions Data Base (OCDB -N.B. l’OCDB non è locale, ma è al CERN ed è replicato ai Tier-1) L’infrastruttura che gestisce il catalogo è stata migliorata con un upgrade dell’hardware Introdotte caches e snapshot dell’ OCDB Miglioramento del codice di analisi: Input per l’analisi AOD e non più ESD. Quesi tutte le analisi principali sono migrate agli AOD Task di analisi organizzate in “analysis train” gestiti centralmente Check preventivo del codice di analisi La saturazione delle risorse di disco contribuisce a ridurre l’efficienza di CPU: i job salvano i loro output sullo storage che c’è, anche se è remoto o ha bassa reputability Calcolo - ALICE 20/3/2012

7 Efficienza L’efficienza è migliorata in corso d’anno
Anche per il diverso mix delle varie attività di calcolo L’efficienza di ricostruzione è diminuita durante la ricostruzione dei dati Pb-Pb per l’effetto dell’alto consumo di memoria Calcolo - ALICE 20/3/2012

8 Efficienza: MC e Ricostruzione
Efficienza: 87% MC – 72% ricostruzione. Per l’attività di analisi la situazione è varia. La media nell’anno RRB 2011è stata del 16%. Calcolo - ALICE 20/3/2012

9 Efficienza: siti italiani
Calcolo - ALICE 20/3/2012

10 Efficienza CPU Tier-1 Calcolo - ALICE 20/3/2012

11 Uso delle risorse / 1 Calcolo - ALICE 20/3/2012

12 Uso delle risorse / 2 Torino Bari LNL Catania Cagliari Calcolo - ALICE
20/3/2012

13 Uso delle risorse: Tier-1
Calcolo - ALICE 20/3/2012

14 Usato/assegnato: inizio 2012
Calcolo - ALICE 20/3/2012

15 Uso CPU in un anno – Tier-1
Calcolo - ALICE 20/3/2012

16 Network / 1 Notevole incremento del traffico da fine 2011
Dovuto a run Pb-Pb: per i Tier-1 Ma non solo: scarsità di storage disponibile  elevato traffico di rete Calcolo - ALICE 20/3/2012

17 Network / 2 Incremento del traffico di rete evidente anche per i Tier-2 Calcolo - ALICE 20/3/2012

18 Risorse esistenti / impegnate
Fonte: EGI accounting Calcolo - ALICE 20/3/2012

19 Risorse esistenti / impegnate
Fonte: EGI accounting Calcolo - ALICE 20/3/2012

20 Contributi relativi F.A.
Fonte: EGI accounting Calcolo - ALICE 20/3/2012

21 Situazione CPU e Storage in Italia
Calcolo - ALICE 20/3/2012

22 Situazione CPU La potenza di calcolo totale attuale è:
~29000 HS06 ai Tier-2 (+Cagliari). 18883 HS06 al Tier-1 (Pledge 2011: Pledge 2012: 25000) Assegnazione 2012: 5048 HS06 95 k€ (richiesti 101) 0.02 k€/HS06 A fine gennaio è stata esercitata l’opzione per l’acquisto dei nodi di calcolo dei Tier-2 (finanziati da CSNI e CSNIII). Per ALICE 8 nodi (4 Dual Processor boards per macchina) per un totale di 6336 HS06 : con 7 macchine avremmo ottenuto un valore di HS06 più vicino al valore assegnato, ma con una ripartizione più difficile Si dovrebbe arrivare a circa HS06 (circa 4000 HS06 sopra il valore prefissato a settembre) 83.7 k€ 0.013 k€/HS06 Abbiamo risparmiato 11.3 k€ Le macchine non sono ancora state consegnate Calcolo - ALICE 20/3/2012

23 Situazione storage / 1 Centro % storage usato tot in linea
tot effettivo note CNAF 96% 1200 (T0D1+T1D0) Pledged 1350 TB; 1600 da aprile BARI 85% 400 CATANIA 63% 249 250 LEGNARO 63.5% 267 397 130 TB da mettere in linea TORINO 80% 235 370 100 TB da mettere in linea + 35 TB per la Analysis Facility + (20 TB per /opt/exp_software ) CAGLIARI 57% 85 105 20 da mettere in linea TRIESTE 100% 20 Totale 2456 2742 Totale (solo T2 e “T3”) 1256 1542 La stima di settembre 2011 era di 1380 TB Per i Tier-2, sono inclusi gli acquisti 2011. Calcolo - ALICE 20/3/2012

24 Situazione storage / 2 Storage finanziato per il 2012: 197 TB ( stima a settembre: circa 70 k€) E’ in avvio una gara sul MEPA per 200 k€ in tutto (CMS+ALICE) gestita da LNL (Gaetano Maron). Per ALICE verranno due sistemi da installare a Catania e Torino (che hanno avuto meno nella gara 2011) Proponiamo di usare i risparmi (da quantificare) per acquistare fuori gara dei “cassetti” di dischi per adeguare anche lo storage a Bari e Legnaro L’obiettivo è quello di acquistare tutto lo storage possibile a prezzi di gara, visto che è la risorsa che si è rivelata essere critica per ALICE CAVEAT: contatit preliminari con i fornitori non fanno sperare benissimo per quanto riguarda i prezzi, ma è prematuro trarre conclusioni Calcolo - ALICE 20/3/2012

25 Conclusioni L’infrastruttura di calcolo ha mostrato di funzionare in un approccio secondo cui TUTTO è fatto su GRID Questo ha messo a dura prova il sistema. Si sono ottenuti dei risultati significativi su due fronti (ma c’è ancora da lavorare): Efficienza di CPU Uso della memoria I siti italiani funzionano bene e l’INFN sta contribuendo in modo significativo al computing della collaborazione Significativi risparmi sull’acquisto di CPU Non ci sono ancora stime per l’anno prossimo  RRB di Aprile Calcolo - ALICE 20/3/2012


Scaricare ppt "Massimo Masera CSNIII Roma, 20 marzo 2012"

Presentazioni simili


Annunci Google