Massimo Masera CSNIII Roma, 20 marzo 2012 CALCOLO Massimo Masera CSNIII Roma, 20 marzo 2012
Sommario Dati raccolti nell’ultimo anno e tipi di attività di calcolo Problemi: Memoria Efficienza di CPU Uso delle risorse Contributo INFN al calcolo di ALICE Situazione di CPU e DISCO ai Tier-2 Calcolo - ALICE 20/3/2012
Dati raccolti nel 2011 Dall’aprile 2011 ALICE ha raccolto 5.7×108 eventi p-p a 7 TeV e a novembre 4.3×108 eventi Pb-Pb a √sNN=2.76 TeV Per il run di ioni si sono usati trigger di centralità eventi mediamente molto più “grandi” rispetto al run 2010 Si sono raccolti 4.1 PB di dati RAW Custodial copy su nastro al Tier-0 I dati relativi a run di fisica sono stati replicati ai Tier-1 e salvati su TAPE Al CNAF 0.5 PB su nastro E’ stato completato a febbraio 2012 il secondo passo di ricostruzione dei dati Pb-Pb Calcolo - ALICE 20/3/2012
Tipi di attività 22% Reco + analysis train 22% Analisi caotica 56% Monte Carlo Calcolo - ALICE 20/3/2012
Ricostruzione: problemi di memoria Il software di ricostruzione utilizza molta memoria. In particolare per: in p-p: trigger di alta molteplicità e pile-up in Pb-Pb: trigger di centralità Nel caso di Pb-Pb la ricostruzione ha attualmente bisogno di 4GB di RAM per processo Ricostruzione possibile in pochi centri: CERN, Karlsruhe, CNAF In particolare al CNAF, l’allocazione delle risorse è molto flessibile e la coda di ricostruzione per i nostri job è stata messa in funzione non appena lo abbiamo richiesto (grazie!!!) Per circa il 25% degli eventi si è dovuto operare in split mode più job per run con un numero limitato di chunk ciascuno (non ci sono memory leaks, ma memory thrashing) La riduzione dell’uso della memoria è la top priority del gruppo di core offline negli ultimi mesi. Si agisce su vari fronti: Tracking nella TPC e nell’HLT Ottimizzazione dell’ I/O Obiettivo: poter fare il terzo passo di ricostruzione Pb-Pb senza dovere ricorrere a soluzioni ad hoc Calcolo - ALICE 20/3/2012
Ricostruzione e analisi: efficienza L’efficienza di CPU (rapporto tra tempo di CPU e tempo trascorso) è stata particolarmente bassa nella prima metà del 2011 Si tratta di un problema multifattoriale essenzialmente legato alle operazioni di I/O locale e, soprattutto, remoto. Diverse misure sono state prese (cfr. presentazione di settembre): Nel MC: un unico accesso al Offline Conditions Data Base (OCDB -N.B. l’OCDB non è locale, ma è al CERN ed è replicato ai Tier-1) L’infrastruttura che gestisce il catalogo è stata migliorata con un upgrade dell’hardware Introdotte caches e snapshot dell’ OCDB Miglioramento del codice di analisi: Input per l’analisi AOD e non più ESD. Quesi tutte le analisi principali sono migrate agli AOD Task di analisi organizzate in “analysis train” gestiti centralmente Check preventivo del codice di analisi La saturazione delle risorse di disco contribuisce a ridurre l’efficienza di CPU: i job salvano i loro output sullo storage che c’è, anche se è remoto o ha bassa reputability Calcolo - ALICE 20/3/2012
Efficienza L’efficienza è migliorata in corso d’anno Anche per il diverso mix delle varie attività di calcolo L’efficienza di ricostruzione è diminuita durante la ricostruzione dei dati Pb-Pb per l’effetto dell’alto consumo di memoria Calcolo - ALICE 20/3/2012
Efficienza: MC e Ricostruzione Efficienza: 87% MC – 72% ricostruzione. Per l’attività di analisi la situazione è varia. La media nell’anno RRB 2011è stata del 16%. Calcolo - ALICE 20/3/2012
Efficienza: siti italiani Calcolo - ALICE 20/3/2012
Efficienza CPU Tier-1 Calcolo - ALICE 20/3/2012
Uso delle risorse / 1 Calcolo - ALICE 20/3/2012
Uso delle risorse / 2 Torino Bari LNL Catania Cagliari Calcolo - ALICE 20/3/2012
Uso delle risorse: Tier-1 Calcolo - ALICE 20/3/2012
Usato/assegnato: inizio 2012 Calcolo - ALICE 20/3/2012
Uso CPU in un anno – Tier-1 Calcolo - ALICE 20/3/2012
Network / 1 Notevole incremento del traffico da fine 2011 Dovuto a run Pb-Pb: per i Tier-1 Ma non solo: scarsità di storage disponibile elevato traffico di rete Calcolo - ALICE 20/3/2012
Network / 2 Incremento del traffico di rete evidente anche per i Tier-2 Calcolo - ALICE 20/3/2012
Risorse esistenti / impegnate Fonte: EGI accounting Calcolo - ALICE 20/3/2012
Risorse esistenti / impegnate Fonte: EGI accounting Calcolo - ALICE 20/3/2012
Contributi relativi F.A. Fonte: EGI accounting Calcolo - ALICE 20/3/2012
Situazione CPU e Storage in Italia Calcolo - ALICE 20/3/2012
Situazione CPU La potenza di calcolo totale attuale è: ~29000 HS06 ai Tier-2 (+Cagliari). 18883 HS06 al Tier-1 (Pledge 2011: 18000. Pledge 2012: 25000) Assegnazione 2012: 5048 HS06 95 k€ (richiesti 101) 0.02 k€/HS06 A fine gennaio è stata esercitata l’opzione per l’acquisto dei nodi di calcolo dei Tier-2 (finanziati da CSNI e CSNIII). Per ALICE 8 nodi (4 Dual Processor boards per macchina) per un totale di 6336 HS06 : con 7 macchine avremmo ottenuto un valore di HS06 più vicino al valore assegnato, ma con una ripartizione più difficile Si dovrebbe arrivare a circa 35000 HS06 (circa 4000 HS06 sopra il valore prefissato a settembre) 83.7 k€ 0.013 k€/HS06 Abbiamo risparmiato 11.3 k€ Le macchine non sono ancora state consegnate Calcolo - ALICE 20/3/2012
Situazione storage / 1 Centro % storage usato tot in linea tot effettivo note CNAF 96% 1200 (T0D1+T1D0) Pledged 1350 TB; 1600 da aprile BARI 85% 400 CATANIA 63% 249 250 LEGNARO 63.5% 267 397 130 TB da mettere in linea TORINO 80% 235 370 100 TB da mettere in linea + 35 TB per la Analysis Facility + (20 TB per /opt/exp_software ) CAGLIARI 57% 85 105 20 da mettere in linea TRIESTE 100% 20 Totale 2456 2742 Totale (solo T2 e “T3”) 1256 1542 La stima di settembre 2011 era di 1380 TB Per i Tier-2, sono inclusi gli acquisti 2011. Calcolo - ALICE 20/3/2012
Situazione storage / 2 Storage finanziato per il 2012: 197 TB ( stima a settembre: circa 70 k€) E’ in avvio una gara sul MEPA per 200 k€ in tutto (CMS+ALICE) gestita da LNL (Gaetano Maron). Per ALICE verranno due sistemi da installare a Catania e Torino (che hanno avuto meno nella gara 2011) Proponiamo di usare i risparmi (da quantificare) per acquistare fuori gara dei “cassetti” di dischi per adeguare anche lo storage a Bari e Legnaro L’obiettivo è quello di acquistare tutto lo storage possibile a prezzi di gara, visto che è la risorsa che si è rivelata essere critica per ALICE CAVEAT: contatit preliminari con i fornitori non fanno sperare benissimo per quanto riguarda i prezzi, ma è prematuro trarre conclusioni Calcolo - ALICE 20/3/2012
Conclusioni L’infrastruttura di calcolo ha mostrato di funzionare in un approccio secondo cui TUTTO è fatto su GRID Questo ha messo a dura prova il sistema. Si sono ottenuti dei risultati significativi su due fronti (ma c’è ancora da lavorare): Efficienza di CPU Uso della memoria I siti italiani funzionano bene e l’INFN sta contribuendo in modo significativo al computing della collaborazione Significativi risparmi sull’acquisto di CPU Non ci sono ancora stime per l’anno prossimo RRB di Aprile Calcolo - ALICE 20/3/2012