La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06.

Presentazioni simili


Presentazione sul tema: "1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06."— Transcript della presentazione:

1 1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06

2 2 Aggiornamento TDR Tier-1 Primo anno di presa dati 2008 Statistica acquisita 2.5 volte inferiore alla norma. 4.42 MSi2k · year CPU Tier-1s TDR  1.31 MSi2k · year Risorse al Tier-1 CNAF 1/6 delle risorse Tier-1s totali 0.1 MSi2k · year nel 2007 0.2 MSi2k · year nel 2008. LHCb non prevede di richiedere un aumento di risorse Tier-1 nel 2007 e 2008.

3 3 Tier2 LHCb I Tier-2 di LHCb servono per la produzione di eventi Monte Carlo. Secondo il computing TDR la potenza di CPU a regime deve essere tale da permettere di produrre ogni anno una statistica di 4*10 8 eventi, uguale alla statistica raccolta in un anno di presa dati. Eventi Monte Carlo generati ogni anno: 4*10 9 Eventi Monte Carlo che superano il trigger 1/10 La frazione della potenza di CPU nei Tier-2 corrispondente all’Italia è del 15% A regime la potenza di CPU del Tier-2 di LHCb equivale a quella impiegata da LHCb nel Tier-1 per ricostruzione, selezione ed analisi (vedi oltre).

4 4 Aggiornamento TDR Tier-2 È richiesta nel 2007 la produzione di 50*10 6 eventi Monte Carlo a varie luminosità, per studi del sistema di trigger e per il Physics Book. Al CNAF è richiesta una potenza di CPU di 300 kSi2k*year Nel 2008 totale CPU Tier-2s previste dal TDR 7.65 MSi2k · year Fattore di riduzione 2.5 della statistica. Il tempo di calcolo per produrre un evento Monte Carlo risulta maggiore del 50% rispetto al TDR Il totale della CPU necessaria è pertanto di 4.55 MSi2k · year Al Tier-2 del CNAF la CPU necessaria è prevista essere del 15% 4.55 * 0.15 = 0.7 MSi2k · year Al Tier-2 CNAF secondo TDR erano 1.15 MSi2k · year >> La nostra richiesta per il 2007 e’ di acquisire 300 Ksi2k

5 5 DC06 Obiettivi Obiettivo del DC06 è di collaudare il modello di calcolo dell’esperimento impiegando i servizi LCG. In particolare ci si propone di collaudare il sistema nelle realizzazione delle seguenti fasi: La simulazione degli eventi impiegando le risorse LCG disponibili Produzione di dati solo RAW La ricostruzione degli eventi RAW presso i centri Tier-1 e al CERN con produzione degli eventi rDST. La pre-selezione degli eventi rDST presso i centri Tier-1 e al CERN con produzione degli eventi DST. Il trasferimento La distribuzione dei dati RAW dai siti di produzione MC al CERN La distribuzione dei dati RAW dal CERN a tutti i centri Tier-1. La distribuzione degli eventi DST da ciascun centro Tier-1 ad almeno 3 centri Tier-1 (compreso CERN) per la successiva fase di analisi. I centri Tier-1 di LHCb che partecipano al DC06 sono: CERN, CNAF, NIKHEF, GridKa, PIC, IN2P3, RAL

6 6 DC06 Simulazione MC CERN CNAF PIC RAL IN2P3GRIDKANIKHEF Tier-0 Tier-1 Tier-2 Produzione MC DIGI (RAW) LHCb usa tutte le risorse LCG disponibile. Quando i job di simulazione terminano i dati (RAW) vengono mandati al T0 Questa fase è stata collaudata con successo

7 7 DC06 Simulazione MC CERN CNAF RAL Le variazioni osservabili sono dovute alla allocazione dinamica delle risorse operata dagli scheduler che implementano l’algoritmo di fair-share Circa 5000 job di simulazione attivi in media con picchi di 7000 job durante l’ultimo mese. Tutti i siti

8 8 Simulazione per sito (da maggio 2006) SiteEvents (%)Events LCG.CERN.ch18.5926,773,752 LCG.CNAF.it11.1816,105,760 LCG.RAL.uk10.6015,264,775 LCG.LPC.fr5.818,372,270 LCG.Manchester.uk4.766,853,250 LCG.QMUL.uk4.696,754,999 LCG.GRIDKA.de4.105,910,519 LCG.USC.es3.074,420,500 LCG.NIKHEF.nl2.824,055,101 DIRAC.Lyon.fr2.643,807,749 LCG.Barcelona.es2.373,417,810 LCG.Liverpool.uk2.273,269,500 Eventi prodotti in totale su ~100 siti 144M

9 9 Simulazione per nazione (da maggio 2006) SiteEvents (%)Events UK29.0041,777,300 CERN19.7528,437,622 IT15.5722,429,760 FR10.2814,799,830 ES6.9910,065,229 GR5.247,552,039 DE5.007,206,019 NL2.894,156,350 PL1.802,584,749 RU1.602,305,570 BG0.771,108,510 Numero totale di eventi MC prodotti 144M

10 10 Eventi prodotti vs attesi ai Tier-1 DC06 (da Maggio 2006) SiteEvents (%)EventsExpected(%) CERN18.5926,773,75214.4 CNAF11.1816,105,76013.3 RAL10.6015,264,77510.3 GRIDKA4.105,910,51919.9 NIKHEF2.824,055,1017.7 Lyon2.944,313,18011.3 PIC1.121,718,8642.6

11 11 DC06 Ricostruzione CERN CNAF PIC RALIN2P3GRIDKA NIKHEF T0&T1 DIGI (RAW) Per simulare la presa dati, i RAW vengono distribuiti dal T0 ai T1 Se il trasferimento è avvenuto con successo sul sito Tier-1 (copia su tape e registrazione nel catalogo) automaticamente viene lanciato un job di ricostruzione sul sito Tier-1 corrispondente L’ouput (rDST) è salvato sul sito Tier-1 pronto per essere processato dagli algoritimi di pre-selezione Questa fase è stata collaudata con successo su 4 Tier-1 PIC, CERN, IN2P3, RAL CNAF, GRIDKA, NIKHEF hanno avuto dei problemi (dettagli in seguito) T1

12 12 DC06 Ricostruzione: risultati Site Low lumi jobs Low lumi events High lumi jobs High lumi eventsLumi+High CERN3053.05M2882.88M25% CNAF--140.14M<1% GRIDKA--280.30M1% IN2P3(DIRAC)464 4.64M2512.51M30% NIKHEF/SARA----- PIC1781.78M2732.73M19% RAL2822.82M2812.81M24% TOTAL12.3M11.3M GRIDKA: sovraccarico del gridFTP server, risolto da poco NIKHEF: problema di connessione tra data storage e WN (NIKHEF- SARA), si aspetta un versione patched di dcache per aggirare il problema CNAF: problemi di stabilità di Castor-2, sono stati fatti molti progressi per rendere il sistema il più stabile possibili, pronti per testarlo

13 13 DC06 Pre-selezione CERN CNAF PIC RALIN2P3GRIDKA NIKHEF T0&T1 DST Quando sul sito sono presenti sufficienti quantità di dati rDST, automaticamente sul sito Tier-1 viene inviato un job di pre-selezione I dati rDST sono analizzati dove prodotti L’output (DST) delle preselezione viene distribuito ai T1 in modo da avere su “disco” 3 copie Questa fase non è ancora stata realizzata, manca ancora un parte di codice per effettuare la pre-selezione Tecnicamente è del tutto analoga a qualla di ricostruzione, non ci aspettiamo particolari problemi dati pre-selezionati DST distribuiti tra i vari T1 T1

14 14 Trasferimento dati La verifica delle capacità di trasferimento dei dati dai centri di produzione al CERN e successivamente dal CERN ai Tier-1 (per la ricostruzione e selezione) è un obiettivo del DC06. Dati simulati: i file DIGI prodotti nei centri Tier-1 eTier-2 sono stati trasferiti direttamente al CERN dal job di produzione MC. Reconstruzione e pre-selezione: per simulare il flusso dei dati reali i file DIGI sono stati distributi ai Tier-1 mediante FTS ( gLite File Transfer Service)

15 15 Trasferimento dati RAW dai siti di produzione al CERN I trasferimenti dei dati RAW dai siti di produzione al CERN avviene ad un rate di ~8MB/s

16 16 Trasferimento dati RAW dai siti di produzione al CERN Se il CERN non è disponibile altri Tier-1 sono usati momentaneamente come Tier-0

17 17 Distribuzione dei dati RAW dal CERN ai centri Tier-1 (ultimo mese) Dal CERN Dal CERN ai Tier-1 Il sistema di trasferimento dei RAW è stato collaudato ad un basso rate Proveremo ad aumentare i rate

18 18 DC06 al CNAF Il sito Tier-1 ha contribuito alla produzione di dati RAW con successo, secondo le richieste della collaborazione LHCb Prodotto 11% di eventi MC La fase di ricostruzione ha presentato difficoltà dovute a Castor-2 LHCb ha provato ad eseguire in due mesi alcuni job di ricostruzione In simultanea non sono mai stati eseguiti più di 10 job In due mesi sono terminati con successo 14 job di ricostruzione (<1% di tutti i job di ricostruzione terminati con successo da LHCb) Ciascun job di ricostruzione richiede poche connessioni rfio_open() aperte per l’accesso ai dati (con basso I/O) Il carico dovuto al trasferimento dei dati dal CERN (che può sovrapporsi con la ricostruzione) è comunque stato ridotto ad alcuni MB/s L’attività di produzione MC (in continua attività in questa fase) non ha alcuna interferenza con la fase di ricostruzione non accedendo a Castor-2

19 19 DC06 al CNAF Il CNAF, in collaborazione con i referenti degli esperimenti, ha individuato e risolti alcuni problemi Numero di diskserver inadeguato Aggiunto un diskserver per LHCb Tuning di alcuni parametri dello scheduler LSF di Castor-2 Instabilità del DB di Castor Bugs fixed dal supporto CERN Ottimizzazione del DB Upgrade del software (client e server) all’ultima versione L’ultimo intervento di upgrade del software è stato completato ieri

20 20 Conclusioni DC06 di LHCb è stato condotto con risultati soddisfacenti negli ultimi 3 mesi I risultati DC06 sono stati presentati alla Collaborazone LHCb Le varie fasi previste sono state attuate con successo (eccetto la pre-selezione) Produzione MC Procede regolarmente da mesi Sono stati prodotti circa 144M di eventi da maggio Ricostruzione Il meccanismo di trasferimento dei dati RAW dal CERN ai Tier-1 e di esecuzione automatica di job di ricostruzione sta funzionando su 4 dei 7 siti Tier-1 di LHCb previsti I siti mancanti hanno provveduto a proporre delle soluzioni, la cui efficacia deve essere verificata Pre-selezione Tecnicamente molto simile alla ricostruzione, non ancora iniziata DC06 continuerà nei prossimi mesi con lo scopo di completare la ricostruzione degli eventi MC prodotti e la pre-selezione LHCb continuarà a colladuare le soluzioni proposte per rendere il sistema Castor2 al CNAF operativo


Scaricare ppt "1 LHCb Computing Angelo Carbone, INFN-CNAF CSN1, 21/9/06 Aggiornamento richieste Tier-1 2007-8 Richiesta Tier-2 al CNAF Stato e risultati DC06."

Presentazioni simili


Annunci Google