La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

STATO DEL TIER 1 & FARM di Sezione Alessia Tricomi per M. DAmato, N. De Filippis, L. Silvestris, S. Costa, A. Tricomi, V. Ciulli, N. Magini, C. Marchettini,

Presentazioni simili


Presentazione sul tema: "STATO DEL TIER 1 & FARM di Sezione Alessia Tricomi per M. DAmato, N. De Filippis, L. Silvestris, S. Costa, A. Tricomi, V. Ciulli, N. Magini, C. Marchettini,"— Transcript della presentazione:

1 STATO DEL TIER 1 & FARM di Sezione Alessia Tricomi per M. DAmato, N. De Filippis, L. Silvestris, S. Costa, A. Tricomi, V. Ciulli, N. Magini, C. Marchettini, L. Servoli, L. Fanò, S. Gennai

2 Alessia Tricomi TISB - Firenze 16/01/03 Sezione di BARI Risorse HW: Risorse HW: Stato attuale Stato attuale CPU: 18 GHz - PIII 4 da 800MHz e 5 da MHz Dual Proc. con RedHat 6.2 (tra cui un disk server SCSI con RH 7.2 ) CPU: 18 GHz - PIII 4 da 800MHz e 5 da MHz Dual Proc. con RedHat 6.2 (tra cui un disk server SCSI con RH 7.2 ) Disco: 2 TB Disco: 2 TB A breve (finanziamenti 2003) A breve (finanziamenti 2003) CPU: 12 GHz CPU: 12 GHz Partecipazione produzione ufficiale Partecipazione produzione ufficiale 50K eventi H ZZ e + e - µ + µ - (m H : 130,150,200,300,500) (tutta la catena); 50K eventi H ZZ e + e - µ + µ - (m H : 130,150,200,300,500) (tutta la catena); 150K eventi eg02_BigJets (solo.fz) 150K eventi eg02_BigJets (solo.fz) Eventuali problemi HW o SW riscontrati e commenti Eventuali problemi HW o SW riscontrati e commenti Problemi di installazione e configurazione RedHat sul nuovo hardware (controller SCSI, ecc. ) Problemi di installazione e configurazione RedHat sul nuovo hardware (controller SCSI, ecc. ) Persona di contatto e risorse umane: Persona di contatto e risorse umane: M. DAmato, N. De Filippis M. DAmato, N. De Filippis

3 Alessia Tricomi TISB - Firenze 16/01/03 Sezione di Catania Risorse HW: Risorse HW: Stato attuale Stato attuale CPU: 3.5 GHz - 2 PIII da 866MHz Dual Proc (RedHat 6.1.1) CPU: 3.5 GHz - 2 PIII da 866MHz Dual Proc (RedHat 6.1.1) Disco: 1.3 TB (DiskServer RedHat 7.2) Disco: 1.3 TB (DiskServer RedHat 7.2) A breve (finanziamenti 2002 e 2003) A breve (finanziamenti 2002 e 2003) CPU: 38 GHz - 8 PIV Xeon da 2.4 GHz Dual Proc CPU: 38 GHz - 8 PIV Xeon da 2.4 GHz Dual Proc Disco: 0.2 TB Disco: 0.2 TB Partecipazione produzione ufficiale Partecipazione produzione ufficiale 60K eg02_BigJets (solo fz) 60K eg02_BigJets (solo fz) Altre produzioni fatte in casa: Altre produzioni fatte in casa: 150k bbH-> (diverse m A e tan ); 100k bbZ-> Pythia+CMSJET 150k bbH-> (diverse m A e tan ); 100k bbZ-> Pythia+CMSJET 600k btH + ->tb Herwig+CMSJET 150k ttbb COMPHEP+CMSJET 600k btH + ->tb Herwig+CMSJET 150k ttbb COMPHEP+CMSJET 87M SUSY ISAJET+PYTHIA, 63M tt, Z+jet, W+jet, QCD PYTHIA CMSJET 87M SUSY ISAJET+PYTHIA, 63M tt, Z+jet, W+jet, QCD PYTHIA CMSJET Eventuali problemi HW o SW riscontrati e commenti Eventuali problemi HW o SW riscontrati e commenti Problemi iniziali per linstallazione del disk-server Problemi iniziali per linstallazione del disk-server In produzione al 100% da ottobre a causa del trasferimento In produzione al 100% da ottobre a causa del trasferimento Persona di contatto e risorse umane: Persona di contatto e risorse umane: S. Costa, A. Tricomi S. Costa, A. Tricomi

4 Alessia Tricomi TISB - Firenze 16/01/03 Sezione di Firenze Risorse HW: Risorse HW: Stato attuale: Stato attuale: CPU: 82.8 GHz - CMS: 6 PIV 2.4 GHz Dual Proc + Sezione: 15 PIII 1 GHz e 5 PIV 2.4 GHz Dual Proc CPU: 82.8 GHz - CMS: 6 PIV 2.4 GHz Dual Proc + Sezione: 15 PIII 1 GHz e 5 PIV 2.4 GHz Dual Proc –su tutti i nodi e installata la RH 7.3 CERN –nel 2002 solo 30GHz di Sezione Disco: 1.6 TB Disco: 1.6 TB A breve: nessun finanziamento per il 2003, ma abbiamo ancora un fondo di Euro per eventuali emergenze A breve: nessun finanziamento per il 2003, ma abbiamo ancora un fondo di Euro per eventuali emergenze Partecipazione produzione ufficiale Partecipazione produzione ufficiale 11.5k eventi Bs J/, 44k eg02_BigJets (solo fz) 11.5k eventi Bs J/, 44k eg02_BigJets (solo fz) Altre produzioni fatte in casa: Altre produzioni fatte in casa: 10k B, 1.6k WH bb (full chain) 10k B, 1.6k WH bb (full chain) Problemi HW e SW: Problemi HW e SW: Licenza Objectivity per RH7 Licenza Objectivity per RH7 Potenza rete elettrica insufficiente Potenza rete elettrica insufficiente Persona di contatto e risorse umane: Persona di contatto e risorse umane: V. Ciulli, N. Magini, C. Marchettini + (a breve) art. 15 V. Ciulli, N. Magini, C. Marchettini + (a breve) art. 15

5 Alessia Tricomi TISB - Firenze 16/01/03 Sezione di Perugia Risorse HW: Risorse HW: Stato attuale (finanziamenti CMS + altri fondi 2002) Stato attuale (finanziamenti CMS + altri fondi 2002) CPU: 35.2 GHz - 16 PIII da 1GHz + 8 PVI da 2.4 GHz CPU: 35.2 GHz - 16 PIII da 1GHz + 8 PVI da 2.4 GHz Disco: 2.4 Tb Tb Tb Disco: 2.4 Tb Tb Tb A breve (finanziamenti 2003): nulla A breve (finanziamenti 2003): nulla Partecipazione produzione ufficiale Partecipazione produzione ufficiale 177.5k eventi eg02_BigJets (solo fz) 177.5k eventi eg02_BigJets (solo fz) Altre produzioni fatte in casa (tutte senza pile-up): Altre produzioni fatte in casa (tutte senza pile-up): 70k eventi ->3 e -> ; 15k eventi Higgs con vari stati finali; 1k eventi gb -> Hb (full chain) 70k eventi ->3 e -> ; 15k eventi Higgs con vari stati finali; 1k eventi gb -> Hb (full chain) 10k eventi gb ->Hb; 40k eventi ttH; 138k eventi fondo risonante (ttZ, ttbb, tt jet jet); 2.400k eventi di fondo non risonante QCD (fino a CMSJET) 10k eventi gb ->Hb; 40k eventi ttH; 138k eventi fondo risonante (ttZ, ttbb, tt jet jet); 2.400k eventi di fondo non risonante QCD (fino a CMSJET) Eventuali problemi HW o SW riscontrati e commenti: Eventuali problemi HW o SW riscontrati e commenti: Difficoltà iniziali nel setup della farm per il sistema operativo RH 6.1 poco compatibile con il nuovo hardware. Difficoltà iniziali nel setup della farm per il sistema operativo RH 6.1 poco compatibile con il nuovo hardware. Lo script autoinstallante CASPUR metteva il Perl in una posizione non corretta (risolto da L.Fano e T. Wildisch). Lo script autoinstallante CASPUR metteva il Perl in una posizione non corretta (risolto da L.Fano e T. Wildisch). Persone di contatto: L. Servoli, L. Fanò Persone di contatto: L. Servoli, L. Fanò

6 Alessia Tricomi TISB - Firenze 16/01/03 Sezione di Pisa Risorse HW: Risorse HW: Stato attuale Stato attuale CPU: 24 GHz - 12 PIII da 1 GHz Dual Proc (4 in manutenzione) CPU: 24 GHz - 12 PIII da 1 GHz Dual Proc (4 in manutenzione) Disco: 1.2 TB Disco: 1.2 TB A breve (finanziamenti 2003) A breve (finanziamenti 2003) Disco: 12K per compare 1 TB di disco ma sembrano scomparsi Disco: 12K per compare 1 TB di disco ma sembrano scomparsi Partecipazione produzione ufficiale Partecipazione produzione ufficiale 90K eventi eg02_BigJets (solo Fz) 90K eventi eg02_BigJets (solo Fz) 16K WH-> muoni e bb e 5k WH-> elettroni e tau tau (full chain a bassa luminosità) 16K WH-> muoni e bb e 5k WH-> elettroni e tau tau (full chain a bassa luminosità) Circa 40K di eventi con muoni per Torino (solo Fz) Circa 40K di eventi con muoni per Torino (solo Fz) Eventuali problemi HW o SW riscontrati e commenti Eventuali problemi HW o SW riscontrati e commenti Si rompevano i dischi (IBM) quasi ogni giorno e siamo stati impossibilitati a lavorare per diverse settimane, fino alla sostituzione con dei maxtor. Si rompevano i dischi (IBM) quasi ogni giorno e siamo stati impossibilitati a lavorare per diverse settimane, fino alla sostituzione con dei maxtor. Dopo il trasferimento del centro di calcolo la farm è parzialmente funzionante e non e chiaro quando potrà tornare su al 100% Dopo il trasferimento del centro di calcolo la farm è parzialmente funzionante e non e chiaro quando potrà tornare su al 100% Persona di contatto e risorse umane: Persona di contatto e risorse umane: Simone Gennai (attualmente al 30%, prima al 50%) Simone Gennai (attualmente al 30%, prima al 50%)

7 Alessia Tricomi TISB - Firenze 16/01/03 TIER 1 Risorse HW: Risorse HW: Stato attuale Stato attuale CPU: CPU: –CMS standard: 16 GHz - 8 PIII da 1GHz Dual Proc –Stress test: 80 GHz –DATATAG: 10 GHz – 5 PIII da 1 GHz Dual Proc DISCO: DISCO: –CMS standard: 2 Tb – estensibili a 5 su richiesta –Stress test: 2Tb Nastro: sono disponibili circa 18 Tb su nastro da dividere tra i vari esperimenti, ma al momento non abbiamo fatto richieste Nastro: sono disponibili circa 18 Tb su nastro da dividere tra i vari esperimenti, ma al momento non abbiamo fatto richieste A breve A breve A metà febbraio riunione dei Comitati tecnico e di gestione per stabilire lallocazione delle risorse per almeno la prima parte del 2003 A metà febbraio riunione dei Comitati tecnico e di gestione per stabilire lallocazione delle risorse per almeno la prima parte del 2003 Partecipazione al pre-challenge del DC04 Partecipazione al pre-challenge del DC04

8 Alessia Tricomi TISB - Firenze 16/01/03 TIER 1 Attività Attività Partecipazione produzione ufficiale: Partecipazione produzione ufficiale: 130k (+50k non utilizzabili) eventi eg02_BigJets full chain con mc_runjob 130k (+50k non utilizzabili) eventi eg02_BigJets full chain con mc_runjob Stress test: dal 29 Novembre al 20 Dicembre: Stress test: dal 29 Novembre al 20 Dicembre: 268.5k eventi eg02_BigJets solo fz 268.5k eventi eg02_BigJets solo fz Analisi: Analisi: Test beam: disponibili tutti i dati dei test beam al PSI e a X5 Test beam: disponibili tutti i dati dei test beam al PSI e a X5 Sistema di monitoring delle risorse accessibile via web https://tier1.cnaf.infn.it/monitor/ solo con certificato INFN-CA Sistema di monitoring delle risorse accessibile via web https://tier1.cnaf.infn.it/monitor/ solo con certificato INFN-CA https://tier1.cnaf.infn.it/monitor/ Problemi HW e SW e commenti: Problemi HW e SW e commenti: Nessun particolare problema HW eccetto che al momento il numero di processori assegnatoci è stato limitato a quelli più vecchi per via della necessità di utilizzare la RH 6.1 Nessun particolare problema HW eccetto che al momento il numero di processori assegnatoci è stato limitato a quelli più vecchi per via della necessità di utilizzare la RH 6.1

9 Alessia Tricomi TISB - Firenze 16/01/03 TIER1: monitoring CPU status – CMS cluster PBS Server – CMS cluster Job running Job sottomessi

10 Alessia Tricomi TISB - Firenze 16/01/03 TIER1: monitoring % User %Free %Syst % Nice

11 Alessia Tricomi TISB - Firenze 16/01/03 TIER 1 Problemi HW e SW e commenti: Problemi HW e SW e commenti: Produzione ufficiale: oltre 50k eventi da buttare a causa di una errata assegnazione dei run numbers e successivamente di un baco in uno degli script di python Produzione ufficiale: oltre 50k eventi da buttare a causa di una errata assegnazione dei run numbers e successivamente di un baco in uno degli script di python Stress test: upgrade della versione del software di datagrid (da EDG1.3 a EDG1.4), e una serie di altri problemi che hanno rallentato, reso difficile la sottomissione di jobs. Stress test: upgrade della versione del software di datagrid (da EDG1.3 a EDG1.4), e una serie di altri problemi che hanno rallentato, reso difficile la sottomissione di jobs. Analisi: Analisi: problema con il riempimento della /home che ha bloccato anche la produzione ufficiale problema con il riempimento della /home che ha bloccato anche la produzione ufficiale –Tutti coloro che hanno account e vogliono utilizzare il Tier1 per lanalisi NON devono scrivere ntuple sulla /home ma sul disk-server /CMS1/testbeam e preventivamente, prima di iniziare lanalisi, è opportuno contattarmi per concordare lutilizzo almeno fino a quando saremo in produzione ufficiale –Ho richiesto comunque che venga messa una quota sulle home directories e appena possibile una macchina che possa servire da gw per lanalisi Lentezza del trasferimento CERN-CNAF Lentezza del trasferimento CERN-CNAF

12 Alessia Tricomi TISB - Firenze 16/01/03 Riassumendo … Tutte le farm (a parte al momento Pisa a causa del trasferimento) sono operative al 100% Tutte le farm (a parte al momento Pisa a causa del trasferimento) sono operative al 100% Installazione farm da scratch: Installazione farm da scratch: Tutte le farm hanno avuto difficoltà nella fase di installazione a causa dellincompatibilità tra nuovo HW e la RH 6.1 Tutte le farm hanno avuto difficoltà nella fase di installazione a causa dellincompatibilità tra nuovo HW e la RH 6.1 I tempi di installazione a seconda dei casi sono stati dellordine di alcuni giorni fino a settimane I tempi di installazione a seconda dei casi sono stati dellordine di alcuni giorni fino a settimane Linstallazione al CNAF tramite LFCG e gli RPM preparati da Andrea, una volta messo a punto il sistema, è stata molto rapida (in mezza giornata tre macchine sono state completamente installate da scratch), tuttavia lutilizzo di processori più nuovi è stato scartato sempre per evitare problemi con la RH 6 Linstallazione al CNAF tramite LFCG e gli RPM preparati da Andrea, una volta messo a punto il sistema, è stata molto rapida (in mezza giornata tre macchine sono state completamente installate da scratch), tuttavia lutilizzo di processori più nuovi è stato scartato sempre per evitare problemi con la RH 6 E prevedibile che, per il nuovo HW, con la RH 7.3 tutto dovrebbe essere molto più rapido E prevedibile che, per il nuovo HW, con la RH 7.3 tutto dovrebbe essere molto più rapido Sarebbe auspicabile avere una lista di HW supportato con facilità di riferimento per tutte le sezioni Sarebbe auspicabile avere una lista di HW supportato con facilità di riferimento per tutte le sezioni

13 Alessia Tricomi TISB - Firenze 16/01/03 Riassumendo … Partecipazione produzione: Partecipazione produzione: Tutte le farm Tracker hanno partecipato alla produzione ufficiale almeno fino alla fase fz Tutte le farm Tracker hanno partecipato alla produzione ufficiale almeno fino alla fase fz Quasi tutte le farm e il TIER1 sono al momento coinvolte nella produzione eg02_BigJets Quasi tutte le farm e il TIER1 sono al momento coinvolte nella produzione eg02_BigJets Un risultato interessante per il TIER1 è la partecipazione alla produzione ufficiale con la full chain tramite mc_runjob Un risultato interessante per il TIER1 è la partecipazione alla produzione ufficiale con la full chain tramite mc_runjob Partecipazione DC04 Partecipazione DC04 Da discutere… Da discutere… CPU 1 GHz CPU > 1GHz DISCO FARM* TIER116?2+3+? * Per Firenze sono state sommate solo le CPU effettivamente in possesso di CMS (è ragionevole considerare la possibilità di utilizzo di circa il 30% della farm di sezione)

14 Alessia Tricomi TISB - Firenze 16/01/03 DC04: due fasi P. Capiluppi Gr1 Perugia Pre-Challenge (2003) (Must be successful ) Pre-Challenge (2003) (Must be successful ) Large scale simulation and digitization Large scale simulation and digitization Will prepare the samples for the challenge Will prepare the samples for the challenge Will prepare the samples for the Physics TDR work to get fully underway Will prepare the samples for the Physics TDR work to get fully underway Progressive shakedown of tools and centers Progressive shakedown of tools and centers All centers taking part in challenge should participate to pre-challenge All centers taking part in challenge should participate to pre-challenge The Physics TDR and the Challenge depend on successful completion The Physics TDR and the Challenge depend on successful completion Ensure a solid baseline is available, worry less about being on the cutting edge Ensure a solid baseline is available, worry less about being on the cutting edge Challenge (2004) (Must be able to fail) Challenge (2004) (Must be able to fail) Reconstruction at T0(CERN) Reconstruction at T0(CERN) Distribution to T1s Distribution to T1s Subsequent distribution to T2s Subsequent distribution to T2s Assign streams and pre-configured analyses to people at T1s and T2s Assign streams and pre-configured analyses to people at T1s and T2s Some will be able to work entirely within one center Some will be able to work entirely within one center Others will require analysis of data at multiple-centers Others will require analysis of data at multiple-centers GRID tools tested for data movement and job migration GRID tools tested for data movement and job migration Introduce GRID tools As available and tested Make full use of LCG-1 GRID. Test the functionality they deliver

15 Alessia Tricomi TISB - Firenze 16/01/03 DC04: setting the scale P. Capiluppi Gr1 Perugia Aim is 1 month of running at 25 Hz, 20 hours per day Aim is 1 month of running at 25 Hz, 20 hours per day 50 Million reconstructed events 50 Million reconstructed events (passing L1 Trigger and mostly passing HLT, but some background samples also required) (passing L1 Trigger and mostly passing HLT, but some background samples also required) Simulation (GEANT4!) Simulation (GEANT4!) 100TB 100TB 300 kSI95.Months 300 kSI95.Months 1GHz P3 is 50 SI95 1GHz P3 is 50 SI95 Working assumption that most farms will be at 50SI95/CPU in late 2003 Working assumption that most farms will be at 50SI95/CPU in late 2003 –Six months running for 1000 CPUS (Worldwide) –(Actually aim for more CPUs to get production time down) Digitization Digitization 75TB 75TB 15 kSI95.Months 15 kSI95.Months 175MB/s Pileup bandwidth (if allow two months for digitization) 175MB/s Pileup bandwidth (if allow two months for digitization) Reconstruction at T0-CERN Reconstruction at T0-CERN 25TB 25TB 23 kSI95 for 1 month (460 50SI95/CPU) 23 kSI95 for 1 month (460 50SI95/CPU) Analysis at T1-T2s Analysis at T1-T2s Design a set of tasks such that offsite requirement during challenge is about twice that of the T0 Design a set of tasks such that offsite requirement during challenge is about twice that of the T0 Pre-Challenge Challenge

16 Alessia Tricomi TISB - Firenze 16/01/03 CMS Italia e il DC04 P. Capiluppi Gr1 Perugia Partecipare al Challenge : contribuire per ~ 20% Partecipare al Challenge : contribuire per ~ 20% Possibilmente tutte le risorse parteciperanno al pre-challenge Possibilmente tutte le risorse parteciperanno al pre-challenge Coordinare la partecipazione attraverso LCG Coordinare la partecipazione attraverso LCG Il Tier1/INFN deve essere fully functional Il Tier1/INFN deve essere fully functional ~70 CPU boxes e ~20 TB ~70 CPU boxes e ~20 TB Le risorse conferite in LCG cresceranno in funzione del successo Le risorse conferite in LCG cresceranno in funzione del successo Inizialmente Legnaro (gia dinamico) e il Tier1 gia committed Inizialmente Legnaro (gia dinamico) e il Tier1 gia committed A seguire le altre risorse A seguire le altre risorse Definire i commitment delle Sedi Italiane Definire i commitment delle Sedi Italiane Ruoli in funzione delle competenze del personale Ruoli in funzione delle competenze del personale Definire la meteodologia Definire la meteodologia Definire il data flow Definire il data flow E le analisi pre-confezionate E le analisi pre-confezionate Aumento delle risorse di un fattore 3 per il DC05 ( ) Aumento delle risorse di un fattore 3 per il DC05 ( ) Conclusioni di Paolo: Conclusioni di Paolo: commitment per partecipare al DC04 Ufficialmente oggi in LCG-1 per CMS: Tier1 e Legnaro Partecipazione al pre-DC04 di tutti i Tier2/3 Partecipazione al DC04 di Tier selezionati (interesse)

17 Alessia Tricomi TISB - Firenze 16/01/03 Conclusioni Tutte le farm hanno mostrato di essere operative Tutte le farm hanno mostrato di essere operative Ci sono alcune macchine obsolete, ma un po tutte le farm si stanno attrezzando con nuovi PVI Ci sono alcune macchine obsolete, ma un po tutte le farm si stanno attrezzando con nuovi PVI Dovremmo capire quale può essere il nostro ruolo nel DC04 Dovremmo capire quale può essere il nostro ruolo nel DC04


Scaricare ppt "STATO DEL TIER 1 & FARM di Sezione Alessia Tricomi per M. DAmato, N. De Filippis, L. Silvestris, S. Costa, A. Tricomi, V. Ciulli, N. Magini, C. Marchettini,"

Presentazioni simili


Annunci Google