Benigno Gobbo – INFN Trieste 1 CSN 1 17 settembre 2002 Stato della Farm di Trieste CSN 1 17 settembre 2002 Benigno Gobbo INFN Sezione di Trieste
CSN 1 Benigno Gobbo – INFN Trieste 2 17 settembre 2002 Hardware 11 Old clients: MSI 694D Pro Dual PIII 800 Mhz 2 x 20 GB ATA Disks 512 MB RAM 11 Old clients: MSI 694D Pro Dual PIII 800 Mhz 2 x 20 GB ATA Disks 512 MB RAM 19 New clients: Abit VP6 Dual PIII 1000 Mhz 2 x 40 GB ATA Disks 512 MB RAM 19 New clients: Abit VP6 Dual PIII 1000 Mhz 2 x 40 GB ATA Disks 512 MB RAM 3com com 3900 Kvm switch Server SGE, DHCP, BB, … Asus CUR-DLS Dual PIII 800 MHz 2 x 30 GB ATA Disks 512 MB RAM GA620 G gigabit EIDE disk server Intel L440 GX+ Dual PIII 700 MHz 2 x 15 GB ATA disks 14 x 75 GB ATA disks 6 x 80 GB ATA disks GA620 G gigabit EIDE disk server Intel STL2 Dual PIII 866 MHz 2 x 20 GB ATA disks 20 x 80 GB ATA disks GA620 G gigabit Tape Library STK L40 20 slot 2 x IBM Ultrium Tape/disk server Dell PowerEdge 4400 Dual Xeon 1 GHz 2 x 36 GB SCSI RAID1 6 x 73 GB SCSI RAID0 SCSI disk server Sun Blade 1000 Dual SparcIII 750 MHz 18 GB SCSI FC disk 8 x 73 GB SCSI RAID5 CRD-5440
CSN 1 Benigno Gobbo – INFN Trieste 3 17 settembre 2002 Hardware (cont.) Problemi, rotture, etc… ACID01 (server SunGrid, DHCP, BigBrother, …) Problemi con motherboard (CUR-DLS) che legge male la temperatura della seconda CPU. Risolto aumentando la ventilazione. ACID02 Problemi con scheda di rete Intel PRO/100 S. ACID03 (disk server) Problemi su diversi dischi IBM DTLA (è un problema noto, ora…). Client Vecchi (ACID06, 07, 09, 10, 12, 13) Problemi con le ventole delle CPU. ACID05 Rottura alimentatore. ACID13 Rottura disco ( ri-installazione del sistema). ACID17 (disk server) Rottura di una 3ware Escalade ACID36 Rottura dellalimentatore e della scheda video (probabilmente correlate).
CSN 1 Benigno Gobbo – INFN Trieste 4 17 settembre 2002 Software installato Management della farm R. Birsa (Solaris), BG (Linux) Componenti free software RedHat Linux 7.2 ( kernel 2.4.9, glibc ) oppure 7.3 ( kernel , glibc ). A parte la Sun che ovviamente monta Solaris Queuing system: Sun Grid Engine EE 5.3p1 System/Network monitor: Big Brother 1.9 CERN software CERNLib, ANAPHE, ROOT, CASTOR, DATE COMPASS software COMGeant (simulazione), Coral (ricostruzione ed ad analisi) Tools locali (parallelizzazione dei processi, accesso a DB remoto) Componenti commerciali Backup: CA Arcserve 7 1 licenza Linux server, 3 licenze Linux client, 1 licenza Unix client ODBMS: Objectivity CERN Contract
CSN 1 Benigno Gobbo – INFN Trieste 5 17 settembre 2002 Software installato (cont.)
CSN 1 Benigno Gobbo – INFN Trieste 6 17 settembre 2002 Software installato (cont.)
CSN 1 Benigno Gobbo – INFN Trieste 7 17 settembre 2002 Software installato (cont.)
CSN 1 Benigno Gobbo – INFN Trieste 8 17 settembre 2002 Software installato (cont.) Mirroring/Update Giornaliero di: Distribuzione RedHat 7.2 e 7.3 Software/DataBase di COMPASS COMGeant CORAL DataBase delle calibrazioni Database di geometria, mappe ed allineamenti Periodico dei patch su sistema od applicativi Non si usano auto-update toolsASIS Non viene usato Sono installati solo i package che servono esplicitamente (CERNLib, CASTOR, …), localmente su ogni nodo, usando RPM.
CSN 1 Benigno Gobbo – INFN Trieste 9 17 settembre 2002 Tools sviluppati ed attività in corso Spar: tool per la parallelizzazione della procedura di analisi di MC via SunGrid (V.Duic) Input: lutente specifica eseguibili e file di configurazione come se si trattasse di un unico job di generazione/produzione/analisi spar provvede alla suddivisione in job paralleli alterando opportunamente i file di opzioni (il grado di parallelizzazione viene specificato dallutente). Output: spar alla fine raggruppa opportunamente i file di output Supporta fino allintero ciclo di processamento: generatori COMGeant CORAL, con possibilità di escludere alcuni passi Può partire da passi intermedi (es. CORAL su output di COMGeant) Una prima versione di spar è gia in utilizzo. Parallelizzazione dellanalisi sui DST e raw data (V.Duic) Concettualmente è analogo al tool precedente Si basa sullanalogo tool in uso al CERN per la produzione (VD, M.Lamanna).
CSN 1 Benigno Gobbo – INFN Trieste settembre 2002 Tools sviluppati ed attività in corso (cont.) Copia delle federazioni Objectivity di COMPASS (V.Duic) Solo DST ed alcuni raw data. Trasferimento (va ftp su wacdr) di: Federazione Database di header (di run ed eventi) Database di eventi (essenzialmente DST) Come test sono stati trasferiti i DST relativi al 2001 I DST dei dati con polarizzazione trasversa del 2002 sono importati man mano che vengono prodotti al CERN Test di processatura di raw event e DST Produzione MC per test sistema e sviluppo software (A.Martin) Per trasverso. 1M eventi su tutto range x e in diversi bin di x Generazione eventi DIS con Lepto: singolo job per campione (è rapido) COMGeant: parallelizzato da spar su 10 e 20 nodi/generazione 1.4 s/evento, 5k eventi/CPU/generatore, 2 ore siu 10 CPU, zebra file 0.34 GB CORAL: parallelizzato da spar su 10 e 20 nodi/generazione Output ROOT tree (1MB per 5k eventi), somma dei singoli file fatta automaticamente da spar Ottimizzazione della ricostruzione del RICH1 (P.Schiavon) Run su file binari pre-prodotti al CERN per sviluppo ed ottimizzazione della ricostruzione degli anelli del RICH.
CSN 1 Benigno Gobbo – INFN Trieste settembre 2002 Attività prossima futura Il run ci ha tenuto molto occupati. A questo si aggiunge limpegno sulloffline generale di COMPASS Responsabilità: Coral (BG), CCF e gestione dati (M.Lamanna), software RICH1 (P.Schiavon). Attività: gestione dati e produzione DST (P.Pagano, V.Duic) Ottimizzazione della Farm per lanalisi dei dati Test di accesso diretto alle federazioni CERN via WAN (da ottobre) Verifica protezioni, sicurezza, etc. Produzione selettiva di DST da DST con Coral Richiede modifiche del codice GUI per i tool di parallelizzazione In test Miglioramento dei tools di gestione e controllo della farm Più sono automatizzati meno lavoro cè per me (credo…)
CSN 1 Benigno Gobbo – INFN Trieste settembre 2002 Attività prossima futura (cont.) Verifica della possibilità di utilizzo di HSM Studio della possibilità di porting di CASTOR (ostico…) HSM commerciali (poca roba per Linux: DiskXtender,…) NOTA: dallesperienza di analisi sui dati 2002 capiremo se ed eventualmente quanto storage aggiuntivo ci serve. È importante capire se si può puntare verso un HSM che potrebbe avere costi sensibilmente minori dellallargamento dello spazio disco. Adattamento e test del software per il nuovo DBMS Studio sistematico della prestazioni del RICH1 Analisi dei dati (già iniziata): misura di h 1 da asimmetria dei leading π in DIS su bersaglio con polarizzazione trasversa
CSN 1 Benigno Gobbo – INFN Trieste settembre 2002 Analisi dati trasverso 2002 È una misura complessa: lasimmetria prevista è di pochi % con un apparato del tutto nuovo DST Organizzati in due periodi corrispondenti a circa 270 run (più di mezzo miliardo di eventi) 26 TB di raw data, 2 TB di dati DST Inoltre è stato deciso di acquisire ulteriori dati per il trasverso in questi ultimi giorni di run: due periodi da cui ci aspettiamo almeno 100 run aggiuntivi. La produzione dei primi due periodi è stata iniziata al CERN a fine agosto Il primo periodo è in avanzato stato di processato e trasferimento a Trieste La produzione del secondo periodo è stata appena iniziataAnalisi Studi di stabilità su tutti gli eventi (2 TB) in collaborazione con Torino in base alle risorse hardware disponibili Calcolo asimmetria allinizio solo su eventi con Q 2 >1 GeV 2 (20%). Software già testato sulla farm (P.Pagano) Studio di effetti sistematici dovuti ad accettanza e fondo Richiede Produzione massiccia di MC Produzione iniziale 10 7 eventi DIS nel range di interesse 1TB di eventi simulati (20 CPU per 8 giorni) Processatura: ogni analisi richiede lo stesso ordine di tempo della produzione
CSN 1 Benigno Gobbo – INFN Trieste settembre 2002 Hardware, desiderata 2003 Inventariabile Rimpiazzo RAID controller SCSI CRD-5440 con analogo Infotrend Sentinel 150 ( 3.5 k ) CMD si è orientata su mercato militare. Non cè modo di mettere loggetto in manutenzione Sostituzione ACID01 con server di qualità (con RAID…) ( 5.6 k ) Fa servizi importanti: master SGE, server DHCP, master e display BigBrother,… È vecchio e usa dischi ATA non in RAID. Upgrade della Tape Library a 40 slot (5.0 + IVA k ) 20 slot (= 2 TB). NOTA: prezzo farm con 20 slot 67 MITL Inventariabile (seconda priorità) Inizio upgrade dei client vecchi (5/30 da fare a fine 2003) (28.0 k )Consumo Varie ( 3.0 k ) Tape Ultrium ( 10.0 k )Manutenzioni Switch 3com 3900 (07/ /2003) ( 0.7 k, possibilmente anticipati al 2002) Switch 3com 4900 (01/ /2003) (0.6 k ) Gruppo di continuità (50%: 0.6 k )