Tier1: stato del servizio Pietro Matteuzzi e Luca Dell’Agnello
Impianti tecnologici Attivato Sistema Antincendio –Completamento delle segnaletica e attacco bombole Miglioramenti: –Terminata fase indagine di mercato per sistema di allarmistica integrato per apparati infrastrutturali e “calcolo” Segnalazione (via SMS) malfunzionamento apparati (Condizionamento, Potenza..) –Terminata fase indagine di mercato per sistema di accesso alla Sala T1 (badge o sensori di prossimità) e di sistema di controllo della Sala T1 con telecamere. Inizio lavori: entro Aprile –Motorizzazione delle saracinesche dell’UTA per permettere lo scambio della doppia coppia di ventilatori (Aprile 2005).
Impianti tecnologici Stiamo interessando uno Studio termotecnico per avere un rapporto dettagliato sulla situazione della potenza frigorifera e della sua distribuzione in Sala per valutare: - miglioramento della situazione attuale (concentrazione di calore in alcune zone) - margini di crescita di “potenza di calcolo” in rapporto alla potenza frigorifera attuale - come incrementare la potenza frigorifera per avere un minimo di backup (si sono verificati problemi sul gruppo frigo)
Infrastruttura Ci stiamo attivando per: - munirci di un sistema di shutdown (semi)automatico degli apparati -gestire un “magazzino”; - Creare un sistema efficiente per le manutenzioni di tutti gli apparati e la Gestione dei guasti
Stato dell’ HW Farm Circa 800 server1300 KSi2K Disco IBM, STK, Infortrend Procom 200 TB + 30TB (6/5) In arrivo 30TB (Gara 2003 ora sbloccata) Tape Stk L180 Stk TB 6 LTO cassette=240 TB b 680 cassette=136 TB Rete 29 Switch da rack 2 core Switch 46 FE UTP + 2 GE FO 96 GE FO GE FO e 4x10GE
Gare GaraDescrizioneStatoTempi di consegna Spesa 8876 CD200 TB DISCO Invio rich. Lettera invito 20/03/05 6/05780 KE 8875 CD400 KSint2K (160 biproc.) Invio rich. Lettera invito 20/03/05 6/05624 KE Gara 8718 Backup server A.C Conclusa 5/05564 KE
Gare interne Cnaf GaraDescrizioneTempiSpesa Farm 16 biproc. per HPC (Teorici) Infiband + hw e sw In test da Eurotech 95 KE Farm Opteron (16 biproc.)In funzione Per Service challange 60 KE
Farming Funzioni –Installazione & gestione dei WNs della farm principale (~ 600 WNs) Sistema di installazione –configurazione OS & middleware LCG Gestione WNs Gestione supporto HW Manutenzione e gestione del batch scheduler Gestione interfacce grid –Gestione delle 2 farm “legacy” (CDF: ~50 WNs, BABAR: ~50 WNs) Personale: 2.5 FTE, richiesti altri 3 FTE Stato –Setup Quattor (installazione/configurazione/gestione farm) completato –Migrazione a SLC, LSF e LCG (in corso) ~ 2/3 farm migrata In attesa migrazione a SLC di alcuni esperimenti Deadline Aprile Evoluzione –Studio single point of failure (Maggio) –Inclusione farm CDF, BABAR (da definirsi con esperimenti) –Farm teorici (TBD) –Inclusione farm FIRB (TBD)
Batch system “Legacy” Access CELSF Wn1WNn SE Grid Access UI Grid
Storage & DB (1) Funzioni –Installazione, gestione sw, gestione supporto hw sistemi disco 2 sistemi SAN (~ 225 TB) 4 sistemi NAS (~ 20TB) + BABAR (~ 30TB) + CDF (~ 12TB) –Installazione e gestione hw/sw CASTOR Libreria STK con 6 drive LTO2 e B –1200 nastri LTO2 (200 GB) –680 nastri 9940B (200 GB) Gestione stager, diskpool, e server vari –Configurazione e gestione accessi “classici” (nfs, rfiod, GPFS) e grid (gridftp, SRM) Test con filesystem paralleli e/o distribuiti –Gestione DB Oracle per Castor, test RLS & LCG 3D PostgreSQL per DB hw del Tier 1 Personale: 3.5 FTE, richiesti altri 5 FTE
Storage & DB (2) Stato –Installato VI/V (~ 25 TB) completato –Installato storage BABAR (~ 30 TB) Evoluzione –Sistemi disco Installazione storage gara 2003 (~ 30 TB) TBD completamento test su File System Paralleli –PVFS, GPFS, Lustre (meta’ Aprile) –Decisione migrazione dischi a GPFS (Aprile) »In attesa riscontro da IBM per assistenza –D-Cache (TBD) Test con DPM CERN (TDB) Valutazione cella AFS (Q2 2005) –Eventuale installazione (Q3 2005) –CASTOR Migrazione a nuova versione di CASTOR (Q2 2005) Upgrade libreria con 4 drive 9940B (riscontrati problemi con LTO2) e 2500 nastri (Q2 2005) Test con file system distribuiti per lo stager (Aprile) –DB Upgrade db Oracle di CASTOR alla release 10g (Q1-Q2 2005) Setup di “Real Application Cluster” Oracle per db CASTOR (Q3 2005) LCG 3D –Setup del tesbed di replica (Q1 2005) –Fase di produzione (Q3 2005)
Allarmistica Sw & Monitoring Funzioni –Rilevazione e gestione degli allarmi sw Controllo dei principali servizi e server (stato LAN, connettivita’ Internet, AFS, DNS, LDAP. Kerberos, bastioni, PBS, BABAR, server e stager CASTOR, disk server fastT900) –Monitoraggio risorse Raccolta dati da server e WNs –uso CPU, disco etc… Overlap con sistema allarmistica ed altri strumenti di monitoring (i.e. Gridice) Stato –Completato monitoraggio LSF –Attivata allarmistica su servizi e storage Evoluzione –Completamento allarmistica sw per farm. (Aprile 2005) –Collaborazione con gruppi GridICE, DGAS per monitoraggio, accounting –Integrazione con sistema allarmistica su impianti tecnologici Personale ~ 0.8 FTE, richiesto 1 altro FTE
Rete & sicurezza Funzioni –Gestione e sviluppo rete CNAF (LAN e accesso GARR) GigaPOP GARR “ospitato” in sala Tier1 –Collaborazione con esperimenti per esigenze particolari –Studio & implementazione infrastruttura sicurezza sw Tier1 (e CNAF!) –Gestione “firewall” per protezione accessi alla LAN Stato ed evoluzione –Interconnessione a dorsale GARR a 1 Gbps (+ 1 Gbps per Service Challenge) upgrade a 10 Gbps Settembre 2005 –30 Switch (14 switch 10Gb “ready”) Ogni rack e’ dotato di uno switch –3 Switch/Router concentratori (SSR8600 attualmente router di accesso alla WAN con funzioni di firewall) Black Diamond con 120 GE e 12 10GE (scalabile a 480 GE o 48 10GE) in fase di configurazione –In arrivo Router di accesso Cisco 7600 (con 4x10GE and 4xGE interfacce) per sostituire SSR8600 –Stesura procedura intervento sicurezza (Q2 2005) –Implementazione NIDS (Q3 2005) Personale: 1.5 FTE, richiesto 1 FTE
Occupazione link accesso al GARR Profilo traffico rete ultimi 2 giorni (p.v. ~230 Mbps in ingresso) Profilo traffico rete Feb Mar 2005 (p.v.: ~750 Mbps in ingresso) trend annuale di crescita
Service Challenge prototipizzazione sistema di trasferimento dati per esperimenti LHC –Coinvolti T0, tutti i T1 ed alcuni T2 Al CERN setup di challenge facility da 500 MB/s (3.6 GB/sec a fine 2005) –Test progressivi fino a inizio presa dati Marzo 2005: trasferimenti disco-disco T0 T1 (100 MB/sec) Luglio 2005: trasferimenti disco-nastro T0 T1 (80 MB/sec) Validazione/passaggio progressivo infrastruttura in produzione –INFN partecipa da Marzo 2005 (in corso) Link sperimentazione 1 Gbps (GARR) Infrastruttura LAN separata da produzione farm Opteron dedicata
Occupazione link Service Challenge Profilo traffico rete ultimi 2 giorni (p.v. ~930 Mbps in ingresso) Profilo traffico rete ultime 2 settimane (p.v.: ~965 Mbps in ingresso)
Personale Personale di ruolo (6+1): –Pietro Matteuzzi: Responsabile tecnico Area Funzionale Tier1 –Luca Dell’Agnello: Responsabile operations Tier1 –Andrea Chierici: Farming –Pier Paolo Ricci: CASTOR, Storage, Robotica. –Stefano Zani: Rete, Sicurezza, VideoConferenze & Multimediale –Alessandro Italiano: Sistemistica, Libreria, VideoConf.&Multimed., GRID. –1 CTER (concorso in espletamento) Personale a Contratto (5+5+4): –Barbara Martelli (Borsa) Sviluppo SW, DB e LCG 3D. –Donato De Girolamo (Art. 15) Rete, Allarmistica e Sicurezze. –Felice Rosso: (Art. 15) Monitoring, Sistemistica. –Elisabetta Vilucchi (A.R.) DB e LCG 3D, CASTOR –Giuseppe Lopresti (A.R.) CASTOR (CERN) –Poleggi (A.R.) Farming (CERN) –Massimo Donatelli: (Art.15) AFS, sicurezza –Giuseppe Lo Re (A.R.) Supporto SW Esp. (ALICE)/CASTOR –Daniele Bonacorsi (A.R.) Supporto SW Esp. (CMS) –Guido Negri (A.R.) Supporto SW Esp. (ATLAS) –Subir Sarkar (A.R.) Supporto SW Esp. (CDF) –Enrica Antonioli (Art.2222) Supporto SW Esp. (BaBar) –Stefano Ferretti (A.R.) adattamento di sw BABAR a Grid Da attivare –Daniel Jeans (A.R.) adattamento di sw CDF a Grid Da attivare ~2.5 FTE per calcolo non-Tier1, rete & servizi generali ~4.5 FTE per supporto esperimenti ~8.5 FTE per operations Tier1
Riassunto problematiche aperte Refrigerazione sala –Studio ed implementazione sistema per aumento/ridondanza potenza refrigerante Storage –Problemi hw Hw meno affidabile usato solo come front-end CASTOR (migrazione in corso) –Necessario aumento numero server (in corso) per ridondanza e throughput –Problemi con CASTOR Prestaging ottimizzato per rilettura (workaround) Passaggio a nuova tipologia driver (9940B) Upgrade a nuova versione (Q3 2005) Monitoraggio/Accounting –Necessario tool “completo” per raccolta dati per monitoraggio/accounting Collaborazione con GridICE Integrazione con nuovo sistema allarmi tecnologici Supporto utenti –Reperibilita’ attivata 1! persona/periodo Urgenze, disservizi (parziale) Necessario rivedere contratti assistenza apparati critici –Estensione SLA Tempi certi di risposta per i vari problemi Piano di sviluppo per arrivare a operativita’ piena nel 2007 –Turni da attivare personale operations T1 insufficiente