La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Tier1: stato del servizio Pietro Matteuzzi e Luca Dell’Agnello.

Presentazioni simili


Presentazione sul tema: "Tier1: stato del servizio Pietro Matteuzzi e Luca Dell’Agnello."— Transcript della presentazione:

1 Tier1: stato del servizio Pietro Matteuzzi e Luca Dell’Agnello

2 Impianti tecnologici Attivato Sistema Antincendio –Completamento delle segnaletica e attacco bombole Miglioramenti: –Terminata fase indagine di mercato per sistema di allarmistica integrato per apparati infrastrutturali e “calcolo” Segnalazione (via SMS) malfunzionamento apparati (Condizionamento, Potenza..) –Terminata fase indagine di mercato per sistema di accesso alla Sala T1 (badge o sensori di prossimità) e di sistema di controllo della Sala T1 con telecamere. Inizio lavori: entro Aprile –Motorizzazione delle saracinesche dell’UTA per permettere lo scambio della doppia coppia di ventilatori (Aprile 2005).

3 Impianti tecnologici Stiamo interessando uno Studio termotecnico per avere un rapporto dettagliato sulla situazione della potenza frigorifera e della sua distribuzione in Sala per valutare: - miglioramento della situazione attuale (concentrazione di calore in alcune zone) - margini di crescita di “potenza di calcolo” in rapporto alla potenza frigorifera attuale - come incrementare la potenza frigorifera per avere un minimo di backup (si sono verificati problemi sul gruppo frigo)

4 Infrastruttura Ci stiamo attivando per: - munirci di un sistema di shutdown (semi)automatico degli apparati -gestire un “magazzino”; - Creare un sistema efficiente per le manutenzioni di tutti gli apparati e la Gestione dei guasti

5 Stato dell’ HW Farm Circa 800 server1300 KSi2K Disco IBM, STK, Infortrend Procom 200 TB + 30TB (6/5) In arrivo 30TB (Gara 2003 ora sbloccata) Tape Stk L180 Stk 5500 18 TB 6 LTO-2 1200 cassette=240 TB 2 9940b 680 cassette=136 TB Rete 29 Switch da rack 2 core Switch 46 FE UTP + 2 GE FO 96 GE FO + 128 GE FO e 4x10GE

6 Gare GaraDescrizioneStatoTempi di consegna Spesa 8876 CD200 TB DISCO Invio rich. Lettera invito 20/03/05 6/05780 KE 8875 CD400 KSint2K (160 biproc.) Invio rich. Lettera invito 20/03/05 6/05624 KE Gara 8718 Backup server A.C Conclusa 5/05564 KE

7 Gare interne Cnaf GaraDescrizioneTempiSpesa Farm 16 biproc. per HPC (Teorici) Infiband + hw e sw In test da Eurotech 95 KE Farm Opteron (16 biproc.)In funzione Per Service challange 60 KE

8 Farming Funzioni –Installazione & gestione dei WNs della farm principale (~ 600 WNs) Sistema di installazione –configurazione OS & middleware LCG Gestione WNs Gestione supporto HW Manutenzione e gestione del batch scheduler Gestione interfacce grid –Gestione delle 2 farm “legacy” (CDF: ~50 WNs, BABAR: ~50 WNs) Personale: 2.5 FTE, richiesti altri 3 FTE Stato –Setup Quattor (installazione/configurazione/gestione farm) completato –Migrazione a SLC, LSF e LCG 2.4.0 (in corso) ~ 2/3 farm migrata In attesa migrazione a SLC di alcuni esperimenti Deadline Aprile Evoluzione –Studio single point of failure (Maggio) –Inclusione farm CDF, BABAR (da definirsi con esperimenti) –Farm teorici (TBD) –Inclusione farm FIRB (TBD)

9 Batch system “Legacy” Access CELSF Wn1WNn SE Grid Access UI Grid

10 Storage & DB (1) Funzioni –Installazione, gestione sw, gestione supporto hw sistemi disco 2 sistemi SAN (~ 225 TB) 4 sistemi NAS (~ 20TB) + BABAR (~ 30TB) + CDF (~ 12TB) –Installazione e gestione hw/sw CASTOR Libreria STK con 6 drive LTO2 e 2 9940B –1200 nastri LTO2 (200 GB) –680 nastri 9940B (200 GB) Gestione stager, diskpool, e server vari –Configurazione e gestione accessi “classici” (nfs, rfiod, GPFS) e grid (gridftp, SRM) Test con filesystem paralleli e/o distribuiti –Gestione DB Oracle per Castor, test RLS & LCG 3D PostgreSQL per DB hw del Tier 1 Personale: 3.5 FTE, richiesti altri 5 FTE

11 Storage & DB (2) Stato –Installato VI/V (~ 25 TB) completato –Installato storage BABAR (~ 30 TB) Evoluzione –Sistemi disco Installazione storage gara 2003 (~ 30 TB) TBD completamento test su File System Paralleli –PVFS, GPFS, Lustre (meta’ Aprile) –Decisione migrazione dischi a GPFS (Aprile) »In attesa riscontro da IBM per assistenza –D-Cache (TBD) Test con DPM CERN (TDB) Valutazione cella AFS (Q2 2005) –Eventuale installazione (Q3 2005) –CASTOR Migrazione a nuova versione di CASTOR (Q2 2005) Upgrade libreria con 4 drive 9940B (riscontrati problemi con LTO2) e 2500 nastri (Q2 2005) Test con file system distribuiti per lo stager (Aprile) –DB Upgrade db Oracle di CASTOR alla release 10g (Q1-Q2 2005) Setup di “Real Application Cluster” Oracle per db CASTOR (Q3 2005) LCG 3D –Setup del tesbed di replica (Q1 2005) –Fase di produzione (Q3 2005)

12 Allarmistica Sw & Monitoring Funzioni –Rilevazione e gestione degli allarmi sw Controllo dei principali servizi e server (stato LAN, connettivita’ Internet, AFS, DNS, LDAP. Kerberos, bastioni, PBS, BABAR, server e stager CASTOR, disk server fastT900) –Monitoraggio risorse Raccolta dati da server e WNs –uso CPU, disco etc… Overlap con sistema allarmistica ed altri strumenti di monitoring (i.e. Gridice) Stato –Completato monitoraggio LSF –Attivata allarmistica su servizi e storage Evoluzione –Completamento allarmistica sw per farm. (Aprile 2005) –Collaborazione con gruppi GridICE, DGAS per monitoraggio, accounting –Integrazione con sistema allarmistica su impianti tecnologici Personale ~ 0.8 FTE, richiesto 1 altro FTE

13 Rete & sicurezza Funzioni –Gestione e sviluppo rete CNAF (LAN e accesso GARR) GigaPOP GARR “ospitato” in sala Tier1 –Collaborazione con esperimenti per esigenze particolari –Studio & implementazione infrastruttura sicurezza sw Tier1 (e CNAF!) –Gestione “firewall” per protezione accessi alla LAN Stato ed evoluzione –Interconnessione a dorsale GARR a 1 Gbps (+ 1 Gbps per Service Challenge) upgrade a 10 Gbps Settembre 2005 –30 Switch (14 switch 10Gb “ready”) Ogni rack e’ dotato di uno switch –3 Switch/Router concentratori (SSR8600 attualmente router di accesso alla WAN con funzioni di firewall) Black Diamond 10808 con 120 GE e 12 10GE (scalabile a 480 GE o 48 10GE) in fase di configurazione –In arrivo Router di accesso Cisco 7600 (con 4x10GE and 4xGE interfacce) per sostituire SSR8600 –Stesura procedura intervento sicurezza (Q2 2005) –Implementazione NIDS (Q3 2005) Personale: 1.5 FTE, richiesto 1 FTE

14 Occupazione link accesso al GARR Profilo traffico rete ultimi 2 giorni (p.v. ~230 Mbps in ingresso) Profilo traffico rete Feb 2005 - Mar 2005 (p.v.: ~750 Mbps in ingresso) trend annuale di crescita 2004-2005 2004 2005

15 Service Challenge prototipizzazione sistema di trasferimento dati per esperimenti LHC –Coinvolti T0, tutti i T1 ed alcuni T2 Al CERN setup di challenge facility da 500 MB/s (3.6 GB/sec a fine 2005) –Test progressivi fino a inizio presa dati Marzo 2005: trasferimenti disco-disco T0  T1 (100 MB/sec) Luglio 2005: trasferimenti disco-nastro T0  T1 (80 MB/sec) Validazione/passaggio progressivo infrastruttura in produzione –INFN partecipa da Marzo 2005 (in corso) Link sperimentazione 1 Gbps (GARR) Infrastruttura LAN separata da produzione farm Opteron dedicata

16 Occupazione link Service Challenge Profilo traffico rete ultimi 2 giorni (p.v. ~930 Mbps in ingresso) Profilo traffico rete ultime 2 settimane (p.v.: ~965 Mbps in ingresso)

17 Personale Personale di ruolo (6+1): –Pietro Matteuzzi: Responsabile tecnico Area Funzionale Tier1 –Luca Dell’Agnello: Responsabile operations Tier1 –Andrea Chierici: Farming –Pier Paolo Ricci: CASTOR, Storage, Robotica. –Stefano Zani: Rete, Sicurezza, VideoConferenze & Multimediale –Alessandro Italiano: Sistemistica, Libreria, VideoConf.&Multimed., GRID. –1 CTER (concorso in espletamento) Personale a Contratto (5+5+4): –Barbara Martelli (Borsa) Sviluppo SW, DB e LCG 3D. –Donato De Girolamo (Art. 15) Rete, Allarmistica e Sicurezze. –Felice Rosso: (Art. 15) Monitoring, Sistemistica. –Elisabetta Vilucchi (A.R.) DB e LCG 3D, CASTOR –Giuseppe Lopresti (A.R.) CASTOR (CERN) –Poleggi (A.R.) Farming (CERN) –Massimo Donatelli: (Art.15) AFS, sicurezza –Giuseppe Lo Re (A.R.) Supporto SW Esp. (ALICE)/CASTOR –Daniele Bonacorsi (A.R.) Supporto SW Esp. (CMS) –Guido Negri (A.R.) Supporto SW Esp. (ATLAS) –Subir Sarkar (A.R.) Supporto SW Esp. (CDF) –Enrica Antonioli (Art.2222) Supporto SW Esp. (BaBar) –Stefano Ferretti (A.R.) adattamento di sw BABAR a Grid Da attivare –Daniel Jeans (A.R.) adattamento di sw CDF a Grid Da attivare ~2.5 FTE per calcolo non-Tier1, rete & servizi generali ~4.5 FTE per supporto esperimenti ~8.5 FTE per operations Tier1

18 Riassunto problematiche aperte Refrigerazione sala –Studio ed implementazione sistema per aumento/ridondanza potenza refrigerante Storage –Problemi hw Hw meno affidabile usato solo come front-end CASTOR (migrazione in corso) –Necessario aumento numero server (in corso) per ridondanza e throughput –Problemi con CASTOR Prestaging ottimizzato per rilettura (workaround) Passaggio a nuova tipologia driver (9940B) Upgrade a nuova versione (Q3 2005) Monitoraggio/Accounting –Necessario tool “completo” per raccolta dati per monitoraggio/accounting Collaborazione con GridICE Integrazione con nuovo sistema allarmi tecnologici Supporto utenti –Reperibilita’ attivata 1! persona/periodo Urgenze, disservizi (parziale) Necessario rivedere contratti assistenza apparati critici –Estensione SLA Tempi certi di risposta per i vari problemi Piano di sviluppo per arrivare a operativita’ piena nel 2007 –Turni da attivare personale operations T1 insufficiente


Scaricare ppt "Tier1: stato del servizio Pietro Matteuzzi e Luca Dell’Agnello."

Presentazioni simili


Annunci Google