Tier1: stato del servizio Pietro Matteuzzi e Luca Dell’Agnello.

Slides:



Advertisements
Presentazioni simili
E835 & Hera-B Concezio Pisa, 21/12/2004. E835 (aka Jet-FNAL) timeline dell'esperimento –Presa dati conclusa nel Alcune analisi tuttora in corso.
Advertisements

Progetto Speciale Prototipo Tier1 F. Ruggieri INFN – CNAF I Workshop CMS Italia del SW e Computing Roma 22 Novembre 2001.
Aspetti critici rete LAN e WAN per i Tier-2
LNL CMS M.Biasotto, Firenze, 22 maggio Hardware e tools di installazione Massimo Biasotto INFN – Lab. Naz. di Legnaro.
1 M. Biasotto – Legnaro, 22 Dicembre 2005 Prototipo Tier 2 di Legnaro-Padova INFN Legnaro.
5 Feb 2002Stefano Belforte – INFN Trieste calcolo per CDF in Italia1 Calcolo per CDF in Italia Prime idee per lanalisi di CDF al CNAF Numeri utili e concetti.
TISB - Pisa - P. Capiluppi Tier1-CNAF DC04 Activities and Status.
Alessia Tricomi Università & INFN Catania
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)
CSN Maggio 2005 P. Capiluppi Il Computing Model (LHC) nella realta’ italiana u I Computing models degli esperimenti LHC gia’ presentati a Gennaio.
Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.
Federico Ruggieri Riunione CSN1 PISA 22 Giugno 2004 Il Progetto TIER1 Status Update.
OAPa-CED1 Il servizio di elaborazione dati presso l’INAF-OAPa Candia, R. ( Morale, F. (
Istituto Nazionale di Fisica Nucleare La Biodola, Isola d’Elba, 6-9 maggio 2002 AFS: Status Report WS CCR R.Gomezel Workshop sulle problematiche.
Workshop CCR Otranto - giugno 2006 Gruppo storage CCR Status Report Alessandro Brunengo.
Alessandro Tirel - Sezione di Trieste Storage Area Network Riunione gruppo Storage Padova, 5 ottobre 2005.
Stato del Tier1 e dei servizi collegati Mirco Mazzucato Infn-CNAF CSN1- Roma 1 febbraio 2005.
Federico Ruggieri Riunione della CSN I Catania 18 Settembre 2002 Il Progetto TIER1 Status Report.
Federico Ruggieri INFN-CNAF Commissione Scientifica Nazionale I Lecce 24 Settembre 2003 Il Progetto TIER1 Status Update.
La Farm di Alice a Torino Workshop sulle problematiche di calcolo e reti Isola d’Elba 6-9 maggio 2002 Mario Sitta (Università del Piemonte Orientale e.
Federico Ruggieri INFN-CNAF Riunione della CSN I Perugia Novembre 2002 Il Progetto TIER1.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
Riunione Servizi Servizio Calcolo e Reti 13 settembre 2004 Silvia Arezzini.
SERVER FARM. Server Farm 800 mq di spazio suddiviso in 10 locali tecnici Sala di controllo per il monitoraggio delle reti e dei sistemi Sale tecniche.
Storage (ieri, oggi e domani) Luca dell’Agnello INFN-CNAF.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Servizio Calcolo Alessandro Brunengo. Indice Attivita’ del servizio calcolo Infrastruttura (sala CED, rete) Servizi centrali Supporto al calcolo scientifico.
“Lezioni imparate dall’ultimo spegnimento del TIER1” Michele Onofri, Stefano Zani, Andrea Chierici CCR 2014 LNS.
Report R.Gomezel CCR dicembre 2006 Roma.
Reparto Reti e Servizi Informatici Preventivo attività per il 2011 CNAF, Stefano Zani INFN CNAF.
Il Servizio Calcolo e Reti e le attività grid della Sezione INFN di Torino Luciano Gaido.
Gaetano Maron, Presentazione T2 LNL-Padova, Legnaro 22 dicembre Il Servizio Tecnologie Informatiche ed Elettroniche dei LNL Gaetano Maron.
Referaggio apparati di rete 2012 Sessione giugno Gruppo referee rete Fulvia Costa Enrico Mazzoni Paolo Lo Re Stefano Zani Roma, CCR
Referaggio apparati di rete 2015 Seconde priorità Gruppo referee rete Fulvia Costa Paolo Lo Re Enrico Mazzoni Stefano Zani Roma 1, CCR marzo 2015.
Tier-2 Legnaro-Padova Massimo Sgaravatto (INFN Padova) On behalf of the Legnaro-Padova T2 team Tier-2 Legnaro-Padova 1.
D. Martello Dip. Fisica - Lecce Sintesi piani esperimenti CSN2 CNAF 7-marzo-2007.
Referaggio CALCOLO Esperimenti non LHC G. Carlino, D. Lucchesi, V. Vagnoni CSN1 – Lecce 30 Settembre 2015.
Referaggio apparati di rete per il 2010 Gruppo referee rete Enrico Mazzoni Fulvia Costa Paolo Lo Re Stefano Zani Roma, CCR
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
FESR Consorzio COMETA - Progetto PI2S2 Il Tier-2 di ALICE a Catania Roberto Barbera Università di Catania e INFN Visita Referee.
Referaggio sigla CALCOLO D. Bonacorsi, G. Carlino, P. Morettini CCR – Roma 9 Settembre 2014.
17 GennaioTier2 Milano G. Costa 1 17-Gennaio-2006.
Report sui Servizi nazionali dell’INFN (ai LNF) Massimo Pistoni febbraio 2014.
Riunione SICR 16/2/2015. Rete Intervento 6509 – Sostituzione scheda avvenuta con successo – Fase di configurazione nuova scheda – Spostamento link? Mercoledi.
Attività e servizi di calcolo a Roma Tor Vergata R. Kwatera, R. Lulli, R. Sparvoli Roma Tor Vergata.
Server & Storage Urgenze e anticipazioni seconde priorità CCR Marzo 2009 AG MM LC.
Aggiornamento sui lavori di ampliamento degli impianti infrastrutturali del TIER1 e stato delle risorse Cristina Vistoli – Massimiliano Fiore INFN-CNAF.
Riunione SICR E. P.. Certificati  Digicert  Server  Personali per dipendenti ed associati  Non associati e macchine su phys.uniroma1.it ?  Problema.
1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera
Referaggio TIER2 di Pisa 30 giugno 2006 Silvia Arezzini (Servizio Calcolo e Reti)
TIER-2: Risorse e tabella di marcia M.L. Ferrer. 5/12/2005 M.L. Ferrer Referaggio TIER-2 LNF 2 Presenti Calcolo: Massimo Pistoni Claudio Soprano Dael.
Referaggio apparati di rete 2013 Seconde priorità Gruppo referee rete Fulvia Costa Paolo Lo Re Enrico Mazzoni Stefano Zani Referaggi aprile 2013.
Disaster Recovery Resoconto delle attività del Gruppo di Lavoro DR CCR CNAF 5-7/2/2013 S.Zani.
G. Maggi 24/1/2006 Il Progetto del TIER2 di Bari Giorgio Maggi.
ATLAS NAPOLI Software & Computing e il Tier-2 Gianpaolo Carlino INFN Napoli Il gruppo ATLAS di Napoli Le attività Software & Computing Il prototipo Tier-2.
Domenico Elia1CdG Tier1-Tier2 / CNAF ALICE Tier2 sites Domenico Elia CdG Tier1-Tier2 Bologna, 15 Aprile 2015  Infrastruttura e risorse, coordinamento.
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
The INFN Tier-1: progetto di ampliamento Cristina Vistoli – INFN CNAF Referee Meeting Sep
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
L’infrastruttura del progetto ReCaS Paolo Lo Re on behalf of ReCaS collaboration.
L.Perini Milano: 10 Gennaio Ex-ATLAS-Grid (Tier2 incluso) l Ruolo dei Tiers in ATLAS e grid l Le persone di Milano e le attività l Le infrastrutture.
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
Stato dell’infrastruttura INFN CNAF, Stato dell’infrastruttura Impianti tecnologici Gli impianti di base stanno funzionando, ma sono urgenti.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Assegnazione risorse Stato INFN CNAF,
Transcript della presentazione:

Tier1: stato del servizio Pietro Matteuzzi e Luca Dell’Agnello

Impianti tecnologici Attivato Sistema Antincendio –Completamento delle segnaletica e attacco bombole Miglioramenti: –Terminata fase indagine di mercato per sistema di allarmistica integrato per apparati infrastrutturali e “calcolo” Segnalazione (via SMS) malfunzionamento apparati (Condizionamento, Potenza..) –Terminata fase indagine di mercato per sistema di accesso alla Sala T1 (badge o sensori di prossimità) e di sistema di controllo della Sala T1 con telecamere. Inizio lavori: entro Aprile –Motorizzazione delle saracinesche dell’UTA per permettere lo scambio della doppia coppia di ventilatori (Aprile 2005).

Impianti tecnologici Stiamo interessando uno Studio termotecnico per avere un rapporto dettagliato sulla situazione della potenza frigorifera e della sua distribuzione in Sala per valutare: - miglioramento della situazione attuale (concentrazione di calore in alcune zone) - margini di crescita di “potenza di calcolo” in rapporto alla potenza frigorifera attuale - come incrementare la potenza frigorifera per avere un minimo di backup (si sono verificati problemi sul gruppo frigo)

Infrastruttura Ci stiamo attivando per: - munirci di un sistema di shutdown (semi)automatico degli apparati -gestire un “magazzino”; - Creare un sistema efficiente per le manutenzioni di tutti gli apparati e la Gestione dei guasti

Stato dell’ HW Farm Circa 800 server1300 KSi2K Disco IBM, STK, Infortrend Procom 200 TB + 30TB (6/5) In arrivo 30TB (Gara 2003 ora sbloccata) Tape Stk L180 Stk TB 6 LTO cassette=240 TB b 680 cassette=136 TB Rete 29 Switch da rack 2 core Switch 46 FE UTP + 2 GE FO 96 GE FO GE FO e 4x10GE

Gare GaraDescrizioneStatoTempi di consegna Spesa 8876 CD200 TB DISCO Invio rich. Lettera invito 20/03/05 6/05780 KE 8875 CD400 KSint2K (160 biproc.) Invio rich. Lettera invito 20/03/05 6/05624 KE Gara 8718 Backup server A.C Conclusa 5/05564 KE

Gare interne Cnaf GaraDescrizioneTempiSpesa Farm 16 biproc. per HPC (Teorici) Infiband + hw e sw In test da Eurotech 95 KE Farm Opteron (16 biproc.)In funzione Per Service challange 60 KE

Farming Funzioni –Installazione & gestione dei WNs della farm principale (~ 600 WNs) Sistema di installazione –configurazione OS & middleware LCG Gestione WNs Gestione supporto HW Manutenzione e gestione del batch scheduler Gestione interfacce grid –Gestione delle 2 farm “legacy” (CDF: ~50 WNs, BABAR: ~50 WNs) Personale: 2.5 FTE, richiesti altri 3 FTE Stato –Setup Quattor (installazione/configurazione/gestione farm) completato –Migrazione a SLC, LSF e LCG (in corso) ~ 2/3 farm migrata In attesa migrazione a SLC di alcuni esperimenti Deadline Aprile Evoluzione –Studio single point of failure (Maggio) –Inclusione farm CDF, BABAR (da definirsi con esperimenti) –Farm teorici (TBD) –Inclusione farm FIRB (TBD)

Batch system “Legacy” Access CELSF Wn1WNn SE Grid Access UI Grid

Storage & DB (1) Funzioni –Installazione, gestione sw, gestione supporto hw sistemi disco 2 sistemi SAN (~ 225 TB) 4 sistemi NAS (~ 20TB) + BABAR (~ 30TB) + CDF (~ 12TB) –Installazione e gestione hw/sw CASTOR Libreria STK con 6 drive LTO2 e B –1200 nastri LTO2 (200 GB) –680 nastri 9940B (200 GB) Gestione stager, diskpool, e server vari –Configurazione e gestione accessi “classici” (nfs, rfiod, GPFS) e grid (gridftp, SRM) Test con filesystem paralleli e/o distribuiti –Gestione DB Oracle per Castor, test RLS & LCG 3D PostgreSQL per DB hw del Tier 1 Personale: 3.5 FTE, richiesti altri 5 FTE

Storage & DB (2) Stato –Installato VI/V (~ 25 TB) completato –Installato storage BABAR (~ 30 TB) Evoluzione –Sistemi disco Installazione storage gara 2003 (~ 30 TB) TBD completamento test su File System Paralleli –PVFS, GPFS, Lustre (meta’ Aprile) –Decisione migrazione dischi a GPFS (Aprile) »In attesa riscontro da IBM per assistenza –D-Cache (TBD) Test con DPM CERN (TDB) Valutazione cella AFS (Q2 2005) –Eventuale installazione (Q3 2005) –CASTOR Migrazione a nuova versione di CASTOR (Q2 2005) Upgrade libreria con 4 drive 9940B (riscontrati problemi con LTO2) e 2500 nastri (Q2 2005) Test con file system distribuiti per lo stager (Aprile) –DB Upgrade db Oracle di CASTOR alla release 10g (Q1-Q2 2005) Setup di “Real Application Cluster” Oracle per db CASTOR (Q3 2005) LCG 3D –Setup del tesbed di replica (Q1 2005) –Fase di produzione (Q3 2005)

Allarmistica Sw & Monitoring Funzioni –Rilevazione e gestione degli allarmi sw Controllo dei principali servizi e server (stato LAN, connettivita’ Internet, AFS, DNS, LDAP. Kerberos, bastioni, PBS, BABAR, server e stager CASTOR, disk server fastT900) –Monitoraggio risorse Raccolta dati da server e WNs –uso CPU, disco etc… Overlap con sistema allarmistica ed altri strumenti di monitoring (i.e. Gridice) Stato –Completato monitoraggio LSF –Attivata allarmistica su servizi e storage Evoluzione –Completamento allarmistica sw per farm. (Aprile 2005) –Collaborazione con gruppi GridICE, DGAS per monitoraggio, accounting –Integrazione con sistema allarmistica su impianti tecnologici Personale ~ 0.8 FTE, richiesto 1 altro FTE

Rete & sicurezza Funzioni –Gestione e sviluppo rete CNAF (LAN e accesso GARR) GigaPOP GARR “ospitato” in sala Tier1 –Collaborazione con esperimenti per esigenze particolari –Studio & implementazione infrastruttura sicurezza sw Tier1 (e CNAF!) –Gestione “firewall” per protezione accessi alla LAN Stato ed evoluzione –Interconnessione a dorsale GARR a 1 Gbps (+ 1 Gbps per Service Challenge) upgrade a 10 Gbps Settembre 2005 –30 Switch (14 switch 10Gb “ready”) Ogni rack e’ dotato di uno switch –3 Switch/Router concentratori (SSR8600 attualmente router di accesso alla WAN con funzioni di firewall) Black Diamond con 120 GE e 12 10GE (scalabile a 480 GE o 48 10GE) in fase di configurazione –In arrivo Router di accesso Cisco 7600 (con 4x10GE and 4xGE interfacce) per sostituire SSR8600 –Stesura procedura intervento sicurezza (Q2 2005) –Implementazione NIDS (Q3 2005) Personale: 1.5 FTE, richiesto 1 FTE

Occupazione link accesso al GARR Profilo traffico rete ultimi 2 giorni (p.v. ~230 Mbps in ingresso) Profilo traffico rete Feb Mar 2005 (p.v.: ~750 Mbps in ingresso) trend annuale di crescita

Service Challenge prototipizzazione sistema di trasferimento dati per esperimenti LHC –Coinvolti T0, tutti i T1 ed alcuni T2 Al CERN setup di challenge facility da 500 MB/s (3.6 GB/sec a fine 2005) –Test progressivi fino a inizio presa dati Marzo 2005: trasferimenti disco-disco T0  T1 (100 MB/sec) Luglio 2005: trasferimenti disco-nastro T0  T1 (80 MB/sec) Validazione/passaggio progressivo infrastruttura in produzione –INFN partecipa da Marzo 2005 (in corso) Link sperimentazione 1 Gbps (GARR) Infrastruttura LAN separata da produzione farm Opteron dedicata

Occupazione link Service Challenge Profilo traffico rete ultimi 2 giorni (p.v. ~930 Mbps in ingresso) Profilo traffico rete ultime 2 settimane (p.v.: ~965 Mbps in ingresso)

Personale Personale di ruolo (6+1): –Pietro Matteuzzi: Responsabile tecnico Area Funzionale Tier1 –Luca Dell’Agnello: Responsabile operations Tier1 –Andrea Chierici: Farming –Pier Paolo Ricci: CASTOR, Storage, Robotica. –Stefano Zani: Rete, Sicurezza, VideoConferenze & Multimediale –Alessandro Italiano: Sistemistica, Libreria, VideoConf.&Multimed., GRID. –1 CTER (concorso in espletamento) Personale a Contratto (5+5+4): –Barbara Martelli (Borsa) Sviluppo SW, DB e LCG 3D. –Donato De Girolamo (Art. 15) Rete, Allarmistica e Sicurezze. –Felice Rosso: (Art. 15) Monitoring, Sistemistica. –Elisabetta Vilucchi (A.R.) DB e LCG 3D, CASTOR –Giuseppe Lopresti (A.R.) CASTOR (CERN) –Poleggi (A.R.) Farming (CERN) –Massimo Donatelli: (Art.15) AFS, sicurezza –Giuseppe Lo Re (A.R.) Supporto SW Esp. (ALICE)/CASTOR –Daniele Bonacorsi (A.R.) Supporto SW Esp. (CMS) –Guido Negri (A.R.) Supporto SW Esp. (ATLAS) –Subir Sarkar (A.R.) Supporto SW Esp. (CDF) –Enrica Antonioli (Art.2222) Supporto SW Esp. (BaBar) –Stefano Ferretti (A.R.) adattamento di sw BABAR a Grid Da attivare –Daniel Jeans (A.R.) adattamento di sw CDF a Grid Da attivare ~2.5 FTE per calcolo non-Tier1, rete & servizi generali ~4.5 FTE per supporto esperimenti ~8.5 FTE per operations Tier1

Riassunto problematiche aperte Refrigerazione sala –Studio ed implementazione sistema per aumento/ridondanza potenza refrigerante Storage –Problemi hw Hw meno affidabile usato solo come front-end CASTOR (migrazione in corso) –Necessario aumento numero server (in corso) per ridondanza e throughput –Problemi con CASTOR Prestaging ottimizzato per rilettura (workaround) Passaggio a nuova tipologia driver (9940B) Upgrade a nuova versione (Q3 2005) Monitoraggio/Accounting –Necessario tool “completo” per raccolta dati per monitoraggio/accounting Collaborazione con GridICE Integrazione con nuovo sistema allarmi tecnologici Supporto utenti –Reperibilita’ attivata 1! persona/periodo Urgenze, disservizi (parziale) Necessario rivedere contratti assistenza apparati critici –Estensione SLA Tempi certi di risposta per i vari problemi Piano di sviluppo per arrivare a operativita’ piena nel 2007 –Turni da attivare personale operations T1 insufficiente