Stato del Tier1 e dei servizi collegati Mirco Mazzucato Infn-CNAF CSN1- Roma 1 febbraio 2005.

Slides:



Advertisements
Presentazioni simili
E835 & Hera-B Concezio Pisa, 21/12/2004. E835 (aka Jet-FNAL) timeline dell'esperimento –Presa dati conclusa nel Alcune analisi tuttora in corso.
Advertisements

Progetto Speciale Prototipo Tier1 F. Ruggieri INFN – CNAF I Workshop CMS Italia del SW e Computing Roma 22 Novembre 2001.
Comitato Tecnico sullInteroperabilità MUR, L. Merola.
Proposta di integrazione e consolidamento delle risorse presenti nellinfrastruttura Grid dellItalia Meridionale (L. Merola, )
1 STATO DELLINTEGRAZIONE TRA I 4 PROGETTI AVVISO 1575/2004 Riunione del Comitato Tecnico sullInteroperabilità MUR, 20/12/2007 S.Pardi.
Aspetti critici rete LAN e WAN per i Tier-2
Proposta di integrazione e consolidamento delle risorse presenti nellinfrastruttura Grid dellItalia Meridionale (L. Merola, )
1 Riunione del 29 Marzo 2007 IL PROGETTO SCoPE Prof. Guido Russo I lavori Le apparecchiature Il portale.
La facility nazionale Egrid: stato dell'arte Egrid-Team Trieste, 9 ottobre 2004.
Istituto Nazionale di Fisica Nucleare Roma,12 febbraio 2001 Netgroup meeting Situazione attuale e attivita futura - R.Gomezel 1 Netgroup meeting Situazione.
1 Riunione Testbed - 17 gennaio Agenda - stato del testbed di INFN-GRID (L. Gaido) - le risorse del CNAF (A. Italiano) - report sullo stress test.
25 ottobre 2002infn1 FIRB-Grid WP3,5 Grid deployment.
1 M. Biasotto – Legnaro, 22 Dicembre 2005 Prototipo Tier 2 di Legnaro-Padova INFN Legnaro.
TISB - Pisa - P. Capiluppi Tier1-CNAF DC04 Activities and Status.
Alessia Tricomi Università & INFN Catania
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Infrastruttura GRID di produzione e i T2 Cristina Vistoli Cnaf.
Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.
LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)
CSN Maggio 2005 P. Capiluppi Il Computing Model (LHC) nella realta’ italiana u I Computing models degli esperimenti LHC gia’ presentati a Gennaio.
Attivita' Grid in BaBar Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004.
Federico Ruggieri Riunione CSN1 PISA 22 Giugno 2004 Il Progetto TIER1 Status Update.
L. Servoli - CCR Roma 15 marzo Il progetto High Availability D. Salomoni - CNAF L. Servoli - INFN Perugia.
Layered Grid Architecture. Application Fabric “Controlling elements locally”: Access to, & control of, resources Connectivity “Talking to Grid elements”:
CMS a Trieste Roma, 05/04/2005 GDR. 2 Cronologia : Matura interesse per LHC in Sezione/Gruppo 1 a Trieste Giro d’orizzonte degli esperimenti.
Workshop CCR Otranto - giugno 2006 Gruppo storage CCR Status Report Alessandro Brunengo.
Federico Ruggieri Riunione della CSN I Catania 18 Settembre 2002 Il Progetto TIER1 Status Report.
Cosa cambia per CDF  S.Belforte mantiene per ora 20% (1 day/week) su CDF: il necessario per una attivita’ di coordinamento e transizione verso un nuovo.
Federico Ruggieri INFN-CNAF Commissione Scientifica Nazionale I Lecce 24 Settembre 2003 Il Progetto TIER1 Status Update.
CMS 1 M. Biasotto – Bologna 20/01/2005 Infrastruttura di calcolo per CMS-Italia M.Biasotto – INFN Legnaro e i gestori dei centri CMS Italia.
La Farm di Alice a Torino Workshop sulle problematiche di calcolo e reti Isola d’Elba 6-9 maggio 2002 Mario Sitta (Università del Piemonte Orientale e.
Federico Ruggieri INFN-CNAF Riunione della CSN I Perugia Novembre 2002 Il Progetto TIER1.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
Ing. Giovanni B. Barone Convegno PON RECAS - Napoli, 16 dicembre 2014 ReCaS Napoli.
SERVER FARM. Server Farm 800 mq di spazio suddiviso in 10 locali tecnici Sala di controllo per il monitoraggio delle reti e dei sistemi Sale tecniche.
Storage (ieri, oggi e domani) Luca dell’Agnello INFN-CNAF.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Report R.Gomezel CCR dicembre 2006 Roma.
Il Servizio Calcolo e Reti e le attività grid della Sezione INFN di Torino Luciano Gaido.
Tier-2 Legnaro-Padova Massimo Sgaravatto (INFN Padova) On behalf of the Legnaro-Padova T2 team Tier-2 Legnaro-Padova 1.
La Task Force Gestione Operativa (Operations) L. Gaido, INFN Torino.
Riunione PRIN STOA - Bologna - 18 Giugno 2014 Testbed del T2 distribuito Napoli-Roma Dr. Silvio Pardi INFN-Napoli Riunione PRIN STOA – Bologna 18 Giugno.
D. Martello Dip. Fisica - Lecce Sintesi piani esperimenti CSN2 CNAF 7-marzo-2007.
Referaggio CALCOLO Esperimenti non LHC G. Carlino, D. Lucchesi, V. Vagnoni CSN1 – Lecce 30 Settembre 2015.
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
1 referee-BaBar CSN I, LNF giugno 2007 RELAZIONE DEI REFEREE DI BaBar M.De Palma, C.Luci, C.Troncon, B.Gobbo(calcolo) 26 giugno 2007.
FESR Consorzio COMETA - Progetto PI2S2 Il Tier-2 di ALICE a Catania Roberto Barbera Università di Catania e INFN Visita Referee.
Referaggio sigla CALCOLO D. Bonacorsi, G. Carlino, P. Morettini CCR – Roma 9 Settembre 2014.
Overview del middleware gLite Guido Cuscela INFN-Bari II Corso di formazione INFN su aspetti pratici dell'integrazione.
17 GennaioTier2 Milano G. Costa 1 17-Gennaio-2006.
Uso della rete geografica e richieste di upgrade CCR 31/3/2015 (Roma) S.Zani.
Aggiornamento sui lavori di ampliamento degli impianti infrastrutturali del TIER1 e stato delle risorse Cristina Vistoli – Massimiliano Fiore INFN-CNAF.
1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera
TIER-2: Risorse e tabella di marcia M.L. Ferrer. 5/12/2005 M.L. Ferrer Referaggio TIER-2 LNF 2 Presenti Calcolo: Massimo Pistoni Claudio Soprano Dael.
SCOPE: stato e piano di integrazione Phd. Silvio Pardi CNAF
G. Maggi 24/1/2006 Il Progetto del TIER2 di Bari Giorgio Maggi.
Domenico Elia1CdG Tier1-Tier2 / CNAF ALICE Tier2 sites Domenico Elia CdG Tier1-Tier2 Bologna, 15 Aprile 2015  Infrastruttura e risorse, coordinamento.
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
The INFN Tier-1: progetto di ampliamento Cristina Vistoli – INFN CNAF Referee Meeting Sep
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
EGEE is a project funded by the European Union under contract IST Il pre-production service in EGEE e in INFN-GRID D. Cesini - INFN-CNAF IV.
Tier1: stato del servizio Pietro Matteuzzi e Luca Dell’Agnello.
L’infrastruttura del progetto ReCaS Paolo Lo Re on behalf of ReCaS collaboration.
L.Perini Milano: 10 Gennaio Ex-ATLAS-Grid (Tier2 incluso) l Ruolo dei Tiers in ATLAS e grid l Le persone di Milano e le attività l Le infrastrutture.
Esigenze di Rete degli Esperimenti LHC e di Gr1 G. Carlino – INFN Napoli CCR – Roma 8 Settembre 2014.
EGEE is a project funded by the European Union under contract IST L'infrastruttura di produzione attuale A. Cavalli - INFN- CNAF D. Cesini.
Stato dell’infrastruttura INFN CNAF, Stato dell’infrastruttura Impianti tecnologici Gli impianti di base stanno funzionando, ma sono urgenti.
Assegnazione risorse Stato INFN CNAF,
Transcript della presentazione:

Stato del Tier1 e dei servizi collegati Mirco Mazzucato Infn-CNAF CSN1- Roma 1 febbraio 2005

Indice Infrastrutture e servizi T1 –Il servizio Impianti tecnologici –Risorse Hw attuali e gare –Il servizio Farming –Il servizio Storage –Il servizio Reti e sicurezze Il Centro Operativo Grid DC esperimenti LHC Conclusioni

La struttura del CNAF Esperimenti/progetti AmministrazioneRicerca$Sviluppo Servizi Nazionali Di Calcolo e Reti Tier1 Centro Operativo (Grid) Gruppi Locali Infrastruttura Reti e sicurezze Impianti tecn. farming Interfaccia Utenti storage

Introduzione al Tier1 Facility di calcolo INFN per la comunita’ HNEP –sede: CNAF Uno dei nodi principali della rete GARR Multi-esperimento –Esperimenti LHC, Virgo, CDF, BABAR, AMS, MAGIC, ARGO –Risorse in sharing dinamico tra esperimenti BABAR, CDF hanno risorse dedicate (pre-Tier1) Principale risorsa italiana per LCG (fino al ~50%) –Integrata con la Grid di produzione italiana –Le risorse sono anche accessibili in modalita’ “tradizionale” Anno 2004 ha evidenziato alcuni punti da affrontare –Sistema di refrigerazione –Scalabilita’ farm –Gestione efficiente Mass Storage e Disk Pool (in particolare CASTOR)

Infrastrutture: Tier1 Sala Macchine da 1000 mq. Gruppo Elettrogeno 1250 KVA ed UPS 800 KVA. Gruppo Frigorifero 550 KW e Sistema di Condizionamento con: Unità di Trattamento Aria (Temperatura + Umidità) da 110 KW e Unità Locali. Sistema di alimentazione via Blindo-sbarre con corrente trifase ed alimentatori/sezionatori nei Racks. Sistema rivelazione incendi e spegnimento (gas FM200). Trasmissione Dati completata con cablatura interna (UTP e FO) ed esterna (FO Mono e Multi-modo);attestazione GARR 60 Racks: 35 con power switch a controllo remoto dell’accensione e spegnimento. Consolle remota con apparati di switch KVM (tastiera, Video, Mouse) analogici e digitali (via IP) in uso.

Tier1:Gruppo Impianti tecn.(1) Tutte le infrastrutture di base previste per la fase 1 sono attivate. Grazie a F. Ruggieri Attivato Sistema Antincendio (28 gennaio) –Completamento delle segnaletica e attacco bombole Miglioramenti: Prossimi passi (Aprile-Maggio 2005) –Installazione e attivazione di un sistema di allarmistica integrato per apparati infrastrutturali e “calcolo” Segnalazione (via SMS) malfunzionamento apparati (Condizionamento, Potenza..) e problematiche SW (rete, code farm, storage…) –Installazione sistema di accesso alla Sala T1 (badge o sensori di prossimità) e di sistema di controllo della Sala T1 con telecamere. –Irrobustimento porte d’accesso –Motorizzazione delle saracinesche dell’UTA per permettere lo scambio della doppia coppia di ventilatori (Maggio 2005).

Gruppo Impianti tecnologici (2) Miglioramento apparato refrigerazione –Condizionamento non uniforme nella sala (concentrazione fonti di calore) –Attualmente presente un solo chiller sul tetto E’ necessario studiare ed implementare una soluzione che permetta un integrazione nell’attuale sistema di ulteriori apparati per garantire ridondanza e ulteriore potenza frigorifera (altro chiller, macchine ad espansione diretta ?). Nuovo progetto di espansione sistema di refrigerazione: Estate 2005 Completamento: DICEMBRE 2005 Al momento non ci sono problemi urgenti

Gruppo Impianti Tecnologici (3): Altre attivita’ collegate Attivazione di un “magazzino” Video controllo della sala Gestione delle manutenzioni di tutti gli apparati Gestione dei guasti Gestione interventi per il polo GARR Le attivita’ sel servizio Impianti tecnologici sono gestite temporaneamente da una sola persona (in arrivo art. 15: 15 feb. 2005) Richiesto un altro FTE

Gruppo monitoring & allarmistica SW

Gruppo Allarmistica Sw & Monitoring Funzioni –Rilevazione e gestione degli allarmi sw Controllo dei principali servizi e server (stato LAN, connettivita’ Internet, AFS, DNS, LDAP. Kerberos, bastioni, PBS, BABAR, server e stager CASTOR, disk server fastT900) –Monitoraggio risorse Raccolta dati da server e WNs –uso CPU, disco etc… Overlap con sistema allarmistica ed altri strumenti di monitoring (i.e. Gridice) Evoluzione –Completamento allarmistica sw per farm. (Marzo 2005) –Collaborazione con gruppi GridICE, DGAS per monitoraggio, accounting Composizione gruppo –D. De Gerolamo (30%) - allarmistica –F. Rosso (50%) – monitoraggio Richiesto 1 nuovo FTE

Allarmistica: sviluppi Sistema distribuito allarmistica Alcuni server per controllo differenti servizi Server centrale di raccolta –Gestione allarmi –Notifica / SMS SMS in test –reporting/logging Implementazione: 1-2 month FTE

Tier1: Risorse HW attuali Farm 320 biproc GHz 350 biproc. 3GHz 70 server 1300 KSi2K +55 Babar +48 CDF +15 LHCb Gara per 400 KSi2K Disco FC, IDE, SCSI, NAS225 TBGara per 200 TB Tape Stk L180 Stk TB 6 LTO cassette=240 TB b 680 cassette=136 TB Upgrade a 5000 cass. Rete 29 Switch da rack 2 core Switch 46 FE UTP + 2 GE FO 96 GE FO GE FO e 4x10 GE

Gare per 2005 GaraDescrizioneCommissioneTempiSpesa 8876 CD200 TB DISCO F.Ruggieri,PP.Ricci M.Michelotto 6/05780 KE 8875 CD400 KSint2K (~150 biproc.) M.Morandin, Stefano.Zani L.d.Agnello. 6/05624 KE 6729 GESlot su libreria nastri M.Michelotto, L.d.A., PP.R. 4/05120 KE 2500 cassette+4 drive 9940b (200GB l’una: tot 500TB) Gara richiesta 7/05360 KE Farm 16 biproc. per HPC Infiniband + hw e sw Gara in corso 2/0595 KE Farm Opteron (10-16 biproc.) Gara espletata 2/0560 KE Sistema di controllo apparati Gara in corso 5/0535 KE Sistema di controllo accessi Gara in corso 5/0535 KE

Gruppo Farming

Gruppo Farming (1) Funzioni –Installazione & gestione dei WNs della farm principale (~ 600 WNs) Sistema di installazione –configurazione OS & middleware LCG Gestione WNs Gestione supporto HW Manutenzione e gestione del batch scheduler Gestione interfacce grid –Gestione delle 2 farm “legacy” (CDF: ~50 WNs, BABAR: ~50 WNs) Stato ed evoluzione –Migrazione OS da RH 7.3 a SL3 ~ 50% farm completato Inizialmente solo accesso tradizionale (  upgrade a LCG in corso) –Migrazione Batch System da Torque a LSF su farm con SL3 Batch system precedente (Torque+maui) risultato non scalabile Studio nuova politica allocazione dinamica risorse per ottimizzare uso –Upgrade a LCG sulla farm con SL3 entro meta’ Febbraio Integrazione middleware LCG in sistema di installazione Quattor Integrazione di Quattor con db risorse CNAF, webtool configurazione automatica DNS, DHCP –Studio single point of failure (Marzo) –Inclusione farm FIRB (Marzo) –Inclusione farm CDF, BABAR (Aprile-Maggio) –Farm teorici

Batch system “Legacy” Access CELSF Wn1WNn SE Grid Access UI Grid

Gruppo Farming (2) Composizione del gruppo (~ 3 FTE) –A. Chierici (100%) – installazione, batch system –A. Italiano (~ 80%) – batch system, interfacce Grid –F. Rosso (50%) - farm CDF –D. De Girolamo (20%) - farm Babar –D. Cesini (50%) – parte Grid 1 Fellow INFN LCG al CERN Richiesti altri 3 FTE –Sistemistica di base (2 FTE) Sistema d’Installazione e update automatico (Quattor..) Strumenti Gestione: Monitor, Reporting Accounting Configurazione e gestione batch system –Interfacce grid e attivita’ int. (1 FTE)

Gruppo Storage & DB

Gruppo Storage & DB (1) Funzioni –Installazione, gestione sw, gestione supporto hw sistemi disco 2 sistemi SAN (~ 225 TB) 4 sistemi NAS (~ 20TB) + BABAR (~ 30TB) + CDF (~ 12TB) –Installazione e gestione hw/sw CASTOR Libreria STK con 6 drive LTO2 e B –1200 nastri LTO2 (200 GB) –680 nastri 9940B (200 GB) Gestione stager, diskpool, e server vari –Configurazione e gestione accessi “classici” (nfs, rfiod, GPFS) e grid (gridftp, SRM) Test con filesystem paralleli e/o distribuiti –Gestione DB Oracle per Castor, test RLS & LCG 3D PostgreSQL per DB hw del Tier 1

Gruppo Storage & DB (2) Evoluzione –Sistemi disco Passaggio in produzione storage “VI/V” (inizio Febbraio) completamento test su File System Paralleli –PVFS, GPFS, Lustre (meta’ Febbraio) –D-Cache (Marzo) –Collaborazione con gruppo Storm per SRM su GPFS »Tempistica da definire con gruppo STORM –Decisione migrazione dischi a GPFS (Aprile) Test con DPM CERN (TDB) Valutazione cella AFS (Q1 2005) –Eventuale installazione (Q3 2005) –CASTOR Migrazione a nuova versione di CASTOR (Q2 2005) Upgrade libreria con 4 drive 9940B (riscontrati problemi con LTO2) e 2500 nastri (Q2 2005) Test con file system distribuiti per lo stager (Aprile) –DB Upgrade db Oracle di CASTOR alla release 10g (Q1-Q2 2005) Setup di “Real Application Cluster” Oracle per db CASTOR (Q3 2005) Finalizzazione database risorse storage del (Febbraio) LCG 3D –Setup del tesbed di replica (Q1 2005) –Fase di produzione (Q3 2005)

Gruppo Storage & DB (3) Composizione del gruppo (4.5 FTE) –P.P. Ricci (100%) - CASTOR, disco –G. Lore (50%) – CASTOR, servizi grid –E. Vilucchi (100%) – database, CASTOR, disco –B. Martelli (100%) – database 1 Fellow INFN LCG al CERN come punto di contatto (Da ora) Richiesti altri 5 FTE –Gestione/update sistemi disco/CASTOR (3 FTE) SRM, File Sytems Paralleli, Architetture di accesso Componenti non stabili in costante evoluzione –Database (1 FTE) –Interventi hw (1 FTE)

Gruppo Rete & Sicurezza

Gruppo rete & sicurezza Funzioni –Gestione e sviluppo rete CNAF (LAN e accesso GARR) GigaPOP GARR “ospitato” in sala Tier1 –Collaborazione con esperimenti per esigenze particolari –Studio & implementazione infrastruttura sicurezza sw Tier1 (e CNAF!) –Gestione “firewall” per protezione accessi alla LAN Stato ed evoluzione –Interconnessione a dorsale GARR a 1 Gbps (richiesto ulteriore Gbps per Service Challenge) Possibile upgrade a 10 Gbps entro il 2005 –30 Switch (14 switch 10Gb “ready”) Ogni rack e’ dotato di uno switch –3 Switch/Router concentratori (SSR8600 attualmente router di accesso alla WAN con funzioni di firewall) Black Diamond con 120 GE e 12 10GE (scalabile a 480 GE o 48 10GE) in fase di configurazione –In arrivo Router di accesso Cisco 7600 (con 4x10GE and 4xGE interfacce) per sostituire SSR8600 –In arrivo 3 Switch l2/l3 (con 48xGE e 2x10GE) per “Service Challenge” e altre attivita’ R&D –Stesura procedura intervento sicurezza (Q1 2005) –Implementazione NIDS (Q3 2005) Composizione del gruppo –S.Zani (50 %) –D. Degirolamo (50%) –M. Donatelli (50%) – supporto sicurezza accessi sw (es. kerberos) Richiesto 1 FTE

R

Occupazione link accesso al GARR Profilo traffico rete ultime 2 settimane (p.v. ~200 Mbps in ingresso) Profilo traffico rete Dic 2004-Gen 2005(p.v.: ~420 Mbps in ingresso) trend annuale di crescita

PhEDEx e i Tier-1 di CMS Si noti la presenza costante del Tier-1 INFN in tutto il periodo Non include Natale 2004, quando INFN ha fatto picchi

Transfer rates T0  INFN T1 con PhEDEx CNAF Tier-1 diskserver I/O Rate out of CERN Tier-0 Un esempio:

Servizio Operativo al CNAF per la Grid di Produzione Resp: Cristina Vistoli

Italian Production Grid - Hw 22 Resource Centres –1 Tier1 : CNAF) –4 Tier2: Roma1(2), Milano, Torino, LNL, Pisa ) –14 siti INFN (Tier3): Bologna(2), Bari, Catania, Ferrara, Firenze,Lecce, LNF, Napoli (3), Padova, Perugia, Pavia, Roma2, Trieste –3 siti non INFN: INAF-TS, Uni-Na, Sns-Pisa

INFN-GRID: Production Grid service Service Resources are open to all VOs supported RB-BDII scope Italian Grid NEW! Resource Broker/UI DAG prod-rb-01.pd.infn.it

EGEE/LCG: Production Grid services Service Resources are open to all VOs supported by INFN-GRID and EGEE/LCG RB-BDII scope all european resources EGEE/LCG RB/UI with DAG

Utilizzo Resource Broker Grid-it VOMarchAprilMayJuneJuly Augus t Septe m b er Octob er Nove m b er 07 D e c e m b erTOT Alice Atlas Babar Bio Biome d 0 Cdf Cms Dteam Gridit Inaf Infngri d Ingv Lhcb Theop h ys Virgo Zeus TOT

Utilizzo Resource Broker EGEE/LCG VO Ma yJuneJulyAugustSeptemberOctoberNovember07 DecemberTOT Alice Atlas Babar Bio Biomed Cdf Cms Dteam Gridit Inaf Infngrid Ingv Lhcb Theophys Virgo Zeus TOT

Supporto Esperimenti, Virtual Organizations, Applicazioni Scientifiche Servizi GRID di Esperimento e/o di infrastruttura: RBs, VOMS, RLS, GIS, Monitoring…. Cnaf/T1, LNL, To, Roma1,Milano, Padova, Napoli,…. CERN Spanish-GridUK-Grid … EGEE/LCG CICs Controllo dei Servizi e dei Resource Centers, procedure di deployment, Produzione Release e certificazione Grid-it management CIC-On-Duty Experiment Support Grid-it Operation-Support

Compiti del Centro Operativo definire, gestire e coordinare l’operativita’ della infrastruttura e dei servizi di Grid per le VO e le applicazioni pianificare l’uso e le risorse disponibili sulla infrastruttura nazionale ed internazionale supporto ai site manager, agli utenti alle applicazioni mantenere rapporti con le altre Grid sia nazionali che internazionali sperimentare e programmare le evoluzioni dei servizi di Grid (in base alle esigenze operative e delle applicazioni), testare e certificare e distribuire il middleware

Attività in corso Grid-install: gruppo di lavoro con site manager (L. Carota, A. Chierici, D. Cesini) –Strumenti di installazione e configurazione middleware per SL –Strumenti per gestione VO semplificati Collaborazione con Spaci + ENEA + FIRB… –Porting su altre piattaforme (Ia64, Opteron, Nec, IBM-SP) –Allargamento infrastruttura di produzione a sedi non INFN CIC-On-Duty (P.Veronesi, A.Cavalli) –Shift settimanale di controllo infrastruttura europea –Interazione con Italian ROC e altri ROC europei

Attività in corso Gestione Deployment – Grid-it management D. Cesini, A. Paolini –Supporto alla fase di deployment:interazione con site managers e certificazione dei siti di produzione –Definizione procedure di controllo periodico dell’infrastruttura (adattato alle nuove release) –Definizione configurazione ad hoc per la certificazione (test-zone, cert queue…) –Gestione servizi (RB, BDII) per le procedure di certificazione –Gestione downtime, calendario, gestione remota siti unattended (difficoltosa …)

Operation: Esegue checklist di controllo servizi e riceve notifiche dagli strumenti monitoring per Computing Element, Storage Element. Esegue checklist di controllo servizi e riceve notifiche dagli strumenti monitoring (RB, BDII, RLS, Gridice…) Riceve segnalazioni e fornisce supporto a esperimenti, VO, CICs, CMT per il deployment di nuove release o componenti Utilizza sistemi di supporto che interagiscono tra di loro a livello europeo e regionale (GGUS e/o Italian help desk) Gestisce i problemi e soprattutto ha la responsabilità di risolverli e/o di ‘scalarli’ Interfacce: Gestori Locali Grid, Gestori dei Servizi Grid, Application Support Team, Gruppo Release middleware Si organizza in turni – 12 ore su 5 giorni

Gestione Servizi di Grid Gestione, supporto dei servizi Grid (RB, RLS, VOMS, GIS, Monitoring) per gli esperimenti e per l’infrastruttura Servizi GRID di calcolo e storage: Computing Element, Storage Element, Castor Pianificazione e supporto all’uso della GRID per gli esperimenti Sinergia con T1: –Persona di riferimento dedicata per seguire le attività di Grid per gli esperimenti al T1 –Resource Center manager: pianificazione configurazione delle farm per seguire le policy definite, supporto per disponibilità dei dati, disco, mass-storage e gestione priorità etc. durante le operazioni ’Grid’ –Deployment e soprattutto supporto coordinati –Migrazione a SL e Gestione comune dei turni

Attività in corso Supporto - Support Team (Negri, Bonacorsi, Lore, Cesini, …) –Supporto agli esperimenti e applicazioni nell’uso della GRID da migliorare organizzazione –Interazione/integrazione tra sistemi di supporto di EGEE, LCG, altri ROC –Interfaccia con GGUS

Altre Attività di sviluppo Gridice : Monitoring Team (G. Rubini, S. Andreozzi) –Job monitoring –Application Monitoring –Supporto alle installazioni

Gestione infrastrutture di ‘test’ pre-production service per integrazione componenti Glite in LCG-2 (D. Cesini, ….) – I’INFN partecipa con 3 siti: Cnaf, Bari, Padova Certification infrastructure per nuovi componenti (D. Cesini…) –pd, cnaf, to, roma1 –Le risorse per certificazione e preproduzione possono migrare da una infrastruttura all’altra in base alle esigenze

Attività in programma Gestione nuovi servizi –Accounting e presentation con il T1 –Policy management –Service Level Agreement

Responsabilita’ Management in EGEE-SA1 Italian ROC managers Italian CIC managers ROC Coordination manager Interazioni con EGEE –NA4 Interazioni con EGEE –JRA1 Partecipazione EGEE PEB come ROC Coordinator

Training –Obiettivi: facilitare l’integrazione delle nuove persone nei gruppi di lavoro e accrescere le competenze dei site manager Tutorials: –Introduction to Grid computing : Torino, gennaio –Tutorial per grid services administrators: (LNF) febbraio –Advanced Tutorial per Grid Services Administrators:tbd Occorre che le persone INFN coinvolte nel computing acquisiscano competenze sul M/W

Personale CNAF Centro Operativo Persone: –Veronesi –Cavalli –Cesini –Paolini –Carota –Ferraro (cnaf -50%) –Donatelli (T1) –Rubini (sviluppo) –Zappi (sviluppo) –Bonacorsi (T1 per esp) –Lore (T1 per esp.) –Negri (T1 per esp.) –Vistoli –Tutte persone di progetto… la grid di produzione dovrebbe essere autosufficente –Necessario rendere stabili le persone che si dedicano a: Certidicazione middleware Generazione release middleware Supporto deployment Operation dei servizi nazionali e internazionali –Si richiedono 4 FTE

Links la grid di produzionehttp://grid-it.cnaf.infn.it il progetto EGEE il progetto INFN-GRIDhttp://grid.infn.it la pagina dei tutorialhttp://

Uso risorse del Tier1

Statistiche Farm generale 1/3-30/6

Statistiche Farm generale 1/7-31/12

Statistiche Farm generale Dicembre 2004

Statistiche Farm generale Gennaio 2005

Efficienza uso globale del Tier1 500 CPU*120 giorni ~ – primi 6 mesi 1100 CPU*180 giorni ~ – seconda meta’ 2004 Efficienza Totale ~ 80000/ ~30% Downtime Hardware= < 1% Grid unavailability = 2-3 %

CMS DST production: load sul pbs/maui server al T1 (Ora) daily weeklymonthly 300 CPU (in ht) Un esempio:

Contributo INFN a Produzioni CMS in cifre Produzione DST all’INFN Transfer rate con PhEDEx al Tier-1 INFN dominante nel plot sotto INFN ha contribuito a CMS con: –~13% dei CMKIN –~14% dei CMSIM/OSCAR –~21% di ooHitformatting –~18% di Digitizzazione –produzione DST in corso… Finora: prodotti(INFN)/assegnati(INFN) = ~49% prodotti(INFN)/prodotti(CMS) = ~8% –NB: con due soli siti: CNAF T1 e LNL! ~4.2 Mevts prodotti ~8.5 Mevts assegnati

Assegnazioni storage EXPTotAssegnatiN. Stager/Diskserver/NAS ALICE~8TB1,5TB rfio. 6,5TB staging area3 (diskserv-san-11,diskserv-alice-1,disksrv-4) ATLAS~14TB8TB nfs. 6TB staging area3 (diskserv-san-1,diskserv-san-3,disksrv-1) BABAR~34TB34TB xroot2 (diskserv-san-9,diskserv-san-10,disksrv-10) CDF~26,5TB24TB rfio, 2,5TB nfs2 (diskserv-cdf-1, diskserv-cdf-2) CMS~36TB22TB gridftp. 2TB staging area3 (diskserv-cms-2,diskserv-lcg-2,disksrv-2) LHCB~25TB6TB nfs. 19TB staging area3 (diskserv-san-2,diskserv-san-4,disksrv-4) VIRGO~18TB18TB nfs3 (nas2,nas3,diskserv-san-12) MAGIC, AMS: 1TB su diskserver dedicati/NAS

Assegnazioni nastri EXPTotUsatiN. Stager/castor diskserver ALICE (also ALICE TOF) ~6TB30 x 200GB LTO-23 (diskserv-san-11,diskserv-alice-1,disksrv-4) ATLAS~6TB30 x 200GB LTO-22 (diskserv-san-3,disksrv-1) CMS~6TB (50% wasted) 60 x 200GB LTO-2 (many problems in write and random read) 1 (disksrv-2) LHCB~1680 x 200GB LTO-22 (disksrv-3,diskserv-san-4) ARCHIVE (qld,lvd)~1TB5 x 200GB LTO-21 (disksrv-5) + soon 2TB 1 diskserver N. 6 LTO-2 drives con 1200 x 200GB LTO-2 nastri => 240TB (usato solo 15%!) N B drives con 680 x 200GB 9940B nastri => 136TB (free) La libreria verra’ upgradata a 5500 slots (2000 LTO form factor B form factor) Upgrade con altri 4x9940B drives e nastri 2500 x 200GB (500TB) Q3 2005

Service Challenge prototipizzazione sistema di trasferimento dati per esperimenti LHC –Coinvolti T0, tutti i T1 ed alcuni T2 Al CERN setup di challenge facility da 500 MB/s (3.6 GB/sec a fine 2005) –Test progressivi fino a inizio presa dati Marzo 2005: trasferimenti disco-disco T0  T1 (100 MB/sec) Luglio 2005: trasferimenti disco-nastro T0  T1 (80 MB/sec) Validazione/passaggio progressivo infrastruttura in produzione –INFN partecipera’ da Marzo 2005 Richiesto link sperimentazione 1 Gbps a GARR farm Opteron dedicata (in ordine) modello di storage in studio

Personale Personale di ruolo (6+1): –Pietro Matteuzzi: Responsabile Servizi di Calcolo del CNAF –Luca Dell’Agnello: Responsabile operations Tier1 –Andrea Chierici: Farming –Pier Paolo Ricci: CASTOR, Storage, Robotica. –Stefano Zani: Rete, Sicurezza, VideoConferenze & Multimediale –Alessandro Italiano: Sistemistica, Libreria, VideoConf.&Multimed., GRID. –1 CTER (concorso in espletamento) Personale a Contratto (5+5+4): –Barbara Martelli (Borsa) Sviluppo SW, DB e LCG 3D. –Donato De Girolamo (Art. 15) Rete, Allarmistica e Sicurezze. –Felice Rosso: (Art. 15) Monitoring, Sistemistica. –Elisabetta Vilucchi (A.R.) DB e LCG 3D, CASTOR –Giuseppe Lopresti (A.R.) CASTOR (CERN) In attivazione –Poleggi (A.R.) Farming (CERN)In attivazione –Massimo Donatelli: (Art.15) AFS, sicurezza –Giuseppe Lo Re (A.R.) Supporto SW Esp. (ALICE)/CASTOR –Daniele Bonacorsi (A.R.) Supporto SW Esp. (CMS) –Guido Negri (A.R.) Supporto SW Esp. (ATLAS) –Subir Sarkar (A.R.) Supporto SW Esp. (CDF) –Enrica Antonioli (Art.2222) Supporto SW Esp. (BaBar) –Stefano Ferretti (A.R.) adattamento di sw BABAR a Grid Da attivare –Daniel Jeans (A.R.) adattamento di sw CDF a Grid Da attivare ~2.5 FTE per calcolo non-Tier1, rete & servizi generali ~4.5 FTE per supporto esperimenti ~8.5 FTE per operations Tier1

Riassunto problematiche aperte Refrigerazione sala –Studio ed implementazione sistema per aumento/ridondanza potenza refrigerante (Dic 2005) Farming –Instabilita’ farm Sostituzione PBS/Maui con LSF (meta’ Febbraio) Storage –Necessario aumento numero server (in corso) per ridondanza e throughput –Problemi hw Hw meno affidabile usato solo come front-end CASTOR (migrazione in corso) –Problemi con CASTOR Prestaging ottimizzato per rilettura (workaround) Passaggio a nuova tipologia driver (9940B) Upgrade a nuova versione (Q3 2005) Monitoraggio/Accounting –Necessario tool “completo” per raccolta dati per monitoraggio/accounting Collaborazione con GridICE Supporto utenti –Reperibilita’ attivata 1! persona/periodo Urgenze, disservizi (parziale) –Estensione SLA (bozza 11/2) Tempi certi di risposta per i vari problemi Piano di sviluppo per arrivare a operativita’ piena nel 2007 –Turni da attivare personale operations T1 insufficiente

Conclusioni Nel 2004 il Tier1 ha iniziato il ramp up verso l’assetto stabile di produzione Ancora alcuni problemi aperti C’e’ spazio per un aumento dellle attivita’ –Necessaria pero’ la collaborazione efficace degli esperimenti per completare il commissioning in tutte le possibili configurazioni Il problema maggiore e’ quello della carenza di personale “stabile” –11 FTE per i Servizi Tier1 –4 FTE Per il Centro Operativo Grid Nazionale