Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoAnnalisa Vanni Modificato 9 anni fa
1
Stato del Tier1 e dei servizi collegati Mirco Mazzucato Infn-CNAF CSN1- Roma 1 febbraio 2005
2
Indice Infrastrutture e servizi T1 –Il servizio Impianti tecnologici –Risorse Hw attuali e gare –Il servizio Farming –Il servizio Storage –Il servizio Reti e sicurezze Il Centro Operativo Grid DC esperimenti LHC Conclusioni
3
La struttura del CNAF Esperimenti/progetti AmministrazioneRicerca$Sviluppo Servizi Nazionali Di Calcolo e Reti Tier1 Centro Operativo (Grid) Gruppi Locali Infrastruttura Reti e sicurezze Impianti tecn. farming Interfaccia Utenti storage
4
Introduzione al Tier1 Facility di calcolo INFN per la comunita’ HNEP –sede: CNAF Uno dei nodi principali della rete GARR Multi-esperimento –Esperimenti LHC, Virgo, CDF, BABAR, AMS, MAGIC, ARGO –Risorse in sharing dinamico tra esperimenti BABAR, CDF hanno risorse dedicate (pre-Tier1) Principale risorsa italiana per LCG (fino al ~50%) –Integrata con la Grid di produzione italiana –Le risorse sono anche accessibili in modalita’ “tradizionale” Anno 2004 ha evidenziato alcuni punti da affrontare –Sistema di refrigerazione –Scalabilita’ farm –Gestione efficiente Mass Storage e Disk Pool (in particolare CASTOR)
5
Infrastrutture: Tier1 Sala Macchine da 1000 mq. Gruppo Elettrogeno 1250 KVA ed UPS 800 KVA. Gruppo Frigorifero 550 KW e Sistema di Condizionamento con: Unità di Trattamento Aria (Temperatura + Umidità) da 110 KW e Unità Locali. Sistema di alimentazione via Blindo-sbarre con corrente trifase ed alimentatori/sezionatori nei Racks. Sistema rivelazione incendi e spegnimento (gas FM200). Trasmissione Dati completata con cablatura interna (UTP e FO) ed esterna (FO Mono e Multi-modo);attestazione GARR 60 Racks: 35 con power switch a controllo remoto dell’accensione e spegnimento. Consolle remota con apparati di switch KVM (tastiera, Video, Mouse) analogici e digitali (via IP) in uso.
6
Tier1:Gruppo Impianti tecn.(1) Tutte le infrastrutture di base previste per la fase 1 sono attivate. Grazie a F. Ruggieri Attivato Sistema Antincendio (28 gennaio) –Completamento delle segnaletica e attacco bombole Miglioramenti: Prossimi passi (Aprile-Maggio 2005) –Installazione e attivazione di un sistema di allarmistica integrato per apparati infrastrutturali e “calcolo” Segnalazione (via SMS) malfunzionamento apparati (Condizionamento, Potenza..) e problematiche SW (rete, code farm, storage…) –Installazione sistema di accesso alla Sala T1 (badge o sensori di prossimità) e di sistema di controllo della Sala T1 con telecamere. –Irrobustimento porte d’accesso –Motorizzazione delle saracinesche dell’UTA per permettere lo scambio della doppia coppia di ventilatori (Maggio 2005).
7
Gruppo Impianti tecnologici (2) Miglioramento apparato refrigerazione –Condizionamento non uniforme nella sala (concentrazione fonti di calore) –Attualmente presente un solo chiller sul tetto E’ necessario studiare ed implementare una soluzione che permetta un integrazione nell’attuale sistema di ulteriori apparati per garantire ridondanza e ulteriore potenza frigorifera (altro chiller, macchine ad espansione diretta ?). Nuovo progetto di espansione sistema di refrigerazione: Estate 2005 Completamento: DICEMBRE 2005 Al momento non ci sono problemi urgenti
8
Gruppo Impianti Tecnologici (3): Altre attivita’ collegate Attivazione di un “magazzino” Video controllo della sala Gestione delle manutenzioni di tutti gli apparati Gestione dei guasti Gestione interventi per il polo GARR Le attivita’ sel servizio Impianti tecnologici sono gestite temporaneamente da una sola persona (in arrivo art. 15: 15 feb. 2005) Richiesto un altro FTE
9
Gruppo monitoring & allarmistica SW
10
Gruppo Allarmistica Sw & Monitoring Funzioni –Rilevazione e gestione degli allarmi sw Controllo dei principali servizi e server (stato LAN, connettivita’ Internet, AFS, DNS, LDAP. Kerberos, bastioni, PBS, BABAR, server e stager CASTOR, disk server fastT900) –Monitoraggio risorse Raccolta dati da server e WNs –uso CPU, disco etc… Overlap con sistema allarmistica ed altri strumenti di monitoring (i.e. Gridice) Evoluzione –Completamento allarmistica sw per farm. (Marzo 2005) –Collaborazione con gruppi GridICE, DGAS per monitoraggio, accounting Composizione gruppo –D. De Gerolamo (30%) - allarmistica –F. Rosso (50%) – monitoraggio Richiesto 1 nuovo FTE
11
Allarmistica: sviluppi Sistema distribuito allarmistica Alcuni server per controllo differenti servizi Server centrale di raccolta –Gestione allarmi –Notifica e-mail / SMS SMS in test –reporting/logging Implementazione: 1-2 month FTE
12
Tier1: Risorse HW attuali Farm 320 biproc. 0.8- 3GHz 350 biproc. 3GHz 70 server 1300 KSi2K +55 Babar +48 CDF +15 LHCb Gara per 400 KSi2K Disco FC, IDE, SCSI, NAS225 TBGara per 200 TB Tape Stk L180 Stk 5500 18 TB 6 LTO-2 1200 cassette=240 TB 2 9940b 680 cassette=136 TB Upgrade a 5000 cass. Rete 29 Switch da rack 2 core Switch 46 FE UTP + 2 GE FO 96 GE FO + 128 GE FO e 4x10 GE
13
Gare per 2005 GaraDescrizioneCommissioneTempiSpesa 8876 CD200 TB DISCO F.Ruggieri,PP.Ricci M.Michelotto 6/05780 KE 8875 CD400 KSint2K (~150 biproc.) M.Morandin, Stefano.Zani L.d.Agnello. 6/05624 KE 6729 GESlot su libreria nastri M.Michelotto, L.d.A., PP.R. 4/05120 KE 2500 cassette+4 drive 9940b (200GB l’una: tot 500TB) Gara richiesta 7/05360 KE Farm 16 biproc. per HPC Infiniband + hw e sw Gara in corso 2/0595 KE Farm Opteron (10-16 biproc.) Gara espletata 2/0560 KE Sistema di controllo apparati Gara in corso 5/0535 KE Sistema di controllo accessi Gara in corso 5/0535 KE
14
Gruppo Farming
15
Gruppo Farming (1) Funzioni –Installazione & gestione dei WNs della farm principale (~ 600 WNs) Sistema di installazione –configurazione OS & middleware LCG Gestione WNs Gestione supporto HW Manutenzione e gestione del batch scheduler Gestione interfacce grid –Gestione delle 2 farm “legacy” (CDF: ~50 WNs, BABAR: ~50 WNs) Stato ed evoluzione –Migrazione OS da RH 7.3 a SL3 ~ 50% farm completato Inizialmente solo accesso tradizionale ( upgrade a LCG 2.3.0 in corso) –Migrazione Batch System da Torque a LSF su farm con SL3 Batch system precedente (Torque+maui) risultato non scalabile Studio nuova politica allocazione dinamica risorse per ottimizzare uso –Upgrade a LCG 2.3.0 sulla farm con SL3 entro meta’ Febbraio Integrazione middleware LCG in sistema di installazione Quattor Integrazione di Quattor con db risorse CNAF, webtool configurazione automatica DNS, DHCP –Studio single point of failure (Marzo) –Inclusione farm FIRB (Marzo) –Inclusione farm CDF, BABAR (Aprile-Maggio) –Farm teorici
16
Batch system “Legacy” Access CELSF Wn1WNn SE Grid Access UI Grid
17
Gruppo Farming (2) Composizione del gruppo (~ 3 FTE) –A. Chierici (100%) – installazione, batch system –A. Italiano (~ 80%) – batch system, interfacce Grid –F. Rosso (50%) - farm CDF –D. De Girolamo (20%) - farm Babar –D. Cesini (50%) – parte Grid 1 Fellow INFN LCG al CERN Richiesti altri 3 FTE –Sistemistica di base (2 FTE) Sistema d’Installazione e update automatico (Quattor..) Strumenti Gestione: Monitor, Reporting Accounting Configurazione e gestione batch system –Interfacce grid e attivita’ int. (1 FTE)
18
Gruppo Storage & DB
19
Gruppo Storage & DB (1) Funzioni –Installazione, gestione sw, gestione supporto hw sistemi disco 2 sistemi SAN (~ 225 TB) 4 sistemi NAS (~ 20TB) + BABAR (~ 30TB) + CDF (~ 12TB) –Installazione e gestione hw/sw CASTOR Libreria STK con 6 drive LTO2 e 2 9940B –1200 nastri LTO2 (200 GB) –680 nastri 9940B (200 GB) Gestione stager, diskpool, e server vari –Configurazione e gestione accessi “classici” (nfs, rfiod, GPFS) e grid (gridftp, SRM) Test con filesystem paralleli e/o distribuiti –Gestione DB Oracle per Castor, test RLS & LCG 3D PostgreSQL per DB hw del Tier 1
20
Gruppo Storage & DB (2) Evoluzione –Sistemi disco Passaggio in produzione storage “VI/V” (inizio Febbraio) completamento test su File System Paralleli –PVFS, GPFS, Lustre (meta’ Febbraio) –D-Cache (Marzo) –Collaborazione con gruppo Storm per SRM su GPFS »Tempistica da definire con gruppo STORM –Decisione migrazione dischi a GPFS (Aprile) Test con DPM CERN (TDB) Valutazione cella AFS (Q1 2005) –Eventuale installazione (Q3 2005) –CASTOR Migrazione a nuova versione di CASTOR (Q2 2005) Upgrade libreria con 4 drive 9940B (riscontrati problemi con LTO2) e 2500 nastri (Q2 2005) Test con file system distribuiti per lo stager (Aprile) –DB Upgrade db Oracle di CASTOR alla release 10g (Q1-Q2 2005) Setup di “Real Application Cluster” Oracle per db CASTOR (Q3 2005) Finalizzazione database risorse storage del (Febbraio) LCG 3D –Setup del tesbed di replica (Q1 2005) –Fase di produzione (Q3 2005)
21
Gruppo Storage & DB (3) Composizione del gruppo (4.5 FTE) –P.P. Ricci (100%) - CASTOR, disco –G. Lore (50%) – CASTOR, servizi grid –E. Vilucchi (100%) – database, CASTOR, disco –B. Martelli (100%) – database 1 Fellow INFN LCG al CERN come punto di contatto (Da ora) Richiesti altri 5 FTE –Gestione/update sistemi disco/CASTOR (3 FTE) SRM, File Sytems Paralleli, Architetture di accesso Componenti non stabili in costante evoluzione –Database (1 FTE) –Interventi hw (1 FTE)
22
Gruppo Rete & Sicurezza
23
Gruppo rete & sicurezza Funzioni –Gestione e sviluppo rete CNAF (LAN e accesso GARR) GigaPOP GARR “ospitato” in sala Tier1 –Collaborazione con esperimenti per esigenze particolari –Studio & implementazione infrastruttura sicurezza sw Tier1 (e CNAF!) –Gestione “firewall” per protezione accessi alla LAN Stato ed evoluzione –Interconnessione a dorsale GARR a 1 Gbps (richiesto ulteriore Gbps per Service Challenge) Possibile upgrade a 10 Gbps entro il 2005 –30 Switch (14 switch 10Gb “ready”) Ogni rack e’ dotato di uno switch –3 Switch/Router concentratori (SSR8600 attualmente router di accesso alla WAN con funzioni di firewall) Black Diamond 10808 con 120 GE e 12 10GE (scalabile a 480 GE o 48 10GE) in fase di configurazione –In arrivo Router di accesso Cisco 7600 (con 4x10GE and 4xGE interfacce) per sostituire SSR8600 –In arrivo 3 Switch l2/l3 (con 48xGE e 2x10GE) per “Service Challenge” e altre attivita’ R&D –Stesura procedura intervento sicurezza (Q1 2005) –Implementazione NIDS (Q3 2005) Composizione del gruppo –S.Zani (50 %) –D. Degirolamo (50%) –M. Donatelli (50%) – supporto sicurezza accessi sw (es. kerberos) Richiesto 1 FTE
24
R
26
Occupazione link accesso al GARR Profilo traffico rete ultime 2 settimane (p.v. ~200 Mbps in ingresso) Profilo traffico rete Dic 2004-Gen 2005(p.v.: ~420 Mbps in ingresso) trend annuale di crescita 2004 20042005
27
PhEDEx e i Tier-1 di CMS Si noti la presenza costante del Tier-1 INFN in tutto il periodo Non include Natale 2004, quando INFN ha fatto picchi
28
Transfer rates T0 INFN T1 con PhEDEx CNAF Tier-1 diskserver I/O Rate out of CERN Tier-0 Un esempio:
29
Servizio Operativo al CNAF per la Grid di Produzione Resp: Cristina Vistoli
30
Italian Production Grid - Hw 22 Resource Centres –1 Tier1 : CNAF) –4 Tier2: Roma1(2), Milano, Torino, LNL, Pisa ) –14 siti INFN (Tier3): Bologna(2), Bari, Catania, Ferrara, Firenze,Lecce, LNF, Napoli (3), Padova, Perugia, Pavia, Roma2, Trieste –3 siti non INFN: INAF-TS, Uni-Na, Sns-Pisa
32
INFN-GRID: Production Grid service Service Resources are open to all VOs supported RB-BDII scope Italian Grid NEW! Resource Broker/UI DAG prod-rb-01.pd.infn.it
33
EGEE/LCG: Production Grid services Service Resources are open to all VOs supported by INFN-GRID and EGEE/LCG RB-BDII scope all european resources EGEE/LCG RB/UI with DAG
34
Utilizzo Resource Broker Grid-it VOMarchAprilMayJuneJuly Augus t Septe m b er Octob er Nove m b er 07 D e c e m b erTOT Alice203751029461403000317512 Atlas159389581165836199156961627 Babar13343434175767800705 Bio27416187307560780351 Biome d 0 Cdf00000012417033 Cms23110682343502418994089885291633315908 Dteam22310530351110684138747403049 Gridit1182453919156171136415152622620 Inaf221730127073379909172967363236646 Infngri d54217446901288996826440650237063820651 Ingv10139105121600040286 Lhcb002000550012 Theop h ys0402000000042 Virgo032502012687646129181 Zeus00000014005 TOT6364226370095722810638006503119171597996568628
35
Utilizzo Resource Broker EGEE/LCG VO Ma yJuneJulyAugustSeptemberOctoberNovember07 DecemberTOT Alice00560200058 Atlas081000009 Babar000000000 Bio000000440 Biomed0591893461799971215412870236219 Cdf000000000 Cms0015130226119130 Dteam021349712529180 Gridit000000000 Inaf000000000 Infngrid8142015 163192 Ingv000000000 Lhcb00015030255806129418294 Theophys000000000 Virgo000000000 Zeus000000000 TOT8102284154534445975216137884555026
37
Supporto Esperimenti, Virtual Organizations, Applicazioni Scientifiche Servizi GRID di Esperimento e/o di infrastruttura: RBs, VOMS, RLS, GIS, Monitoring…. Cnaf/T1, LNL, To, Roma1,Milano, Padova, Napoli,…. CERN Spanish-GridUK-Grid … EGEE/LCG CICs Controllo dei Servizi e dei Resource Centers, procedure di deployment, Produzione Release e certificazione Grid-it management CIC-On-Duty Experiment Support Grid-it Operation-Support
38
Compiti del Centro Operativo definire, gestire e coordinare l’operativita’ della infrastruttura e dei servizi di Grid per le VO e le applicazioni pianificare l’uso e le risorse disponibili sulla infrastruttura nazionale ed internazionale supporto ai site manager, agli utenti alle applicazioni mantenere rapporti con le altre Grid sia nazionali che internazionali sperimentare e programmare le evoluzioni dei servizi di Grid (in base alle esigenze operative e delle applicazioni), testare e certificare e distribuire il middleware
39
Attività in corso Grid-install: gruppo di lavoro con site manager (L. Carota, A. Chierici, D. Cesini) –Strumenti di installazione e configurazione middleware per SL –Strumenti per gestione VO semplificati Collaborazione con Spaci + ENEA + FIRB… –Porting su altre piattaforme (Ia64, Opteron, Nec, IBM-SP) –Allargamento infrastruttura di produzione a sedi non INFN CIC-On-Duty (P.Veronesi, A.Cavalli) –Shift settimanale di controllo infrastruttura europea –Interazione con Italian ROC e altri ROC europei
40
Attività in corso Gestione Deployment – Grid-it management D. Cesini, A. Paolini –Supporto alla fase di deployment:interazione con site managers e certificazione dei siti di produzione –Definizione procedure di controllo periodico dell’infrastruttura (adattato alle nuove release) –Definizione configurazione ad hoc per la certificazione (test-zone, cert queue…) –Gestione servizi (RB, BDII) per le procedure di certificazione –Gestione downtime, calendario, gestione remota siti unattended (difficoltosa …)
41
Operation: Esegue checklist di controllo servizi e riceve notifiche dagli strumenti monitoring per Computing Element, Storage Element. Esegue checklist di controllo servizi e riceve notifiche dagli strumenti monitoring (RB, BDII, RLS, Gridice…) Riceve segnalazioni e fornisce supporto a esperimenti, VO, CICs, CMT per il deployment di nuove release o componenti Utilizza sistemi di supporto che interagiscono tra di loro a livello europeo e regionale (GGUS e/o Italian help desk) Gestisce i problemi e soprattutto ha la responsabilità di risolverli e/o di ‘scalarli’ Interfacce: Gestori Locali Grid, Gestori dei Servizi Grid, Application Support Team, Gruppo Release middleware Si organizza in turni – 12 ore su 5 giorni
42
Gestione Servizi di Grid Gestione, supporto dei servizi Grid (RB, RLS, VOMS, GIS, Monitoring) per gli esperimenti e per l’infrastruttura Servizi GRID di calcolo e storage: Computing Element, Storage Element, Castor Pianificazione e supporto all’uso della GRID per gli esperimenti Sinergia con T1: –Persona di riferimento dedicata per seguire le attività di Grid per gli esperimenti al T1 –Resource Center manager: pianificazione configurazione delle farm per seguire le policy definite, supporto per disponibilità dei dati, disco, mass-storage e gestione priorità etc. durante le operazioni ’Grid’ –Deployment e soprattutto supporto coordinati –Migrazione a SL e Gestione comune dei turni
43
Attività in corso Supporto - Support Team (Negri, Bonacorsi, Lore, Cesini, …) –Supporto agli esperimenti e applicazioni nell’uso della GRID da migliorare organizzazione –Interazione/integrazione tra sistemi di supporto di EGEE, LCG, altri ROC –Interfaccia con GGUS
44
Altre Attività di sviluppo Gridice : Monitoring Team (G. Rubini, S. Andreozzi) –Job monitoring –Application Monitoring –Supporto alle installazioni
45
Gestione infrastrutture di ‘test’ pre-production service per integrazione componenti Glite in LCG-2 (D. Cesini, ….) – I’INFN partecipa con 3 siti: Cnaf, Bari, Padova Certification infrastructure per nuovi componenti (D. Cesini…) –pd, cnaf, to, roma1 –Le risorse per certificazione e preproduzione possono migrare da una infrastruttura all’altra in base alle esigenze
46
Attività in programma Gestione nuovi servizi –Accounting e presentation con il T1 –Policy management –Service Level Agreement
47
Responsabilita’ Management in EGEE-SA1 Italian ROC managers Italian CIC managers ROC Coordination manager Interazioni con EGEE –NA4 Interazioni con EGEE –JRA1 Partecipazione EGEE PEB come ROC Coordinator
48
Training –Obiettivi: facilitare l’integrazione delle nuove persone nei gruppi di lavoro e accrescere le competenze dei site manager Tutorials: –Introduction to Grid computing : Torino, 18-19 gennaio –Tutorial per grid services administrators: (LNF) 22- 23-24 febbraio –Advanced Tutorial per Grid Services Administrators:tbd Occorre che le persone INFN coinvolte nel computing acquisiscano competenze sul M/W
49
Personale CNAF Centro Operativo Persone: –Veronesi –Cavalli –Cesini –Paolini –Carota –Ferraro (cnaf -50%) –Donatelli (T1) –Rubini (sviluppo) –Zappi (sviluppo) –Bonacorsi (T1 per esp) –Lore (T1 per esp.) –Negri (T1 per esp.) –Vistoli –Tutte persone di progetto… la grid di produzione dovrebbe essere autosufficente –Necessario rendere stabili le persone che si dedicano a: Certidicazione middleware Generazione release middleware Supporto deployment Operation dei servizi nazionali e internazionali –Si richiedono 4 FTE
50
Links http://grid-it.cnaf.infn.it la grid di produzionehttp://grid-it.cnaf.infn.it http://www.eu-egee.org il progetto EGEE http://grid.infn.it il progetto INFN-GRIDhttp://grid.infn.it http://www.grid-tutorial.to.infn.it la pagina dei tutorialhttp://www.grid-tutorial.to.infn.it
51
Uso risorse del Tier1
52
Statistiche Farm generale 1/3-30/6
53
Statistiche Farm generale 1/7-31/12
54
Statistiche Farm generale Dicembre 2004
55
Statistiche Farm generale Gennaio 2005
56
Efficienza uso globale del Tier1 500 CPU*120 giorni ~ 60000 – primi 6 mesi 1100 CPU*180 giorni ~ 200000– seconda meta’ 2004 Efficienza Totale ~ 80000/275000 ~30% Downtime Hardware= < 1% Grid unavailability = 2-3 %
57
CMS DST production: load sul pbs/maui server al T1 (Ora) daily weeklymonthly 300 CPU (in ht) Un esempio:
58
Contributo INFN a Produzioni CMS in cifre Produzione DST all’INFN Transfer rate con PhEDEx al Tier-1 INFN dominante nel plot sotto INFN ha contribuito a CMS con: –~13% dei CMKIN –~14% dei CMSIM/OSCAR –~21% di ooHitformatting –~18% di Digitizzazione –produzione DST in corso… Finora: prodotti(INFN)/assegnati(INFN) = ~49% prodotti(INFN)/prodotti(CMS) = ~8% –NB: con due soli siti: CNAF T1 e LNL! ~4.2 Mevts prodotti ~8.5 Mevts assegnati 20042005
59
Assegnazioni storage EXPTotAssegnatiN. Stager/Diskserver/NAS ALICE~8TB1,5TB rfio. 6,5TB staging area3 (diskserv-san-11,diskserv-alice-1,disksrv-4) ATLAS~14TB8TB nfs. 6TB staging area3 (diskserv-san-1,diskserv-san-3,disksrv-1) BABAR~34TB34TB xroot2 (diskserv-san-9,diskserv-san-10,disksrv-10) CDF~26,5TB24TB rfio, 2,5TB nfs2 (diskserv-cdf-1, diskserv-cdf-2) CMS~36TB22TB gridftp. 2TB staging area3 (diskserv-cms-2,diskserv-lcg-2,disksrv-2) LHCB~25TB6TB nfs. 19TB staging area3 (diskserv-san-2,diskserv-san-4,disksrv-4) VIRGO~18TB18TB nfs3 (nas2,nas3,diskserv-san-12) MAGIC, AMS: 1TB su diskserver dedicati/NAS
60
Assegnazioni nastri EXPTotUsatiN. Stager/castor diskserver ALICE (also ALICE TOF) ~6TB30 x 200GB LTO-23 (diskserv-san-11,diskserv-alice-1,disksrv-4) ATLAS~6TB30 x 200GB LTO-22 (diskserv-san-3,disksrv-1) CMS~6TB (50% wasted) 60 x 200GB LTO-2 (many problems in write and random read) 1 (disksrv-2) LHCB~1680 x 200GB LTO-22 (disksrv-3,diskserv-san-4) ARCHIVE (qld,lvd)~1TB5 x 200GB LTO-21 (disksrv-5) + soon 2TB 1 diskserver N. 6 LTO-2 drives con 1200 x 200GB LTO-2 nastri => 240TB (usato solo 15%!) N. 2 9940B drives con 680 x 200GB 9940B nastri => 136TB (free) La libreria verra’ upgradata a 5500 slots (2000 LTO form factor + 3500 9940B form factor) Upgrade con altri 4x9940B drives e nastri 2500 x 200GB (500TB) Q3 2005
61
Service Challenge prototipizzazione sistema di trasferimento dati per esperimenti LHC –Coinvolti T0, tutti i T1 ed alcuni T2 Al CERN setup di challenge facility da 500 MB/s (3.6 GB/sec a fine 2005) –Test progressivi fino a inizio presa dati Marzo 2005: trasferimenti disco-disco T0 T1 (100 MB/sec) Luglio 2005: trasferimenti disco-nastro T0 T1 (80 MB/sec) Validazione/passaggio progressivo infrastruttura in produzione –INFN partecipera’ da Marzo 2005 Richiesto link sperimentazione 1 Gbps a GARR farm Opteron dedicata (in ordine) modello di storage in studio
62
Personale Personale di ruolo (6+1): –Pietro Matteuzzi: Responsabile Servizi di Calcolo del CNAF –Luca Dell’Agnello: Responsabile operations Tier1 –Andrea Chierici: Farming –Pier Paolo Ricci: CASTOR, Storage, Robotica. –Stefano Zani: Rete, Sicurezza, VideoConferenze & Multimediale –Alessandro Italiano: Sistemistica, Libreria, VideoConf.&Multimed., GRID. –1 CTER (concorso in espletamento) Personale a Contratto (5+5+4): –Barbara Martelli (Borsa) Sviluppo SW, DB e LCG 3D. –Donato De Girolamo (Art. 15) Rete, Allarmistica e Sicurezze. –Felice Rosso: (Art. 15) Monitoring, Sistemistica. –Elisabetta Vilucchi (A.R.) DB e LCG 3D, CASTOR –Giuseppe Lopresti (A.R.) CASTOR (CERN) In attivazione –Poleggi (A.R.) Farming (CERN)In attivazione –Massimo Donatelli: (Art.15) AFS, sicurezza –Giuseppe Lo Re (A.R.) Supporto SW Esp. (ALICE)/CASTOR –Daniele Bonacorsi (A.R.) Supporto SW Esp. (CMS) –Guido Negri (A.R.) Supporto SW Esp. (ATLAS) –Subir Sarkar (A.R.) Supporto SW Esp. (CDF) –Enrica Antonioli (Art.2222) Supporto SW Esp. (BaBar) –Stefano Ferretti (A.R.) adattamento di sw BABAR a Grid Da attivare –Daniel Jeans (A.R.) adattamento di sw CDF a Grid Da attivare ~2.5 FTE per calcolo non-Tier1, rete & servizi generali ~4.5 FTE per supporto esperimenti ~8.5 FTE per operations Tier1
63
Riassunto problematiche aperte Refrigerazione sala –Studio ed implementazione sistema per aumento/ridondanza potenza refrigerante (Dic 2005) Farming –Instabilita’ farm Sostituzione PBS/Maui con LSF (meta’ Febbraio) Storage –Necessario aumento numero server (in corso) per ridondanza e throughput –Problemi hw Hw meno affidabile usato solo come front-end CASTOR (migrazione in corso) –Problemi con CASTOR Prestaging ottimizzato per rilettura (workaround) Passaggio a nuova tipologia driver (9940B) Upgrade a nuova versione (Q3 2005) Monitoraggio/Accounting –Necessario tool “completo” per raccolta dati per monitoraggio/accounting Collaborazione con GridICE Supporto utenti –Reperibilita’ attivata 1! persona/periodo Urgenze, disservizi (parziale) –Estensione SLA (bozza 11/2) Tempi certi di risposta per i vari problemi Piano di sviluppo per arrivare a operativita’ piena nel 2007 –Turni da attivare personale operations T1 insufficiente
64
Conclusioni Nel 2004 il Tier1 ha iniziato il ramp up verso l’assetto stabile di produzione Ancora alcuni problemi aperti C’e’ spazio per un aumento dellle attivita’ –Necessaria pero’ la collaborazione efficace degli esperimenti per completare il commissioning in tutte le possibili configurazioni Il problema maggiore e’ quello della carenza di personale “stabile” –11 FTE per i Servizi Tier1 –4 FTE Per il Centro Operativo Grid Nazionale
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.