1 Mirco Mazzucato Direttore del CNAF CNAF e Tier1 INFN Organizzazione, stato e risorse CSN1 - Pisa 16 Settembre 2008
2 Sommario L’ organizzazione del CNAF La pianta organica I meeting di gestione Lo stato dei lavori di ampliamento Risultato dell’analisi dei problemi di affidabilita’ riscontrati in giugno-luglio Ridondanza servizi dal punto di vista hardware e software Organizzazione gestione Centro e miglioramenti Stato Servizi e reparti e futuri acquisti Conclusioni
3 La struttura attuale del CNAF Applicazioni/progetti Servizio R&D A. Ghiselli Tier1 Unita’ Funz. C. Vistoli (…) Servizio Grid Operation T. Ferrari (…) Reparti parte dell’Unita’ Funz. Tier1 Supportano tutti gli altri servizi LAN, WAN E Sicurezza S. Zani Servizio Impianti Tecnici e generali C. Vistoli (…) Farming D. Salomoni Interfaccia utenti comune (T. Ferrari) Storage L. Dell’Agnello CNAF “Consiglio di Centro” -Organo di Coordinamento per pienficare le attivita’‘Inter’ Servizi e le Relazioni Esterne -Composizione: -Direttore del Cnaf -Resp. Servizio amministrazione e segreteria -Resp. Servizi e Reparti tecnici Servizi Nazionali Supporto HW/SW G. Vitafinzi Amministrazione M. Pischedda
4 Pianta Organica:Stato attuale 4 Tecnologi vincitori del concorsone 3 posti CTER a concorso 1 tecnologo in attesa di trasferimento
5 Il personale a supporto degli esperimenti
6 I meetings di gestione Consiglio di Centro Secondo bisogno Comitato di gestione del Tier1 Partecipanti: Responsabili reparti/servizi e Computing Coordinators Esperimenti Periodicita’: mensile La riunione settimanale Servizi-Esperimenti (T.Ferrari) Partecipanti: Personale servizi e assegni esperimenti al CNAF La cabina di regia (T: Ferrari) Partecipanti: Responsabili reparti/servizi, Computing Coordinators Esperimenti e altro personale esperimenti T2 Periodicita’: mensile
7 Tier1: I Lavori di upgrade Le opere urgenti e la migrazione in sala 1 Stato di avanzamento dei lavori ad oggi opere edili ed acustiche impianto meccanico (condizionamento) impianto elettrico opere edili per la cabina ENEL
8 Upgrade e migrazione in sala1 Migrazione Fase gialla, consistente in: Upgrade Impianto elettrico Installazione quadro aggiuntivo nella cabina elettrica dell’universita’ Realizzazione collegamento elettrico impianto distribuzione e di raffreddamento acqua nuovo con relativi quadri e nuovo chiller Migrazione fase blu consistente in: Realizzazione distribuzione elettrica agli armadi che verranno installati nelle isole ad alta densita’ in sala 1 in modo compatibile con il progetto di ampliamento Realizzazione relativi quadri elettrici come da progetto di ampliamento Spostamento UPS Scavi per alloggiamento Quadro Elettrico Collegamento ‘esterno’ alla sala di tali quadri con la cabina elettrica dell’universita’ Spostamento di tutte le macchine in sala 1 Tutte le attivita’ completate nei tempi previsti per permettere l’inizio dei lavori di ampliamento in aprile 2008
9 I Lavori di ampliamento Inizio ottobre 07: ricevuto progetto esecutivo come previsto Fine Novembre 07: approvazione consiglio direttivo indizione gara di appalto lavori Meta’ febbraio 08 : completamento gara Direttivo di Marzo 08: delibera di assegnazione lavori alle ditte: DiCataldo (impianti elettrici) e Garofolo (impianti meccanici) – Bari consegna lavori sotto riserva di legge 14 /04 contratto fimato il 5/5 scioglimento riserva di legge all'impresa il 20/5 Inizio effettivo lavori: 14 Aprile 08 Ottima reattivita’ ed impegno delle 2 imprese Durata lavori: il crono-programma accettato dalle ditte prevede il completamento dei lavori per fine Clima collaborativo e gestione efficiente dei lavori con meeting settimanali coordinati dal RUP C. Vistoli tra Impresa Direzione lavori e progettisti STEAM Ufficio del RUP
10 Piano -1 – Stato di progetto e di fatto Setti fonoassorbenti (da installare) Setti fonoassorbenti (da installare) Gruppi Frigo
11 Piano -2 – Stato di progetto e di fatto umidificazione acqua refrigerata blindosbarre quadri chiller quadri generali
12 Cabina ENEL – Stato di progetto e di fatto Locali consegna e misure Sala di trasformazione passaggio cavi di MT ai trasformatori sala pronta per ospitare trasformatori e quadro generale BT
13 Cosa manca? Serbatoio x gruppi elettrogeni di fronte ai garages gia’ installato e ripristinato il passaggio delle macchine Gruppi elettrogeni Intergen attesi per Novembre dopo collaudo completo in fabbrica Collaudo quadri elettrici generali a fine settembre (25) e immediata consegna Trasformatori in collaudo e consegna ~ottobre (pronti in attesa collaudo) Completamento dei collegamenti elettrici ed idraulici in pieno svolgimento 6 tecnici elettrici 10 tecnici idraulici Ad oggi non si riscontrano ritardi significativi rispetto al crono- programma e la fine dei lavori prevista da questo per fine dicembre- gennaio Possibile contenzioso tra STEAM e Ditta Dicataldo sui costi schermatura trasformatori e sistema di controllo In discussione domani
14 Conclusioni sui lavori Il personale del CNAF e’ stato fortemente impegnato nell’ultimo anno a: Organizzare l’allestimento della Sala1 Trasferire e rimettere in funzione li’ tutte le risorse Seguire i lavori di ampliamento che procedono celermente Installare il nuovo hardware in presenza del Cantiere e spazi ristretti Mantenere la piena operativita’ del Tier1 durante e lavori Consolidare in paralello tutti servizi Tutte le attivita’ sono state completate con successo grazie ad una grande dedizione ed il centro e’ ripartito come previsto con piena funzionalita’ con tutte le risorse in sala 1 il 5 aprile Una serie di incidenti occorsi a fine giugno hanno diminuito pero’ significativamente la reliability del Tier1 E’ stato effettuato un riesame completo dello stato di tutti I servizi per identificare eventuali residue debolezze Alcuni problemi generati dal ritardo della disponibilita’ delle risorse per il 2008
15 WLCG : Installation summary – Tier1s <90% of pledge<50% of pledge
16 La serie d’incidenti Il 20 giugno e’ crollato il pavimento in una delle nuove sale sotto il peso del gruppo di continuita’ Causa: mancanza dei piedini di rinforzo richiesti dal DL proprio e solo per una lunghezza di 3 m sotto il gruppo In assenza di batterie in attesa della riparazione del cabinet 2 successivi power cut dell’Enel (mai successo nei 2 anni precedenti) Una volta ripristinata la situazione problemi intermettenti in due card del core switch Extreme riparati definitivamente solo dopo 5 giorni Contratto di manutenzione prevede intrevento dopo 4 ore e ripristino per il giorno successivo Conclusioni: piu’ di 20 giorni di malfunzionamento Da allora il Centro ha funzionato perfettamente
17 WLCG Si e’ verificata una discrepanza tra la reliability misurata dai SAM tests della IT nel periodo gennaio-maggio 2008 e quella reale causata dal fallimento del vecchio SE EDG che veniva utilizzato nei SAM tests IT ma non dagli esperimenti che usavano Storm/GPFS o Castor La reliability reale in questo periodo e’ comunque ridotta per lo spostamento in Sala1. levando questo periodo e’ ~normale La richiesta di Luca di correggere i dati WLCG utilizzando i SAM tests di ATLAS e CMS non e’ andata finora a buon fine E’ in atto una protesta da parte di molti Tier1 sulla reliability dei SAM test IT
18 Risultato dell’Analisi dei problemi di affidabilita’ del centro riscontrati a fine giugno L’analisi dettagliata di tutti I servizi ha dimostrato che si tratta di una concatenazione di eventi sfortunata e non di una debolezza intrinseca sostanziale dei servizi Tutti I servizi sono risultati essere gia’ ridondadi hardware e software al ~90% Un report dettagliato sugli incidenti e’ stato fatto a WLCG e ad ATLAS Le debolezze residue sono state identificate e messo in opera un piano per coreggerle al piu’ presto Il problema di rendere affidabile lo storage per tutte le classi di servizio richiedera’ uno sforzo piu’ lungo (inizio anno; in modo da essere pronti per aprile) ma la soluzione Storm-GPFS-TSM sembra avere la qualita’ richiesta
19 Impianti tecnici…. Completato il ripristino del sistema SMS per allarmi APC e nuovo frigo + quelli degli altri servizi; Nominato responsabile per l’aggiornamento del manuale del reperibile Assegnati i turni di reperibilita’ 24 x 7 gia’ esistenti per ~1 anno a tutto il personale Reperibilita’: Turni per proteggere il centro da danni gravi: incendi, allagamenti etc. Si richiede la presenza della persona in turno ad una distanza tale da poter intervenire di persona entro 30’ max.
20 Rete interna I core switches sono gia’ tutti ridondati in termini di schede Acquisto immediato del 4 alimentatore per garantire piena ridondanza alimentazione Deciso di ridondare tutti gli switch periferici relativi ai disk servers GPFS definendo l’architettura piu’ conveniente Ripristinato invio alert SMS su allarmi di Nagios per gli apparati di rete
21 Storage Rilevati continui problemi causati dalla scarsa robustezza dei Flexline che si guastano molto e sono difficili da riparare A settembre azione per eliminare i flexline alla fine del contratto di manutenzione (200TB) Uso 20% gara + fondi manutenzione Deciso di spostare Lemon dai Flexline al piu’ presto Criticita’ di Castor: solo 1 persona ha una conoscenza profonda del DB di Castor dopo la partenza di Lore. Ripristinati allarmi Nagios via SMS per lo storage Database Oracle: Solo 1 persona esperta dopo la partenza di Bonifazi. Trovato sostituto Il consolidamento della soluzione Storm- GPFS-TSM rallentato da giugno dalla mancanza di HW: Dischi e Tapes
22 Farming Molto stabile dopo il passaggio a LSF Nessuno problema significativo da segnalare In corso la creazione di ambienti virtuali customizzati secondo le esigenze degli esperimenti
23 Operazione servizi Grid Rilevata una criticita’ sulla replica del DNS fuori sito. Replicato il DNS del CNAF al GARR Bi-alimentazione dei servizi core (VOMS, WMS/LB….) e switch Ripristinati SMS allarmi Nagios per servizi grid
24 Altre Decisioni Accelerato lo sviluppo di: visualizzazione integrata sintetica dello stato di tutti i servizi del Tier1 Dashboard ora in prova Logbook elettronico integrato Avvio anticipato dei turni di Responsabile delle Operazioni dei servizi software del Tier1 (si affiancano agli esistenti turni di reperibiltita’) A rotazione (con turnazione preliminarmente a livello settimanale) tra i responsabili di servizio e reparto ed una lista ristretta di personale aggiuntivo con competenze estese sui servizi e capacita’ di prendere le decisioni necessarie Ogni servizio nomina un esperto on call settimanale a cui si potra’ rivolgere il responsabile una volta identificato un malfunzionamento che lui stesso non sia in grado di risolvere.
25 Compiti del Responsabile Operazioni Coordinare le attivita' quotidiane tra i reparti/servizi del Tier1 per garantire il buon funzionamento del Centro (funzione oggi svolta da Luca in best effort) Definire in caso di ogni tipo di malfunzionamento, il piu’ possibile in accordo con i responsabili dei servizi/reparti coinvolti, le priorita' e le attivita’ necessarie per riportare il centro alla piena funzionalita’. N.B. non si richiede che il Responsabile sia in grado di risolvere lui stesso ogni tipo di problema ma in caso di malfunzionamento gli si richiede d’ iniziare al piu’ presto il processo di risoluzione e di seguirlo/coordinarlo finche’ non giunge alla risoluzione attivando le competenze necessarie Prendere tutte le decisioni necessarie in caso di malfunzionamento e comunicarle agli utenti (ad es. dichiarazione dei down e stima loro durata, chiamata dei servizi di manutenzione etc)
26 Funzionalita’ e programmazione generale dei servizi e reparti
27 FARMING Sett-07-> Sett-08 Down X upgrade programmato Incidenti
28 Suddivisione
29 Analisi dell’ efficienza Levando i due periodi di down dal 23 marzo al 5 aprile (down programmato sala1) e dal 20 giugno al 10 luglio (incidenti) sono stati ottenuti I seguenti plots Plot running jobs_vs_available_slots_post_ png E' riportata anche la media dal 1/12/2007 a oggi Questa media e' 82.0% Plot running jobs_vs_available_slots_post_ png E' riportata la media prendendo i dati dopo il 1/8/2008. Questa media e' 87.9% Conclusione. Aumento costante dell’efficienza generale al di la’ dei down e incidenti
30 Average annuale 75.5%
31 Average dal 1/ %
32 Storage
33 Nuova libreria SUN SL8500 slot (7000 gia’ acquistate) 8 drive (capacita’ 500 GB) Drive 1 TB disponibili Novembre (?) In certificazione al CERN Upgrade a 20 drive da 1 TB (fine 2008) 4000 tape acquistate (= 2 PB 4 PB) Installazione e collaudo terminati (fine Luglio) stesura fibre collegamento a SAN completato (fine Luglio) 1 drive in produzione da fine Luglio Repack (fine luglio – meta’ agosto) Necessario per liberare spazio tape su SL5550 (~ 150 TB) Arrivo tape server ritardato (fine Luglio questa settimana ) Problemi formali In produzione seconda meta’ Settembre
34 Disco 2008 Approvato CD 27/6 Contratto firmato 31/7 Disco fornito in conto visione Installazione disco completata meta’ Luglio Disk-server consegnati 1/9 Installazione da mercoledi’ 3/9 Configurazione da 5/9 Switch di rete pronti settimana scorsa DELL impegnata per mettere in produzione a fine Settembre On schedule ~ 1.68 PB raw ~ 1.3 PB netti CNAF actual plan: PB (1.1 PB gia’ presente nel 2007 possibile dismettere Fast-T (~ 150 TB) Da dismettere Flexline (manutenzione scade fine Novembre) Sesto quinto?
35 Risorse umane (gruppo storage) positionFTE (%)contractexpiration Luca dell’AgnelloPrimo Tecnologo100Tempo indeterminatono Pier Paolo RicciTecnologo III liv.100Tempo indeterminatono Dejan VitlacilAssegnista100Assegno di ricerc Vladimir SapunenkoTecnologo III liv.100Art.23/stabilizzabile Elisabetta RoncheriTecnologo III liv.70Art.23/stabilizzabile Daniele GregoriAssegnista100Assegno di ricerca? Barbara MartelliTecnologo III liv.100Art. 23 (concorsone) Alessandro CavalliCTER100Art.15/ stabilizzabile Andrea Prosperiniesterno100A progetto Negli ultimi 10 mesi si sono perse 3 persone esperte per incertezze contrattuali
36 CNAF Implementation of 3 Storage Classes needed for LHC Disk0 Tape1 (D0T1) CASTOR (testing GPFS/TSM/StoRM) Space managed by system Data migrated to tapes and deleted from disk when staging area full Disk1 Tape0 (D1T0) GPFS/StoRM Space managed by VO CMS, LHCb, Atlas Disk1 Tape1 (D1T1) CASTOR (moving to GPFS/TSM/StoRM) Space managed by VO (i.e. if disk is full, copy fails) Large buffer of disk with tape back end and no garbage collector Deployment of an Oracle database infrastructure for Grid applications back-ends. Advanced backup service for both disk based and database based data Legato, RMAN, TSM (in the near future).
37 SRM end-points 1 CASTOR srm v. 1.1 end-point TO BE DISMISSED (end September) still used by some experiments srm://castorsrm.cr.cnaf.infn.it:8443 (used for disk pools with tape backend) 2 CASTOR srm v 2.2 end-points srm://srm-v2.cr.cnaf.infn.it:8443 for LHC VOs 3 servers (2 FE in load balancing) srm:// srm-v2-cms.cr.cnaf.infn.it:8443 for CMS 3 servers (2 FE in load balancing) 1 StoRM end-point for ATLAS srm://storm-fe.cr.cnaf.infn.it:8443 for LHC 3 servers (2 FE in load balancing) 4 gridftp servers in load balancing 1 StoRM end-point for LHCb (D1T0, D1T1) 2 gridftp servers in load balancing 1 StoRM end-point for CMS 3 gridftp servers in load balancing 1 StoRM end-point for CDF/VIRGO 1 dedicated gridftp server for CDF
38 GPFS ~ 700 TB of total disk space assigned on GPFS 50 disk-servers, 27 file-systems 4 clusters 1 including WNs only (no storage) 1 dedicated to LHCb (GPFS 3.2 and TSM) 2 disk-servers (GPFS 3.2)
39 GPFS/TSM/StoRM integration On going integration of GPFS/TSM/StoRM GPFS 3.2 embeds HSM functionalities TSM 6.1 (beta version just released to INFN) implements some features needed to optimize HSM mechanism StoRM needs to be modified to support DxT1 Already modified to support D1T1 More complex modifications for D0T1 required Goal: ready for production next April Feedback to IBM end of October IBM ready to patch/improve TSM according to our requirements
40 Oracle Database Service Main goals: high availability, scalability, reliability Achieved through a modular architecture based on the following building blocks: Oracle ASM for storage management implementation of redundancy and striping in an Oracle oriented way Oracle Real Application Cluster (RAC) the database is shared across several nodes with failover and load balancing capabilities Oracle Streams geographical data redundancy ASM RAC 32 server, 19 of them configured in 7 cluster 40 database instances Storage: 5TB (20TB raw) Availability rate: 98,7% in 2007 Availability (%) = Uptime/(Uptime + Target Downtime + Agent Downtime)
41 Robustezza intrinseca del sistema (1) Apparati di storage ridondati a livello hw Sistemi disco con doppio controller, doppio alimentatore, raid 5 Librerie ridondate a livello hw (piu’ tape driver, bracci etc…) SAN ridondata (switch FC, collegamenti FC) Disk-server – situazione mista parte (~ 50%) dei disk-server dotati di raid su disco di sistema e/o doppio alimentatore Malfuzionamenti disk-server non hanno impatto bloccante su GPFS/CASTOR (vedi dopo) Non ridondati a livello di rete (malfunzionamento su switch di rack e’ potenzialmente bloccante) da installare secondo switch nei rack dei disk-server (in ordine) e attivare “low-voltage backup power” dove abilitata Database – ridondati come server tramite RAC Backup su disco dei db (da attivare su tape) Malfunzionamento storage (dedicato) bloccante per db
42 Robustezza intrinseca del sistema (2) CASTOR – core services non ridondabili con release attuale hw ridondato Upgrade a durante Agosto funzionamento database critico (namserver, stager, dlf) Disk-server teoricamente non critici (dati su tape) Problema per piccoli exp (1 solo disk-server) operazione manuale per dirottare su disk-server di “appoggio” Srm ridondato come FE e gridftp, non ridondabile come BE (prox versione) In produzione da Settembre GPFS – suddiviso in piu’ cluster (cluster separati dei diskserver e WNs) server e disk-server ridondati problemi con hw vecchio (Flexline, IBM Fast900, disk-server a 32bit) Storm ridondato come FE e gridftp, non ridondabile come BE e db TSM – layout non definitivo Db non ridondato in presente setup Layout di produzione definito (in attesa hw) LFC – server ridondati (anche a livello db)
43 T1D1 status Prototype for T1D1 with GPFS+TSM in test since mid December Quite easy since just involves migrations recalls are not user-driven, but only needed to be run by sysadm in case of filesystem loss or other kind of softer distaster recoveries (e.g. data sets removed from disk by mistake) In practice T1D1 only requires files written on disk to be copied also on tape, and this should happen immediately after they are written Simple script triggered by GPFS policies does all the magic Some simple modifications done in StoRM i.e. to trigger the migration once the file write is declared as “done” Tests (on a small scale) gave positive results Only 10 TB of disk and 3 tape drives involved We need to scale up to the LHC requirements (10 PB) In pre-production now Stress production-like test will be done during March
44 2 EMC CX3-80 controllers 4 GPFS server 2 StoRM servers 2 Gridftp Servers 2 HSM frontend nodes 3 Tape Drive LTO-2 1 TSM server 1/10 Gbps Ethernet 2/4 Gbps FC LHCb D1T0 and D1T1 details GPFS Server GPFS/TSM client TSM server Tape drive GPFS TSM Gigabit LAN FC SAN GPFS Server FC SAN gridftp Server DB TSM server (backup) DB mirror
45 Disk SAN GPFS server LAN GPFS/ TSM client Tape SAN TSM server (M) Tape drive Storm (SRM and GridFTP servers) GPFS 1/10 Gbps FC TSM
46 CNAF T1 Stime dei costi legati alla rete per Fine 2008 e Bologna, Stefano Zani
47 Richieste di espansione “Core” di rete del Tier1. Attualmente tutte le porte 10Gb/s disponibili sui Core switch sono occupate. Occorre acquistare un paio di schede per il piu recente BD8810 in modo da avere almeno 8 porte da utilizzare nei prossimi mesi ed e’ fondamentale bandire una gara per l’acquisto di un nuovo apparato di Core per soddisfare le esigenze di connettività previste per il
48 Richieste di espansione “Core” di rete del Tier1 Per garantire la connettività agli apparati di Farming e Storage che ci accingiamo ad acquistare nei primi mesi del 2009, si prevede saranno necessarie circa 32 porte 10Gb/s (per interconnettere i disk server e 32 porte 1Gb/s (per interconnettere i rack di server del farming). Da 4 ad 8 porte 10Gb/s serviranno per i trunk di interconnessione con l’attuale struttura di core. Si presenta quindi la necessità di dotarsi di un nuovo Core Switch con le seguenti carateristiche di base: Ridondanza totale: CPU, Matrici di switching ed alimentazione. Almeno 64 Porte 10Gb/s con espandibilità a più di 200 porte. Almeno 90 porte Gigabit con possibilità di espansione anche per queste. L’apparato dovrà garantire la possibilità di Upgrade software senza interruzione di servizio. L’apparato dovrà essere 100Gigabit Ready.
49 Stime dei costi legati alla rete Il costo stimato per il nuovo Core switch come da descrizione sono di circa 300K € (Contratto di manutanzione escluso). Per quanto riguarda i lavori di rifacimento del cablaggio passivo nella nuova sala di calcolo (Zona 2) si può stimare una spesa di circa 50K€ Una stima dei costi della espansione dell’esistente Core switch (BD8810) con due schede da 4 porte 10Gb Ethernet + transceiver ottici(Acquisto da fare quanto prima) e’ di circa 30K€ Per ogni switch da inserire all’interno di Enclosure come fatto per l’ultima gara del farming) si può stimare un costo di 3K€.. Incluso nel costo delle CPU
50 Gara storage 14/07: consegna ed inizio installazione dischi 23/07: fine installazione dischi 01/09: consegna servers 12/09: fine installazione servers Gara farming (CPU) 25/07: consegna ed inizio installazione 01/08: fine installazione CPU 12/09: fine consegna switches Gara Libreria Libreria installata il 15/06/2008 Tapes servers in consegna solo per fine settimana Problema DELL Stato acquisti 2008
51 Acquisti
52 Costi hardware LHC costi KSI2k TBn disco TB tape tape drive + server18500 Usuale riduzione del 30% su base annua Caveat: Distanza gare < 1 anno Gare sottocosto (claim dei venditori ) Costo 2008 = costo 2007 * 0.7 * 1.1 ( 9 mesi invece di 12) + nuovo core switch + Sesto quinto APC + tape drivers + slot libreria
53 Costo 2009 LHC 2009 piano Forti 2009% tot pledgeddeltacosto (con IVA) CPU al 15 %costo (con IVA) CPU DISCO TAPE TAPE drivers+ servers RETE (incl. cavi + infr.) APC TOTALE OK utilizzando tutti I fondi di stanziamento residui Manca copertura gara per CDF ; Babar; Virgo e CSN2
54 Costo 2010 LHC 2010 piano Forti 2010% tot pledgeddeltacosto (con IVA) CPU DISCO687211, TAPE TAPE drivers+ servers RETE (incl. cavi + infr.) APC TOTALE Mancano tutti I fondi per poter indire le gare entro ottobre 2009
55 Riassunto e conclusioni (1) Il potenziamento del Tier1 dovrebbe essere completato come previsto entro gennaio 2009 garantendo il rispetto degli impegni internazionali Il RUP, l’ufficio del RUP, la Direzione lavori, l’ Impresa e i Collaudatori stanno lavorando bene per superare ogni difficolta’ L’ impianto finale e’ stato disegnato con completa rindondanza per garantire un servizio 24 x 7 con down < 8ore/anno Nonostante si siano presi tutti i provvedimenti per minimizzare l’impatto dei lavori sulle attivita’ attuali si sono verificati degli incidenti che hanno diminuito la reliabiltiy del CNAF in guigno-luglio oltre al down di marzo (sala1) L’analisi ha mostrato che non si tratta di debolezze strutturali dei servizi ma si sono prese azioni correttive per eliminare le residue possibili cause di down I servizi sono ormai tutti completamente ridondati con fail over Occorre prevedere un collaudo a pieno carico ~ 50 K€ (da discutere) Carico reale disponibile di ~6-700KW su 1.4 MW
56 Costo: €14,98 Termoventilatori commerciali da 2 KWatt Costo: €19,99 Con 500 si fa un MWatt: 10K€ Una singola isola con box costruiti per simulare box reali: ~40€ per chassis (2KW) per collaudo
57 Riassunto e conclusioni (2) Si e’ definita una nuova organizzazione che oltre alla reperibilita’ per danni gravi prevede un Responsabile delle Operazioni in turno settimanale ed Esperti dei reparti/servizi on call ( da mettere in pratica) Tolti i down citati l’efficienza globale e’ ora vicina al 90% (Wall Clock/Ore slots disponibili) Occorre fare un ultimo sforzo per il commissioning di STORM-GPFS-TSM in modo da essere pronti per aprile 2009 Mancano i fondi per gli esperimenti non LHC per 2009 e per tutti il per 2010 Il personale e’ stato ed e’ sotto continua pressione ma i fondi per straordinari sono finora rimasti costanti Promessa della giunta di correggere Il numero degli staff sarebbe soddisfacente se si completassero le assunzioni previste da stabilizzazioni, concorsoni e trasferimenti Necessario per il centro raggiungere ~ i numeri del piano presentato (35 tot)