La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Mirco Mazzucato Direttore del CNAF CNAF e Tier1 INFN Organizzazione, stato e risorse CSN1 - Pisa 16 Settembre 2008.

Presentazioni simili


Presentazione sul tema: "1 Mirco Mazzucato Direttore del CNAF CNAF e Tier1 INFN Organizzazione, stato e risorse CSN1 - Pisa 16 Settembre 2008."— Transcript della presentazione:

1 1 Mirco Mazzucato Direttore del CNAF mirco.mazzucato@cnaf.infn.it CNAF e Tier1 INFN Organizzazione, stato e risorse CSN1 - Pisa 16 Settembre 2008

2 2 Sommario L’ organizzazione del CNAF La pianta organica I meeting di gestione Lo stato dei lavori di ampliamento Risultato dell’analisi dei problemi di affidabilita’ riscontrati in giugno-luglio  Ridondanza servizi dal punto di vista hardware e software  Organizzazione gestione Centro e miglioramenti Stato Servizi e reparti e futuri acquisti Conclusioni

3 3 La struttura attuale del CNAF Applicazioni/progetti Servizio R&D A. Ghiselli Tier1 Unita’ Funz. C. Vistoli (…) Servizio Grid Operation T. Ferrari (…) Reparti parte dell’Unita’ Funz. Tier1 Supportano tutti gli altri servizi LAN, WAN E Sicurezza S. Zani Servizio Impianti Tecnici e generali C. Vistoli (…) Farming D. Salomoni Interfaccia utenti comune (T. Ferrari) Storage L. Dell’Agnello CNAF “Consiglio di Centro” -Organo di Coordinamento per pienficare le attivita’‘Inter’ Servizi e le Relazioni Esterne -Composizione: -Direttore del Cnaf -Resp. Servizio amministrazione e segreteria -Resp. Servizi e Reparti tecnici Servizi Nazionali Supporto HW/SW G. Vitafinzi Amministrazione M. Pischedda

4 4 Pianta Organica:Stato attuale 4 Tecnologi vincitori del concorsone 3 posti CTER a concorso 1 tecnologo in attesa di trasferimento

5 5 Il personale a supporto degli esperimenti

6 6 I meetings di gestione Consiglio di Centro  Secondo bisogno Comitato di gestione del Tier1  Partecipanti: Responsabili reparti/servizi e Computing Coordinators Esperimenti  Periodicita’: mensile La riunione settimanale Servizi-Esperimenti (T.Ferrari)  Partecipanti: Personale servizi e assegni esperimenti al CNAF La cabina di regia (T: Ferrari)  Partecipanti: Responsabili reparti/servizi, Computing Coordinators Esperimenti e altro personale esperimenti T2  Periodicita’: mensile

7 7 Tier1: I Lavori di upgrade Le opere urgenti e la migrazione in sala 1 Stato di avanzamento dei lavori ad oggi  opere edili ed acustiche  impianto meccanico (condizionamento)  impianto elettrico  opere edili per la cabina ENEL

8 8 Upgrade e migrazione in sala1 Migrazione Fase gialla, consistente in:  Upgrade Impianto elettrico Installazione quadro aggiuntivo nella cabina elettrica dell’universita’ Realizzazione collegamento elettrico impianto distribuzione e di raffreddamento acqua nuovo con relativi quadri e nuovo chiller Migrazione fase blu consistente in:  Realizzazione distribuzione elettrica agli armadi che verranno installati nelle isole ad alta densita’ in sala 1 in modo compatibile con il progetto di ampliamento  Realizzazione relativi quadri elettrici come da progetto di ampliamento  Spostamento UPS  Scavi per alloggiamento Quadro Elettrico  Collegamento ‘esterno’ alla sala di tali quadri con la cabina elettrica dell’universita’ Spostamento di tutte le macchine in sala 1 Tutte le attivita’ completate nei tempi previsti per permettere l’inizio dei lavori di ampliamento in aprile 2008

9 9 I Lavori di ampliamento Inizio ottobre 07: ricevuto progetto esecutivo come previsto Fine Novembre 07: approvazione consiglio direttivo indizione gara di appalto lavori Meta’ febbraio 08 : completamento gara Direttivo di Marzo 08: delibera di assegnazione lavori alle ditte:  DiCataldo (impianti elettrici) e Garofolo (impianti meccanici) – Bari consegna lavori sotto riserva di legge 14 /04 contratto fimato il 5/5 scioglimento riserva di legge all'impresa il 20/5 Inizio effettivo lavori: 14 Aprile 08 Ottima reattivita’ ed impegno delle 2 imprese Durata lavori: il crono-programma accettato dalle ditte prevede il completamento dei lavori per fine 2008. Clima collaborativo e gestione efficiente dei lavori con meeting settimanali coordinati dal RUP C. Vistoli tra  Impresa  Direzione lavori e progettisti STEAM  Ufficio del RUP

10 10 Piano -1 – Stato di progetto e di fatto Setti fonoassorbenti (da installare) Setti fonoassorbenti (da installare) Gruppi Frigo

11 11 Piano -2 – Stato di progetto e di fatto umidificazione acqua refrigerata blindosbarre quadri chiller quadri generali

12 12 Cabina ENEL – Stato di progetto e di fatto Locali consegna e misure Sala di trasformazione passaggio cavi di MT ai trasformatori sala pronta per ospitare trasformatori e quadro generale BT

13 13 Cosa manca? Serbatoio x gruppi elettrogeni di fronte ai garages gia’ installato e ripristinato il passaggio delle macchine Gruppi elettrogeni Intergen attesi per Novembre dopo collaudo completo in fabbrica Collaudo quadri elettrici generali a fine settembre (25) e immediata consegna Trasformatori in collaudo e consegna ~ottobre (pronti in attesa collaudo) Completamento dei collegamenti elettrici ed idraulici in pieno svolgimento  6 tecnici elettrici  10 tecnici idraulici Ad oggi non si riscontrano ritardi significativi rispetto al crono- programma e la fine dei lavori prevista da questo per fine dicembre- gennaio Possibile contenzioso tra STEAM e Ditta Dicataldo sui costi schermatura trasformatori e sistema di controllo  In discussione domani

14 14 Conclusioni sui lavori Il personale del CNAF e’ stato fortemente impegnato nell’ultimo anno a:  Organizzare l’allestimento della Sala1  Trasferire e rimettere in funzione li’ tutte le risorse  Seguire i lavori di ampliamento che procedono celermente  Installare il nuovo hardware in presenza del Cantiere e spazi ristretti  Mantenere la piena operativita’ del Tier1 durante e lavori  Consolidare in paralello tutti servizi Tutte le attivita’ sono state completate con successo grazie ad una grande dedizione ed il centro e’ ripartito come previsto con piena funzionalita’ con tutte le risorse in sala 1 il 5 aprile Una serie di incidenti occorsi a fine giugno hanno diminuito pero’ significativamente la reliability del Tier1 E’ stato effettuato un riesame completo dello stato di tutti I servizi per identificare eventuali residue debolezze Alcuni problemi generati dal ritardo della disponibilita’ delle risorse per il 2008

15 15 WLCG : Installation summary – Tier1s <90% of pledge<50% of pledge

16 16 La serie d’incidenti Il 20 giugno e’ crollato il pavimento in una delle nuove sale sotto il peso del gruppo di continuita’  Causa: mancanza dei piedini di rinforzo richiesti dal DL proprio e solo per una lunghezza di 3 m sotto il gruppo In assenza di batterie in attesa della riparazione del cabinet 2 successivi power cut dell’Enel (mai successo nei 2 anni precedenti) Una volta ripristinata la situazione problemi intermettenti in due card del core switch Extreme riparati definitivamente solo dopo 5 giorni  Contratto di manutenzione prevede intrevento dopo 4 ore e ripristino per il giorno successivo Conclusioni: piu’ di 20 giorni di malfunzionamento Da allora il Centro ha funzionato perfettamente

17 17 WLCG Si e’ verificata una discrepanza tra la reliability misurata dai SAM tests della IT nel periodo gennaio-maggio 2008 e quella reale causata dal fallimento del vecchio SE EDG che veniva utilizzato nei SAM tests IT ma non dagli esperimenti che usavano Storm/GPFS o Castor  La reliability reale in questo periodo e’ comunque ridotta per lo spostamento in Sala1.  levando questo periodo e’ ~normale La richiesta di Luca di correggere i dati WLCG utilizzando i SAM tests di ATLAS e CMS non e’ andata finora a buon fine E’ in atto una protesta da parte di molti Tier1 sulla reliability dei SAM test IT

18 18 Risultato dell’Analisi dei problemi di affidabilita’ del centro riscontrati a fine giugno L’analisi dettagliata di tutti I servizi ha dimostrato che si tratta di una concatenazione di eventi sfortunata e non di una debolezza intrinseca sostanziale dei servizi  Tutti I servizi sono risultati essere gia’ ridondadi hardware e software al ~90% Un report dettagliato sugli incidenti e’ stato fatto a WLCG e ad ATLAS Le debolezze residue sono state identificate e messo in opera un piano per coreggerle al piu’ presto Il problema di rendere affidabile lo storage per tutte le classi di servizio richiedera’ uno sforzo piu’ lungo (inizio anno; in modo da essere pronti per aprile) ma la soluzione Storm-GPFS-TSM sembra avere la qualita’ richiesta

19 19 Impianti tecnici…. Completato il ripristino del sistema SMS per allarmi APC e nuovo frigo + quelli degli altri servizi; Nominato responsabile per l’aggiornamento del manuale del reperibile Assegnati i turni di reperibilita’ 24 x 7 gia’ esistenti per ~1 anno a tutto il personale Reperibilita’: Turni per proteggere il centro da danni gravi: incendi, allagamenti etc.  Si richiede la presenza della persona in turno ad una distanza tale da poter intervenire di persona entro 30’ max.

20 20 Rete interna I core switches sono gia’ tutti ridondati in termini di schede Acquisto immediato del 4 alimentatore per garantire piena ridondanza alimentazione Deciso di ridondare tutti gli switch periferici relativi ai disk servers GPFS definendo l’architettura piu’ conveniente Ripristinato invio alert SMS su allarmi di Nagios per gli apparati di rete

21 21 Storage Rilevati continui problemi causati dalla scarsa robustezza dei Flexline che si guastano molto e sono difficili da riparare A settembre azione per eliminare i flexline alla fine del contratto di manutenzione (200TB)  Uso 20% gara + fondi manutenzione Deciso di spostare Lemon dai Flexline al piu’ presto Criticita’ di Castor: solo 1 persona ha una conoscenza profonda del DB di Castor dopo la partenza di Lore. Ripristinati allarmi Nagios via SMS per lo storage Database Oracle: Solo 1 persona esperta dopo la partenza di Bonifazi. Trovato sostituto Il consolidamento della soluzione Storm- GPFS-TSM rallentato da giugno dalla mancanza di HW: Dischi e Tapes

22 22 Farming Molto stabile dopo il passaggio a LSF Nessuno problema significativo da segnalare In corso la creazione di ambienti virtuali customizzati secondo le esigenze degli esperimenti

23 23 Operazione servizi Grid Rilevata una criticita’ sulla replica del DNS fuori sito.  Replicato il DNS del CNAF al GARR Bi-alimentazione dei servizi core (VOMS, WMS/LB….) e switch Ripristinati SMS allarmi Nagios per servizi grid

24 24 Altre Decisioni Accelerato lo sviluppo di:  visualizzazione integrata sintetica dello stato di tutti i servizi del Tier1 Dashboard ora in prova  Logbook elettronico integrato Avvio anticipato dei turni di Responsabile delle Operazioni dei servizi software del Tier1 (si affiancano agli esistenti turni di reperibiltita’)  A rotazione (con turnazione preliminarmente a livello settimanale) tra i responsabili di servizio e reparto ed una lista ristretta di personale aggiuntivo con competenze estese sui servizi e capacita’ di prendere le decisioni necessarie Ogni servizio nomina un esperto on call settimanale a cui si potra’ rivolgere il responsabile una volta identificato un malfunzionamento che lui stesso non sia in grado di risolvere.

25 25 Compiti del Responsabile Operazioni Coordinare le attivita' quotidiane tra i reparti/servizi del Tier1 per garantire il buon funzionamento del Centro (funzione oggi svolta da Luca in best effort) Definire in caso di ogni tipo di malfunzionamento, il piu’ possibile in accordo con i responsabili dei servizi/reparti coinvolti, le priorita' e le attivita’ necessarie per riportare il centro alla piena funzionalita’. N.B. non si richiede che il Responsabile sia in grado di risolvere lui stesso ogni tipo di problema ma in caso di malfunzionamento gli si richiede d’ iniziare al piu’ presto il processo di risoluzione e di seguirlo/coordinarlo finche’ non giunge alla risoluzione attivando le competenze necessarie Prendere tutte le decisioni necessarie in caso di malfunzionamento e comunicarle agli utenti (ad es. dichiarazione dei down e stima loro durata, chiamata dei servizi di manutenzione etc)

26 26 Funzionalita’ e programmazione generale dei servizi e reparti

27 27 FARMING Sett-07-> Sett-08 Down X upgrade programmato Incidenti

28 28 Suddivisione

29 29 Analisi dell’ efficienza Levando i due periodi di down dal 23 marzo al 5 aprile (down programmato sala1) e dal 20 giugno al 10 luglio (incidenti) sono stati ottenuti I seguenti plots Plot running jobs_vs_available_slots_post_071201.png  E' riportata anche la media dal 1/12/2007 a oggi  Questa media e' 82.0% Plot running jobs_vs_available_slots_post_080801.png  E' riportata la media prendendo i dati dopo il 1/8/2008.  Questa media e' 87.9% Conclusione. Aumento costante dell’efficienza generale al di la’ dei down e incidenti

30 30 Average annuale 75.5%

31 31 Average dal 1/08 87.9%

32 32 Storage

33 33 Nuova libreria SUN SL8500  10000 slot (7000 gia’ acquistate)  8 drive (capacita’ 500 GB) Drive 1 TB disponibili Novembre (?)  In certificazione al CERN Upgrade a 20 drive da 1 TB (fine 2008)  4000 tape acquistate (= 2 PB  4 PB) Installazione e collaudo terminati (fine Luglio)  stesura fibre collegamento a SAN completato (fine Luglio)  1 drive in produzione da fine Luglio Repack (fine luglio – meta’ agosto) Necessario per liberare spazio tape su SL5550 (~ 150 TB)  Arrivo tape server ritardato (fine Luglio  questa settimana  ) Problemi formali In produzione seconda meta’ Settembre

34 34 Disco 2008 Approvato CD 27/6  Contratto firmato 31/7  Disco fornito in conto visione  Installazione disco completata meta’ Luglio Disk-server consegnati 1/9   Installazione da mercoledi’ 3/9  Configurazione da 5/9 Switch di rete pronti settimana scorsa DELL impegnata per mettere in produzione a fine Settembre  On schedule ~ 1.68 PB raw  ~ 1.3 PB netti  CNAF actual plan: 2.149 PB (1.1 PB gia’ presente nel 2007  possibile dismettere Fast-T (~ 150 TB)  Da dismettere Flexline (manutenzione scade fine Novembre) Sesto quinto?

35 35 Risorse umane (gruppo storage) positionFTE (%)contractexpiration Luca dell’AgnelloPrimo Tecnologo100Tempo indeterminatono Pier Paolo RicciTecnologo III liv.100Tempo indeterminatono Dejan VitlacilAssegnista100Assegno di ricerc20.11.2008 Vladimir SapunenkoTecnologo III liv.100Art.23/stabilizzabile Elisabetta RoncheriTecnologo III liv.70Art.23/stabilizzabile Daniele GregoriAssegnista100Assegno di ricerca? Barbara MartelliTecnologo III liv.100Art. 23 (concorsone)31.12.2008 Alessandro CavalliCTER100Art.15/ stabilizzabile Andrea Prosperiniesterno100A progetto16.10.2008 Negli ultimi 10 mesi si sono perse 3 persone esperte per incertezze contrattuali

36 36 Storage @ CNAF Implementation of 3 Storage Classes needed for LHC  Disk0 Tape1 (D0T1)  CASTOR (testing GPFS/TSM/StoRM) Space managed by system Data migrated to tapes and deleted from disk when staging area full  Disk1 Tape0 (D1T0)  GPFS/StoRM Space managed by VO CMS, LHCb, Atlas  Disk1 Tape1 (D1T1)  CASTOR (moving to GPFS/TSM/StoRM) Space managed by VO (i.e. if disk is full, copy fails) Large buffer of disk with tape back end and no garbage collector Deployment of an Oracle database infrastructure for Grid applications back-ends. Advanced backup service for both disk based and database based data  Legato, RMAN, TSM (in the near future).

37 37 SRM end-points 1 CASTOR srm v. 1.1 end-point  TO BE DISMISSED (end September) still used by some experiments  srm://castorsrm.cr.cnaf.infn.it:8443 (used for disk pools with tape backend) 2 CASTOR srm v 2.2 end-points  srm://srm-v2.cr.cnaf.infn.it:8443 for LHC VOs 3 servers (2 FE in load balancing)  srm:// srm-v2-cms.cr.cnaf.infn.it:8443 for CMS 3 servers (2 FE in load balancing) 1 StoRM end-point for ATLAS  srm://storm-fe.cr.cnaf.infn.it:8443 for LHC  3 servers (2 FE in load balancing)  4 gridftp servers in load balancing 1 StoRM end-point for LHCb (D1T0, D1T1)  2 gridftp servers in load balancing 1 StoRM end-point for CMS  3 gridftp servers in load balancing 1 StoRM end-point for CDF/VIRGO  1 dedicated gridftp server for CDF

38 38 GPFS ~ 700 TB of total disk space assigned on GPFS 50 disk-servers, 27 file-systems 4 clusters  1 including WNs only (no storage)  1 dedicated to LHCb (GPFS 3.2 and TSM)  2 disk-servers (GPFS 3.2)

39 39 GPFS/TSM/StoRM integration On going integration of GPFS/TSM/StoRM  GPFS 3.2 embeds HSM functionalities  TSM 6.1 (beta version just released to INFN) implements some features needed to optimize HSM mechanism  StoRM needs to be modified to support DxT1 Already modified to support D1T1 More complex modifications for D0T1 required Goal: ready for production next April  Feedback to IBM end of October IBM ready to patch/improve TSM according to our requirements

40 40 Oracle Database Service Main goals: high availability, scalability, reliability Achieved through a modular architecture based on the following building blocks:  Oracle ASM for storage management implementation of redundancy and striping in an Oracle oriented way  Oracle Real Application Cluster (RAC) the database is shared across several nodes with failover and load balancing capabilities  Oracle Streams geographical data redundancy ASM RAC 32 server, 19 of them configured in 7 cluster 40 database instances Storage: 5TB (20TB raw) Availability rate: 98,7% in 2007 Availability (%) = Uptime/(Uptime + Target Downtime + Agent Downtime)

41 41 Robustezza intrinseca del sistema (1) Apparati di storage ridondati a livello hw  Sistemi disco con doppio controller, doppio alimentatore, raid 5  Librerie ridondate a livello hw (piu’ tape driver, bracci etc…)  SAN ridondata (switch FC, collegamenti FC) Disk-server – situazione mista  parte (~ 50%) dei disk-server dotati di raid su disco di sistema e/o doppio alimentatore  Malfuzionamenti disk-server non hanno impatto bloccante su GPFS/CASTOR (vedi dopo)  Non ridondati a livello di rete (malfunzionamento su switch di rack e’ potenzialmente bloccante)  da installare secondo switch nei rack dei disk-server (in ordine) e attivare “low-voltage backup power” dove abilitata Database – ridondati come server tramite RAC  Backup su disco dei db (da attivare su tape)  Malfunzionamento storage (dedicato) bloccante per db

42 42 Robustezza intrinseca del sistema (2) CASTOR – core services non ridondabili con release attuale  hw ridondato  Upgrade a 2.1.7-10 durante Agosto  funzionamento database critico (namserver, stager, dlf)  Disk-server teoricamente non critici (dati su tape) Problema per piccoli exp (1 solo disk-server)  operazione manuale per dirottare su disk-server di “appoggio”  Srm ridondato come FE e gridftp, non ridondabile come BE (prox versione) In produzione da Settembre GPFS – suddiviso in piu’ cluster (cluster separati dei diskserver e WNs)  server e disk-server ridondati  problemi con hw vecchio (Flexline, IBM Fast900, disk-server a 32bit)  Storm ridondato come FE e gridftp, non ridondabile come BE e db TSM – layout non definitivo  Db non ridondato in presente setup  Layout di produzione definito (in attesa hw) LFC – server ridondati (anche a livello db)

43 43 T1D1 status Prototype for T1D1 with GPFS+TSM in test since mid December  Quite easy since just involves migrations recalls are not user-driven, but only needed to be run by sysadm in case of filesystem loss or other kind of softer distaster recoveries (e.g. data sets removed from disk by mistake) In practice T1D1 only requires files written on disk to be copied also on tape, and this should happen immediately after they are written Simple script triggered by GPFS policies does all the magic  Some simple modifications done in StoRM i.e. to trigger the migration once the file write is declared as “done” Tests (on a small scale) gave positive results  Only 10 TB of disk and 3 tape drives involved  We need to scale up to the LHC requirements (10 PB)  In pre-production now Stress production-like test will be done during March

44 44 2 EMC CX3-80 controllers 4 GPFS server 2 StoRM servers 2 Gridftp Servers 2 HSM frontend nodes 3 Tape Drive LTO-2 1 TSM server 1/10 Gbps Ethernet 2/4 Gbps FC LHCb D1T0 and D1T1 details GPFS Server GPFS/TSM client TSM server Tape drive GPFS TSM Gigabit LAN FC SAN GPFS Server FC SAN gridftp Server DB TSM server (backup) DB mirror

45 45 Disk SAN GPFS server LAN GPFS/ TSM client Tape SAN TSM server (M) Tape drive Storm (SRM and GridFTP servers) GPFS 1/10 Gbps FC TSM

46 46 Network@INFN CNAF T1 Stime dei costi legati alla rete per Fine 2008 e 2009. Bologna, 12-08-2008 Stefano Zani

47 47 Richieste di espansione “Core” di rete del Tier1. Attualmente tutte le porte 10Gb/s disponibili sui Core switch sono occupate. Occorre acquistare un paio di schede per il piu recente BD8810 in modo da avere almeno 8 porte da utilizzare nei prossimi mesi ed e’ fondamentale bandire una gara per l’acquisto di un nuovo apparato di Core per soddisfare le esigenze di connettività previste per il 2009- 2010.

48 48 Richieste di espansione “Core” di rete del Tier1 Per garantire la connettività agli apparati di Farming e Storage che ci accingiamo ad acquistare nei primi mesi del 2009, si prevede saranno necessarie circa 32 porte 10Gb/s (per interconnettere i disk server e 32 porte 1Gb/s (per interconnettere i rack di server del farming). Da 4 ad 8 porte 10Gb/s serviranno per i trunk di interconnessione con l’attuale struttura di core. Si presenta quindi la necessità di dotarsi di un nuovo Core Switch con le seguenti carateristiche di base:  Ridondanza totale: CPU, Matrici di switching ed alimentazione.  Almeno 64 Porte 10Gb/s con espandibilità a più di 200 porte. Almeno 90 porte Gigabit con possibilità di espansione anche per queste.  L’apparato dovrà garantire la possibilità di Upgrade software senza interruzione di servizio.  L’apparato dovrà essere 100Gigabit Ready.

49 49 Stime dei costi legati alla rete Il costo stimato per il nuovo Core switch come da descrizione sono di circa 300K € (Contratto di manutanzione escluso). Per quanto riguarda i lavori di rifacimento del cablaggio passivo nella nuova sala di calcolo (Zona 2) si può stimare una spesa di circa 50K€ Una stima dei costi della espansione dell’esistente Core switch (BD8810) con due schede da 4 porte 10Gb Ethernet + transceiver ottici(Acquisto da fare quanto prima) e’ di circa 30K€ Per ogni switch da inserire all’interno di Enclosure come fatto per l’ultima gara del farming) si può stimare un costo di 3K€.. Incluso nel costo delle CPU

50 50 Gara storage  14/07: consegna ed inizio installazione dischi  23/07: fine installazione dischi  01/09: consegna servers  12/09: fine installazione servers Gara farming (CPU)  25/07: consegna ed inizio installazione  01/08: fine installazione CPU  12/09: fine consegna switches Gara Libreria  Libreria installata il 15/06/2008  Tapes servers in consegna solo per fine settimana  Problema DELL Stato acquisti 2008

51 51 Acquisti 2009-2010

52 52 Costi hardware LHC costi200820092010 1 KSI2k907053.9 1 TBn disco1252964742 1 TB tape103.404100 tape drive + server18500 Usuale riduzione del 30% su base annua Caveat:  Distanza gare 2008-2009 < 1 anno  Gare sottocosto (claim dei venditori ) Costo 2008 = costo 2007 * 0.7 * 1.1 ( 9 mesi invece di 12) + nuovo core switch + Sesto quinto APC + tape drivers + slot libreria

53 53 Costo 2009 LHC 2009 piano Forti 2009% tot pledgeddeltacosto (con IVA) CPU al 15 %costo (con IVA) CPU785212.746213234709253.8421596 DISCO358810.32288220572435882205724 TAPE403710.12037040370 TAPE drivers+ servers 260000 RETE (incl. cavi + infr.) 380000 APC 260000 TOTALE 3429194 3531320 OK utilizzando tutti I fondi di stanziamento residui Manca copertura gara per CDF ; Babar; Virgo e CSN2

54 54 Costo 2010 LHC 2010 piano Forti 2010% tot pledgeddeltacosto (con IVA) CPU13753 13.54499.2261907 DISCO687211,5 32842437749 TAPE7063 10.83026302600 TAPE drivers+ servers 100000 RETE (incl. cavi + infr.) 130000 APC TOTALE 3232256 Mancano tutti I fondi per poter indire le gare entro ottobre 2009

55 55 Riassunto e conclusioni (1) Il potenziamento del Tier1 dovrebbe essere completato come previsto entro gennaio 2009 garantendo il rispetto degli impegni internazionali  Il RUP, l’ufficio del RUP, la Direzione lavori, l’ Impresa e i Collaudatori stanno lavorando bene per superare ogni difficolta’ L’ impianto finale e’ stato disegnato con completa rindondanza per garantire un servizio 24 x 7 con down < 8ore/anno Nonostante si siano presi tutti i provvedimenti per minimizzare l’impatto dei lavori sulle attivita’ attuali si sono verificati degli incidenti che hanno diminuito la reliabiltiy del CNAF in guigno-luglio oltre al down di marzo (sala1) L’analisi ha mostrato che non si tratta di debolezze strutturali dei servizi ma si sono prese azioni correttive per eliminare le residue possibili cause di down I servizi sono ormai tutti completamente ridondati con fail over Occorre prevedere un collaudo a pieno carico ~ 50 K€ (da discutere)  Carico reale disponibile di ~6-700KW su 1.4 MW

56 56 Costo: €14,98 Termoventilatori commerciali da 2 KWatt Costo: €19,99 Con 500 si fa un MWatt: 10K€ Una singola isola con box costruiti per simulare box reali: ~40€ per chassis (2KW) per collaudo http://www.sirge.it

57 57 Riassunto e conclusioni (2) Si e’ definita una nuova organizzazione che oltre alla reperibilita’ per danni gravi prevede un Responsabile delle Operazioni in turno settimanale ed Esperti dei reparti/servizi on call ( da mettere in pratica) Tolti i down citati l’efficienza globale e’ ora vicina al 90% (Wall Clock/Ore slots disponibili) Occorre fare un ultimo sforzo per il commissioning di STORM-GPFS-TSM in modo da essere pronti per aprile 2009 Mancano i fondi per gli esperimenti non LHC per 2009 e per tutti il per 2010 Il personale e’ stato ed e’ sotto continua pressione ma i fondi per straordinari sono finora rimasti costanti  Promessa della giunta di correggere Il numero degli staff sarebbe soddisfacente se si completassero le assunzioni previste da stabilizzazioni, concorsoni e trasferimenti  Necessario per il centro raggiungere ~ i numeri del piano presentato (35 tot)


Scaricare ppt "1 Mirco Mazzucato Direttore del CNAF CNAF e Tier1 INFN Organizzazione, stato e risorse CSN1 - Pisa 16 Settembre 2008."

Presentazioni simili


Annunci Google