Luca dell’Agnello 28 Agosto 2007

Slides:



Advertisements
Presentazioni simili
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Advertisements

LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
LNF Farm E. V. 9/8/2006. Hardware CE, LCFG, HLR, 3 WN: DL 360 1U; SE: DL 380 2U 5 WN: BL 25 P In totale 25 jobs general purpuse (coda Atlas) + una coda.
Federico Ruggieri Riunione CSN1 PISA 22 Giugno 2004 Il Progetto TIER1 Status Update.
Federico Ruggieri INFN-CNAF Commissione Scientifica Nazionale I Lecce 24 Settembre 2003 Il Progetto TIER1 Status Update.
Storage (ieri, oggi e domani) Luca dell’Agnello INFN-CNAF.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Brunengo - Padova - 18/12/2007 Infrastrutture di storage per Tier2 Gruppo storage CCR.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
1 Mirco Mazzucato Direttore del CNAF CNAF e Tier1 INFN Organizzazione, stato e risorse CSN1 - Pisa 16 Settembre 2008.
High Avaliability with RHCS HA INFN CNAF 22 Marzo 2006 Bologna Ricci Pier Paolo, on behalf of INFN TIER1 Staff
The INFN Tier-1: progetto di ampliamento Cristina Vistoli – INFN CNAF Referee Meeting Sep
Tier1: stato del servizio Pietro Matteuzzi e Luca Dell’Agnello.
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
Virtualizzazione nell’INFN Andrea Chierici 11 Dicembre 2008.
CCR, LNF ott 2011 Proposte assegnazioni server & storage L. Carbone, A. Gianoli, M. Serra.
Sistema Informativo. Mansioni Gestione della piattaforma hardware e sistemistica del sistema informativo INFN In realta’ il mansionario e’ in continua.
FESR Catania, Trigrid Open Day, Trinacria Grid Virtual Laboratory PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno.
Alessandro De Salvo Status dei Tier2 di ATLAS Alessandro De Salvo
Domenico Elia1 Calcolo ALICE: stato e richieste finanziarie (aggiornamenti) Domenico Elia Riunione Referee Calcolo LHC / Bologna, Riunione con.
The INFN Tier-1: migrazione verso l’ampliamento Cristina Vistoli – INFN CNAF.
Torino, Andrea Dainese 1 Andrea Dainese (INFN – LNL) Stato del Tier-2 ALICE a Legnaro.
Stato dell’infrastruttura INFN CNAF, Stato dell’infrastruttura Impianti tecnologici Gli impianti di base stanno funzionando, ma sono urgenti.
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
Calcolo LHCb Umberto Marconi INFN Sezione di Bologna Riunione CSN1, 18/09/2008.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.

Riccardo Veraldi - Massimo Donatelli CCR 3-4 Marzo 2008
Resoconto delle attività del Gruppo di Lavoro DR
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Gruppo storage CCR Status Report Alessandro Brunengo CCR - Frascati
Summary di (quasi) tutti gli utenti non presentati…
dCache Test effettuati al CNAF
Riunione INFN – Bologna, 17 January 2013
Monitoring e loadbalancing dei servizi Grid
INFN-Bari.
Metodologie Quantitative per il Calcolo Scientifico
Reparto Storage: attivita’ 2010
Tiziana Ferrari (INFN CNAF), Luciano Gaido (INFN TO)
Risultati ultimi mesi Piano di lavoro prossimi mesi Reclutamento
Installazione Storage 2016
Cloud per HA nei Servizi
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Stato tape CDG 6/10/2016.
Servizi per CCRC, INFN Grid release, stato dei servizi centrali e T2
From 8 to 80 boxes. From FBSNG to Condor CPU Satura !
Assegnazione risorse Stato INFN CNAF,
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
INDIGO-DataCloud MidnightBlue Tutorial Days
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Tier 2 Legnaro-Padova Update luglio 2010
Aggiornamenti dal Tier-1
Aggiornamento sullo stato del Tier-2 di Catania
Nuove funzionalità e futura implementazione nella Sezione di Trieste
Attvità Computing – Inverno 08/09
Care and Feeding of the ALICE Grid
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
Portal Architecture Data Management
Belle II Computing: Accesso alle risorse di storage via http/webdav
CMS.
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Job Application Monitoring (JAM)
ONEDATA - distributed data caching -
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Da circa 10 anni il fornisce agli utenti dei labs, che ne facciano richiesta, un servizio di storage via NFS. Come T2 viene fornito da qualche.
PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno
La richiesta si basa sulle seguenti considerazioni:
Job Management Systems ovvero
IA2 Massimo Sponza IA2 – Osservatorio Astronomico di Trieste 2018 ICT Workshop - Catania.
Storage and Data management Vladimir Sapunenko
Transcript della presentazione:

Luca dell’Agnello 28 Agosto 2007 Storage Luca dell’Agnello 28 Agosto 2007

Reparto storage Gestione sistemi disco, tape Storage Area Network CASTOR, GPFS/StoRM Installazione, validazione, configurazione ed amministrazione Sistemi di storage e disk-server Gestione interfacce grid (e.g. SRM) Installazione, configurazione, gestione db Cataloghi (LFC), FTS, CASTOR, VOMS Conditions e configuration database (Atlas e LHCb) Gestione servizi FTS, LFC (sinergia con SA1)

Personale Giuseppe Lo Re (100%) – temporaneo (art. 23) SCAD. Nov. 07 CASTOR, SRM, FTS, NAGIOS Barbara Martelli (100%) – temporaneo (art. 23) SCAD. Nov. 07 DB, LFC Vladimir Sapunenko (100%) – temporaneo (art. 23) SCAD. Feb 08 GPFS, SAN, StoRM Dejan Vitlacil (100%) – temporaneo (AR) SCAD. Q3 08 CASTOR, libreria, SRM, MONITORING, ACCOUNTING 1 FTE assistenza db – da rinnovare DB Antimo D’Apice (100%) – temporaneo (co.co.pro.) SCAD. Dic. 07 Assistenza hw, SAN, tape-server, libreria Daniele Gregori (100%) – temporaneo (AR) SCAD. Q2 09 Back-up, assistenza hw, CASTOR Pier Paolo Ricci (100%) – permanente SAN, libreria, CASTOR Luca dell’Agnello – permanente

Storage classes @ CNAF Implementation of 3 (2) Storage Classes needed for LHC Disk0Tape1 (D0T1)  CASTOR Space managed by system Data migrated to tapes and deleted from when staging area full Disk1tape0 (D1T0)  GPFS/StoRM Space managed by VO Disk1tape1 (D1T1)  CASTOR Space managed by VO (i.e. if disk is full, copy fails) Large buffer of disk with tape back-end and no gc

CASTOR 1 istanza di produzione + 1 istanza di test Istanza di test Name-server comune Istanza di test Test di upgrade, test srm 2.2 1 stager, 2 disk-server, 3 server con srm v. 2.2 Istanza produzione 4 server infrastruttura (stager, lsf, dlf, name-server) 2 server per db (name server, stager) 1 server per acsls (gestione libreria) 1 libreria STK L5500 (1 PB on-line) 12 tape server (7 9940b + 3 in ordine + 5 LTO2) 8 server srm v. 1.1 45 disk-server Sistema di monitoraggio/allarmistica (nagios) in funzione In test LEMON (disponibili alcuni sensori specifici per CASTOR)

CASTOR Setup (1) SAN 13 tape servers Core services are on machines with scsi disks, hardware raid1, redundant power supplies tape servers and disk servers have lower level hardware, like WNs Sun Blade v100 with 2 internal ide disks with software raid-1 running ACSLS 7.0 OS Solaris 9.0 45 disk servers attached to a SAN full redundancy FC 2Gb/s or 4Gb/s (latest...) connections (dual controller HW and Qlogic SANsurfer Path Failover SW or Vendor Specific Software) STK L5500 silos (5500 slots, partitioned wth 2 form-factor slots, about 2000 LTO2 for and 3500 9940B, 200GB cartridges, tot capacity ~1.1PB non compressed ) 6 LTO2 + 7 9940B drives, 2 Gbit/s FC interface, 20-30 MB/s rate (3 more 9940B going to be acquired). SAN 13 tape servers STK FlexLine 600, IBM FastT900, EMC Clarion …

CASTOR Setup (2) Name server Oracle DB (Oracle 9.2) CASTOR core services v2.1.3-15 on 4 machines Name server Oracle DB (Oracle 9.2) castor-6: rhserver, stager, rtcpclientd, MigHunter, cleaningDaemon Stager Oracle DB (Oracle 10.2) 2 SRMv1 endpoints, DNS balanced: srm://castorsrm.cr.cnaf.infn.it:8443 (used for disk pools with tape backend) srm://sc.cr.cnaf.infn.it:8443 (used for disk-only pool for atlas) srm://srm-lhcb durable.sc.cr.cnaf.infn.it (used as disk-only pool for lhcb) 1 SRMv22 endpoint: srm://srm-v2.cr.cnaf.infn.it:8443 castorlsf01: Master LSF, rmmaster, expert dlf01: dlfserver, Cmonit, Oracle for DLF castor-8: nsdaemon, vmgr, vdqm, msgd, cupvd 2 more machines for the Name Server and Stager DB

CASTOR Setup (3) Svc class Exp Disk pool Disk-servers Size (TB) alice 4 24 cms CMS cms1 12 110 atlas ATLAS atlas1 3 17 atlasdisk atlas1disk 118 lhcb LHCb lhcb1 11 lhcbdisk lhcb1disk 5 36 argo ARGO argo1 1 13 ams AMS ams1 pamela PAMELA pamela1 magic MAGIC archive1 2 condivisi 1.6 babar BABAR lvd LVD virgo VIRGO cdf CDF

Problemi con CASTOR Da prestazioni molto buone ….. 500/770 MB/s sustained/peak write … a instabilita’/inefficienze frequenti plugin rmmaster/LSF melt-down se # PEND jobs ≥ 1000 prepareToGet e putDone generano job LSF “inutili” Amministrazione catalogo stager necessita intervento manuale su db gsiftp is an external protocol. No way to tune parameters on the protocol (rfio, gsiftp) basis in order to limit disk servers load properly. Only possible modify the # LSF slots but it is not enough. GridFtp v2 will come as internal protocol, like rfio, but is not near. doc still poor Supporto ‘disk-only’ ancora non maturo Lentezza cancellazione file ATLAS ha impiegato giorni per liberare ~ 6 TB Draining dischi molto lento 2 Luglio 2007

Upgrade di CASTOR (1) Upgrade da v2.1.1-9 a 2.1.3-15. (9-11 Luglio) Nuovo plugin LSF - carico su db Oracle molto inferiore  Stabilita’ migliorata: non si verificano piu’ crash di rmmaster  Limite job passato da 1000 a 30000 Non vengono generati piu’ job per prepareToGet e putDone Le prestazioni sono soddisfacenti, tipicamente proporzionali alla quantita’ di disk server. Anche I/O su tape piu’ stabile. Pausa nei trasferimenti di CMS Accesso ai tape

Upgrade di CASTOR (2) Gestione dei pool DISK1TAPE0 ancora problematica  quando si riempie lo spazio disco le richieste vengono comunque accodate quasi impossibile per l’utente cancellare file da disco Altre issue: Necessario bilanciamento “manuale” carico disk servers. monitoring dei disk-server per evitare crash per sovraccarico Da studiare metodo per redistribuire i file piu’ richiesti recall da tape non ancora efficiente (vedi slide successive) Spesso necessario intervento manuale del gestore (anche su DB dello stager) Possibili inconsistenze tra catalogo dello stager e name server (i.e. file presenti su disco ma non nel piu’ name server) Rimozione file tramite procedure (lunghe e pesanti) tabelle del catalogo dello stager tendono ad esplodere. Cleaningdaemon non sufficientemente aggressivo procedure periodiche di cleanup (anche queste procedure sono pesanti e rischiano di degradare le prestazione dello stager) Repack ancora non supportato

Problemi recall da tape Tempistica dell'operazione e dinamica di gestione dell'operazione da parte dello stager impredicibili Variabilita' tempistica di esecuzione del recall legata a problemi di gestione del catalogo (bug: https://savannah.cern.ch/bugs/?17792) In tutti i diversi casi di errore (e.s. errori hw dei drive, o problemi di comunicazione tra le macchine di CASTOR, o temporanea indisponibilita' del disk server scelto per il recall, o problemi di accesso al filesystem scelto per il recall, etc..) lo stager dichiara fallito il recall  tuute le successive richieste rimangono in attesa fino all’interveto dell'amministratore stager effettua recall non necessariamente sul server piu' vuoto: se file viene scritto su volume con occupazione prossima al 90%, e’ altamente probabile che venga cancellato dal gc Caso dei job di merge di CMS (Agosto 2007) CMS usa solo SC T1D0 (esperienza di CSA06 con T0D1 di CASTOR ha dimostrato inadeguatezza)  necessario recall da tape file per job di merge Failure di recall di (almeno) 10%  ecatombe di job T1D0 non “ottimale” per questo uso (servirebbe D1T0)

Workaround per problema recall Implementazione procedura per forzare recall 2 tipologie principali di problemi generazione lista tape che nel catalogo dello stager risultano in stato FAILED contenenti file in stato WAITPERRECALL da troppo tempo (> 6 h) query sul db per estrarre tutti i file in questo stato ed individuare tape modifica stato dei tape da FAILED a PENDING per forzare il retry statisticamente ~ 50% recall file hanno successo generazione lista aggiornata e si forza il gc azione su db: si pone in GCCANDIDATE la replica su cache in stato WAITPERRECALL Si effettua restart della richiesta In studio differenziazione policy del gc in base alle diverse classi di file (eventualmente usare la SC D1T0). Settembre (G Lo Re, DB per CMS)

Problemi trasferimento CMS Problemi legati a CASTOR, dCache e FTS Configurazione di default del canale FTS, globus-url-copy, provoca, con l'accoppiata dcache/castor, un rate di trasferimento molto basso che produce timeout in FTS e/o Phedex senza evidenziare errori srm o gridftp. Problemi osservati da LHCb (senza Phedex) anche tra CERN e PIC Necessario variare la modalita’ di trasferimento da globus-url-copy a srmcopy. Modifica effettuta sui canali FTS PISA-T1, BARI-T1 e LEGNARO-T1 Calo efficienza dei server FTS carico eccessivo della CPU del cluster di back-end Oracle Attivata procedura puliza il db (sposta storico in tabella apposita) Problemi db CASTOR Entry spurie in db name service CASTOR Presenza file di dimensione 0 (dovuti a trasferimenti falliti) Provoca ulteriori fallimenti (tutte le ripetizioni) Phedex dovrebbe ripulire Entry spurie in db stager Pulizia sistematica effettuata Problema cache DNS di dCache (VM java) End-point CASTOR bilanciato via DNS Cache DNS non viene invalidata e quindi viene usato sempre solito end-point 2 Luglio 2007

“Task force” trasferimenti T1   T2 CMS Attivita’ congiunta CMS, T2, T1, SA1 Debug canali FTS T1   T2 Validazione “continua” Nessun end-point e’ perfettamente stabile Attivita’ in corso Procedura “oliata” ma articolata e time-consuming Da integrare con canali ATLAS

Strategia a lungo termine Attualmente setup molto semplice: un solo disk pool per SC per esperimento Occorre: diversificare policy del Migrator e del Garbage collector in funzione del tipo di file (lavoro in corso) eventualmente differenziare i disk pool tra quelli dedicati ai trasferimenti e quelli dedicati all’accesso dai WN. Necessario aumentare no. disk-server Installazione stager dedicato per esperimenti maggiori Esperienza di RAL da analizzare Issue della migrazione Issue del management NON ESISTE INTERFACCIA AMMINISTRAZIONE Implementazione D1T0 con GPFS/StoRM

Test di validazione infrastruttura storage LHC is coming  Last chance to finalize the technical issues of our setup Need to validate and perform final tests of CNAF storage infrastructure Validation of network interconnection with the farm Validation the SAN setup Validation of new hardware (EMC CX3-80) Storage system tuning and performance measurement CASTOR GPFS/StoRM Get use of Large file system with GPFS (>100 TB) Test of other storage systems (mainly for Tier2s) Xrootd dcache

Test-bed layout 1 Gbps 1 Gbps BD 1 Gbps

Sequential I/O throughput 5GB files (block size=64K) ~1100 CPU slots 8 wn racks 16 Gbps network available Read Write

A real analysis case: LHCb DaVinci 1000 analysis jobs running on production farm and accessing data via dCache, Xrootd and GPFS Network stats reported Test Total time [s] Avarage CPU usage (%) GPFS 9500 36.43 Dcache 14500 22.69 Xrootd 16000 21.17

Sequential I/O throughput summary Test TB tbt Transf. TB TB Network Disk Net Ratio Efficiency (%) Average Network Rate (GB/s) GPFS 5.29 5.21 5.56 0.94 98.43 1.16 Castor 4.52 4.49 4.89 0.92 99.37 0.82 Dcache 5.24 5.22 5.43 0.96 99.51 0.77 Xrootd 5.59 100.00 0.85 write Test TB tbt Transf. TB TB Network Disk Net Ratio Efficiency (%) Average Network Rate (GB/s) GPFS 5.21 5.53 0.94 100.00 1.43 Castor 4.49 4.11 4.37 91.58 1.13 Dcache 10.44 10.18 10.71 0.95 97.52 1.29 Xrootd 10.49 11.10 99.54 1.00 read TB tbt: foreseen TB based on the number of jobs effectively running Transferred TB : TB written on disk Efficiency: percentage of effectively transferred files Average Network Rate (GB/s): mean of 5 mns. mean values

GPFS Total 286 TB 29 disk-servers 20 file-systems off-line (due to HW failure) 8 TB 29 disk-servers 20 file-systems file-system size (min/max): 4/48 TB Disk-server/file-system (min/max) 2/4 File-system parallelo Ridondanza nell’accesso allo storage Fail-over efficiente Accesso nativo (POSIX) da wn Test LHCb, BABAR (70 TB da xrootd a GPFS)

Test con srm 2.2 End-point CASTOR e StorRM per PPS 2 server per CASTOR 4 server gridftp/GPFS, 2 server FE StoRM, 1 BE StoRM (Mysql) Test in corso (LHCb, successivamente ATLAS e CMS) LHCb ha gia’ effettuato throughput e stress test con StoRM (slide successive) Test dCache IN2P3  StoRM CNAF per VIRGO Per trasferimento dati LIGO Setup completato fine Luglio Test dCache srm 1.1 BARI   StoRM CNAF Primi test funzionalita’ in corso

StoRM: test trasferimento Sequenza test: prepareToPut, polling requestStatus, globus-url-copy, putDone, ls (per verificare la size del file trasferito) Rate CERN  CNAF: 360 MB/s Circa 20 TB trasferiti

StoRM: test di cancellazione 18 TB sono stati rimossi in circa 1600 secondi, (~ 27 minuti). L'effetto a gradini e' dovuto alla velocita' di aggiornamento dello spazio libero di GPFS, che ritarda qualche secondo. La rate di cancellazione e' praticamente costante Importante controllare in modo efficiente e rapido l'occupazione dello spazio disco

Evoluzione sistemi di storage Articolazione risorse CASTOR - Lo Re, Ricci, Dejan Differenziazione policy gc e “migratore” Settembre Splitting STAGER da concordare con gli exp Specializzazione disk-pool Q4 Consolidamento CASTOR - Ricci, Dejan, Martelli Ridondanza servizi principali (load balancing via DNS) Q1 08 Migrazione su RAC dei db (stager, ns) SLIDE SUCCESIVA GPFS - Vladimir + StoRM Test spostamento dati tra CASTOR e StoRM Settembre Test integrazione con storage pool esterno (es. CASTOR) Migrazione a SRM 2.2 - Giuseppe, Dejan, Vladimir Ottobre Migrazione a FTS 2 – SA1, Dejan Settembre

Database: Stato e sviluppi Db componente essenziale vari servizi (CASTOR, FTS, LFC etc…) Attivita’ in ambito LCG3D Tutti i db sono sotto backup con tool specifico (RMAN) Cluster per CASTOR – in fase di acquisto Attualmente db installati su server singoli (db sotto back-up) Upgrade 10g db ns CASTOR singola istanza Ottobre Cluster Grid FTS (migrazione a FTS 2 prevista per prima settimana Settembre) LFC “locale” (Atlas, Alice) Cluster per ATLAS (Repliche dei condition database) Effettuato con successo test di recovery del fallimento streams Stress test eseguiti da ATLAS sulla replica del CNAF La replica e’ risultata stabile, supporta fino a 75 job simultanei, 1000 job all’ora senza sostanziale degrado delle prestazioni. Ulteriori test in corso. Aggiunta del terzo nodo prevista Ottobre. Cluster per LHCb (LFC/Repliche dei condition database) installato Da migrare su nuovo hw - Settembre Cluster per LEMON - Settembre Test di replicazione VOMS Testbed locale con master e replica database replicati via Streams. Testbed consegnato agli sviluppatori per i functionality test. Setup CERN – CNAF Q4.

Prossimi acquisti In ordine espansione CX3-80 (~ 200 TB) Operativo per fine Q3 Da indagare possibilita’ acquisto DAS (per CASTOR) Avviata procedura per acquisto tape (su ME) Espansione storage/ # server per database (indagine di mercato in corso) Nel 2008 pledged 2. PB disco, 2.1 PB tape + non LHC Da acquistare ~ 2 PB raw disco Nuova libreria per soddisfare requisiti exp LHC (e non LHC) L5500 contiene tape per un massimo di 1 PB on line 2 soluzioni possibili: SUN SL8500 10000 slots (currently for 500 GB tapes 1 TB in 18 months) and up to 80 T10000 drives IBM 3584 7000 slots (currently for 500 GB tapes) Richiesta approvata dal CD Luglio