Reparto Storage: attivita’ 2010 Luca dell’Agnello 3 Dicembre 2010
Risorse umane gruppo storage position FTE (%) contract expiration Luca dell’Agnello I liivello 50 (+ 50 in UF-T1) Tempo indet. Pier Paolo Ricci III livello 85 (+ 15 in infrastruttura) Barbara Martelli 10 (+ 90 su S.I.) Vladimir Sapunenko 100 Elisabetta Ronchieri 85 (+15 formazione) Alessandro Cavalli CTER VI livello Stefano dal Pra’ Art. 23(stabilizzabile) 31.12.2012 Michele di Benedetto VI livello Art. 23 31.10.2011 Riccardo Zappi Stefano Antonelli Assegnista AR 02.09.2011 Daniele Gregori 22.05.2011 Andrea Prosperini CTER. 31.01.2011 E.R. – Responsabile formazione; PPR – RLS; PPR,AC – Rappresentati personale
Compiti reparto storage Data management Gestione sistemi disco, tape GEMSS (StoRM/GPFS/TSM), CASTOR (in dismissione) Installazione, validazione, configurazione hw Gestione interfacce grid (e.g. SRM. gridftp) Installazione, configurazione, gestione db Collaborazione con gruppo LCG3D Cataloghi (LFC), FTS, CASTOR Conditions e configuration database (Atlas e LHCb) Gestione servizio FTS (in cooperazione con gruppo grid) Sviluppo, test e supporto GEMSS e StoRM GEMSS (solo al T1) StoRM (~ 40 siti)
Sistemi storage (1) Sistemi disco organizzati in Storage Area Network (SAN) Infrastruttura in continua espansione Gestione 24 switch FC (di cui 4 installati nel 2010) Gestione sistemi disco, librerie (compresa gestione interventi assistenza) 24 sistemi disco (5 installati e 6 dismessi nel 2010) ~ 7.0 PB-N disco (+ 5 PB-N nel 2010) organizzati in 8 cluster GPFS 0.4 PB in CASTOR (in dismissione!) Area sw (CNFS) ~ 200 (+40 nel 2010) disk-server 2 tape libraries SL8500 (20+8 tape drivers, fino a 10 PB on-line) Miglioramento ridondanza di collegamenti di rete SL5500 (16 drive + 1 PB on-line) In dismissione Repack dati su nuova libreria (da CASTOR a GEMSS)
Sistemi storage (2) Finalizzazione gara storage 2010 Installazione/collaudo/configurazione nuovi apparati storage, switch, server Studio ottimizzazione configurazione server 10 Gbit Configurazione e tuning GPFS Riorganizzazione spazio disco Dismissione apparati fuori manutenzione ~ 2 PB dati migrati “a caldo” Es.: disk-server di Atlas Installazione nuovo storage (8 NSD) Riconfigurazione rete 18 NSD
StoRM/GPFS/TSM (a.k.a. GEMSS) Sistema storage principale del Tier1 exp LHC ma anche CDF, BABAR, AMS, ARGO, PAMELA etc… Phase out CASTOR (entro 2010) Migrati completamente da CASTOR: Alice, Atlas, LHCb, AMS (CMS migrato Ottobre 2009) In corso per gli altri exp Gestione servizio GEMSS Installazione/configurazione/gestione GPFS Individuazione ed eliminazione single point of failures (es, switch) Installazione/configurazione/gestione endpoint StoRM, server gridftp Attivita’ di debug StoRM su istanze con supporto tape Installazione/configurazione/gestione TSM Consolidamento componente HSM, verifica procedure recovery server Sviluppo/test Preparazione test-bed completo per GEMSS
Gestione database Attivita’ svolta in collaborazione con il gruppo WLCG 3D (comprendente tutti i Tier1 WLCG ed il CERN) 18 server, 15 dei quali organizzati in 6 cluster. ~24 istanze database. Availability 99.9% 2 cluster, ~10 server disponibili per attivita’ di test ~ 40 TB raw storage complessivo
Altre attivita’ Backup servizi Supporto/sviluppo allarmistica Home dir utenti, servizi di base, database Supporto/sviluppo allarmistica Sviluppo nuovi allarmi specifici (e.g. WAITERS GPFS) Consolidamento (attivita’ trasversale) con dashboard T1 Supporto/sviluppo monitoring Sviluppo sensori LEMON (i.e. link FC, GPFS, TSM, area sw) Ulteriori sensori (TSM) in studio
Storm
StoRM 2010 - Releases 02/2010 : uscita major release 1.5 Supporto al TAPE con GPFS-TSM Servizio “Checksummer” (standalone e gridftp-dsi) 03/2010 : uscita 1.5.1 04/2010 : uscita 1.5.2 07/2010 : uscita 1.5.3 08/2010 : uscita 1.5.4 09/2010 : uscita 1.5.4-6 10/2010 : uscita 1.5.5 11/2010 : uscita 1.5.6 Revision release ogni mese circa Bug fixing, minor enhancements la maggior parte delle segnalazioni e delle esigenze provengono dal Tier-1 5/9/2018
StoRM 2010 - Instances 49 istanze in produzione Alcune in testing (e.g. Canada) 34 istanze Italiane 30 istanze INFN 10 istanze al CNAF (9 Tier-1) INAF, UniPG, Cybersar (CA) 15 istanze all’estero UK : QMUL ES : IFIC, IFCA PT : LIP, INGRID NL : RUG IL : TAU GR : FORTH JP : KEK CA(*) : in test 5/9/2018
StoRM 2010 – Man power Funded in EU projects e 100% StoRM 01/2010 a 03/2010 : A.Forti e R.Zappi 04/2010 : R.Zappi 05/2010 a 12/2010 : M.Dibenedetto e R.Zappi Unfunded 01/2010 a 12/2010 : E.Ronchieri (~ 50% in StoRM) 05/2010 a 12/2010 : S.Dalpra (~ 10% in StoRM) IG-Release efforts in StoRM 01/2010 a 12/2010 : C.Aiftimiei e S.Traldi “burst mode” 5/9/2018
Osservazioni Migliorata ridondanza servizi Ancora alcuni single point of failure (BE StoRM, TSM server) BE StoRM particolarmente critico (cold-spare disponibile) Virtualizzazione alcuni servizi (da indagare) Verifica dettagliata configurazione servizi e procedure Miglioramento/standardizzazione procedura upgrade “a caldo” Individuazione eventuali punti deboli Revisione procedura passaggio in produzione nuovo hw Evitare down accidentali (es. CMS) Tiered storage? Rivedere strategia per i db Necessario consolidamento test-bed per GEMSS Test di tutta la catena per verifica nuove versioni Necessario trovare modo di conciliare sviluppo StoRM secondo piani EMI con esigenze Tier1 (es. supporto tape) RINGRAZIO TUTTE LE PERSONE DEL GRUPPO (e VINCENZO VAGNONI) PER IL GRANDE IMPEGNO PROFUSO DURANTE TUTTO IL 2010
Some experiments are using disk storage as archive 850TB of data was not used for > 6 month 583TB of data (i.e. 3 CX) was not used for > 1 year
BACKUP SLIDES
Es.: schema del MSS per CMS 8x10 Gbps 2 GridFTP servers (2x10 Gbps WAN) 6 NSD servers (6x10 Gbps LAN) 2 metadata servers (2x1 Gbps) Nexus 20x4 Gbps 8x4 Gbps SAN 1.8 PB GPFS file system 6x4 Gbps StoRM end-point 1 BE, 2 FE HSM STA 3 TSM Storage Agents and HSM clients DB2 3x4 Gbps TAPE LIBRARY 12 tape drives 1 TB per tape 1 Gbps per drive SAN TAN TSM server DB2 12x4 Gbps 16 16 16
Robustezza e criticita’: StoRM/GPFS/TSM (1) FE ridondato (min. 2 instanze per end-point) BE non ridondabile (previsto in una futura release) Server BE su hw ridondato doppio alimentatore raid 1 su disco di sistema Ipmi per controllo remoto Script restart automatico Disponibile BE cold-spare (dedicato per exp maggiori, condiviso per altri) Db (solitamente su BE) in teoria ridondabile con cluster mysql Ma perdita del db non e’ bloccante Dipendenza: GPFS e TSM per la lettura da tape GPFS Tutti disk-server (manager, NSD, gridftp) ridondanti Perdita di parte degli elementi degrada il servizio senza interromperlo Viene segnalato errore su dashboard a seconda di percentuale elementi fuori servizio
Robustezza e criticita’: StoRM/GPFS/TSM (2) GPFS (continua) Disk-server ridondati a livello hw raid su disco di sistema doppio alimentatore Doppia connessione verso la SAN Non tutti ridondati a livello di rete (preferenza a bonding) TSM HSM client ridondanti (almeno 2 per VO) Server TSM unico su server con hw ridondato Server non ridondabile a caldo (cold spare pronto) Attivo ipmi per controllo remoto Db TSM su sistema storage ridondato Backup db attivo (disco/tape) Permette recupero situazione fino all’ultima transazione
Robustezza e criticita’: i database LFC – server ridondati (anche a livello db) Database – ridondati come server tramite RAC Backup su disco dei db (da attivare su TSM) Acquisizione licenza in corso Perdita pacchetti UDP interconnessioni server rete management RAC Test Jumboframe in corso Unico switch per interconnessione interfacce private server Cluster principali collegati a centro stella
Robustezza e criticita’: CASTOR CASTOR (exp non WLCG) hw ridondato funzionamento database critico (nameserver, stager, dlf) Disk-server teoricamente non critici (dati su tape) Srm completamente ridondato In dismissione entro 2010