La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Reparto Storage: attivita’ 2010

Presentazioni simili


Presentazione sul tema: "Reparto Storage: attivita’ 2010"— Transcript della presentazione:

1 Reparto Storage: attivita’ 2010
Luca dell’Agnello 3 Dicembre 2010

2 Risorse umane gruppo storage
position FTE (%) contract expiration Luca dell’Agnello I liivello 50 (+ 50 in UF-T1) Tempo indet. Pier Paolo Ricci III livello 85 (+ 15 in infrastruttura) Barbara Martelli 10 (+ 90 su S.I.) Vladimir Sapunenko 100 Elisabetta Ronchieri 85 (+15 formazione) Alessandro Cavalli CTER VI livello Stefano dal Pra’ Art. 23(stabilizzabile) Michele di Benedetto VI livello Art. 23 Riccardo Zappi Stefano Antonelli Assegnista AR Daniele Gregori Andrea Prosperini CTER. E.R. – Responsabile formazione; PPR – RLS; PPR,AC – Rappresentati personale

3 Compiti reparto storage
Data management Gestione sistemi disco, tape GEMSS (StoRM/GPFS/TSM), CASTOR (in dismissione) Installazione, validazione, configurazione hw Gestione interfacce grid (e.g. SRM. gridftp) Installazione, configurazione, gestione db Collaborazione con gruppo LCG3D Cataloghi (LFC), FTS, CASTOR Conditions e configuration database (Atlas e LHCb) Gestione servizio FTS (in cooperazione con gruppo grid) Sviluppo, test e supporto GEMSS e StoRM GEMSS (solo al T1) StoRM (~ 40 siti)

4 Sistemi storage (1) Sistemi disco organizzati in Storage Area Network (SAN) Infrastruttura in continua espansione Gestione 24 switch FC (di cui 4 installati nel 2010) Gestione sistemi disco, librerie (compresa gestione interventi assistenza) 24 sistemi disco (5 installati e 6 dismessi nel 2010) ~ 7.0 PB-N disco (+ 5 PB-N nel 2010) organizzati in 8 cluster GPFS 0.4 PB in CASTOR (in dismissione!) Area sw (CNFS) ~ 200 (+40 nel 2010) disk-server 2 tape libraries SL8500 (20+8 tape drivers, fino a 10 PB on-line) Miglioramento ridondanza di collegamenti di rete SL5500 (16 drive + 1 PB on-line) In dismissione Repack dati su nuova libreria (da CASTOR a GEMSS)

5 Sistemi storage (2) Finalizzazione gara storage 2010
Installazione/collaudo/configurazione nuovi apparati storage, switch, server Studio ottimizzazione configurazione server 10 Gbit Configurazione e tuning GPFS Riorganizzazione spazio disco Dismissione apparati fuori manutenzione ~ 2 PB dati migrati “a caldo” Es.: disk-server di Atlas Installazione nuovo storage (8 NSD) Riconfigurazione rete 18 NSD

6 StoRM/GPFS/TSM (a.k.a. GEMSS)
Sistema storage principale del Tier1 exp LHC ma anche CDF, BABAR, AMS, ARGO, PAMELA etc… Phase out CASTOR (entro 2010) Migrati completamente da CASTOR: Alice, Atlas, LHCb, AMS (CMS migrato Ottobre 2009) In corso per gli altri exp Gestione servizio GEMSS Installazione/configurazione/gestione GPFS Individuazione ed eliminazione single point of failures (es, switch) Installazione/configurazione/gestione endpoint StoRM, server gridftp Attivita’ di debug StoRM su istanze con supporto tape Installazione/configurazione/gestione TSM Consolidamento componente HSM, verifica procedure recovery server Sviluppo/test Preparazione test-bed completo per GEMSS

7 Gestione database Attivita’ svolta in collaborazione con il gruppo WLCG 3D (comprendente tutti i Tier1 WLCG ed il CERN) 18 server, 15 dei quali organizzati in 6 cluster. ~24 istanze database. Availability 99.9% 2 cluster, ~10 server disponibili per attivita’ di test ~ 40 TB raw storage complessivo

8 Altre attivita’ Backup servizi Supporto/sviluppo allarmistica
Home dir utenti, servizi di base, database Supporto/sviluppo allarmistica Sviluppo nuovi allarmi specifici (e.g. WAITERS GPFS) Consolidamento (attivita’ trasversale) con dashboard T1 Supporto/sviluppo monitoring Sviluppo sensori LEMON (i.e. link FC, GPFS, TSM, area sw) Ulteriori sensori (TSM) in studio

9 Storm

10 StoRM 2010 - Releases 02/2010 : uscita major release 1.5
Supporto al TAPE con GPFS-TSM Servizio “Checksummer” (standalone e gridftp-dsi) 03/2010 : uscita 1.5.1 04/2010 : uscita 1.5.2 07/2010 : uscita 1.5.3 08/2010 : uscita 1.5.4 09/2010 : uscita 10/2010 : uscita 1.5.5 11/2010 : uscita 1.5.6 Revision release ogni mese circa Bug fixing, minor enhancements la maggior parte delle segnalazioni e delle esigenze provengono dal Tier-1 5/9/2018

11 StoRM 2010 - Instances 49 istanze in produzione
Alcune in testing (e.g. Canada) 34 istanze Italiane 30 istanze INFN 10 istanze al CNAF (9 Tier-1) INAF, UniPG, Cybersar (CA) 15 istanze all’estero UK : QMUL ES : IFIC, IFCA PT : LIP, INGRID NL : RUG IL : TAU GR : FORTH JP : KEK CA(*) : in test 5/9/2018

12 StoRM 2010 – Man power Funded in EU projects e 100% StoRM
01/2010 a 03/ : A.Forti e R.Zappi 04/ : R.Zappi 05/2010 a 12/ : M.Dibenedetto e R.Zappi Unfunded 01/2010 a 12/2010 : E.Ronchieri (~ 50% in StoRM) 05/2010 a 12/2010 : S.Dalpra (~ 10% in StoRM) IG-Release efforts in StoRM 01/2010 a 12/2010 : C.Aiftimiei e S.Traldi “burst mode” 5/9/2018

13 Osservazioni Migliorata ridondanza servizi
Ancora alcuni single point of failure (BE StoRM, TSM server) BE StoRM particolarmente critico (cold-spare disponibile) Virtualizzazione alcuni servizi (da indagare) Verifica dettagliata configurazione servizi e procedure Miglioramento/standardizzazione procedura upgrade “a caldo” Individuazione eventuali punti deboli Revisione procedura passaggio in produzione nuovo hw Evitare down accidentali (es. CMS) Tiered storage? Rivedere strategia per i db Necessario consolidamento test-bed per GEMSS Test di tutta la catena per verifica nuove versioni Necessario trovare modo di conciliare sviluppo StoRM secondo piani EMI con esigenze Tier1 (es. supporto tape) RINGRAZIO TUTTE LE PERSONE DEL GRUPPO (e VINCENZO VAGNONI) PER IL GRANDE IMPEGNO PROFUSO DURANTE TUTTO IL 2010

14 Some experiments are using disk storage as archive
850TB of data was not used for > 6 month 583TB of data (i.e. 3 CX) was not used for > 1 year

15 BACKUP SLIDES

16 Es.: schema del MSS per CMS
8x10 Gbps 2 GridFTP servers (2x10 Gbps WAN) 6 NSD servers (6x10 Gbps LAN) 2 metadata servers (2x1 Gbps) Nexus 20x4 Gbps 8x4 Gbps SAN 1.8 PB GPFS file system 6x4 Gbps StoRM end-point 1 BE, 2 FE HSM STA 3 TSM Storage Agents and HSM clients DB2 3x4 Gbps TAPE LIBRARY 12 tape drives 1 TB per tape 1 Gbps per drive SAN TAN TSM server DB2 12x4 Gbps 16 16 16

17 Robustezza e criticita’: StoRM/GPFS/TSM (1)
FE ridondato (min. 2 instanze per end-point) BE non ridondabile (previsto in una futura release) Server BE su hw ridondato doppio alimentatore raid 1 su disco di sistema Ipmi per controllo remoto Script restart automatico Disponibile BE cold-spare (dedicato per exp maggiori, condiviso per altri) Db (solitamente su BE) in teoria ridondabile con cluster mysql Ma perdita del db non e’ bloccante Dipendenza: GPFS e TSM per la lettura da tape GPFS Tutti disk-server (manager, NSD, gridftp) ridondanti Perdita di parte degli elementi degrada il servizio senza interromperlo Viene segnalato errore su dashboard a seconda di percentuale elementi fuori servizio

18 Robustezza e criticita’: StoRM/GPFS/TSM (2)
GPFS (continua) Disk-server ridondati a livello hw raid su disco di sistema doppio alimentatore Doppia connessione verso la SAN Non tutti ridondati a livello di rete (preferenza a bonding) TSM HSM client ridondanti (almeno 2 per VO) Server TSM unico su server con hw ridondato Server non ridondabile a caldo (cold spare pronto) Attivo ipmi per controllo remoto Db TSM su sistema storage ridondato Backup db attivo (disco/tape) Permette recupero situazione fino all’ultima transazione

19 Robustezza e criticita’: i database
LFC – server ridondati (anche a livello db) Database – ridondati come server tramite RAC Backup su disco dei db (da attivare su TSM) Acquisizione licenza in corso Perdita pacchetti UDP interconnessioni server rete management RAC Test Jumboframe in corso Unico switch per interconnessione interfacce private server Cluster principali collegati a centro stella

20 Robustezza e criticita’: CASTOR
CASTOR (exp non WLCG) hw ridondato funzionamento database critico (nameserver, stager, dlf) Disk-server teoricamente non critici (dati su tape) Srm completamente ridondato In dismissione entro 2010


Scaricare ppt "Reparto Storage: attivita’ 2010"

Presentazioni simili


Annunci Google