Reparto Storage: attivita’ 2010

Slides:



Advertisements
Presentazioni simili
Progetto Speciale Prototipo Tier1 F. Ruggieri INFN – CNAF I Workshop CMS Italia del SW e Computing Roma 22 Novembre 2001.
Advertisements

TISB - Pisa - P. Capiluppi Tier1-CNAF DC04 Activities and Status.
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Federico Ruggieri Riunione CSN1 PISA 22 Giugno 2004 Il Progetto TIER1 Status Update.
Alessandro Tirel - Sezione di Trieste Storage Area Network Riunione gruppo Storage Padova, 5 ottobre 2005.
Federico Ruggieri INFN-CNAF Commissione Scientifica Nazionale I Lecce 24 Settembre 2003 Il Progetto TIER1 Status Update.
Storage (ieri, oggi e domani) Luca dell’Agnello INFN-CNAF.
Report R.Gomezel CCR dicembre 2006 Roma.
1 Mirco Mazzucato Direttore del CNAF CNAF e Tier1 INFN Organizzazione, stato e risorse CSN1 - Pisa 16 Settembre 2008.
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
Tier1: stato del servizio Pietro Matteuzzi e Luca Dell’Agnello.
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
Virtualizzazione nell’INFN Andrea Chierici 11 Dicembre 2008.
Sistema Informativo. Mansioni Gestione della piattaforma hardware e sistemistica del sistema informativo INFN In realta’ il mansionario e’ in continua.
PRIN NAPOLI Enzo Capone, Gianpaolo Carlino, Alessandra Doria, Rosario Esposito, Leonardo Merola, Silvio Pardi, Arturo Sanchez Pineda.
CNAF e Tier 1 Presentazione alla Commissione Scientifica Nazionale 2 dell’ INFN 25 novembre 2013 G. Maron 1.
KLOE - Referee Luca Lista, Andrea Perrotta, Vincenzo Vagnoni.
Reparto Reti e Servizi Informatici Consuntivo per il 2010 CNAF, Stefano Zani INFN CNAF.
The INFN Tier-1: migrazione verso l’ampliamento Cristina Vistoli – INFN CNAF.
Gaetano Maron, Presentazione T2 LNL-Padova, Legnaro 22 dicembre Il centro di calcolo Tier2 di LNL-PD Gaetano Maron.
Stato dell’infrastruttura INFN CNAF, Stato dell’infrastruttura Impianti tecnologici Gli impianti di base stanno funzionando, ma sono urgenti.
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
Aggiornamenti gruppo WINDOWS CCR Riunione 5-7 ottobre 2010 Gianluca Peco.
20-21/03/2006Workshop sullo storage - CNAF Alessandro Brunengo.
Il calcolo ATLAS a Napoli nel 2014/2015

Infrastruttura cloud servizi realizzata nella Sezione di Napoli
Riccardo Veraldi - Massimo Donatelli CCR 3-4 Marzo 2008
Resoconto delle attività del Gruppo di Lavoro DR
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Gruppo storage CCR Status Report Alessandro Brunengo CCR - Frascati
I costi del Calcolo LHC un update –
Servizio Calcolo Alessandro Brunengo.
Luca dell’Agnello 28 Agosto 2007
Monitoring e loadbalancing dei servizi Grid
INFN-Bari.
Metodologie Quantitative per il Calcolo Scientifico
Risultati ultimi mesi Piano di lavoro prossimi mesi Reclutamento
Collegamento a Garr-X Il collegamento alla nuova rete Garr-X dovrà garantire il massimo della efficienza nella gestione della banda. Per identificare opportunamente.
Installazione Storage 2016
Collaudo della nuova struttura CORE del TIER1 e migrazione delle risorse dalla attuale infrastruttura di rete a quella nuova CDG – 07/12/2016.
Cloud per HA nei Servizi
Attivita’ e compiti del Servizio Impianti Calcolo e Reti
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Richieste preliminari calcolo non LHC
Stato tape CDG 6/10/2016.
Servizi per CCRC, INFN Grid release, stato dei servizi centrali e T2
Referaggi SST Riunione settembre 2017
Assegnazione risorse Stato INFN CNAF,
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Carbone, Gianoli, Mezzadri
Aggiornamenti dal Tier-1
Aggiornamento sullo stato del Tier-2 di Catania
Nuove funzionalità e futura implementazione nella Sezione di Trieste
Attvità Computing – Inverno 08/09
Care and Feeding of the ALICE Grid
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
Portal Architecture Data Management
Strutture informatiche e servizi nazionali
Stato dei lavori E. P..
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
Calcolo “locale” ATLAS-Mi
La richiesta si basa sulle seguenti considerazioni:
Managed Workplace RMM Il monitoraggio e la gestione da remoto (Remote Monitoring and Management) resi semplici. Ottieni gli strumenti e le conoscenze necessarie.
IA2 Massimo Sponza IA2 – Osservatorio Astronomico di Trieste 2018 ICT Workshop - Catania.
ATLAS PRIN Roma1 - status Alessandro De Salvo
Preventivi CCR 2018 INFN Roma Tor Vergata.
Storage and Data management Vladimir Sapunenko
Transcript della presentazione:

Reparto Storage: attivita’ 2010 Luca dell’Agnello 3 Dicembre 2010

Risorse umane gruppo storage position FTE (%) contract expiration Luca dell’Agnello I liivello 50 (+ 50 in UF-T1) Tempo indet. Pier Paolo Ricci III livello 85 (+ 15 in infrastruttura) Barbara Martelli 10 (+ 90 su S.I.) Vladimir Sapunenko 100 Elisabetta Ronchieri 85 (+15 formazione) Alessandro Cavalli CTER VI livello Stefano dal Pra’ Art. 23(stabilizzabile) 31.12.2012 Michele di Benedetto VI livello Art. 23 31.10.2011 Riccardo Zappi Stefano Antonelli Assegnista AR 02.09.2011 Daniele Gregori 22.05.2011 Andrea Prosperini CTER. 31.01.2011 E.R. – Responsabile formazione; PPR – RLS; PPR,AC – Rappresentati personale

Compiti reparto storage Data management Gestione sistemi disco, tape GEMSS (StoRM/GPFS/TSM), CASTOR (in dismissione) Installazione, validazione, configurazione hw Gestione interfacce grid (e.g. SRM. gridftp) Installazione, configurazione, gestione db Collaborazione con gruppo LCG3D Cataloghi (LFC), FTS, CASTOR Conditions e configuration database (Atlas e LHCb) Gestione servizio FTS (in cooperazione con gruppo grid) Sviluppo, test e supporto GEMSS e StoRM GEMSS (solo al T1) StoRM (~ 40 siti)

Sistemi storage (1) Sistemi disco organizzati in Storage Area Network (SAN) Infrastruttura in continua espansione Gestione 24 switch FC (di cui 4 installati nel 2010) Gestione sistemi disco, librerie (compresa gestione interventi assistenza) 24 sistemi disco (5 installati e 6 dismessi nel 2010) ~ 7.0 PB-N disco (+ 5 PB-N nel 2010) organizzati in 8 cluster GPFS 0.4 PB in CASTOR (in dismissione!) Area sw (CNFS) ~ 200 (+40 nel 2010) disk-server 2 tape libraries SL8500 (20+8 tape drivers, fino a 10 PB on-line) Miglioramento ridondanza di collegamenti di rete SL5500 (16 drive + 1 PB on-line) In dismissione Repack dati su nuova libreria (da CASTOR a GEMSS)

Sistemi storage (2) Finalizzazione gara storage 2010 Installazione/collaudo/configurazione nuovi apparati storage, switch, server Studio ottimizzazione configurazione server 10 Gbit Configurazione e tuning GPFS Riorganizzazione spazio disco Dismissione apparati fuori manutenzione ~ 2 PB dati migrati “a caldo” Es.: disk-server di Atlas Installazione nuovo storage (8 NSD) Riconfigurazione rete 18 NSD

StoRM/GPFS/TSM (a.k.a. GEMSS) Sistema storage principale del Tier1 exp LHC ma anche CDF, BABAR, AMS, ARGO, PAMELA etc… Phase out CASTOR (entro 2010) Migrati completamente da CASTOR: Alice, Atlas, LHCb, AMS (CMS migrato Ottobre 2009) In corso per gli altri exp Gestione servizio GEMSS Installazione/configurazione/gestione GPFS Individuazione ed eliminazione single point of failures (es, switch) Installazione/configurazione/gestione endpoint StoRM, server gridftp Attivita’ di debug StoRM su istanze con supporto tape Installazione/configurazione/gestione TSM Consolidamento componente HSM, verifica procedure recovery server Sviluppo/test Preparazione test-bed completo per GEMSS

Gestione database Attivita’ svolta in collaborazione con il gruppo WLCG 3D (comprendente tutti i Tier1 WLCG ed il CERN) 18 server, 15 dei quali organizzati in 6 cluster. ~24 istanze database. Availability 99.9% 2 cluster, ~10 server disponibili per attivita’ di test ~ 40 TB raw storage complessivo

Altre attivita’ Backup servizi Supporto/sviluppo allarmistica Home dir utenti, servizi di base, database Supporto/sviluppo allarmistica Sviluppo nuovi allarmi specifici (e.g. WAITERS GPFS) Consolidamento (attivita’ trasversale) con dashboard T1 Supporto/sviluppo monitoring Sviluppo sensori LEMON (i.e. link FC, GPFS, TSM, area sw) Ulteriori sensori (TSM) in studio

Storm

StoRM 2010 - Releases 02/2010 : uscita major release 1.5 Supporto al TAPE con GPFS-TSM Servizio “Checksummer” (standalone e gridftp-dsi) 03/2010 : uscita 1.5.1 04/2010 : uscita 1.5.2 07/2010 : uscita 1.5.3 08/2010 : uscita 1.5.4 09/2010 : uscita 1.5.4-6 10/2010 : uscita 1.5.5 11/2010 : uscita 1.5.6 Revision release ogni mese circa Bug fixing, minor enhancements la maggior parte delle segnalazioni e delle esigenze provengono dal Tier-1 5/9/2018

StoRM 2010 - Instances 49 istanze in produzione Alcune in testing (e.g. Canada) 34 istanze Italiane 30 istanze INFN 10 istanze al CNAF (9 Tier-1) INAF, UniPG, Cybersar (CA) 15 istanze all’estero UK : QMUL ES : IFIC, IFCA PT : LIP, INGRID NL : RUG IL : TAU GR : FORTH JP : KEK CA(*) : in test 5/9/2018

StoRM 2010 – Man power Funded in EU projects e 100% StoRM 01/2010 a 03/2010 : A.Forti e R.Zappi 04/2010 : R.Zappi 05/2010 a 12/2010 : M.Dibenedetto e R.Zappi Unfunded 01/2010 a 12/2010 : E.Ronchieri (~ 50% in StoRM) 05/2010 a 12/2010 : S.Dalpra (~ 10% in StoRM) IG-Release efforts in StoRM 01/2010 a 12/2010 : C.Aiftimiei e S.Traldi “burst mode” 5/9/2018

Osservazioni Migliorata ridondanza servizi Ancora alcuni single point of failure (BE StoRM, TSM server) BE StoRM particolarmente critico (cold-spare disponibile) Virtualizzazione alcuni servizi (da indagare) Verifica dettagliata configurazione servizi e procedure Miglioramento/standardizzazione procedura upgrade “a caldo” Individuazione eventuali punti deboli Revisione procedura passaggio in produzione nuovo hw Evitare down accidentali (es. CMS) Tiered storage? Rivedere strategia per i db Necessario consolidamento test-bed per GEMSS Test di tutta la catena per verifica nuove versioni Necessario trovare modo di conciliare sviluppo StoRM secondo piani EMI con esigenze Tier1 (es. supporto tape) RINGRAZIO TUTTE LE PERSONE DEL GRUPPO (e VINCENZO VAGNONI) PER IL GRANDE IMPEGNO PROFUSO DURANTE TUTTO IL 2010

Some experiments are using disk storage as archive 850TB of data was not used for > 6 month 583TB of data (i.e. 3 CX) was not used for > 1 year

BACKUP SLIDES

Es.: schema del MSS per CMS 8x10 Gbps 2 GridFTP servers (2x10 Gbps WAN) 6 NSD servers (6x10 Gbps LAN) 2 metadata servers (2x1 Gbps) Nexus 20x4 Gbps 8x4 Gbps SAN 1.8 PB GPFS file system 6x4 Gbps StoRM end-point 1 BE, 2 FE HSM STA 3 TSM Storage Agents and HSM clients DB2 3x4 Gbps TAPE LIBRARY 12 tape drives 1 TB per tape 1 Gbps per drive SAN TAN TSM server DB2 12x4 Gbps 16 16 16

Robustezza e criticita’: StoRM/GPFS/TSM (1) FE ridondato (min. 2 instanze per end-point) BE non ridondabile (previsto in una futura release) Server BE su hw ridondato doppio alimentatore raid 1 su disco di sistema Ipmi per controllo remoto Script restart automatico Disponibile BE cold-spare (dedicato per exp maggiori, condiviso per altri) Db (solitamente su BE) in teoria ridondabile con cluster mysql Ma perdita del db non e’ bloccante Dipendenza: GPFS e TSM per la lettura da tape GPFS Tutti disk-server (manager, NSD, gridftp) ridondanti Perdita di parte degli elementi degrada il servizio senza interromperlo Viene segnalato errore su dashboard a seconda di percentuale elementi fuori servizio

Robustezza e criticita’: StoRM/GPFS/TSM (2) GPFS (continua) Disk-server ridondati a livello hw raid su disco di sistema doppio alimentatore Doppia connessione verso la SAN Non tutti ridondati a livello di rete (preferenza a bonding) TSM HSM client ridondanti (almeno 2 per VO) Server TSM unico su server con hw ridondato Server non ridondabile a caldo (cold spare pronto) Attivo ipmi per controllo remoto Db TSM su sistema storage ridondato Backup db attivo (disco/tape) Permette recupero situazione fino all’ultima transazione

Robustezza e criticita’: i database LFC – server ridondati (anche a livello db) Database – ridondati come server tramite RAC Backup su disco dei db (da attivare su TSM) Acquisizione licenza in corso Perdita pacchetti UDP interconnessioni server rete management RAC Test Jumboframe in corso Unico switch per interconnessione interfacce private server Cluster principali collegati a centro stella

Robustezza e criticita’: CASTOR CASTOR (exp non WLCG) hw ridondato funzionamento database critico (nameserver, stager, dlf) Disk-server teoricamente non critici (dati su tape) Srm completamente ridondato In dismissione entro 2010