“Lezioni imparate dall’ultimo spegnimento del TIER1” Michele Onofri, Stefano Zani, Andrea Chierici CCR 2014 LNS.

Slides:



Advertisements
Presentazioni simili
Il genio della porta accanto
Advertisements

Il FURTO D’IDENTITÀ Dijana Kryezi IV A SIA.
Gestione della memoria centrale
Protezione dai disastri. Sommario I disastri in una rete I disastri in una rete Disastri hardware e software Disastri hardware e software Il ruolo di.
Istituto di Scienze Radiologiche - Chieti
LA JOB ANALYSIS (Analisi del Lavoro)
Sistema Operativo Preparazione e prima fase di installazione del sistema Reperite tutti i driver più aggiornati per il vostro hardware scaricandoli da.
Sicuri a scuola.
CSN1 2 Aprile 2003 P. Morettini 1 Relazione sulla CCR La riunione di Commissione Calcolo e Reti del 6 Marzo è stata in parte dedicata alla discussione.
Progetto Speciale Prototipo Tier1 F. Ruggieri INFN – CNAF I Workshop CMS Italia del SW e Computing Roma 22 Novembre 2001.
Aspetti critici rete LAN e WAN per i Tier-2
Servizio di Manutenzione Stradale
Michele Michelotto INFN-Padova
clicca sullo schermo per continuare Laccensione e lo spegnimento del computer sono due procedure molto facili ma, per evitare danni, è importante seguire.
Motivi degli accessi al Pronto Soccorso CSeRMEG
Iniziamo a usare il computer
Strumentazione Re.Mo. Funzionamento e manutenzione
Modulo 1 - Concetti di base della Tecnologia dell'Informazione
Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.
Corso Rapido Sicurezza Web STELMILIT Ufficio TLC Sezione Reti TLC C° 1^ ETE Matteo Cannito.
A cura di Lorenzo Lovisolo
QUANDO ALCUNI BAMBINI SI SONO SOFFERMATI SULLA POTENZA DEL SOLE ABBIAMO CAPITO CHE IL CALORE DEL SOLE NON C'ENTRA CON LA LUNGHEZZA DELLE OMBRE MA … C'ENTRA.
Active Directory e Gestione Utenti di Valerio Di Bacco.
Works in progress.  Semplificazione e maggiore efficienza della gestione  Risparmio (nel medio periodo)  Riallocazione delle risorse (hardware e timesheet)
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Riunione gruppo storage – Roma 05/05/2005 Test di affidabilita’ e performance a Genova Alessandro Brunengo.
Tipi e topologie di LAN Lezione 2.
1 COSA SERVE PER COLLEGARSI? - UNA SCHEDA DI RETE La scheda di rete è il componente che collega il nostro computer con la rete locale (LAN). Il collegamento.
Calcolo LHC - F. Ferroni, P. Lubrano, M. SozziCSN1 - Catania Calcolo LHC 2003 (F. Ferroni, P. Lubrano, M. Sozzi)
Lezione- laboratorio con la Croce Verde: impariamo l’ABC del primo soccorso. Un ringraziamento particolare ai tre volontari della Croce Verde: ci hanno.
L. Servoli - CCR Roma 15 marzo Il progetto High Availability D. Salomoni - CNAF L. Servoli - INFN Perugia.
CSN1 2 Febbraio 2004 P. Morettini 1 La nuova politica di RedHat La linea di prodotti RedHat Enterprise Linux L’accordo HEP Europe – RedHat Che fare ?
CACCIA AL FUOCO... 1 Nucleo Addestramento & Prevenzione
Relatori e consulenti esterni:
Istituto Nazionale di Fisica Nucleare La Biodola, Isola d’Elba, 6-9 maggio 2002 AFS: Status Report WS CCR R.Gomezel Workshop sulle problematiche.
LNL CMS M.Biasotto, Bologna, 28 maggio Upgrade farm a RH-7.3  Due anni fa la farm era stata installata usando una versione customizzata di ANIS.
Dael Maselli – Workshop CCR – Maggio  SAN  Red Hat Cluster Suite ◦ RedHat Enterprise, Scientific Linux o CentOS  XEN.
Istituto Comprensivo di Livigno BENVENUTI. Clemente Silvestri FONDAMENTI DI INFORMATICA.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
Riunione Servizi Servizio Calcolo e Reti 13 settembre 2004 Silvia Arezzini.
31 ottobre Security Assessment per Cassa Centrale Analisi delle modalità di deployment di server e di postazioni utente. Simulazione di consulente.
SERVER FARM. Server Farm 800 mq di spazio suddiviso in 10 locali tecnici Sala di controllo per il monitoraggio delle reti e dei sistemi Sale tecniche.
Guadagnare Online: Come Iniziare a Guadagnare Da Casa By LavoroDeiSogni.com.
Riunione SICR 24/6/2015. Cluster Cluster oVirt – Pronto alla migrazione dei servizi – Macchina virtuale radius per guest_conf in funzione – Tempi migrazione.
Referaggio sigla CALCOLO Gianpaolo Carlino Antonio Budano Michele Michelotto* Ruggero Ricci CCR – Roma Settembre 2015.
Centralizzazione del servizio di posta elettronica per l’INFN ─ INTEGRAZIONE ─ Ombretta Pinazza Per il Gruppo Mailing CCR, Marzo 2008.
6/1/2016ATLAS Milano1 Agenda :. 6/1/2016ATLAS Milano2 Agenda : A)AGGIORNAMENTO SITUAZIONE RELIABILITY SITO -potrebbe essere utile discutere le nostre.
FESR Consorzio COMETA - Progetto PI2S2 Il Tier-2 di ALICE a Catania Roberto Barbera Università di Catania e INFN Visita Referee.
Referaggio sigla CALCOLO D. Bonacorsi, G. Carlino, P. Morettini CCR – Roma 9 Settembre 2014.
Assemblea di Sezione Servizio di Prevenzione e Protezione Bologna 21 Luglio 2014 Sezione di Bologna.
Referaggio apparati di rete 2014 Seconde priorità Gruppo referee rete Fulvia Costa Paolo Lo Re Enrico Mazzoni Stefano Zani CNAF, CCR 1-2 aprile 2014.
Riunione SICR 16/2/2015. Rete Intervento 6509 – Sostituzione scheda avvenuta con successo – Fase di configurazione nuova scheda – Spostamento link? Mercoledi.
Sistema di monitoraggio integrato Introduzione a cura di P. Mastroserio Servizio Calcolo & Reti Infn-Napoli P. Mastroserio Workshop CCR - INFN Grid Acireale.
Attività e servizi di calcolo a Roma Tor Vergata R. Kwatera, R. Lulli, R. Sparvoli Roma Tor Vergata.
Riunione gruppo reti E. P.. IPMI Porta da mascherare sul router Scan IPMI e piano di indirizzamento (privato ?) Da fare nel piano generale quando si ha.
Progetto iSCSI Report alla CCR 12-13/12/2006 Alessandro Tirel – Sezione di Trieste.
Aggiornamento sui lavori di ampliamento degli impianti infrastrutturali del TIER1 e stato delle risorse Cristina Vistoli – Massimiliano Fiore INFN-CNAF.
Riunione SICR E. P.. Certificati  Digicert  Server  Personali per dipendenti ed associati  Non associati e macchine su phys.uniroma1.it ?  Problema.
Il futuro della infrastruttura Grid INFN : le risorse economiche e le competenze ” Workshop CCR INFN GRID 2011.
1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera
19/4/2013 D. Menasce, M. Serra - Referaggio Progetti INFRA e WLCG 1.
Proposte per il miglioramento delle sinergie tra servizi calcolo e progetti Grid Valeria Ardizzone (INFN Catania)
Referaggio TIER2 di Pisa 30 giugno 2006 Silvia Arezzini (Servizio Calcolo e Reti)
Massimo Nuccetelli - SICR - INFN Roma 18 gennaio 2016 Sopralluogo sicurezza chiller e quadro elettrico principale.
Referaggio apparati di rete 2013 Seconde priorità Gruppo referee rete Fulvia Costa Paolo Lo Re Enrico Mazzoni Stefano Zani Referaggi aprile 2013.
Test di storage a 10 Gbps proposta. Storage server a 10Gbps Si vuole vedere quali prestazioni si possano ottenere da server connessi a 10 GE –capacita’
Silvia Arezzini 2 luglio 2014 Consiglio di Sezione per Preventivi.
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
Alessandro Tirel - Sezione di Trieste Storage servers & TCP Tuning Proposta di studio delle problematiche connesse alla fornitura di servizi di storage.
Transcript della presentazione:

“Lezioni imparate dall’ultimo spegnimento del TIER1” Michele Onofri, Stefano Zani, Andrea Chierici CCR 2014 LNS

Sommario Reperibilità e procedure di presidio del Tier1 Descrizione dell’incidente Procedura di ripristino “Cosa abbiamo imparato” Conclusioni 2

INFN-T1 on-call procedure

Personale On-call Personale on-call al CNAF (Turni settimanali) – Reperibilità infrastrutturale 2/3 volte all’anno – Deve risiedere a max 30 dal CNAF – Dotazione di un telefono di servizio (SMS di allarme) – Training periodico sulle procedure di emergenza – Reperibilità “Operation” più frequente ma non necessità interventi On-site Negli ultimi 3 anni sono avvenuti 3 incidenti – Solo questo ha determinato lo spegnimento totale del centro  4

Dashboard di servizio 5

L‘ incidente

Cosa è successo il 9 Marzo 1.08am: Allarme incendio! – Il reperibile infrastrutturale interviene e chiama i vigili del fuoco 2:10am: L’incendio è spento 2.45am: Termina l’intervento dei vigili del fuoco 3.18am: warning per alta temperatura – Sistema di raffreddamento in blocco! – I Reperibili (Infrastrutturale ed Operations) scalano il problema (Mi trovano..) 4.40am: Viene presa la decisione di spegnere il centro 12.00pm: chiller in riparazione (La ditta è intervenuta di domenica senza obbligo da contratto) 17.00pm: I chiller sani vengono fatti ripartire ed il centro può essere riacceso 21.00pm: I principali Servizi Nazionali e la Farm sono ripristinati. In attesa di ripristinare la parte di storage 7

10 Marzo 9.00am: Viene attivata la manutenzione dei sottosistemi di storage del TIER1 e vengono fatti ripartire in modo corretto (e controllato) 6.00pm: Il Centro è operativo e gli esperimenti LHC possono riprendere la produzione. Giorno successivo: Il Centro è tornato operativo in tutti i suoi servizi 8

Chiller power supply 9

Rappresentazione dell’ incidente Chiller 1 Chiller 2 Chiller 3 Chiller 4 Chiller 5 Chiller 6 Control System Head Control System Head Ctrl sys Pow 1 Ctrl sys Pow 2 10

Analisi dell’incidente 6 chiller garantiscono il raffreddamento della “Sala macchine” 5 condividevano la stessa alimentazione della logica di controllo (Non avevamo considerato l’ipotesi di un incendio!) L’incendio che ha colpito una scheda di controllo ha scatenato l’interruzione di alimentazione su 5 chiller su 6. – 1 chiller stava ancora funzionando (non lo sapevamo). – Avremmo potuto evitare di spegnere il Centro? No, però forse con un migliore sistema di monitoraggio ed una procedura di spegnimento controllato avremmo pututo evitare lo spegnimento “Brutale”. 11

Applicazione di controllo della infrastruttura 12

L’ incidente visto da dentro 13

Incidente visto da fuori 14

Procedura di ripristino

Infrastruttura: Chiamata di assistenza per un intervento di emergenza su di un chiller – Ripristinata la logica di controllo del Chiller n. 4 Storage: Chiamata di assistenza per la riaccensione assistita Farming: E’ stata colta l’occasione per applicare patch di sicurezza ed aggiornare I kernel sui nodi – Sequenza di riaccensione: LSF server, CEs, UIs – Per un attimo Farming ha pensato anche di fare un upgrade ad LSF 9… 16

Danni (1) Sui nodi “Vecchi” – Reset delle configurazioni dei BIOS per via di batterie scariche PXE boot, hyper-threading, disk configuration (AHCI) – Perdita delle configurazione delle IPMI (circa il 30% dei nodi) 17

Danni (2) Alcuni storage controller sono stati sostituiti 1% delle schede PCI sono state sostituite (principalmente schede 10 Gb Ethernet) Dischi, alimentatori e switch pare non abbiano subito grossi danni. 18

Cosa abbiamo imparato

Modificato i collegamenti di alimentazione delle logiche di controllo dei chiller Chiller 1 Chiller 2 Chiller 3 Chiller 4 Chiller 5 Chiller 6 Control System Head Control System Head Ctrl sys Pow 1 Ctrl sys Pow 6 Ctrl sys Pow 2 Ctrl sys Pow 3 Ctrl sys Pow 4 Ctrl sys Pow 5 20

Ci serve un “Emergency button” Spegnere il Centro non è una operazione facile: Serve una vera procedura di spegnimento controllato in emergenza – Forse saremmo riusciti ad evitare di “Aprire” gli interruttori a mano se avessimo avuto una procedura – In base alle dimensioni dell’incidente potrebbe essere possibile lasciare in funzione almeno i servizi di base. La persona in turno difficilmente può conoscere i dettagli di tutti i sottosistemi 21

Servizi “Ospitati” Il nostro Centro ospita anche servizi che non sono totalmente sotto la nostra supervisione dirtetta sui quali è difficile avere completo controllo. – Ci servono procedure di spegnimento anche per questi – Dobbiamo tenere conto degli SLA per di ogni specifico Servizio 22

Conclusioni

“We benchmarked ourselves” Ci sono voluti due giorni per tornare in piena attività – Meno di uno per gli esperimenti LHC – Per il ripristino tutti sapevano cosa fare – Quasi tutti i server sono ripartiti da una solida configurazione. – Pochi nodi hanno avuto necessità di essere reinstallati e sono tornati on line rapidamente. 24

Lezioni imparate Dobbiamo avere una chiara visione di quali chiller stanno lavorando in ogni momento (il reperibile infrastrutturale ancora non ha modo di saperlo) – La nuova dashboard ospiterà anche questa informazione E’ stata creata una task force per la creazione della procedura di spegnimento di emergenza – Stabilirà la sequenza di “Shutdown” Per primi verranno spendi I WNs, dopo I dischi del TIER1, i server dei Servizi Nazionali ed in fine gli switch di rete. In caso di emergenza la persona “On call” E’ tenuta a prendere decisioni “Delicate”. 25

Test della procedura di spegnimento La procedura di spegnimento che stiamo studiando non sarà facile da provare.. Come si può fare una simulazione ? – Non “Suona bene” tirare giù tutto il TIER1 per verificare se funziona.. Stiamo indagando su come operano negli altri siti.. E’ opprtuno sostituire periodicamente le batterie dei BIOS sulle schede madri (o dismetterle prima). 26