La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

“Lezioni imparate dall’ultimo spegnimento del TIER1” Michele Onofri, Stefano Zani, Andrea Chierici CCR 2014 LNS.

Presentazioni simili


Presentazione sul tema: "“Lezioni imparate dall’ultimo spegnimento del TIER1” Michele Onofri, Stefano Zani, Andrea Chierici CCR 2014 LNS."— Transcript della presentazione:

1 “Lezioni imparate dall’ultimo spegnimento del TIER1” Michele Onofri, Stefano Zani, Andrea Chierici CCR 2014 LNS

2 Sommario Reperibilità e procedure di presidio del Tier1 Descrizione dell’incidente Procedura di ripristino “Cosa abbiamo imparato” Conclusioni 2

3 INFN-T1 on-call procedure

4 Personale On-call Personale on-call al CNAF (Turni settimanali) – Reperibilità infrastrutturale 2/3 volte all’anno – Deve risiedere a max 30 dal CNAF – Dotazione di un telefono di servizio (SMS di allarme) – Training periodico sulle procedure di emergenza – Reperibilità “Operation” più frequente ma non necessità interventi On-site Negli ultimi 3 anni sono avvenuti 3 incidenti – Solo questo ha determinato lo spegnimento totale del centro  4

5 Dashboard di servizio 5

6 L‘ incidente

7 Cosa è successo il 9 Marzo 1.08am: Allarme incendio! – Il reperibile infrastrutturale interviene e chiama i vigili del fuoco 2:10am: L’incendio è spento 2.45am: Termina l’intervento dei vigili del fuoco 3.18am: warning per alta temperatura – Sistema di raffreddamento in blocco! – I Reperibili (Infrastrutturale ed Operations) scalano il problema (Mi trovano..) 4.40am: Viene presa la decisione di spegnere il centro 12.00pm: chiller in riparazione (La ditta è intervenuta di domenica senza obbligo da contratto) 17.00pm: I chiller sani vengono fatti ripartire ed il centro può essere riacceso 21.00pm: I principali Servizi Nazionali e la Farm sono ripristinati. In attesa di ripristinare la parte di storage 7

8 10 Marzo 9.00am: Viene attivata la manutenzione dei sottosistemi di storage del TIER1 e vengono fatti ripartire in modo corretto (e controllato) 6.00pm: Il Centro è operativo e gli esperimenti LHC possono riprendere la produzione. Giorno successivo: Il Centro è tornato operativo in tutti i suoi servizi 8

9 Chiller power supply 9

10 Rappresentazione dell’ incidente Chiller 1 Chiller 2 Chiller 3 Chiller 4 Chiller 5 Chiller 6 Control System Head Control System Head Ctrl sys Pow 1 Ctrl sys Pow 2 10

11 Analisi dell’incidente 6 chiller garantiscono il raffreddamento della “Sala macchine” 5 condividevano la stessa alimentazione della logica di controllo (Non avevamo considerato l’ipotesi di un incendio!) L’incendio che ha colpito una scheda di controllo ha scatenato l’interruzione di alimentazione su 5 chiller su 6. – 1 chiller stava ancora funzionando (non lo sapevamo). – Avremmo potuto evitare di spegnere il Centro? No, però forse con un migliore sistema di monitoraggio ed una procedura di spegnimento controllato avremmo pututo evitare lo spegnimento “Brutale”. 11

12 Applicazione di controllo della infrastruttura 12

13 L’ incidente visto da dentro 13

14 Incidente visto da fuori 14

15 Procedura di ripristino

16 Infrastruttura: Chiamata di assistenza per un intervento di emergenza su di un chiller – Ripristinata la logica di controllo del Chiller n. 4 Storage: Chiamata di assistenza per la riaccensione assistita Farming: E’ stata colta l’occasione per applicare patch di sicurezza ed aggiornare I kernel sui nodi – Sequenza di riaccensione: LSF server, CEs, UIs – Per un attimo Farming ha pensato anche di fare un upgrade ad LSF 9… 16

17 Danni (1) Sui nodi “Vecchi” – Reset delle configurazioni dei BIOS per via di batterie scariche PXE boot, hyper-threading, disk configuration (AHCI) – Perdita delle configurazione delle IPMI (circa il 30% dei nodi) 17

18 Danni (2) Alcuni storage controller sono stati sostituiti 1% delle schede PCI sono state sostituite (principalmente schede 10 Gb Ethernet) Dischi, alimentatori e switch pare non abbiano subito grossi danni. 18

19 Cosa abbiamo imparato

20 Modificato i collegamenti di alimentazione delle logiche di controllo dei chiller Chiller 1 Chiller 2 Chiller 3 Chiller 4 Chiller 5 Chiller 6 Control System Head Control System Head Ctrl sys Pow 1 Ctrl sys Pow 6 Ctrl sys Pow 2 Ctrl sys Pow 3 Ctrl sys Pow 4 Ctrl sys Pow 5 20

21 Ci serve un “Emergency button” Spegnere il Centro non è una operazione facile: Serve una vera procedura di spegnimento controllato in emergenza – Forse saremmo riusciti ad evitare di “Aprire” gli interruttori a mano se avessimo avuto una procedura – In base alle dimensioni dell’incidente potrebbe essere possibile lasciare in funzione almeno i servizi di base. La persona in turno difficilmente può conoscere i dettagli di tutti i sottosistemi 21

22 Servizi “Ospitati” Il nostro Centro ospita anche servizi che non sono totalmente sotto la nostra supervisione dirtetta sui quali è difficile avere completo controllo. – Ci servono procedure di spegnimento anche per questi – Dobbiamo tenere conto degli SLA per di ogni specifico Servizio 22

23 Conclusioni

24 “We benchmarked ourselves” Ci sono voluti due giorni per tornare in piena attività – Meno di uno per gli esperimenti LHC – Per il ripristino tutti sapevano cosa fare – Quasi tutti i server sono ripartiti da una solida configurazione. – Pochi nodi hanno avuto necessità di essere reinstallati e sono tornati on line rapidamente. 24

25 Lezioni imparate Dobbiamo avere una chiara visione di quali chiller stanno lavorando in ogni momento (il reperibile infrastrutturale ancora non ha modo di saperlo) – La nuova dashboard ospiterà anche questa informazione E’ stata creata una task force per la creazione della procedura di spegnimento di emergenza – Stabilirà la sequenza di “Shutdown” Per primi verranno spendi I WNs, dopo I dischi del TIER1, i server dei Servizi Nazionali ed in fine gli switch di rete. In caso di emergenza la persona “On call” E’ tenuta a prendere decisioni “Delicate”. 25

26 Test della procedura di spegnimento La procedura di spegnimento che stiamo studiando non sarà facile da provare.. Come si può fare una simulazione ? – Non “Suona bene” tirare giù tutto il TIER1 per verificare se funziona.. Stiamo indagando su come operano negli altri siti.. E’ opprtuno sostituire periodicamente le batterie dei BIOS sulle schede madri (o dismetterle prima). 26


Scaricare ppt "“Lezioni imparate dall’ultimo spegnimento del TIER1” Michele Onofri, Stefano Zani, Andrea Chierici CCR 2014 LNS."

Presentazioni simili


Annunci Google