Referaggio Computing LHC Il Computing di ATLAS II – Le infrastrutture Le Infrastrutture dei Tier-2 Sistemi di monitoraggio e gestione delle emergenze Gianpaolo Carlino Referaggio Computing LHC CNAF, 17/18 Gennaio 2008
Le Infrastrutture dei Tier-2 italiani di ATLAS
Il Tier-2 di Milano La Sala Macchine e gli spazi per il Tier-2 8 Rack per ATLAS, 5 parzialmente occupati Spazio e risorse per altri rack eventualmente necessari LOCALE NON DISPONIBILE UPS E QUADRO PARALLELO CENTRALE TERMICA IN FASE DI ALL. ZONA DI PERTINENZA TIER 2
Il Tier-2 di Milano Impianto termico: Impianto elettrico: Gruppo di continutà da 200 KVA corrispondenti a 160 KW, autonomia 15’. Ordinato un gruppo elettrogeno da 400 KVA in esclusivo uso della sala macchine, in grado di sopperire alle esigenze della parte elettrica e del sistema di raffreddamento. Autonomia 11 ore. Impianto termico: Il sistema di condizionamento realizzato per l’intera sala è costituito da due chiller da 90 kW termici ognuno Modifiche al sistema di distribuzione dell’aria sono già previste per ottimizzarlo Impianto Antincendio: Il sistema attualmente installato non copre tutte le zone previste, nel prossimo anno è prevista la sua revisione e la sostituzione dell’estinguente attualmente non più a norma
Il Tier-2 di Napoli Sala ATLAS INFN Superficie 44 m2 4 Rack installati attualmente: 2 Tier-2 ATLAS e 2 PON SCoPE Espansione fino a 10 Rack Impianti dimensionati per tale capacità Disponibilità di un terzo rack (uno dei due di SCoPE per il primo semestre 2008)
Il Tier-2 di Napoli Sala PON SCoPE Superficie 120 m2 Capacità 120 Rack. 10 Tier-2 a disposizione del Tier-2 Il Tier-2 di ATLAS verrà ospitato in questa struttura usufruendo di tutte le facilities di monitoraggio e intervento previste dal progetto Stato di avanzamento dei lavori (12-07) Disponibilità estate 2008
Il Tier-2 di Napoli Impianto Elettrico: Max potenza disponbile: 250 kW 2 Gruppi di continuità da 60 kVA in parallelo. Autonomia a pieno carico 7’. In corso installazione sistema di videosorveglianza Monitoraggio remoto dei parametri elettrici dell’armadio di zona Ad ogni rack arriva una linea elettrica trifase da 22KW Gruppo elettrogeno in comune con la sala SCoPE, verrà installato entro la metà del 2008 Impianto termico: Chiller con capacità di raffreddamento di 90 kW, due compressori indipendenti Rack autoraffreddanti RIMatrix della Rittal con potenza dichiarata di 12kW espandibile a 20 KW modificando la temperatura e i flussi dell’acqua Raffreddamento ambientale della sala garantito da due unità da 6 KW Impianto Antincendio: Protezione dei rack Centralina che attraverso una coppia di rivelatori per rack (in AND) attiva la scarica all’interno dei rack stessi Protezione della sala Analogo funzionamento ma i sensori sono distribuiti nella sala dove avviene la scarica
Il Tier-2 di Roma1 Nuova sala disponibile da fine Novembre 2007 Dimensione sala 60 m2 espandibile fino a oltre 120 m2 4 rack attualmente installati (2 per ATLAS e 2 per CMS), 3 ordinati e in consegna a marzo 2008 Capacità della sala: 14 rack con gli attuali impianti, fino a 21 modificando la rete idraulica (progettata per questa eventualità) Impianto termico: Rack autocondizionati ad acqua della Knuerr Max potenza per rack: 17kW 2 chiller da 80 KW ognuno con doppia pompa indipendente Impianto Elettrico: Max potenza disponibile: 360 KVA UPS da 120 KVA, un secondo simile in consegna a marzo 2008 con autonomia di 10’ a pieno carico Impianto Antincendio: Impianto a gas inerte che agisce sull'intera sala macchine e all’interno dei rack. Sensori posti sia nella sala che all’interno dei rack La centralina di controllo è situata all'interno della sala macchine e verrà collegata con un sistema di allarmistica alla vigilanza dello stabile
Il proto Tier-2 di Frascati La sala che ospita attualmente il proto-Tier2 e’ situata al pian terreno di un edificio a due piani che ospita il servizio di calcolo dei LNF, una libreria a nastro dell’esperimento Kloe, il sistema informativo dell’INFN ed il POP GARR dell’area di Frascati Superficie 97 m2. Il Tier-2 occupa attualmente due rack e può essere espanso con altri tre rack Può ospitare tranquillamente tutte le risorse previste per il 2008 CALCOLO Kloe Garr Nastri utenti Altri experim Sistema Informativo Tier 2 9
Il proto Tier-2 di Frascati Impianto elettrico: Potenza attualmente necessaria: 15 kW (Atlas) + 40 kW (altre risorse) UPS da 160 KVA, autonomia 15’ Gruppo elettrogeno da 120 kW in azione dopo un minuto Impianto termico: L’impianto di raffredamento esistente e’ a circolazione d’acqua ricavato deviando una parte del condizionamento di Dafne Impianto Antincendio: Impianto a gas inerte (FM200) dimensionato tenendo conto della destinazione d’uso e dimensione dei vari ambienti 10
Il proto Tier-2 di Frascati Strategia del LNF riguardo al proto Tier-2 di ATLAS Il Direttore dei Laboratori ha espresso interesse per avere un centro di calcolo scientifico di cui il Tier-2 di ATLAS farà parte, e ha chiesto a Riccardo de Sangro, coordinatore di Gruppo I, di formare in proposito un gruppo di lavoro. C’è l’impegno del coordinatore a fornire conclusioni preliminari entro due mesi.
Sistemi di Monitoraggio e Gestione delle emergenze
Monitoring di infrastutture e servizi Sistemi di monitoring, allarmistica e gestione: Monitoring dei servizi grid, allarmi: SAM test Monitoring risorse e servizi, allarmi: Nagios Monitoring risorse e servizi: Ganglia Monitoring ambientale Gestione Emergenze: script automatici di spegnimento e/o accendimento delle farm
Test SAM Controllo dei servizi di GRID Test centralizzati Tipologia dei test sottomissione di job ai siti replica di dati verifica certificati e versioni del middleware periodicità circa 2 ore Test sia Atlas specifici sia per le VO di test (dteam/ops) In caso di fallimenti invia e-mail agli amministratori dei siti in caso di non risoluzione del problema il sito viene inserito in una blacklist
Nagios Monitoring dei servizi locali e delle risorse hw/sw Nagios è un sistema di monitoraggio non grid che consente di monitorare ogni aspetto del sito grazie a plugin lanciati periodicamente sugli host da monitorare Possono essere configurati controlli a piacere ed azioni da intraprendere in caso di fallimenti Permette di notificare agli amministratori del sito in caso di situazione anomale (invio e-mail, sms ..) Monitoring Risorse: Stato degli host up/down (ping) Carico delle CPU Carico della memoria centrale e swap Spazio dischi interni Numero degli utenti sulla macchina Temperatura interna della macchina (ove possibile) Monitoring Servizi: SSH e NFS Area del sw di esperimento montata e disponibile ai WN demone SQL Code: job running e in coda
Ganglia Monitoring dell’andamento storico e corrente di job e risorse utilizzato largamente per visualizzare lo stato del cluster e il suo andamento nel corso del tempo: cpu, memoria, disco, rete Conserva i dati dell’ultimo anno Permette di scrivere plugin e metriche ad-hoc Non consente di inviare notifiche in caso di situazioni anomale
Monitoraggio ambientale Monitoring dei parametri ambientali e elettrici Oltre agli usuali sistemi di monitoraggio ambientale dei CED si usano software per il monitoraggio dei rack autoraffreddati. Esempio del sistema di controllo CMC dei rack Rittal di Napoli: Parametri monitorati: Temperatura dell’acqua in ingresso ai moduli di raffreddamento Portata dell’acqua Temperatura aria in ingresso e uscita Umidità nei rack Presenza di fumi, fiamme, allagamento Corrente assorbita dalle singole prese intelligenti Tutti questi parametri possono essere letti e monitorati da remoto grazie alle unità CMC in grado di mandare avvisi o allarmi in vario come email, sms, trap snmp nonché ovviamente avvisi sonori e ottici
Gestione emergenze Obiettivo: spegnimento e accensione automatici di farm e sistemi di calcolo con gestione delle emergenze Sono in fase avanza di sviluppo delle procedure di gestione delle emergenze che si basano sull’azione di script automatici per lo spegnimento dei sistemi di calcolo Procedure automatizzate di riaccensione delle farm attraverso gli stessi script o manuali Le procedure possono essere inizializzate da: Mancanza / Ritorno corrente agli UPS Valori fuori range dei sensori ambientali Operazioni manuali di manutenzione
Gestione emergenze Powerfarm: esegue le azioni di spegnimento e accensione Spegnimento totale o parziale degli elementi e riaccensione quando le condizioni lo permettono esegue le azioni nell’ordine e nei tempi opportuni rispettando le dipendenze funzionali tra i dispositivi L’esecuzione della procedura può essere invertita in tutta sicurezza al sopraggiungere dell’opportuna condizione (ritorno alimentazione) ottimizzazione dei tempi (operazioni parallele “a ventaglio” ove possibile) UPS1 ... RACK1 RACKn Disk server1 Disk servern DPM server CE1 CEn WN1 WNn ordine arresto dipendenze accensione dipendenze arresto ordine accensione operazioni a ventaglio Spegnimento: si invia prima lo shutdown via ssh, se la macchina non risponde viene spenta con IPMI Accensione: viene fatto con comandi IMPI tenendo conto dei ritardi necessari per rispettare le dipendenze Sviluppato a NA in collaborazione con il progetto SCoPE
Sistema del Centro di Calcolo di Milano: Gestione emergenze Sistema del Centro di Calcolo di Milano: Server di shutdown dedicato (blindato) con chiave ssh su ogni macchina La procedura, attivabile anche manualmente, è basata sulle risposte a interrogazioni snmp all’UPS Nodi divisi in gruppi. Lo shutdown e il restart avvengono per gruppi per salvaguardare le dipendenze Shutdown dopo 20 minuti di interruzione della fornitura di energia della linea primaria. L’ultimo gruppo inizia lo spegnimento dopo 30 minuti. Tarato secondo il carico attuale La procedura tiene conto dell’attuale carico sull’impianto elettrico e del fatto che non è ancora installato il gruppo elettrogeno Allarmistica di down elettrico sia via mai che sms Programma di interfaccia web per controllo sullo status complessivo delle macchine inserite nella procedura Restart manuale per gruppi (in futuro tramite protocollo ipmi o wake on lan)