Referaggio Computing LHC

Slides:



Advertisements
Presentazioni simili
STATO DEI PROGETTI TIER2 F. Bossi CCR, Roma, 20 Ottobre 2005 ( per il gruppo di referaggio)
Advertisements

SERVER FARM. Server Farm 800 mq di spazio suddiviso in 10 locali tecnici Sala di controllo per il monitoraggio delle reti e dei sistemi Sale tecniche.
FESR Consorzio COMETA - Progetto PI2S2 Il Tier-2 di ALICE a Catania Roberto Barbera Università di Catania e INFN Visita Referee.
Referaggio sigla CALCOLO D. Bonacorsi, G. Carlino, P. Morettini CCR – Roma 9 Settembre 2014.
Impianti Elettrici per Tier LNF Ing. Ruggero Ricci Resp. Servizio Impianti Elettrici DTSG - LNF 20 giugno 2011.
G. Maggi 24/1/2006 Il Progetto del TIER2 di Bari Giorgio Maggi.
1 M. Paganoni, 17/1/08 Stato dei T2 CMS INFN M. Paganoni Meeting con referee, 9/5/08.
Monitoraggio siti COMETA “Promemoria” Danilo Reitano.
Sistema Informativo. Mansioni Gestione della piattaforma hardware e sistemistica del sistema informativo INFN In realta’ il mansionario e’ in continua.
PRIN NAPOLI Enzo Capone, Gianpaolo Carlino, Alessandra Doria, Rosario Esposito, Leonardo Merola, Silvio Pardi, Arturo Sanchez Pineda.
Le Fonti energetiche rinnovabili RELATORE: Dott. Luca Orioli Altre Fonti Kyoto e certificati verdi Risparmio Energetico.
Alessandro De Salvo Status dei Tier2 di ATLAS Alessandro De Salvo
The INFN Tier-1: migrazione verso l’ampliamento Cristina Vistoli – INFN CNAF.
Torino, Andrea Dainese 1 Andrea Dainese (INFN – LNL) Stato del Tier-2 ALICE a Legnaro.
Stato dell’infrastruttura INFN CNAF, Stato dell’infrastruttura Impianti tecnologici Gli impianti di base stanno funzionando, ma sono urgenti.
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
Christian Locatelli 3°Info A
SCoPE - Stato dei Lavori
Resoconto delle attività del Gruppo di Lavoro DR
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Verardo Torri - Milano 17/01/2006
Centrali elettriche di trasformazione MT/BT
D. Martello, F. Ricci, F. Ruggieri
CARATTERISTICHE DI UN DATACENTER
Claudia Battista Tempi e Modi di GARR-X Claudia Battista
I costi del Calcolo LHC un update –
Monitoring e loadbalancing dei servizi Grid
Tier 2 dell’esperimento Atlas ai LNF
Cartesio – Back End Farine Antoine Giulietti Raffaello Libro Pietro
INFN-Bari.
Metodologie Quantitative per il Calcolo Scientifico
Visita al sito di Catania RECAS
Risultati ultimi mesi Piano di lavoro prossimi mesi Reclutamento
Richieste di upgrade dei link di accesso alla rete Geografica
Collegamento a Garr-X Il collegamento alla nuova rete Garr-X dovrà garantire il massimo della efficienza nella gestione della banda. Per identificare opportunamente.
Nuovo sito della Commissione Calcolo e Reti
Infrastruttura del Tier-2 di TORINO
Università di Messina - C.E.C.U.M.
Attivita’ e compiti del Servizio Impianti Calcolo e Reti
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Richieste preliminari calcolo non LHC
Impiantistica elettrica sui centri di calcolo
Università di Messina - C.E.C.U.M.
Sicurezza e Grid Computing
Introduzione alla sessione sull’analisi per gli esperimenti LHC
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Aggiornamento sullo stato del Tier-2 di Catania
Care and Feeding of the ALICE Grid
Tier2 Milano Gli acquisti di fine 2008 saranno installati in 10 giorni circa Nuovo Storage Element vicino a commissioning No RFIO, cache, GPFS based, usato.
Espansione dei CORE switch del TIER1
Report Calcolo Commisione III
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Job Application Monitoring (JAM)
Calcolo “locale” ATLAS-Mi
QUANTI IMPIANTI IN UNA CASA?
01 - INTRODUZIONE ALLA DOMOTICA
DIONISIO DIONISIO è un sistema intelligente di Audio Sorveglianza
Predisposizione e presentazione della domanda di nullaosta
Smart City.
Impresa Formativa Simulata
La regolazione gerarchica della tensione
SAGE – Un sistema per l’accounting dello storage in gLite
Predisposizione e presentazione della domanda di nullaosta
ReCaS Catania status infrastruttura
ATLAS PRIN Roma1 - status Alessandro De Salvo
Report dei referee di Kloe
Nuovo quadro di controllo e comando per Maestro ed Ocean
POTENZIALITÀ DELL’ ISTERESI TERMICA SE GESTITA CON METODO INNOVATIVO
Il nuovo sistema di controllo per aerotermi con motore elettronico
Transcript della presentazione:

Referaggio Computing LHC Il Computing di ATLAS II – Le infrastrutture Le Infrastrutture dei Tier-2 Sistemi di monitoraggio e gestione delle emergenze Gianpaolo Carlino Referaggio Computing LHC CNAF, 17/18 Gennaio 2008

Le Infrastrutture dei Tier-2 italiani di ATLAS

Il Tier-2 di Milano La Sala Macchine e gli spazi per il Tier-2 8 Rack per ATLAS, 5 parzialmente occupati Spazio e risorse per altri rack eventualmente necessari LOCALE NON DISPONIBILE UPS E QUADRO PARALLELO CENTRALE TERMICA IN FASE DI ALL. ZONA DI PERTINENZA TIER 2

Il Tier-2 di Milano Impianto termico: Impianto elettrico: Gruppo di continutà da 200 KVA corrispondenti a 160 KW, autonomia 15’. Ordinato un gruppo elettrogeno da 400 KVA in esclusivo uso della sala macchine, in grado di sopperire alle esigenze della parte elettrica e del sistema di raffreddamento. Autonomia 11 ore. Impianto termico: Il sistema di condizionamento realizzato per l’intera sala è costituito da due chiller da 90 kW termici ognuno Modifiche al sistema di distribuzione dell’aria sono già previste per ottimizzarlo Impianto Antincendio: Il sistema attualmente installato non copre tutte le zone previste, nel prossimo anno è prevista la sua revisione e la sostituzione dell’estinguente attualmente non più a norma

Il Tier-2 di Napoli Sala ATLAS INFN Superficie 44 m2 4 Rack installati attualmente: 2 Tier-2 ATLAS e 2 PON SCoPE Espansione fino a 10 Rack Impianti dimensionati per tale capacità Disponibilità di un terzo rack (uno dei due di SCoPE per il primo semestre 2008)

Il Tier-2 di Napoli Sala PON SCoPE Superficie 120 m2 Capacità 120 Rack. 10 Tier-2 a disposizione del Tier-2 Il Tier-2 di ATLAS verrà ospitato in questa struttura usufruendo di tutte le facilities di monitoraggio e intervento previste dal progetto Stato di avanzamento dei lavori (12-07) Disponibilità estate 2008

Il Tier-2 di Napoli Impianto Elettrico: Max potenza disponbile: 250 kW 2 Gruppi di continuità da 60 kVA in parallelo. Autonomia a pieno carico 7’. In corso installazione sistema di videosorveglianza Monitoraggio remoto dei parametri elettrici dell’armadio di zona Ad ogni rack arriva una linea elettrica trifase da 22KW Gruppo elettrogeno in comune con la sala SCoPE, verrà installato entro la metà del 2008 Impianto termico: Chiller con capacità di raffreddamento di 90 kW, due compressori indipendenti Rack autoraffreddanti RIMatrix della Rittal con potenza dichiarata di 12kW espandibile a 20 KW modificando la temperatura e i flussi dell’acqua Raffreddamento ambientale della sala garantito da due unità da 6 KW Impianto Antincendio: Protezione dei rack Centralina che attraverso una coppia di rivelatori per rack (in AND) attiva la scarica all’interno dei rack stessi Protezione della sala Analogo funzionamento ma i sensori sono distribuiti nella sala dove avviene la scarica

Il Tier-2 di Roma1 Nuova sala disponibile da fine Novembre 2007 Dimensione sala 60 m2 espandibile fino a oltre 120 m2 4 rack attualmente installati (2 per ATLAS e 2 per CMS), 3 ordinati e in consegna a marzo 2008 Capacità della sala: 14 rack con gli attuali impianti, fino a 21 modificando la rete idraulica (progettata per questa eventualità) Impianto termico: Rack autocondizionati ad acqua della Knuerr Max potenza per rack: 17kW 2 chiller da 80 KW ognuno con doppia pompa indipendente Impianto Elettrico: Max potenza disponibile: 360 KVA UPS da 120 KVA, un secondo simile in consegna a marzo 2008 con autonomia di 10’ a pieno carico Impianto Antincendio: Impianto a gas inerte che agisce sull'intera sala macchine e all’interno dei rack. Sensori posti sia nella sala che all’interno dei rack La centralina di controllo è situata all'interno della sala macchine e verrà collegata con un sistema di allarmistica alla vigilanza dello stabile

Il proto Tier-2 di Frascati La sala che ospita attualmente il proto-Tier2 e’ situata al pian terreno di un edificio a due piani che ospita il servizio di calcolo dei LNF, una libreria a nastro dell’esperimento Kloe, il sistema informativo dell’INFN ed il POP GARR dell’area di Frascati Superficie 97 m2. Il Tier-2 occupa attualmente due rack e può essere espanso con altri tre rack Può ospitare tranquillamente tutte le risorse previste per il 2008 CALCOLO Kloe Garr Nastri utenti Altri experim Sistema Informativo Tier 2 9

Il proto Tier-2 di Frascati Impianto elettrico: Potenza attualmente necessaria: 15 kW (Atlas) + 40 kW (altre risorse) UPS da 160 KVA, autonomia 15’ Gruppo elettrogeno da 120 kW in azione dopo un minuto Impianto termico: L’impianto di raffredamento esistente e’ a circolazione d’acqua ricavato deviando una parte del condizionamento di Dafne Impianto Antincendio: Impianto a gas inerte (FM200) dimensionato tenendo conto della destinazione d’uso e dimensione dei vari ambienti 10

Il proto Tier-2 di Frascati Strategia del LNF riguardo al proto Tier-2 di ATLAS Il Direttore dei Laboratori ha espresso interesse per avere un centro di calcolo scientifico di cui il Tier-2 di ATLAS farà parte, e ha chiesto a Riccardo de Sangro, coordinatore di Gruppo I, di formare in proposito un gruppo di lavoro. C’è l’impegno del coordinatore a fornire conclusioni preliminari entro due mesi.

Sistemi di Monitoraggio e Gestione delle emergenze

Monitoring di infrastutture e servizi Sistemi di monitoring, allarmistica e gestione: Monitoring dei servizi grid, allarmi: SAM test Monitoring risorse e servizi, allarmi: Nagios Monitoring risorse e servizi: Ganglia Monitoring ambientale Gestione Emergenze: script automatici di spegnimento e/o accendimento delle farm

Test SAM Controllo dei servizi di GRID Test centralizzati Tipologia dei test sottomissione di job ai siti replica di dati verifica certificati e versioni del middleware periodicità circa 2 ore Test sia Atlas specifici sia per le VO di test (dteam/ops) In caso di fallimenti invia e-mail agli amministratori dei siti in caso di non risoluzione del problema il sito viene inserito in una blacklist

Nagios Monitoring dei servizi locali e delle risorse hw/sw Nagios è un sistema di monitoraggio non grid che consente di monitorare ogni aspetto del sito grazie a plugin lanciati periodicamente sugli host da monitorare Possono essere configurati controlli a piacere ed azioni da intraprendere in caso di fallimenti Permette di notificare agli amministratori del sito in caso di situazione anomale (invio e-mail, sms ..) Monitoring Risorse: Stato degli host up/down (ping) Carico delle CPU Carico della memoria centrale e swap Spazio dischi interni Numero degli utenti sulla macchina Temperatura interna della macchina (ove possibile) Monitoring Servizi: SSH e NFS Area del sw di esperimento montata e disponibile ai WN demone SQL Code: job running e in coda

Ganglia Monitoring dell’andamento storico e corrente di job e risorse utilizzato largamente per visualizzare lo stato del cluster e il suo andamento nel corso del tempo: cpu, memoria, disco, rete Conserva i dati dell’ultimo anno Permette di scrivere plugin e metriche ad-hoc Non consente di inviare notifiche in caso di situazioni anomale

Monitoraggio ambientale Monitoring dei parametri ambientali e elettrici Oltre agli usuali sistemi di monitoraggio ambientale dei CED si usano software per il monitoraggio dei rack autoraffreddati. Esempio del sistema di controllo CMC dei rack Rittal di Napoli: Parametri monitorati: Temperatura dell’acqua in ingresso ai moduli di raffreddamento Portata dell’acqua Temperatura aria in ingresso e uscita Umidità nei rack Presenza di fumi, fiamme, allagamento Corrente assorbita dalle singole prese intelligenti Tutti questi parametri possono essere letti e monitorati da remoto grazie alle unità CMC in grado di mandare avvisi o allarmi in vario come email, sms, trap snmp nonché ovviamente avvisi sonori e ottici

Gestione emergenze Obiettivo: spegnimento e accensione automatici di farm e sistemi di calcolo con gestione delle emergenze Sono in fase avanza di sviluppo delle procedure di gestione delle emergenze che si basano sull’azione di script automatici per lo spegnimento dei sistemi di calcolo Procedure automatizzate di riaccensione delle farm attraverso gli stessi script o manuali Le procedure possono essere inizializzate da: Mancanza / Ritorno corrente agli UPS Valori fuori range dei sensori ambientali Operazioni manuali di manutenzione

Gestione emergenze Powerfarm: esegue le azioni di spegnimento e accensione Spegnimento totale o parziale degli elementi e riaccensione quando le condizioni lo permettono esegue le azioni nell’ordine e nei tempi opportuni rispettando le dipendenze funzionali tra i dispositivi L’esecuzione della procedura può essere invertita in tutta sicurezza al sopraggiungere dell’opportuna condizione (ritorno alimentazione) ottimizzazione dei tempi (operazioni parallele “a ventaglio” ove possibile) UPS1 ... RACK1 RACKn Disk server1 Disk servern DPM server CE1 CEn WN1 WNn ordine arresto dipendenze accensione dipendenze arresto ordine accensione operazioni a ventaglio Spegnimento: si invia prima lo shutdown via ssh, se la macchina non risponde viene spenta con IPMI Accensione: viene fatto con comandi IMPI tenendo conto dei ritardi necessari per rispettare le dipendenze Sviluppato a NA in collaborazione con il progetto SCoPE

Sistema del Centro di Calcolo di Milano: Gestione emergenze Sistema del Centro di Calcolo di Milano: Server di shutdown dedicato (blindato) con chiave ssh su ogni macchina La procedura, attivabile anche manualmente, è basata sulle risposte a interrogazioni snmp all’UPS Nodi divisi in gruppi. Lo shutdown e il restart avvengono per gruppi per salvaguardare le dipendenze Shutdown dopo 20 minuti di interruzione della fornitura di energia della linea primaria. L’ultimo gruppo inizia lo spegnimento dopo 30 minuti. Tarato secondo il carico attuale La procedura tiene conto dell’attuale carico sull’impianto elettrico e del fatto che non è ancora installato il gruppo elettrogeno Allarmistica di down elettrico sia via mai che sms Programma di interfaccia web per controllo sullo status complessivo delle macchine inserite nella procedura Restart manuale per gruppi (in futuro tramite protocollo ipmi o wake on lan)