High Avaliability with RHCS HA INFN CNAF 22 Marzo 2006 Bologna Ricci Pier Paolo, on behalf of INFN TIER1 Staff

Slides:



Advertisements
Presentazioni simili
Windows Server 2003: Tecnologie per lalta disponibilità Andrea Candian.
Advertisements

Entro fine marzo 2012 potrà essere distribuita, a chi ne farà richiesta, la versione 7.0 di Inemar, che contiene la prima parte delle modifiche e degli.
Giuseppe Fabio Fortugno.
1 La farm di ATLAS-Napoli 1 Gb/s 7 nodi con 2 CPU PIII a 1 GH, RAM 512 MB, 2 schede di rete a 100 Mb/s. Server con 2 CPU PIII a 1 GH, RAM 1 GB, 2 schede.
Aspetti critici rete LAN e WAN per i Tier-2
Workshop CCR Otranto - maggio 2006 General Parallel File System: caratteristiche, prestazioni ed esempi di utilizzo in produzione Alessandro Brunengo -
WP 2.4 al Cnaf Cnaf 13/11/00 P.M Hardware: - 12 PC Rack mountable IBM XSeries 330 (1U) 2 processori Pentium III 800 Mhz, FSB 133 Mhz 512 MB Mem Ecc, Controller.
Workshop sulle Problematiche di Calcolo e Reti nellINFN Maggio 2004 SantElmo Beach Hotel, Castiadas (CA) Esperienze di storage Test di funzionalità
1 Riunione del 29 Marzo 2007 IL PROGETTO SCoPE Prof. Guido Russo I lavori Le apparecchiature Il portale.
Monitoraggio online con la mappa del tracker M.S. Mennea, G. Zito Università & INFN di Bari Riunione Consorzio – Bari 9 Settembre 2005.
Michele Michelotto INFN-Padova
Il Tutorial INFN-GRID/EDG di Torino Testbed INFN-GRID.
LNL M.Biasotto, Bologna, 13 dicembre La farm di Legnaro Massimo Biasotto – INFN LNL.
LNL M.Biasotto, Bologna, 13 dicembre Installazione automatica Massimo Biasotto – INFN LNL.
LNL M.Biasotto, Bologna, 18 ottobre La farm CMS di Padova - Legnaro Proposta di acquisto hardware 2° semestre 2001.
1 M. Biasotto – Legnaro, 22 Dicembre 2005 Prototipo Tier 2 di Legnaro-Padova INFN Legnaro.
E. Ferro / CNAF / 14 febbraio /13 GRID.it servizi di infrastruttura Enrico Ferro INFN-LNL.
5 Feb 2002Stefano Belforte – INFN Trieste calcolo per CDF in Italia1 Calcolo per CDF in Italia Prime idee per lanalisi di CDF al CNAF Numeri utili e concetti.
Benvenuti a Un incontro informativo di grande valore ed alto contenuto sulla Virtualizzazione e sistemi ad alta disponibiltà per le PMI.
Atempo Time Navigator HyperStream Server La prima installazione italiana Bologna, 27 aprile 2010.
Stefano Zani e Pierpaolo Ricci (INFN CNAF)
Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.
Dischi in RAID  Redundant Array of Independent Disk Configurazione che permette di combinare più dischi secondo obiettivi di performance e ridondanza.
CARICATE IL VOSTRO SCANNER S2. Caricare lo Scanner significa: Inviare i dati delle scansioni effettuate dal vostro Scanner al server Nu Skin in tutto.
Works in progress.  Semplificazione e maggiore efficienza della gestione  Risparmio (nel medio periodo)  Riallocazione delle risorse (hardware e timesheet)
Riunione gruppo storage – Roma 05/05/2005 Test di affidabilita’ e performance a Genova Alessandro Brunengo.
Sicurezza nella Sezione INFN di Bologna Franco Brasolin Servizio Calcolo e Reti Sezione INFN di Bologna Riunione Referenti – Bologna 17 Novembre 2003 –
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Extreme Cluster Administration Toolkit Alberto Crescente, INFN Sez. Padova.
RHCS XEN Cluster Dael Maselli – Workshop CCR – Maggio 2009.
LNL CMS M.Biasotto, Roma, 22 novembre I Tier2 in CMS Italia Massimo Biasotto - LNL.
CSN Maggio 2005 P. Capiluppi Il Computing Model (LHC) nella realta’ italiana u I Computing models degli esperimenti LHC gia’ presentati a Gennaio.
LNF Farm E. V. 9/8/2006. Hardware CE, LCFG, HLR, 3 WN: DL 360 1U; SE: DL 380 2U 5 WN: BL 25 P In totale 25 jobs general purpuse (coda Atlas) + una coda.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
L. Servoli - CCR Roma 15 marzo Il progetto High Availability D. Salomoni - CNAF L. Servoli - INFN Perugia.
CSN1 2 Febbraio 2004 P. Morettini 1 La nuova politica di RedHat La linea di prodotti RedHat Enterprise Linux L’accordo HEP Europe – RedHat Che fare ?
Workshop CCR Otranto - giugno 2006 Gruppo storage CCR Status Report Alessandro Brunengo.
Alessandro Tirel - Sezione di Trieste Storage Area Network Riunione gruppo Storage Padova, 5 ottobre 2005.
Grid nelle sezioni: Milano Luca Vaccarossa INFN – Sezione di Milano Workshop sulle Problematiche di Calcolo e Reti nell'INFN.
La Farm di Atlas a Roma 1 Outline Architettura della farm Architettura della farm Installazione Installazione Monitoring Monitoring Conclusioni Conclusioni.
Situazione RedHat R. Gomezel Workshop sulle Problematiche di Calcolo e Reti nell'INFN Maggio 2004 Sant' Elmo Beach Hotel, Castiadas (CA)
Federico Ruggieri INFN-CNAF Commissione Scientifica Nazionale I Lecce 24 Settembre 2003 Il Progetto TIER1 Status Update.
La Farm di Alice a Torino Workshop sulle problematiche di calcolo e reti Isola d’Elba 6-9 maggio 2002 Mario Sitta (Università del Piemonte Orientale e.
LNL CMS M.Biasotto, Bologna, 28 maggio Upgrade farm a RH-7.3  Due anni fa la farm era stata installata usando una versione customizzata di ANIS.
Dael Maselli – Workshop CCR – Maggio  SAN  Red Hat Cluster Suite ◦ RedHat Enterprise, Scientific Linux o CentOS  XEN.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
Storage (ieri, oggi e domani) Luca dell’Agnello INFN-CNAF.
Roberto Covati INFN di Parma. Workshop CCR/INFN GRID Palau maggio Sommario VmWare Server (in produzione dal 2004 al 2008) VmWare Infrastructure.
Roberto Covati – Roberto Alfieri INFN di Parma. Incontri di lavoro CCR dicembre Sommario VmWare Server (in produzione dal 2004) VmWare ESX.
Servizio posta Situazione al 27/09/2012 Marco De Rossi Marco Esposito Antonio Forte.
Tier-2 Legnaro-Padova Massimo Sgaravatto (INFN Padova) On behalf of the Legnaro-Padova T2 team Tier-2 Legnaro-Padova 1.
D. Martello Dip. Fisica - Lecce Sintesi piani esperimenti CSN2 CNAF 7-marzo-2007.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
DA e controlli DAFNE Riccardo Gargana Frascati 13/12/ /12/13.
Presentazione WS del 23/10/2013 al CNAF: 0&resId=0&materialId=slides&confId=6920
Report sui Servizi nazionali dell’INFN (ai LNF) Massimo Pistoni febbraio 2014.
Attività e servizi di calcolo a Roma Tor Vergata R. Kwatera, R. Lulli, R. Sparvoli Roma Tor Vergata.
Riunione gruppo reti E. P.. IPMI Porta da mascherare sul router Scan IPMI e piano di indirizzamento (privato ?) Da fare nel piano generale quando si ha.
Server & Storage Urgenze e anticipazioni seconde priorità CCR Marzo 2009 AG MM LC.
Riunione SICR E. P.. Certificati  Digicert  Server  Personali per dipendenti ed associati  Non associati e macchine su phys.uniroma1.it ?  Problema.
1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera
Netgroup (Rapporto di aggiornamento alla Commissione) Stefano Zani (INFN CNAF) CCR Roma, Ottobre 2013.
Test di storage a 10 Gbps proposta. Storage server a 10Gbps Si vuole vedere quali prestazioni si possano ottenere da server connessi a 10 GE –capacita’
The INFN Tier-1: progetto di ampliamento Cristina Vistoli – INFN CNAF Referee Meeting Sep
Gruppo Server Commissione Calcolo e Reti 15 Marzo 2006.
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
Configurazioni Hardware  Esistono diversi tipi di configurazioni hardware, a seconda del compito che il sistema dovrà svolgere:  Casa/Ufficio (tipicamente.
Assegnazione risorse Stato INFN CNAF,
Care and Feeding of the ALICE Grid
Transcript della presentazione:

High Avaliability with RHCS HA INFN CNAF 22 Marzo 2006 Bologna Ricci Pier Paolo, on behalf of INFN TIER1 Staff

Switch FC Power Supply 220V LAN 2 Dell GB RAM servers Connection to LAN Eth0 Heartbeat Eth1 crosslink APC Master Switch Controller AP9224 Remote Power on/off Using IP Quorum disk Cluster RedHat A.S Storage disks TB (CDF AMS) Qlogic "persistent binding" used to lock different devices to the same SCSI ID (/dev/sdX) on the OS 2 nodi in cluster con eth1 IP heartbeat e un “quorum disk” (MAX 2 nodi con la 2.1) Ogni servizio “clustered” ha il suo indirizzo IP associato (IP alias) Si ha alta affidablità solo su un singolo servizio ma e’ possibile una configurazione “active/active” su servizi differenti (che possono essere anche 2 nfs con IP e mountpoint separati) E’ stato provato con successo con I servizi NFS e Oracle (NFS in produzione per circa 1 anno). Le operazioni di mount/dismount vengono forzate automaticamente usando la SAN per accedere ai volumi. E’ stato necessario “Patchare” l’agente stonith (Shot The Other Node In The Head) per forzare il powroff utlizzando le presiere controllabili via IP di APC. Hardware watchdog instabile, software watchdog insufficente Subscription a redhat necessarie per aggiornamento (1KEuro/anno per nodo) acquistato 1.

2 Switch FC Power Supply 4 Diskserver Supermicro Main Services storage partitions IBM FastT900 (DS4500) Cluster RedHat A.S nodi in cluster con “quorum disk” (MAX 8 nodi con la 3.0) E’ stato provato in produzione con i servizi NFS e rfiod per circa 6 mesi a fine La versione testata dava problemi di stabilità nella rilocazione dei servizi, capitava di avere lo stesso fs montato su più nodi! (pericolo di fs corruption). Livello di supporto e possibilità di debugging bassa (log poco verbosi, non c'erano parametri di tuning) Subscription a redhat necessarie per aggiornamento (1KEuro per nodo) non sono state rinnovate Le nuove presiere di APC famiglia 79XX non erano presenti nello stomith/fencing (Shot The Other Node In The Head) per forzare il reboot utlizzando le presiere controllabili via IP di APC. Sarebbe stato necessario effettuare di nuovo il patch LAN Quorum partition Supported layout (quorum on the same hardware device) APC AP7951 Remote Power on/off Using IP HeartBeat via Tierbreaker IP sul gateway

Cluster RedHat A.S. 3.0 Update Training e confronto effettuato con RedHat Italia (Milano) 2 settimane fa La nuova versione del cluster per RH AS/ES 3.0 Update 6 (versione del cluster-manager e versione del redhat-config-cluster) sembrano molto più stabili di quelle installate in preproduzione a fine 2004 (v e v ) Il codice dello stomith/fencing sembra includere le nostre presiere APC famiglia 79XX dalla (anche se la matrice di certificazione non le cita) Il codice degli update è legalmente usabile se 1. Ricompilato dai src rpm con la rimozione dei loghi redhat. RedHat visto che si tratta di codice GPL deve rilasciare i source rpm (ftp://ftp.redhat.com) 2. Si utilizzano gli rpm ricompilati dal Cern distribiti con gli update della Scientific Linux Cern 3. Si rinuncia al supporto RedHat E' importante riprovare ad installare su macchine di produzione gli update più recenti rilasciati dei 2 rpm e effettuare test approfonditi per verificare i miglioramenti. In ogni caso il cluster ovviamente diventa un vantaggio SOLO se stabilizzato completamente, ovvero se l'introduzione del cluster in produzione non crea più problemi e un aumento dei MTBF (mean time between failure) rispetto ad avere macchine singole separate. Questo è verifcabile solo entro un consistente intervallo temporale

Cluster RedHat A.S. 4.0 Training e programmato con RedHat Italia (Milano) per Maggio Non si utilizzerà più il "quorum disk" ma il quorum viene effettuato usando le seconde interfaccie di rete delle macchine su una LAN/switch separato Codice riscritto da C a perl e altro. Strettamente collegato con GFS (ex. prodotto Sistina, Sistina è stata acquisita da RedHat). rpm nettamente aumentati e cambiati Il fencing include metodi meno drastici del poweroff dei nodi falliti (come la chiusura di porte FC sugli switch), l'hardware certificato nella tabella di certificazione sembra limitato ma l'unico metodo è provarlo sul nostro hardware Se si utilizza GFS è possibile usare tale clustered filesystem come layer su cui fare partire i servizi (e quindi usare modalità active/active sullo STESSO servizio da PIU' NODI)