Alta disponibilità e Disaster Recovery Discussione sugli strumenti attualmente in uso e possibili prossime evoluzioni WS CCR 27/5/2013 S.Zani.

Slides:



Advertisements
Presentazioni simili
Il Caso O.S.B. Organizzazione Servizi Bancari Dr. Giuseppe Mazzoli AltaVia Consulting Snc Società di consulenza per l'informatica e l'e-business.
Advertisements

Gestione dei laboratori Come rendere sicura la navigazione internet e l'uso della rete Lorenzo Nazario.
Gruppo Directory Services Rapporto dell'attivita' svolta - Marzo 2000.
Benvenuti a Un incontro informativo di grande valore ed alto contenuto sulla Virtualizzazione e sistemi ad alta disponibiltà per le PMI.
Firenze 17 Giugno 2010 Sala Grazzini 9.30Registrazione e welcome coffee 9.45Benvenuto di S&NT Informatica 10.00Il nuovo Desktop Microsoft per la PMI Italiana:
U N INFRASTRUTTURA DI SUPPORTO PER SERVIZI DI FILE HOSTING Matteo Corvaro Matricola Corso di Reti di Calcolatori LS – Prof. A. Corradi A.A.
Configurazione in ambiente Windows Ing. A. Stile – Ing. L. Marchesano – 1/23.
© Sediin e Achab 2007 MDaemon in Cluster: il cluster in azione Milano, 5 luglio 2007 Emiliano Biocchetti - SEDIIN S.p.A. &
Configurazione di una rete Windows
Norman SecureBackup Il backup flessibile per le piccole e medie imprese.
Reti di calcolatori LS Manni Tiziano  IT e nuovi scenari applicativi …  … portabilità dei dati …  … condivisione dati …  … disponibilità.
SIARL ARCHITETTURA DEL SISTEMA E GESTIONE DELLA SICUREZZA Milano, 5 novembre 2003 Struttura Sistemi Informativi e Semplificazione.
Esigenze nell’implementazione della suite di collaborazione di Oracle nell’infrastruttura IT dell’Istituto Nazionale di Fisica Nucleare Dael Maselli Oracle.
Dael Maselli Gruppo WebTools CCR – 03 Ottobre 2007.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Fedora Directory Server Dael Maselli Workshop AAI - 30 Maggio LNF.
Dael Maselli Gruppo WebTools CCR – 14 Marzo 2007.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
L. Servoli - CCR Roma 15 marzo Il progetto High Availability D. Salomoni - CNAF L. Servoli - INFN Perugia.
Studio di una soluzione distribuita per la gestione di un centro sondaggi.
Sistemi di elaborazione dell’informazione Modulo 3 - Protocolli applicativi Unità didattica 1 - Domain Name System Ernesto Damiani Lezione 2 – Caratteristiche.
Bonjour Post-It servizio di post-it distribuito di Elisa Rondini.
Reti di calcolatori LS1 Service Middleware Reti di calcolatori LS progetto di Andrea Belardi Infrastruttura dedicata alla gestione di servizi disponibili.
L’Open Source per i flussi documentali Roma - Piazza Cardelli, 3 giugno 2004 Provincia di Prato 1.
Alex Marchetti Infrastruttura di supporto per l’accesso a un disco remoto Presentazione del progetto di: Reti di calcolatori L-S.
SnippetSearch Database di snippet bilanciato e replicato di Gianluigi Salvi Reti di calcolatori LS – Prof. A.Corradi.
Alessandro Tirel - Sezione di Trieste Storage Area Network Riunione gruppo Storage Padova, 5 ottobre 2005.
Dael Maselli – INFN LNF CCR – 17 Marzo Dael Maselli slide 2 CCR Oracle Collaboration Suite  Ci sono seri problemi con la suite della.
INFN-AAI Stato dell’infrastruttura centrale Dael Maselli Workshop INFN CCR 2015.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
Le basi di dati.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
INFN-AAI Protoserv Dael Maselli Tutorial INFN-AAI Plus Marzo 2012.
Panoramica Servizi Nazionali INFN Servizi gestiti al CNAF
Commissione Calcolo e Reti Gruppo Multimediale Stefano Zani, Alfredo Pagano INFN-CNAF Bologna, 3 Marzo 2008.
Gestione centralizzata caselle PEC per l’INFN Alessandro Brunengo, per il gruppo Mailing.
Servizi Nazionali Stefano Longo (CNAF) Massimo Pistoni (LNF) WS CCR maggio 2016.
Riunione PRIN STOA - Bologna - 18 Giugno 2014 Testbed del T2 distribuito Napoli-Roma Dr. Silvio Pardi INFN-Napoli Riunione PRIN STOA – Bologna 18 Giugno.
Evoluzione di TRIP: Eduroam, portale Web e autenticazione su IdP INFN Riccardo Veraldi, Vincenzo Ciaschini - CNAF.
Sistema Informativo Riunione 20 Dicembre (Frascati) Guido Guizzunti.
(possibili scenari) Gruppo Multimedia Stefano Zani (INFN CNAF) Commissione Calcolo e Reti Frascati, Dicembre 2007.
Presentazione WS del 23/10/2013 al CNAF: 0&resId=0&materialId=slides&confId=6920
Report sui Servizi nazionali dell’INFN (ai LNF) Massimo Pistoni febbraio 2014.
Disaster Recovery INFN Workshop CCR Laboratori Nazionali G.Sasso Galli Claudio 26-28/02/ /2/20141Claudio Galli, Stefano Zani WS CCR LNGS.
Servizi Nazionali e Locali Preentivo 2013
Attività e servizi di calcolo a Roma Tor Vergata R. Kwatera, R. Lulli, R. Sparvoli Roma Tor Vergata.
Riunione del Servizio Sistema informativo 20 dicembre 2012.
Report sui recenti attacchi ai siti web dell’INFN CCR 10 ottobre 2013 Massimo Pistoni.
Progressi AAI. Agenda Report da WorkingGroup e WorkShop GARR AAI Stato avanzamento lavori Lavori in corso To Do List.
Uso della rete geografica e richieste di upgrade CCR 31/3/2015 (Roma) S.Zani.
Architettura per servizi ad alta affidabilità Stato e Prospettive del Calcolo Scientifico Febbraio 2011
TRIP 27 Maggio 2013Riccardo Veraldi - CCR WS
Report sullo stato dei Servizi Web nazionali AC Antonino PassarelliCNAF Riccardo Veraldi Giulia Vita FinziLNF Sandro Angius Dael Maselli Massimo Pistoni.
Struttura nazionale di Nameserver per i servizi ad alta affidabilità Riccardo Veraldi - CNAF.
Disaster Recovery Resoconto delle attività del Gruppo di Lavoro DR CCR CNAF 5-7/2/2013 S.Zani.
Gruppo di lavoro “Sistema Informativo Nazionale”: Report Attivita’ Silvia Arezzini Domenico Diacono Michele Gulmini Francesco Prelz CCR – Roma - 6 Ottobre.
Multimedia Rapporto di attività Stefano Zani (INFN CNAF) Commissione Calcolo e Reti Frascati, Marzo /3/2009S.Zani.
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
Aggiornamento Netgroup R.Gomezel Commissione Calcolo e Reti LNF 29/09/ /10/2009.
DNS HA
Aggiornamento AFS R.Gomezel Commissione Calcolo e Reti Presidenza 5/10/2010-7/10/2010.
La gestione della rete e dei server. Lista delle attività  Organizzare la rete  Configurare i servizi di base  Creare gli utenti e i gruppi  Condividere.
Resoconto delle attività del Gruppo di Lavoro DR
Transcript della presentazione:

Alta disponibilità e Disaster Recovery Discussione sugli strumenti attualmente in uso e possibili prossime evoluzioni WS CCR 27/5/2013 S.Zani

HA e Disaster Recovery Per riuscire a costruire Servizi in modo da essere altamente disponibili ed in grado di resistere a situazioni di “Disastro” occorre: Replicare su più di una sede dati ed application server. Costruire le procedure necessarie alla attivazione dei servizi nelle sedi secondarie ed al setup delle infrastrutture necessarie a presentare sempre all’utente l’istanza disponibile del servizio. Ovviamente si dovrà ripristinare il servizio nella sede “Master” una volta risolti i problemi che ne hanno comportato la migrazione. WS CCR 27/5/2013 S.Zani

Replica geografica Per la replica dei dati si possono utilizzare tecniche diverse: 1.Sistemi di storage che forniscano nativamente la funzionalità di replica geografica a livello di “Blocco” :EMC MirrorView, NetApp SnapMirror, Dell Equallogic Snapsot & CommVault 2.Utilizzando script personalizzati e strumenti gratuiti come per esempio rsync (in questo caso la replica potrà essere solo asincrona). 3.Utilizzando Filesystem distribuiti che consentano la replica geografica (Es. GlusterFS, GPFS.. ). Per la replica di DB occorre tenere conto del fatto che una replica brutale a livello di blocco non garantisce la consistenza del DB e quindi per ogni DB si dovranno utilizzare strumenti di replica specifici. WS CCR 27/5/2013 S.Zani

DNS HA Un componente fondamentale per una efficiente gestione di servizi in replica geografica è la disponibilità di una struttura DNS distribuita ed aggiornabile dinamicamente. I server sono stati acquistati e collocati a Bologna e Roma1. A livello prototipale il sistema è gia stato testato e garantisce la piena funzionalità in modalità mutimaster (con possibilità di modifica delle entry anche durante l’ipotetico “Down” di una delle due sedi ospitanti i DNS) WS CCR 27/5/2013 S.Zani

WS CCR 27/5/2013 DNS HA architecture (multimaster) Riccardo Veraldi infn.it server2.infn.it ns1.ha.infn.it ha IN NS ns1.ha.infn.it ha IN NS ns2.ha.infn.it ns1.ha.infn.it ns2.ha.infn.it x.y host IN CNAME host.ha.infn.it. ha IN NS ns1.ha.infn.it ha IN NS ns2.ha.infn.it ns1.ha.infn.it ns2.ha.infn.it x.y host IN CNAME host.ha.infn.it. probe Master instance at INFN ROMA1 Master instance at CNAF ns2.ha.infn.it host 60 IN A 193.x.y.z host 60 IN A a.b host 60 IN A 193.x.y.z host 60 IN A a.b nsupdate

HA DNS multimaster WS CCR 27/5/2013 In generale I servizi nazionali (host.infn.it) saranno replicati a livello geografico in almeno due siti, per esempio: CNAF e Frascati. Il sottodominio ha.infn.it è implementato con una architettura multimaster in due sedi differenti CNAF e ROMA1 –Si è impostata una delega su server2.infn.it (il DNS primario per infn.it) definendo ns1.hs.infn.it ed ns2.ha.infn.it come autoritativi per il dominio ha.infn.it. Gli hostname dei servizi da gestire in modalità HA sono definiti come CNAME che puntano agli hostname definiti nel dominio ha.infn.it. I nomi definiti su ns1.ha.infn.it ed ns2.infn.it puntano all’indirizzo IP di una delle istanze del servizio (quella master) con TTL settato a 60. Un server nagios (installato nella sede che ospita ns2.ha.infn.it) verifica tramite probe lo stato delle diverse istanze dei servizi ospitate su server distinti. –Se il server primario non risponde al probe, nagios provoca una procedura di update per modificare l’indirizzo IP su ns2.ha.infn.it o su ns1.ha.infn.it se il primo non fosse raggiungibile in modo da puntare alla istanza attiva del servizio. Per l’utente, utilizzando lo stesso CNAME definito su server2.infn.it il servizio sarà sempre raggiungibile nella sede nella quale è realmente attivo. S.Zani

Limiti di BIND9 BIND9 – Legge i dati da un file di testo. Questo rende molto semplice fare errori in fase di editing rischiando di renderlo illeggibile da BIND. – Mantiene in RAM tutti i dati del DNS e se il DNS in questione è autoritativo per molte zone, potrebbe essere necessario ricompilare il kernel in modo da soddisfare le esigenze di RAM – All’avvio, BIND “Carica” tutti i file relativi a tutte le zone e questa operazione può impiegare anche parecchio tempo. – Ogni volta che si cambiano delle informazioni all’interno delle zone, occorre fare ripartire BIND perché le modifiche abbiano effetto. – Non supporta architetture Multimaster WS CCR 27/5/2013 S.Zani

BIND-DLZ (Dynamically Loadable Zones) BIND-DLZ è una patch per BIND9 – Permette di registrare i dati all’interno di un database PostgreSQL MySQL Berkeley DB ODBC LDAP FS hierarchical structure – Le modifiche sul DB hanno effetto immediato sulle risposte di BIND alle query DNS (non è necessario fare ripartire BIND) – Carica le zone dinamicamente all’occorrenza – E’ molto flessibile.. Si possono avere zone gestite in maniera standard e zone configurate come DLZ semplicemente indicandolo nel file named.conf WS CCR 27/5/2013 S.Zani

BIND-DLZ + MySQL CNAF ROMA1 mysql ns1.ha.infn.it ns2.ha.infn.it bind-dlz MySQL circular replicationmaster1/slave2master2/slave1 WS CCR 27/5/2013 S.Zani

Istituzione del Gruppo DR COMPONENTI : Sandro Angius Claudio Bisegni Massimo Donatelli Claudio Galli Guido Guizzunti Dael Maselli Massimo Pistoni Claudio Soprano Riccardo Veraldi Stefano Zani + Collaborazione di Nunzio Amanzi WS CCR 27/5/2013 A fine luglio dello scorso anno è stato costituito un gruppo che si deve occupare di implementare soluzioni di disaster recovery per I servizi fondamentali dell’Ente. Quali sono i servizi informatici di base “Strutturali” per il funzionamento dell’Ente? DISTRIBUITO + replica geografica (By design) DISTRIBUITO + Mail Relay DNS MAILING AAI AAI DB GODIVA Sistema Informativo Contabilità (CNAF) Portale Missioni (CNAF) Gestione Presenze (CNAF) Stipendiale (LNF) Documentale (LNF) Protocollo (LNF) Business Intell. (CNAF) DR S.Zani DR

FASE 0: Replica dei “dati” dei servizi strutturali (permette in caso di disastro almeno di recuperare i dati per un successivo ripristino nella sede originale) – Ultimata Vista la varietà delle piattaforme (Dai sistemi operativi alle versioni di DB ecc.) Si è scelto di utilizzare script basati su strumenti “Standard” (shell + rsync) che permettano di recuperare i DATI in caso di “Disastro” SENZA TROPPE DIPENDENZE da altri servizi o condizioni al contorno. STATO ad oggi: REPLICHE GEOGRAFICE DEI BACKUP (Al giorno precedente) [Master  Sito di Backup] CNAF DB (Contabilità, Presenze, B.I.) [CNAF  LNF] CNAF App. Server (Contabilità, Presenze, Missioni) [CNAF  LNF] LNF DB+App. Server (Stipendiale, Documentale, Protocollo da Solaris[LNF  CNAF] Si è realizzato un sistema in grado di conservare i backup remoti per qualche giorno in modo da gestire eventuali repliche automatiche di dati corrotti. WS CCR 27/5/2013

FASE 1: Sincronizzazione dei DB, degli applicativi e definizione delle procedure per la riattivazione dei servizi nella sede secondaria Replica dei DB: L’unico strumento certificato da Oracle per la replica sincrona dei propri database è DataGuard ma data la disomogeneità delle versioni di Oracle in uso non è possibile procedere immediatamente alla replica di tutti I DB. LNF sta ultimando la migrazione dei suoi db su di un Oracle Database Appliance (Soluzione proprietaria Oracle che però dovrebbe permetterci comunque di utilizzare DataGuard) Appena il sistema sarà in produzione si procederà alla “Messa in SYNC” dei primi DB (In verde), successivamente gli altri. – BI(11g) CNAF  LNF(Subito) – DB presenze (11g) CNAF  LNF (Subito) – GODIVA (11) LNF  CNAF (Appena realizzati i test da RAC a singola istanza di Standby) – Contabilità (10) CNAF  LNF (Quando verrà aggiornato il DB) – Stipendiale e documentale (9 su solaris) LNF  CNAF (Non si prevede di replicare fino alla migrazione a CEZANNE e DB su ODA) WS CCR 27/5/2013 S.Zani

Replica APPS: Per la replica degli application server, occorre caso per caso realizzare una copia delle macchine virtuali o mantenere in sync macchine reali gemelle di quelle in produzione. – RSYNC (In produzione ora) – Creazione di un volume in replica geografica con Gluster 3.4 Beta in fase di test (Segnalo la collaborazione con Alessandro De Salvo che ha già esperienza nell’utilizzo di GlusterFS + Pacemaker per la ridondanza di servizi di Atlas a livello locale ed ha iniziato una attività di replica fra Roma1 e Napoli) Sviluppi futuri: Una volta in sync i DB Oracle e replicati Gli App servers potremo definire le le procedure manuali per la “Migrazione” dei servizi fondamentali. Successivamente e per le applicazioni che lo consentiranno, proveremo ad utilizzare gli strumenti di clustering opportuni in modo da gestire la migrazione automatica dei servizi. Si sta valutando la possibilità di utilizzare una VLAN estesa su rete geografica (mediante VPN l3) in modo da utilizzare di fatto una rete condivisa fra due sedi su cui ospitare gli application server in modo da realizzare una replica sincrona fra le due sedi. Questa soluzione non verrà utilizzata in produzione qualora non si dimostri solida ed affidabile. WS CCR 27/5/2013

Considerazioni generali E’ auspicabile la riduzione del numero dei DB ed è necessaria la convergenza su di una unica versione. (In corso) Oltre ad individuare strumenti “Solidi” per la replica degli “Environment” fra sedi differenti, occorre da ora in poi concepire i servizi per essere “Ridondati su più sedi”. Per quelle applicazioni che hanno una reale necessità di “Continuità di Servizio” con tempi di ripristino molto bassi, occorre scegliere opportunamente le sedi gemelle in modo che vi sia personale con competenze sui servizi ospitati perchè un sistema non è realmente ridondante se la conoscenza del funzionamento dello stesso è prerogativa di una sola persona (soprattutto con i tempi che corrono). WS CCR 27/5/2013 S.Zani

Punti di discussione Chi di voi ha sperimentato soluzioni che potrebbero essere utilizzate in ambito di DR ? – Chi è interessato alla attività di sperimentazione finalizzata a questo scopo? Si è accennato ad una possibile attività per definire semplici strumenti di DR per i mail server delle varie sedi cha a coppie potrebbero offrire da backup l’una dell’altra. Potrebbe essere una attività che partendo dalle esperienze fatte sino ad ora porti alla adozione di script e procedure “Standard” per i backup in geografico? WS CCR 27/5/2013

FINE WS CCR 27/5/2013 S.Zani

BACKUP SLIDES WS CCR 27/5/2013

Componenti del Sistema informativo installati al CNAF da replicare a Frascati Contabilità: 2 Macchine Fisiche Capacità: (300GB+300GB) Gestione Presenze : 2 VM Capacità: (100GB+12GB) Portale Utente (Missioni): 1 VM Capacità: 10 GB Lo spazio disco necessario ai LNF per ospitare I DB dei servizi di base e le VM necessarie è stimato in 1TB (considerare 2TB per margine) WS CCR 27/5/2013

Componenti del Sistema informativo installati a Frascati da replicare al CNAF Stipendiale (HR) Documentale Protocollo 1 SUN Capacità 500 GB GODIVA (AAI) 2 VM Capacità 300 GB Lo spazio disco al CNAF per ospitare i DB dei servizi di base e le VM necessarie è stimato in 1TB (considerare 2TB per margine) SXGEST 2 Prevista (entro fine anno?) sostituzione di SXGEST2 con una installazione dell’applicativo CEZANNE Non sono ancora noti dettagli della implementazione ma si baserà su di un DB Oracle della dimensione di circa 500/600 GB WS CCR 27/5/2013