Disaster Recovery INFN Workshop CCR Laboratori Nazionali G.Sasso Galli Claudio 26-28/02/2014 26/2/20141Claudio Galli, Stefano Zani WS CCR LNGS.

Slides:



Advertisements
Presentazioni simili
Istituto Nazionale di Fisica Nucleare Roma,12 febbraio 2001 Netgroup meeting Situazione attuale e attivita futura - R.Gomezel 1 Netgroup meeting Situazione.
Advertisements

Gruppo Directory Services Rapporto dell'attivita' svolta - Marzo 2000.
Benvenuti a Un incontro informativo di grande valore ed alto contenuto sulla Virtualizzazione e sistemi ad alta disponibiltà per le PMI.
Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.
© Sediin e Achab 2007 MDaemon in Cluster: il cluster in azione Milano, 5 luglio 2007 Emiliano Biocchetti - SEDIIN S.p.A. &
1© Copyright 2014 EMC Corporation. Tutti i diritti riservati. CONTINUOUS AVAILABILITY ORACLE Panoramica tecnica.
SIARL ARCHITETTURA DEL SISTEMA E GESTIONE DELLA SICUREZZA Milano, 5 novembre 2003 Struttura Sistemi Informativi e Semplificazione.
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Nemesi Creazione e pubblicazione di una rivista online tramite l’utilizzo di Java Message Service.
Workshop sulle problematiche di calcolo e reti nell’INFN Paestum,9-12 giugno 2003 Report sull’ultimo HEPiX e proposte per le prossime edizioni Roberto.
Dael Maselli Gruppo WebTools CCR – 03 Ottobre 2007.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
RHCS XEN Cluster Dael Maselli – Workshop CCR – Maggio 2009.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Benvenuti al Un incontro informativo di grande valore ed alto contenuto sulla Virtualizzazione e sistemi ad alta disponibiltà per le PMI.
Dael Maselli Gruppo WebTools CCR – 14 Marzo 2007.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
L. Servoli - CCR Roma 15 marzo Il progetto High Availability D. Salomoni - CNAF L. Servoli - INFN Perugia.
SnippetSearch Database di snippet bilanciato e replicato di Gianluigi Salvi Reti di calcolatori LS – Prof. A.Corradi.
Istituto Nazionale di Fisica Nucleare La Biodola, Isola d’Elba, 6-9 maggio 2002 AFS: Status Report WS CCR R.Gomezel Workshop sulle problematiche.
Dael Maselli – INFN LNF CCR – 17 Marzo Dael Maselli slide 2 CCR Oracle Collaboration Suite  Ci sono seri problemi con la suite della.
Dael Maselli – Workshop CCR – Maggio  SAN  Red Hat Cluster Suite ◦ RedHat Enterprise, Scientific Linux o CentOS  XEN.
INFN-AAI Stato dell’infrastruttura centrale Dael Maselli Workshop INFN CCR 2015.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Ufficio Sistemi Informativi Geografici – Centro Servizi per i Comuni Accordo di collaborazione 2014 – 2017 tra ANCI-ER/Comuni per il territorio ferrarese.
Panoramica Servizi Nazionali INFN Servizi gestiti al CNAF
INFN-AAI HA SAML Identity Provider Dael Maselli Workshop CCR INFN GRID Maggio.
Gestione centralizzata caselle PEC per l’INFN Alessandro Brunengo, per il gruppo Mailing.
Il sistema informativo CCR 16 marzo 2011 Giorgio Pietro Maggi.
Riunione PRIN STOA - Bologna - 18 Giugno 2014 Testbed del T2 distribuito Napoli-Roma Dr. Silvio Pardi INFN-Napoli Riunione PRIN STOA – Bologna 18 Giugno.
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
Claudio Grandi Workshop CCR 2015 Claudio Grandi INFN Bologna.
Servizi Nazionali INFN
Sistema Informativo Riunione 20 Dicembre (Frascati) Guido Guizzunti.
DA e controlli DAFNE Riccardo Gargana Frascati 13/12/ /12/13.
Presentazione WS del 23/10/2013 al CNAF: 0&resId=0&materialId=slides&confId=6920
Open City Platform: i primi risultati Riunione CCR, 16 settembre 2015 Luciano Gaido.
Report sui Servizi nazionali dell’INFN (ai LNF) Massimo Pistoni febbraio 2014.
Riunione SICR 16/2/2015. Rete Intervento 6509 – Sostituzione scheda avvenuta con successo – Fase di configurazione nuova scheda – Spostamento link? Mercoledi.
Servizi Nazionali e Locali Preentivo 2013
Attività e servizi di calcolo a Roma Tor Vergata R. Kwatera, R. Lulli, R. Sparvoli Roma Tor Vergata.
FORMAZIONE CCR ANNO 2016 Commissione Calcolo e Reti Trento 16 marzo 2016 Silvia Arezzini (per il gruppo di lavoro, composto anche da Luciano Gaido e Roberto.
Riunione del Servizio Sistema informativo 20 dicembre 2012.
Referaggio delle richieste dei gruppi di lavoro G. Ambrosi, R. Fantechi, M. Gulmini, O. Pinazza Commissione Calcolo e Reti, LNF, 5-7 Ottobre 2011.
Progetto iSCSI Report alla CCR 12-13/12/2006 Alessandro Tirel – Sezione di Trieste.
Progressi AAI. Agenda Report da WorkingGroup e WorkShop GARR AAI Stato avanzamento lavori Lavori in corso To Do List.
Riunione SICR E. P.. Certificati  Digicert  Server  Personali per dipendenti ed associati  Non associati e macchine su phys.uniroma1.it ?  Problema.
LNGS, Workshop CCR 2008, Giugno Sondaggio Utenti INFN Valeria Ardizzone INFN Catania Ombretta Pinazza CNAF.
TRIP 27 Maggio 2013Riccardo Veraldi - CCR WS
Report sullo stato dei Servizi Web nazionali AC Antonino PassarelliCNAF Riccardo Veraldi Giulia Vita FinziLNF Sandro Angius Dael Maselli Massimo Pistoni.
Netgroup (Rapporto di aggiornamento alla Commissione) Stefano Zani (INFN CNAF) CCR Roma, Ottobre 2013.
Disaster Recovery Resoconto delle attività del Gruppo di Lavoro DR CCR CNAF 5-7/2/2013 S.Zani.
EEE e Cloud Enrico Fattibene, Andrea Ferraro INFN – CNAF Workshop di CCR sull'Infrastruttura Cloud 15 Dicembre 2014 Quest'opera è distribuita con Licenza.
Gruppo di lavoro “Sistema Informativo Nazionale”: Report Attivita’ Silvia Arezzini Domenico Diacono Michele Gulmini Francesco Prelz CCR – Roma - 6 Ottobre.
Alta disponibilità e Disaster Recovery Discussione sugli strumenti attualmente in uso e possibili prossime evoluzioni WS CCR 27/5/2013 S.Zani.
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
DNS HA
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
Aggiornamento sui contratti ed accordi quadro nazionali hw e sw G. Vita Finzi Workshop CCR, LNS, 30 maggio 2014.
Aggiornamento AFS R.Gomezel Commissione Calcolo e Reti Presidenza 5/10/2010-7/10/2010.
Resoconto delle attività del Gruppo di Lavoro DR
Cloud per HA nei Servizi
Area Gestione Sistemi e Sicurezza LNF
Transcript della presentazione:

Disaster Recovery INFN Workshop CCR Laboratori Nazionali G.Sasso Galli Claudio 26-28/02/ /2/20141Claudio Galli, Stefano Zani WS CCR LNGS

Gruppo Aree di lavoro DNS {distribuito + geo-replica} MAILING {distribuito + mail relay } SISTEMA INFORMATIVO : Contabilità (CNAF) (  R12) Portale Utente (CNAF) Gestione Presenze (CNAF) Documentale Alfresco (CNAF) [new] Business Intelligence BI (CNAF) Protocollo (CNAF) [new] AAI + GODIVA (LNF) Stipendiale + Sxgest2 (LNF) Stipendiale + Cezanne (LNF) [new] Protocollo (LNF) Documentale (LNF) Portale Unico (LNF) [new] … Coordinatore : Stefano Zani Componenti : Sandro Angius Massimo Donatelli Claudio Galli Guido Guizzunti Dael Maselli Massimo Pistoni Claudio Soprano Riccardo Veraldi + Collaborazione : Nunzio Amanzi Alessandro De Salvo (indicazioni su distributed File System)... 26/2/20142Claudio Galli, Stefano Zani WS CCR LNGS

Le Fasi di Intervento Step 0: Replica dei «Dati Grezzi», overo dei Backup di database e applicativi. (Permette in caso di disastro di recuperare i dati grezzi necessari per un successivo ripristino manuale dei servizi, nella sede originaria o di backup a seconda della gravità del disastro.) [99.9%] 26/2/20143Claudio Galli, Stefano Zani WS CCR LNGS

Step 0 : Replica Geografica dei Backup Apparati di Storage eterogenei tra LNF e CANF. Scartate le soluzioni di mirroring tra gli storage delle due sedi. E’ stato implementato un meccanismo di sincronizzazione bidirezionale (CNAF-LNF) dei backup giornalieri che si basa sul rsync+SSL. Monitoring via mail. Conf. vista dal CNAF (la situazione ai morsetti è idealmente speculare se vista da LNF) : 1 Macchina Fisica RH Invia (CNAF  LNF): [  su Tape] Backup Freddo della contabilità (Db + App circa 500Gb dati, procedura rvisionata dopo la messa in produzione del nuovo Cluster R12 della Contabilità). Hot Backup del database della Contabilità R12 (2/day). Backup delle conf. dell VM del SI. presenti al CNAF (Portale Utente, Sistema Presenze, Business Intelligece, Dashboard CNAF, ecc…) 1 Macchina Virtuale RH Riceve (LNF  CNAF ): [  su Tape] Backup notturno di Sxgest2 (Vecchio HR+Stipendiale-Documentale-Protocollo) Hot Backup Godiva PreProd, Prod (2 full/settimana) Hot Backup CEZANNE (area HR per il nuovo sistema l’invio dei backup delle VM OVirt legate all’ area Cezanne-Sipert per il nuovo Stipendiale presso LNF. (Ultimata a brevissimo) 26/2/20144Claudio Galli, Stefano Zani WS CCR LNGS

Le Fasi di Intervento Step 0: Replica dei «Dati Grezzi», overo dei Backup di database e applicativi. (Permette in caso di disastro di recuperare i dati grezzi necessari per un successivo ripristino manuale dei servizi, nella sede originaria o di backup a seconda della gravità del disastro.) [99.9%] Step 1: Replica geografica con allineamento in tempo reale delle banche dati critiche per l’ente [Oracle Data Guard 11g]. [primi test Ripartirà Marzo 2014.] (Garantisce il corretto livello di data replication e getta le basi per le evoluzioni successive.) 26/2/20145Claudio Galli, Stefano Zani WS CCR LNGS

Step 1 : Replica Geografica dei Database 1/2 Vista la quantità di installazioni di Oracle Database Ent. Ed. si è scelto di studiare e testare le repliche geografiche con Oracle Data Guard 11gR2 (Soluizone consignliata in più occasioni e contesti ) Sono stati fatti 3 test finora. 1° test Replica locale (tra due macchine interne al CNAF) di un database di test Oracle Enterprise 10gR2 con Data Guard 10g. (di difficile gestione/monitoraggio su Data Guard 10gR2) 2° e 3° test - Replica Geografica LNF  CNAF del database di Pre-Prod di Godiva (11gR2). Utilizzato con successo Oracle Data Guard 11g e l’allineamento ha funzionato correttamente per una settimana. Si è deciso di uniformare il livello tecnologico alla versione 11gR2 dei Database per poter sfruttare alcune facility di Oracle Data Guard 11gR2. 26/2/20146Claudio Galli, Stefano Zani WS CCR LNGS

Step 1 : Replica Geografica dei Database 2/2 Database Godiva Prod e Pre-Prod : già compatibili con le scelte effettuate. Contabilità : il Passaggio alla R12 mette a disposizione un Database Oracle enterprise Ed. 11gR2 compatibile con le scelte effettuate. DB HR + Stipendiale : per il vecchio impianto (SXGEST2) verranno mantenuti in sync i soli backup, fintanto che ci saranno parti del vecchio impinato (hr+Stip+Protocollo) in uso. Il nuovo impianto (Cezanne) sfrutta un Database Oracle Enterprise 11gR2 su ODA (LNF) per lo strato di persistenza dei dati, quindi è compatibile con le scelte effettuate. Data Warehouse BI : già compatibile con le scelte effettuate. Necessario comunque effettuare dei test e delle verifiche sulle procedure ETL di importazione dei dati Sistema Presenze: attualmente su DB Oracle Enterprise 10gR2. E’ necessario un upgrade del database alla versione 11gR2 prima di poter replicare efficacemente il database tramite Data Guard 11g. 26/2/20147Claudio Galli, Stefano Zani WS CCR LNGS

Le Fasi di Intervento Step 0: Replica dei «Dati Grezzi», overo dei Backup di database e applicativi. (Permette in caso di disastro di recuperare i dati grezzi necessari per un successivo ripristino manuale dei servizi, nella sede originaria o di backup a seconda della gravità del disastro.) [99.9%] Step 1: Replica geografica con allineamento in tempo reale delle banche dati critiche per l’ente [Oracle Data Guard 11g]. [primi test Ripartirà Marzo 2014.] (Garantisce il corretto livello di data replication e getta le basi per le evoluzioni successive.) Step 2: Replica geografica in sync degli applicativi running. (La sincronizzazione degli strati applicativi sovrastanti le basi di dati consente di ripristinare i servizi in caso di disastro.) [Tecnology tracking] 26/2/20148Claudio Galli, Stefano Zani WS CCR LNGS

Step 2 : Replica Geografica degli Applicativi Fattori Abilitanti DNS HA: (READY) La struttura DNS HA implementata dal CNAF in collaborazione con ROMA1 e altre sedi che ospiteranno le ulteriori istanze di DNS in ridondanza è un elemento fondamentale per la costruzione di servizi in alta affidabilità a livello geografico e consente di referenziare dinamicamente le istanze multiple e distribuite sul territorio (e su reti differenti). Utilizzo di applicativi per la installazione automatica degli application server: L’utilizzo nelle sedi che ospitano servizi in DR di pacchetti per la installazione e gestione automatica degli application server (Per esempio PUPPET) renderebbe più veloce la reinstallazione di un servizio con contestualizzazione a livello di rete dei server. Estensione di una rete locale a livello geografico fra le sedi: (DA SPERIMENTATE) Se riuscissimo ad estendere una rete locale a livello geografico, potremmo migrare macchine virtuali da una sede all’altra senza necessità di modificare la numerazione IP e senza dovere intervenire sul DNS-HA  Recovery piu rapido e possibile realizzazione di “Cluster distribuiti in alta affidabilità” 26/2/20149Claudio Galli, Stefano Zani WS CCR LNGS

Step 2 : Replica Geografica degli Applicativi technology tracking GlusterFS (Replica remota a livello di FileSystem): Localmente al CNAF sono stati fatti alcuni test preliminari con la versione Comunity della Suite di Distributed Storage, ormai ufficialmente di Casa Red Hat (Red Hat Storage Server). I primi test con Macchine Virtuali KVM hanno messo in evidenza alcune criticità nella gestione della consistenza delle VM in caso di disservizi (Interazioni con il Gruppo Coud hanno gettato dubbi sulla efficacia di questo FS a livello geografico) 26/2/201410Claudio Galli, Stefano Zani WS CCR LNGS Esistono molte alternative per File system distribuiti, ma è necessario identificare quali siano le più appropriate in base alle esigenze degli applicativi sovrastanti (GPFS?).

Step 2 : Replica Geografica degli Applicativi technology tracking Replica remota dei volumi (a livello di DEVICE) Per tutto ciò che non è DB per i quali usiamo DataGuard, si potrebbero utilizzare specifiche features di replica remota fornite direttamente dai sistemi di storage. Esempi: Equallogic Auto Replication EMC Mirror View Netapp SnapMirror PRO: Una volta configurato a livello di volume, la replica è automatizzata CONTRO: Questi sistemi pongono vincoli sul tipo di storage utilizzato nelle sedi (che dovrà essere omogeneo). Questi oggetti possono avere un costo rilevante DUBBI: Come gestisco la consistenza delle immagini delle macchine virtuali che utilizzo? WAN Storage X Block device Storage X Block device Auto Replica VM Server Hypervisor 26/2/201411Claudio Galli, Stefano Zani WS CCR LNGS

technology tracking Hypervisor-based Replication Esempi:Vmware vCenter Site Recovery Manager (Commerciale) ZERT0 ( (Commerciale) Lavora a livello di Hypervisor e replica anche le singole VM. PRO: Sono soluzioni specifiche per il DR Sono indipendenti dall’HW utilizzato Si occupano di mantenere consistenti i file delle immagini virtuali nelle repliche (da testare). CONTRO: Supporta solo VMware (No KVM) Non è FREE!! Step 2 : Replica Geografica degli Applicativi WAN Storage X Block device Storage Y Block device Replica VM Server Hypervisor 26/2/201412Claudio Galli, Stefano Zani WS CCR LNGS

Le Fasi di Intervento Step 0: Replica dei «Dati Grezzi», overo dei Backup di database e applicativi. (Permette in caso di disastro di recuperare i dati grezzi necessari per un successivo ripristino manuale dei servizi, nella sede originaria o di backup a seconda della gravità del disastro.) [99.9%] Step 1: Replica geografica con allineamento in tempo reale delle banche dati critiche per l’ente [Oracle Data Guard 11g]. [primi test Ripartirà Marzo 2014.] (Garantisce il corretto livello di data replication e getta le basi per le evoluzioni successive.) Step 2: Replica geografica in synch degli applicativi running. (La sincronizzazione degli strati applicativi sovrastanti le basi di dati consente di ripristinare i servizi in caso di disastro.) [Tecnology tracking] Step 3: Test Plan periodici e definizione dele Procedure di Ripristino. Le prove periodiche di ripristino dei servizi servono a verificare che le procedure di recovery funzionino correttamente. 26/2/201413Claudio Galli, Stefano Zani WS CCR LNGS

26/2/201414Claudio Galli, Stefano Zani WS CCR LNGS Prossimi appuntamenti Marzo 2014: : Ripresa lavori per la replica con Data Guard. 31 : Riunione di allineamento del gruppo.

Fine 26/2/201415Claudio Galli, Stefano Zani WS CCR LNGS