Cloud per HA nei Servizi Paolo Lo Re Stefano Stalio
Un po’ di storia… 1 - Virtualization and High Availability CCR Workshop 2007 - Continuità operativa dei servizi informatici presso i LNGS CCR Workshop 2008 - Alta affidabilità con la virtualizzazione CCR Workshop 2009 - Highly available services on virtual hosts CCR Workshop 2010 - VI sessione: HIGH AVAILABILITY CCR Workshop 2011 Lo Re Stalio Ws CCR CNAF 6/2/13
Un po’ di storia… 2 Marche Cloud CCR ottobre 2012 Infrastruttura di Cloud per i servizi (NA) CCR ottobre 2012 U-LITE ai LNGS CCR ottobre 2012 Cloud di Torino CCR ottobre 2012 Cloud per i SCR CCR dicembre 2012 Lo Re Stalio Ws CCR CNAF 6/2/13
Availability necessaria per i servizi Quale Availability? Service Availability Data Availability Infrastructure Availability Disaster Recovery Quali tool sono proposti/usati? Lo Re Stalio Ws CCR CNAF 6/2/13
VM (Service) Availability 1 - linux-HA (poi pacemaker) come wireless gateways, u-lite controller node (assieme a DRBD) In un ambiente cloud l'hypervisor e` lo stonith device Semplice da implementare, ma i controlli sono solo sulla raggiungibilità del nodo, non sulla sua capacità di offrire uno o più servizi Lo Re Stalio Ws CCR CNAF 6/2/13
VM (Service) Availability 2 Linux Virtual Server (LVS) come web services, ldap, dns, proxy cache, cloud storage (ad esempio owncloud, assieme a glusterfs e mysql master-master replica) Controlli anche sofisticati sul funzionamento dei servizi ma infrastruttura più complessa. - Cisco SLB (simile a LVS) NON gratuito… Lo Re Stalio Ws CCR CNAF 6/2/13
VM (Service) Availability 3 alcuni cloud stack, come VMWare, vSphere, Proxmox, OpenNebula ed altri riaccendono le VM automaticamente su un altro hypervisor se il primo fallisce - meccanismi di HA interni al software che offre il servizio (es: kerberos, nis) Spesso (vedi DNS, LDAP) questi meccanismi non sono soddisfacenti a causa del delay introdotto quando il server principale non è raggiungibile Lo Re Stalio Ws CCR CNAF 6/2/13
Data Availability - DRBD, in combinazione con linux-HA - GPFS o glusterfs anche in combinazione con linux-ha, LVS, cisco SLB ecc. - redundant SAN Assieme al precedente il più adatto per lo storage delle VM images - db master-master o master-slave replica in combinazione (rispettivamente) con LVS o linux-HA Lo Re Stalio Ws CCR CNAF 6/2/13
Infrastructure Availability 1 - Dove per il funzionamento della cloud sono vitali alcuni servizi (offerti da VM o macchine fisiche) vengono essenzialmente riciclate le soluzioni citate per Service Availability. Possono essere necessarie configurazioni manuali non sempre immediate - Proxmox realizza un cluster di hypervisor che sono pari tra loro, no SPOF. Lo Re Stalio Ws CCR CNAF 6/2/13
Infrastructure Availability 2 E poi tecniche «standard» di protezione dell’hardware degli esecutori: - hardware con componenti ridondati (RAID, doppi alimentatori). - centri di calcolo con impianti (elettrici, di raffreddamento) ridondati. Ma i servizi necessari alla cloud nascono HA? Lo Re Stalio Ws CCR CNAF 6/2/13
Disaster recovery Attraverso la realizzazione di cloud con nodi esecutori distribuiti su rete geografica, le tecniche di cloud hanno una reale potenzialità di disaster recovery. Ad esempio storage basato su GlusterFS implementato su rete geografica. Si potrebbe anche pensare a un repository remoto delle VM che implementano i servizi di una Struttura, in modo da farle ripartire in caso di failure totale di una sede. Lo Re Stalio Ws CCR CNAF 6/2/13