Progetto Alta Affidabilità Leonello Servoli Workshop CCR, Otranto 8 giugno 2006.

Slides:



Advertisements
Presentazioni simili
1 Introduzione ai calcolatori Parte II Software di base.
Advertisements

© 2007 SEI-Società Editrice Internazionale, Apogeo Unità D1 Architetture di rete.
Unità D1 Architetture di rete.
Il Consolidamento di Servizi Virtual Server 2005 PierGiorgio Malusardi Evangelist - IT Professional Microsoft.
Cluster openMosix Linux Day ’04 Caserta Ing. Diego Bovenzi.
Giuseppe Fabio Fortugno.
1 9: Progettazione Architetturale Obiettivo: stabilire la struttura globale di un sistema software Descriveremo diversi tipi di modello di architettura,
Il Software: Obiettivi Programmare direttamente la macchina hardware è molto difficile: lutente dovrebbe conoscere lorganizzazione fisica del computer.
IL PATRIMONIO DI DATI - LE BASI DI DATI. Il patrimonio dei dati Il valore del patrimonio di dati: –Capacità di rispondere alle esigenze informative di.
Francesca Del Corso, CCR - Gruppo Windows, Bologna 16/02/2006 SUS - WSUS per il Security Patch Management.
Remote file access sulla grid e metodi di interconnesione di rete M. Donatelli, A.Ghiselli e G.Mirabelli Infn-Grid network 24 maggio 2001.
Sistemi Distribuiti Reti di Calcolatori a.a. 2003/2004
1 Riunione del 29 Marzo 2007 IL PROGETTO SCoPE Prof. Guido Russo I lavori Le apparecchiature Il portale.
Struttura dei sistemi operativi (panoramica)
Sistemi Operativi GESTIONE DEI PROCESSI.
Reti di Calcolatori L-S Un Sistema Decentrato di Allocazione del Carico per Applicazioni di Calcolo Distribuito Mauro Bampo.
LNL CMS M.Biasotto, Firenze, 22 maggio Hardware e tools di installazione Massimo Biasotto INFN – Lab. Naz. di Legnaro.
Case study Maiora srl.
Benvenuti a Un incontro informativo di grande valore ed alto contenuto sulla Virtualizzazione e sistemi ad alta disponibiltà per le PMI.
Atempo Time Navigator HyperStream Server La prima installazione italiana Bologna, 27 aprile 2010.
U N INFRASTRUTTURA DI SUPPORTO PER SERVIZI DI FILE HOSTING Matteo Corvaro Matricola Corso di Reti di Calcolatori LS – Prof. A. Corradi A.A.
VIRTUALIZZAZIONE Docente: Marco Sechi Modulo 1.
Servizi Grid ed agenti mobili : un ambiente di sviluppo e delivering
Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.
© Sediin e Achab 2007 MDaemon in Cluster: il cluster in azione Milano, 5 luglio 2007 Emiliano Biocchetti - SEDIIN S.p.A. &
Reti di calcolatori LS Manni Tiziano  IT e nuovi scenari applicativi …  … portabilità dei dati …  … condivisione dati …  … disponibilità.
Forum PA 2007 – Roma, 21 maggio 2007 Server Consolidation, l’esperienza dell’Ateneo di Bologna Alessandro Cantelli CeSIA - Università di Bologna.
Dischi in RAID  Redundant Array of Independent Disk Configurazione che permette di combinare più dischi secondo obiettivi di performance e ridondanza.
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Riunione gruppo storage – Roma 05/05/2005 Test di affidabilita’ e performance a Genova Alessandro Brunengo.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Test Storage Resource Manager per SC4 Giacinto Donvito Vincenzo Spinoso.
RHCS XEN Cluster Dael Maselli – Workshop CCR – Maggio 2009.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
Benvenuti al Un incontro informativo di grande valore ed alto contenuto sulla Virtualizzazione e sistemi ad alta disponibiltà per le PMI.
Servizio Sistema Informativo - Area Gestione Sistemi e Sicurezza – LNF – Dael Maselli Area Gestione Sistemi e Sicurezza LNF Plenaria Servizio Sistema Informativo.
L. Servoli - CCR Roma 15 marzo Il progetto High Availability D. Salomoni - CNAF L. Servoli - INFN Perugia.
1 Migrazione dei processi: Mosix. 2 Cosa è Mosix/OpenMOSIX ? OpenMOSIX è un è una patch del kernel di Linux che aggiunge funzionalit à avanzate di clustering.
SnippetSearch Database di snippet bilanciato e replicato di Gianluigi Salvi Reti di calcolatori LS – Prof. A.Corradi.
Istituto Nazionale di Fisica Nucleare La Biodola, Isola d’Elba, 6-9 maggio 2002 AFS: Status Report WS CCR R.Gomezel Workshop sulle problematiche.
Workshop CCR Otranto - giugno 2006 Gruppo storage CCR Status Report Alessandro Brunengo.
Alessandro Tirel - Sezione di Trieste Storage Area Network Riunione gruppo Storage Padova, 5 ottobre 2005.
La Farm di Alice a Torino Workshop sulle problematiche di calcolo e reti Isola d’Elba 6-9 maggio 2002 Mario Sitta (Università del Piemonte Orientale e.
Dael Maselli – Workshop CCR – Maggio  SAN  Red Hat Cluster Suite ◦ RedHat Enterprise, Scientific Linux o CentOS  XEN.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Report R.Gomezel CCR dicembre 2006 Roma.
CNAF 6 Novembre Layout del testbed  wn a OS SL5.0 8 GB RAM kernel xen_3.1.0 SMP  wn a OS SL5.0 8 GB RAM kernel.
Roberto Covati INFN di Parma. Workshop CCR/INFN GRID Palau maggio Sommario VmWare Server (in produzione dal 2004 al 2008) VmWare Infrastructure.
Roberto Covati – Roberto Alfieri INFN di Parma. Incontri di lavoro CCR dicembre Sommario VmWare Server (in produzione dal 2004) VmWare ESX.
Servizio posta Situazione al 27/09/2012 Marco De Rossi Marco Esposito Antonio Forte.
Un'infrastruttura per il Paese: il progetto SUNFISH Francesco Paolo Schiavo Luca Nicoletti Sede Sogei Roma, 5 Aprile 2016 C.
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
Riccardo Veraldi, CCR Dic 2008 Xen Problematiche sulla virtualizzazione.
DA e controlli DAFNE Riccardo Gargana Frascati 13/12/ /12/13.
Worker node on demand: le soluzioni Andrea Chierici INFN-CNAF CCR 2009.
Attività e servizi di calcolo a Roma Tor Vergata R. Kwatera, R. Lulli, R. Sparvoli Roma Tor Vergata.
Progetto iSCSI Report alla CCR 12-13/12/2006 Alessandro Tirel – Sezione di Trieste.
Progressi AAI. Agenda Report da WorkingGroup e WorkShop GARR AAI Stato avanzamento lavori Lavori in corso To Do List.
Server & Storage Urgenze e anticipazioni seconde priorità CCR Marzo 2009 AG MM LC.
1 ALICE I ITER2 DI ALICE IN ITALIA Bologna, 6 marzo 2007 M. Masera
P. Morettini. Organizzazione della CCR Le principali attività della CCR consistono da un lato nell’assegnazione di fondi per le infrastrutture di rete.
Attività Gruppo Virtualizzazione Andrea Chierici CNAF CCR
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
DNS HA
CCR - Roma 15 marzo 2007 Gruppo storage CCR Report sulle attivita’ Alessandro Brunengo.
Alessandro Tirel - Sezione di Trieste Storage servers & TCP Tuning Proposta di studio delle problematiche connesse alla fornitura di servizi di storage.
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
Attività Gruppo Virtualizzazione Andrea Chierici CNAF Riunione CCR
Transcript della presentazione:

Progetto Alta Affidabilità Leonello Servoli Workshop CCR, Otranto 8 giugno 2006

Leonello Servoli - Otranto CCR 8 giungo Sommario - Motivazioni della High Availability; - Il pacchetto XEN per la virtualizzazione; - La virtualizzazione dei servizi (GRID e non solo)

Leonello Servoli - Otranto CCR 8 giungo High Availability: Perchè? Nella struttura di GRID Computing (e non solo) è fondamentale che tutta una serie di servizi siano disponibili “sempre” (LSA > 99%). “sempre”  almeno il 99% < 3.6 giorni/anno Considerando la notte, le festività, le vacanze.. è facile mancare questo obiettivo.

Leonello Servoli - Otranto CCR 8 giungo High Availability: Perchè? Una prima soluzione: Ridondanza delle macchine fisiche. Cioè esiste un clone della macchina su cui è in funzione il servizio. Clone significa che nella ipotesi di interruzione del servizio, la seconda macchina prende il posto della prima nel senso di: Numero IP, Nome, Servizi

Leonello Servoli - Otranto CCR 8 giungo Ridondanza Macchine Fisiche Ci sono due macchine front-end (director1 e director2) e N real-servers. Attraverso keepalived il director2 interroga il director1, e se fallisce attua il takeover.

Leonello Servoli - Otranto CCR 8 giungo Ridondanza Machine Fisiche: schema logico

Leonello Servoli - Otranto CCR 8 giungo High Availability: Perchè? Nei Tier-N il numero di server è diventato molto elevato; solo per il middleware LCG: BDII, RB, CE, SE, MyProxy, FTS, LFC, RGMA, VOBOX, VOMS, g-PBOX, DGAS, GridICE.... Senza contare i servizi specifici di esprimento (es. Phedex) e altri servizi “normali” (es. mailserver). -> Al Tier1 – CNAF ci sono ~ 200 servers. -> Un job dipende da N server, per una inefficienza totale data dalla somma delle singole inefficienze.

Leonello Servoli - Otranto CCR 8 giungo High Availability: Perchè? I motivi di interruzione di un servizio possono essere molteplici e a volte di non facile soluzione. -> problemi hardware di un disco; -> problemi hardware sulla macchina che ospita il servizio (RAM, CPU); -> driver che accoppiati a particolari distribuzioni producono problemi software sporadici; -> generici problemi software specifici del servizio;

Leonello Servoli - Otranto CCR 8 giungo High Availability: Perchè? I tempi di ripristino possono a loro volta essere molto variabili e richiedere o meno l'intervento di un operatore umano. Si va da pochi secondi per far ripartire un servizio bloccato per motivi software, es. web server, a qualche ora per sostituire una scheda madre o replicare un disco, e qualche giorno per risolvere conflitti tra driver e distribuzioni.

Leonello Servoli - Otranto CCR 8 giungo Possibile soluzione: Macchine Virtuali replica di servizi; spostamento da un hardware all'altro; soluzione a basso costo; compatibilità con vari OS e varie piattaforme hw scalabile aumenta la sicurezza gestione dei servizi semplificata. Vantaggi:

Leonello Servoli - Otranto CCR 8 giungo Possibile soluzione: Macchine Virtuali cambiare velocemente la versione dell'OS testare un codice su diverse distrib aggiornare un sistema e testare che tutto sia ok, altrimenti è possibile tornare indietro utilizzare al meglio le risorse di una macchina migrare una macchina virtuale anche “in corsa”: - in un host con più risorse; - spostamento per manutenzione su altro hw; Ulteriori Vantaggi: creazione di nacchine di test:

Leonello Servoli - Otranto CCR 8 giungo Macchine Virtuali Singola immagine di OS : Virtuozo, Vservers, etc.  Raggruppa i processi utente in contesti.  Difficile isolare un processo da un altro. Virtualizzazione completa: VMware, VirtualPC, QEMU.  Esegue un numero multiplo di OS non modificati.  Difficile ottenere una virtualizzazione efficiente per x86. Para-virtualizzazione (kernel multipli): UML, XEN  Esegue un numero multiplo di OS adattati ad una particolare architettura.  L'architettura di Xen/x86 è molto vicina al normale x86.  L'efficienza è abbastanza vicina a quella nativa x86.

Leonello Servoli - Otranto CCR 8 giungo Xen 3.0 Architecture Hardware (SMP, MMU, physical memory, Ethernet, SCSI/IDE) GuestOS (XenLinux) Device Manager & Control s/w User software VM0 GuestOS (XenLinux) Unmodified User Software VM1 Front-End Device Drivers GuestOS (XenLinux) Unmodified User Software VM2 Front-End Device Drivers Unmodified GuestOS (WinXP)) Unmodified User Software VM3 Xen Virtual Machine Monitor Back-End 32/64bit SMP Front-End Device Drivers

Leonello Servoli - Otranto CCR 8 giungo System Performance LXVU SPEC INT2000 (score) LXVU Linux build time (s) LXVU OSDB-OLTP (tup/s) LXVU SPEC WEB99 (score) Benchmark suite running on Linux (L), Xen (X), VMware Workstation (V), and UML (U)

Leonello Servoli - Otranto CCR 8 giungo Scalabilità La scalabilità è limitata principalmente dalle richieste di risorse necessarie alle applicazioni.  qualche decina of VM possono essere create su nodi di classe server.  i normali meccanismi di paging dei OS possono ridurre l'uso della memoria a < 4MB per ogni kernel quiescente.  l'overhead di Xen per l'uso della memoria del sistema ospitante è < 32 KB. Ulteriori overhead di CPU sono trascurabili.

Leonello Servoli - Otranto CCR 8 giungo VM: utilità della migrazione la migrazione della VM permette:  High-availability  Load balancing Xen

Leonello Servoli - Otranto CCR 8 giungo Migrazione VM: Assunzioni Storage su rete:  NAS: NFS, CIFS  SAN: Fibre Channel  iSCSI, network block dev  drdb network RAID Buona connettività  L2 network comune  L3 re-routing Xen Storage

Leonello Servoli - Otranto CCR 8 giungo Svantaggi di XEN il kernel è pesantemente modificato xen3 e' vincolato ad alcune versioni del kernel: (xen 3.0.1); (xen 3.0.2); la ram viene usata in modo esclusivo per ogni macchina virtuale (si puo' variare a runtime)

Leonello Servoli - Otranto CCR 8 giungo Gruppo High Availability Coordinatore del progetto: Davide Salomoni – CNAF Varie competenze già presenti tra le persone che hanno espresso interesse; in particolare: - RedHat Cluster Manager: CNAF, Trieste; - Linux Virtual Server: CNAF, Perugia - Virtual Machine (Xen, qemu):CNAF, Perugia, Torino Altre sedi interessate: Bari, Bologna, Genova, Roma1.

Leonello Servoli - Otranto CCR 8 giungo Proposta VM per virtualizzare i servizi Si propone una soluzione, basata su XEN 3.0, con: -> uso di macchine virtuali multiple su singole macchine fisiche; -> uso di un numero limitato di macchine fisiche; -> esistenza di un sistema di monitoraggio specifico per i singoli servizi.

Leonello Servoli - Otranto CCR 8 giungo Architettura Proposta VM MF 1 MF 2 Block Device MV 1 MV 2 MV 3 Server Fisico MV 1 MV 2 MV 3 Server Fisico X

Leonello Servoli - Otranto CCR 8 giungo Vantaggi Proposta VM Riduce il downtime quasi sempre a pochi secondi; Permette facilmente lo sviluppo ed il test di versioni diverse; In linea di principio rende indipendenti dall'hardware sottostante i servizi; Si potrebbe definire una VM tipizzata per servizi generici da distribuire su tutte le macchine. Vantaggi:

Leonello Servoli - Otranto CCR 8 giungo High Availability: Status Sono stati fatti test generici su XEN con varie distribuzioni. - test di installazione di dom0 con varie distribuzioni e architetture (32 o 64 bit) (gentoo , SL4, Fedora 5, Slackware 10.2) - realizzazione di macchine virtuali (domU) pronte all'uso (SL3, SL4); - test del supporto SMP per le macchine domU; - test di utilizzo su diversi h/w ( più di 10 macchine fisiche diverse tra loro) - test di affidabilità e stabilità nel tempo (CE e WN su domU SL3) per diversi mesi; - stress test relativi ad uso intenso di CPU e di I/O ( > 48 ore continuative).

Leonello Servoli - Otranto CCR 8 giungo High Availability: Status Sono stati fatti test di caricamento di domU via Block Device Remoti (GNDB, iSCSI, FC). - verifica delle compatibilità delle patch XEN sia con quelle GNBD che iSCSI. - caricamento di singole macchine virtuali da Block Device Remoti. - I/O stress test (IOzone > 48 ore continuative) delle tre configurazioni. Sono stati fatti test di caricamento di domU via filesystem distibuiti (GPFS). - verifica delle compatibilità delle patch XEN con quelle GPFS. - caricamento di singole macchine virtuali via GPFS.

Leonello Servoli - Otranto CCR 8 giungo E' stato implementato quasi completamente il prototipo del pacchetto che deve controllare che siano funzionanti: - le Macchine Fisiche; - le Macchine Virtuali; - i servizi in esecuzione; Attualmente è una struttura client/server (migrerà a peer to peer): - ogni macchina, virtuale o reale, ha un daemon in esecuzione; - c'e' un server (per il momento) logicamente separato che controlla l'attività dei client monitorizzandone gli stati. ll server ha la conoscenza della corrispondenza tra le macchine reali, quelle virtuali ed i servizi. High Availability: Status

Leonello Servoli - Otranto CCR 8 giungo Real1Real2Real3Real4Real5Real6 VM images repository Master Private Switch VM Public Switch Rete privata di controllo Rete pubblica High Availability: Status

Leonello Servoli - Otranto CCR 8 giungo Prossimi passi: 1) implementazione completa del prototipo con almeno 2 macchine fisiche + n macchine virtuali con WN + CE; 2) test di scalabilità con circa 20 macchine fisiche per verificare le performance dei meccanismi di caricamento e l'architettura (file system divisi tra read-only e writable); 3) virtualizzazione delle altre componenti di GRID (RB, BDII, etc.); High Availability: Futuro Milestone proposte in marzo alla CCR: Entro maggio: - avere un prototipo funzionante; (quasi) - avere una prima valutazione delle diverse soluzioni e dei loro ambiti di applicabilità; (quasi)

Leonello Servoli - Otranto CCR 8 giungo High Availability: Futuro Milestone future: Entro settembre: - Soluzioni HA di produzione implementate per il Tier-1 (test prima della fine del SC4); - definire una “raccomandazione” HA per l'INFN, anche in funzione dei Tier-2; Fine anno: - Soluzione standard da offrire per l'implementazione anche ai Tier-2, ma eventualmente anche per servizi di genere diverso dal computing di LHC.