The long road to Juno Matteo Panella ( INFN-CNAF/SDDS) On behalf of the team Quest'opera è distribuita con Licenza Creative Commons.

Slides:



Advertisements
Presentazioni simili
ISA Server 2004 Enterprise Edition Preview. ISA Server 2004.
Advertisements

Workshop CCR Otranto - maggio 2006 General Parallel File System: caratteristiche, prestazioni ed esempi di utilizzo in produzione Alessandro Brunengo -
Test del Monitoraggio del Tracker usando un Tier2 M.S. Mennea, G. Zito, N. De Filippis Università & INFN di Bari Riunione Consorzio – Torino 18 Novembre.
La facility nazionale Egrid: stato dell'arte Egrid-Team Trieste, 9 ottobre 2004.
Gruppo Directory Services Rapporto dell'attivita' svolta - Marzo 2000.
LNL M.Biasotto, Bologna, 13 dicembre Installazione automatica Massimo Biasotto – INFN LNL.
E. Ferro / CNAF / 14 febbraio /13 GRID.it servizi di infrastruttura Enrico Ferro INFN-LNL.
5 Feb 2002Stefano Belforte – INFN Trieste calcolo per CDF in Italia1 Calcolo per CDF in Italia Prime idee per lanalisi di CDF al CNAF Numeri utili e concetti.
Benvenuti a Un incontro informativo di grande valore ed alto contenuto sulla Virtualizzazione e sistemi ad alta disponibiltà per le PMI.
Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.
FESR Trinacria Grid Virtual Laboratory ADAT (Archivi Digitali Antico Testo) Salvatore Scifo TRIGRID Second TriGrid Checkpoint Meeting Catania,
Dischi in RAID  Redundant Array of Independent Disk Configurazione che permette di combinare più dischi secondo obiettivi di performance e ridondanza.
1© Copyright 2014 EMC Corporation. Tutti i diritti riservati. CONTINUOUS AVAILABILITY ORACLE Panoramica tecnica.
CCR 14-15/03/2006 Status Report Gruppo Storage CCR.
Riunione gruppo storage – Roma 05/05/2005 Test di affidabilita’ e performance a Genova Alessandro Brunengo.
Extreme Cluster Administration Toolkit Alberto Crescente, INFN Sez. Padova.
RHCS XEN Cluster Dael Maselli – Workshop CCR – Maggio 2009.
Condor standard. Sistema Batch. Tool di installazione D. Bortolotti,P.Mazzanti,F.Semeria Workshop Calcolo Paestum 9-12 Giugno 2003.
Dael Maselli Gruppo WebTools CCR – 14 Marzo 2007.
L. Servoli - CCR Roma 15 marzo Il progetto High Availability D. Salomoni - CNAF L. Servoli - INFN Perugia.
Istituto Nazionale di Fisica Nucleare La Biodola, Isola d’Elba, 6-9 maggio 2002 AFS: Status Report WS CCR R.Gomezel Workshop sulle problematiche.
Alessandro Tirel - Sezione di Trieste Storage Area Network Riunione gruppo Storage Padova, 5 ottobre 2005.
Grid nelle sezioni: Milano Luca Vaccarossa INFN – Sezione di Milano Workshop sulle Problematiche di Calcolo e Reti nell'INFN.
Dael Maselli – Workshop CCR – Maggio  SAN  Red Hat Cluster Suite ◦ RedHat Enterprise, Scientific Linux o CentOS  XEN.
Riunione CCR 21/12/2005 Gruppo Storage Relazione sulla analisi di infrastrutture Fibre Channel e presentazione attivita’ per il 2006 Alessandro Brunengo.
C. Aiftimiei INFN-CNAF/SDDS Quest'opera è distribuita con Licenza Creative Commons Attribuzione - Non commerciale - Condividi allo stesso modo.
ATLAS PRIN Alessandro De Salvo A. De Salvo – 12 novembre 2015 Cloud Computing Condivisione di risorse tra gruppi EventIndex LHCONE PoD T2D.
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Report R.Gomezel CCR dicembre 2006 Roma.
CNAF 6 Novembre Layout del testbed  wn a OS SL5.0 8 GB RAM kernel xen_3.1.0 SMP  wn a OS SL5.0 8 GB RAM kernel.
Roberto Covati INFN di Parma. Workshop CCR/INFN GRID Palau maggio Sommario VmWare Server (in produzione dal 2004 al 2008) VmWare Infrastructure.
FESR Trinacria Grid Virtual Laboratory Rosanna Catania Rita Ricceri INFN Catania 25 Luglio 2006 Grid Monitoring: GridICE – bacct - lsload.
Roberto Covati – Roberto Alfieri INFN di Parma. Incontri di lavoro CCR dicembre Sommario VmWare Server (in produzione dal 2004) VmWare ESX.
Riunione PRIN STOA - Bologna - 18 Giugno 2014 Testbed del T2 distribuito Napoli-Roma Dr. Silvio Pardi INFN-Napoli Riunione PRIN STOA – Bologna 18 Giugno.
C ontrol system based on a H ighly A bstracted and O pen S tructure 1 WP5 !CHAOS Computing Storing and Access Policy WP5 !CHAOS Computing Storing and Access.
Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.
Esperienza di Elastic Computing al Tier 1 Vincenzo Ciaschini & Donato de Girolamo CCR 16-20/5/2016.
WP11 Stato avanzamento lavori CTS - Bologna - 27/03/2015.
Workshop della Commissione Calcolo e Reti 28 Maggio 2013 Federazione di risorse Cloud con CLEVER 1.
CCR - Frascati 29 settembre 2008 Gruppo storage CCR Status Report Alessandro Brunengo.
Evoluzione di TRIP: Eduroam, portale Web e autenticazione su IdP INFN Riccardo Veraldi, Vincenzo Ciaschini - CNAF.
Servizi Nazionali INFN
Referaggio sigla CALCOLO D. Bonacorsi, G. Carlino, P. Morettini CCR – Roma 9 Settembre 2014.
Riccardo Veraldi, CCR Dic 2008 Xen Problematiche sulla virtualizzazione.
DA e controlli DAFNE Riccardo Gargana Frascati 13/12/ /12/13.
Presentazione WS del 23/10/2013 al CNAF: 0&resId=0&materialId=slides&confId=6920
Worker node on demand: le soluzioni Andrea Chierici INFN-CNAF CCR 2009.
Open City Platform: i primi risultati Riunione CCR, 16 settembre 2015 Luciano Gaido.
Configurazione accessi WiFi INFN Workshop CCR ' Maggio
Progetto iSCSI Report alla CCR 12-13/12/2006 Alessandro Tirel – Sezione di Trieste.
Il futuro della infrastruttura Grid INFN : le risorse economiche e le competenze ” Workshop CCR INFN GRID 2011.
Netgroup (Rapporto di aggiornamento alla Commissione) Stefano Zani (INFN CNAF) CCR Roma, Ottobre 2013.
Martedi 8 novembre 2005 Consorzio COMETA “Progetto PI2S2” UNIONE EUROPEA Accesso all’infrastruttura Grid del Consorzio COMETA Grid Open Day alla Facoltà.
Disaster Recovery Resoconto delle attività del Gruppo di Lavoro DR CCR CNAF 5-7/2/2013 S.Zani.
Sistema di Monitoraggio Integrato Paolo Mastroserio, Gennaro Tortone, Silvio Pardi Presenta per il gruppo Silvio Pardi.
EEE e Cloud Enrico Fattibene, Andrea Ferraro INFN – CNAF Workshop di CCR sull'Infrastruttura Cloud 15 Dicembre 2014 Quest'opera è distribuita con Licenza.
20-21/03/2006Workshop sullo storage - CNAF Storage nei Servizi Calcolo delle sezioni INFN Alessandro Brunengo.
DNS HA
Alessandro Tirel - Sezione di Trieste Storage servers & TCP Tuning Proposta di studio delle problematiche connesse alla fornitura di servizi di storage.
Open City Platform: IaaS installazione automatica Cristina Aiftimiei, INFN-CNAF 25/09/2015.
Sviluppo Tools Automatic Deployment IaaS OCP Cristina Aiftimiei (INFN-CNAF) AG del 26/03/2015.
Sviluppo Tools Automatic Deployment IaaS OCP - status report - Cristina Aiftimiei (INFN-CNAF) CTS, 05/06/2015.
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
OpenShift Origin Architecture Componenti I due elementi base della piattaforma sono il Broker ed il/i Node/s. il server Broker è un’applicazione Rail che.
Attività Gruppo Virtualizzazione Andrea Chierici CNAF Riunione CCR
!CHAOS e Cloud Enrico Fattibene INFN-CNAF
Matteo Panella PCM !CHAOS 7 Luglio 2015
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
Transcript della presentazione:

The long road to Juno Matteo Panella ( INFN-CNAF/SDDS) On behalf of the team Quest'opera è distribuita con Licenza Creative Commons Attribuzione - Non commerciale - Condividi allo stesso modo 3.0 Italia.

Agenda Dove eravamo: Havana Destinazione: Juno Un percorso “accidentato”: ▪GPFS ▪systemd Use case Convalida: Rally - Workshop CCR

Dove eravamo: Havana Openstack Havana – no HA, SSL solo per Horizon 1 Controller Node ▪Keystone, Glance (LVM), Heat, Horizon, Ceilometer, MySQL, QPID ▪2x8 HT (32) Intel(R) Xeon(R) CPU E GHz, 64 GB di RAM 1 Network Node ▪Neutron con OVS + VLAN ▪2x6HT (24) Intel(R) Xeon(R) CPU E GHz, 64 GB di RAM 4 x Compute Node ▪Nova per KVM/QEMU ▪2 x 8 core AMD con 64 GB RAM per nodo (tot: 64 core e 256 GB di RAM) Storage condiviso (PowerVault + 2 server GPFS) ▪16 TB su GPFS per backend di Nova 1 Web Proxy per la dashboard - Workshop CCR

- Havana 3 nova07 GPFS nova06 GPFS nova05 GPFS nova04 GPFS gpfs01-p (primary) gpfs02-p secondary /24 cloudctrl-02 cloud-net01 PowerVault MD3660i 4LUN x 4TB PowerVault MD3660i 4LUN x 4TB /24 Keystone Dashboard Neutron Server Glance (LVM) Ceilometer/MongoDB Heat API (nova, heat, glance, ceilometer) MySQL & QPID OVS server & agent + VLAN L3 agent DHCP agent Metadata server VLAN: bd8810 sw /.2 4x10Gb 4x1Gb gpfs01 gpfs eth0 VLAN eth1 eth2 1Gb

Dove eravamo: Havana Pain point: Assenza di HA Problemi con OpenVSwitch: ▪Iniziale malfunzionamento dei security group ▪Perdita periodica di connettività delle istanze Assenza di SSL/TLS sugli API endpoint Forti limitazioni strutturali su Heat Il grande assente: Cinder - Workshop CCR

Destinazione: Juno 2 x Controller Node – HA active/active per tutti i servizi ▪Keystone, Heat, Horizon, Ceilometer, Neutron server, Trove ▪HAProxy & Keepalived x API ▪Glance & Cinder 2 x Network Node – HA active/active parziale (DHCP agent in active/active, L3 agent in hot standby) ▪Neutron con LinuxBridge + VLAN ▪2x6 HT (24) Intel(R) Xeon(R) CPU E GHz, 64 GB di RAM 4 x Compute Node => + 4 Compute-Node Havana = 128 CPU + ~500GB RAM ▪Nova per KVM/QEMU, LinuxBridge agent ▪2 x 8 core AMD Opteron 2.8GHz con 64 GB RAM 16TB su GPFS per backend di Nova (istanze), Glance (immagini), Cinder (volumi) 1 Web Proxy per la dashboard 3x Percona XtraDB, RabbitMQ, MongoDB, ZooKeeper 2x HAProxy per Percona (failover, no roundrobin!) - Workshop CCR

- Juno 6 nova04 GPFS nova03 GPFS nova02 GPFS nova01 GPFS gpfs01-p (primary) gpfs02-p secondary /24 cloud-juno-ctrl02 PowerVault MD3660i 4LUN x 4TB PowerVault MD3660i 4LUN x 4TB /24 Keystone Dashboard Neutron Server Glance & Cinder Ceilometer/MongoDB Heat API (nova, heat, glance, ceilometer) cloud-juno-net01 LinuxBridge agent + VLAN L3 agent DHCP agent Metadata server VLAN: bd8810 sw /.2 4x10Gb 4x1Gb gpfs01 gpfs GPFS cloud-juno-ctrl01 Keystone Dashboard Neutron Server Glance & Cinder Ceilometer/MongoDB Heat API (nova, heat, glance, ceilometer) GPFS eth0 eth1 VLAN mycls01/02/03 MySQL RabbitMQ ha x 1Gb

Destinazione: Juno Uno sguardo al futuro: Brocade VDX Tutte (o quasi) le funzioni di Neutron L3 agent implementate su ASIC (SNAT, floating IP…) Configurazione delle porte orchestrata direttamente da Neutron… … a patto di avere tutta la catena dal centro stella ai top- of-the-rack compatibile col plugin Brocade per Neutron - Workshop CCR

Un percorso “accidentato” Il deployment di Juno è stato piagato da una serie di “incidenti di percorso”: Interazioni problematiche tra qemu-img e GPFS Problemi di performance di KVM su GPFS Errata pacchettizzazione di open-iscsi in CentOS 7 e conseguenti interazioni “problematiche” con systemd Difficoltà d’integrazione tra iSCSI, GPFS, systemd ed OpenStack Last but not least: VENOM - Workshop CCR

Incidenti di percorso: GPFS GPFS e Glance sembrano “odiarsi” a vicenda: In teoria avere le immagini su GPFS permette di trasferirle mediante copia diretta sui compute node In realtà, spesso e volentieri le immagini risultanti sono corrotte ▪Da qemu-img convert ▪Per una strana interazione con la cache di GPFS Workaround: disattivare la conversione a raw in nova-compute e vietare l’uso di immagini che non siano qcow2 e raw - Workshop CCR

Incidenti di percorso: GPFS Problemi di raw performance: Bottleneck sugli NSD Esposte le LUN direttamente ai client ed apportate modifiche alla configurazione del cluster su indicazioni di Vladimir Sapunenko (CNAF) Ottime prestazioni per I/O sequenziale I/O random “problematico” Molte ipotesi sul piatto, ma ben pochi riscontri - Workshop CCR

Incidenti di percorso: systemd Juno è supportata su EL7 e successive, quindi addio upstart/sysvinit e “benvenuto” systemd: Re-training per tutti gli operatori abituati a sysvinit Default assolutamente inadatti alla produzione Notevoli difficoltà ad assicurare un corretto ordine di boot per GPFS (tuttora non del tutto risolte!) Almeno in un caso, una unit con dipendenze errate fornita da CentOS ha causato un crash catastrofico - Workshop CCR

Incidenti di percorso: systemd Per default, systemd cattura stdout e stderr dei demoni e li redirige sul journal (e in ultima analisi su syslog): Ottimo in fase di configurazione per determinare errori Pessimo a regime – soprattutto per demoni come glance-registry che amano usare stderr per riportare backtrace inutili Restart di journald  SIGPIPE ai demoni che mantengono aperti stdout e stderr alla prima write Workaround: reboot (sì, reboot) - Workshop CCR

Incidenti di percorso: systemd - Workshop CCR

Incidenti di percorso: systemd Default inadatti alla produzione: Il “runtime journal” di journald è configurato per occupare al massimo il 10% dello spazio disponibile su /run ▪Quindi il 5% della memoria fisica (tmpfs al 50% della memoria fisica) ▪Nel caso dei nostri controller node: 3GB di memoria consumati inutilmente Soluzione: RuntimeMaxUse=128M in /etc/systemd/journald.conf ▪… e relativo reboot! - Workshop CCR

Incidenti di percorso: systemd L’integrazione con GPFS si presenta estremamente problematica: GPFS si avvia con uno script sysvinit ▪Ma dipende da iSCSI e multipathd, che hanno unit native ▪Che vengono considerate attive da systemd prima che le LUN siano effettivamente visibili! I servizi OpenStack che usano GPFS devono partire solo dopo il mount di GPFS, complicando ulteriormente le cose Troppe race condition - Workshop CCR

Incidenti di percorso: systemd Mercoledì 13 un reboot di routine su uno dei due controller ha portato alla completa corruzione del root filesystem. Kernel in completa confusione, filesystem locali non smontati per colpa di iscsid in uninterruptible sleep Systemd aveva disattivato la rete prima di fare logout dalle LUN Zero downtime dell’infrastruttura ▪e convalida “accidentale” del setup HA Bug risolto in EL7.1 - Workshop CCR

Incidenti di percorso: VENOM CVE , per gli amici VENOM: VM breakout tramite stack/heap overflow in qemu-kvm Abuso di un bug nel floppy disk controller virtuale Non può essere disabilitato Richiede root nel guest ▪ovvero la norma in un setup OpenStack Soluzione: aggiornare tutti gli hypervisor a CentOS 7.1 ▪… e contestualmente aggiornare GPFS a o (anche se ufficialmente EL7.1 non è supportata da IBM) - Workshop CCR

Use case: !CHAOS !CHAOS è “l’utente zero” di Juno: Applicazione fortemente cloud-oriented Requisiti complessi per setup automatizzato e autoscaling Obiettivo finale: “one click deployment” di un’infrastruttura completa (applicativo+servizi di backend) su cloud con possibilità di autoscaling in base al carico applicativo - Workshop CCR

Use case: !CHAOS Perché Juno: Largo uso di Heat per deployment dei servizi di backend (Ceph per filesystem on demand, OpenVPN) ▪Impossibile utilizzare Havana (e in parte Icehouse) per problemi di Heat ▪Demo effettuata con successo al General Meeting !CHAOS del 5 Maggio Clustering di MongoDB supportato in Trove solo a partire da Juno ▪Work-in-progress, primi test positivi - Workshop CCR

Use case: Extreme Energy Events Ricerca sull’origine dei raggi cosmici 42 scuole con telescopio 3 telescopi presso sezioni INFN (Bologna, Pisa, Catania) 2 telescopi al CERN 47 telescopi in totale 300 MB di dati raw al giorno per telescopio 55 TB in 5 anni (tra dati raw e ricostruiti) per EEE: Front-end raccolta dati provenienti dalle scuole ▪Con software di sincronizzazione BTSync usato tra la scuola e il CNAF ▪Dati su filesystem GPFS esportato via NFS alle VM Risorse per l’analisi dei dati con software specifico ▪On-demand ▪Per ora instanziate da un «VO manager» Server di reportistica - Database e web server 20

Infrastruttura EEE Front-end Report server GPFSNastro Telescopio 1 DATA01 Telescopio 2 DATA02 DATA01 DATA02 BTsync Web proxy http/s CNAF firewall Web browser Bastion ssh EEE user BTsync Tenant EEE Erice BTsync DATA01 DATA02 Analisi 21

Use case: EEE - Sviluppi futuri Passaggio a infrastruttura Juno ▪Utenti e VM Cluster Mysql con DBaaS (Trove) ▪Ora il database del monitoring è un SPOF Risorse di analisi on-demand per utenti EEE ▪Accesso non privilegiato alle VM Accesso cloud ai dati da parte degli utenti ▪Seguire gli sviluppi in Indigo WP4.2 (Cross Protocol support for storage solutions) Portale open data - Workshop CCR

Convalida Juno: OpenStack Rally OpenStack Rally (ex Mirantis Rally) è un tool di testing, benchmarking e convalida per deployment OpenStack. “Frontend” per Tempest (test suite OpenStack) Scenari complessi di benchmarking e convalida Possibilità di stabilire un SLA da rispettare Ottimo per generare load sintetico sull’infrastruttura ed avere un’overview dei colli di bottiglia Get it: - Workshop CCR

Conclusioni marcia a passo spedito verso la produzione Il deployment di Juno in HA non è stato eccessivamente complesso ▪Ma neanche semplice! ▪E nel lungo termine paga GPFS ha bisogno di ulteriori interventi Systemd e le sue idiosincrasie hanno causato più problemi di quanto preventivato in partenza Qualcuno se la sente di provare Kilo? - Workshop CCR

Collaborazione - Workshop CCR

Domande - Workshop CCR

BACKUP SLIDES - Workshop CCR

Struttura Juno (fase 2) nova04 GPFS nova03 GPFS nova02 GPFS nova01 GPFS gpfs01-p (primary) gpfs02-p secondary /24 cloud-juno-ctrl02 PowerVault MD3660i 4LUN x 4TB PowerVault MD3660i 4LUN x 4TB /24 Keystone Dashboard Neutron Server Glance & Cinder Ceilometer/MongoDB Heat API (nova, heat, glance, ceilometer) cloud-juno-net01 LinuxBridge agent + VLAN L3 agent DHCP agent Metadata server VLAN: bd8810 sw /.2 4x10Gb 4x1Gb gpfs01 gpfs GPFS cloud-juno-ctrl01 Keystone Dashboard Neutron Server Glance & Cinder Ceilometer/MongoDB Heat API (nova, heat, glance, ceilometer) GPFS eth0 eth1 VLAN mycls01/02/03 MySQL RabbitMQ ha x 1Gb

Struttura Juno (fase 2) nova04 GPFS nova03 GPFS nova02 GPFS nova01 GPFS gpfs01-p (primary) gpfs02-p secondary /24 cloud-juno-ctrl02 PowerVault MD3660i 4LUN x 4TB PowerVault MD3660i 4LUN x 4TB /24 Keystone Dashboard Neutron Server Glance & Cinder Ceilometer/MongoDB Heat API (nova, heat, glance, ceilometer) cloud-juno-net01 LinuxBridge agent + VLAN L3 agent DHCP agent Metadata server VLAN: x10Gb gpfs01 gpfs GPFS cloud-juno-ctrl01 Keystone Dashboard Neutron Server Glance & Cinder * Ceilometer/MongoDB Heat API (nova, heat, glance, ceilometer) * GPFS eth0 eth1 VLAN mycls01/02/03 MySQL RabbitMQ ha x 1Gb VDX