Monitoring e loadbalancing dei servizi Grid

Slides:



Advertisements
Presentazioni simili
STATO DEL PROTOTIPO DI SCoPE E DELL’INTEGRAZIONE TRA I 4 PON
Advertisements

ISA Server 2004 Enterprise Edition Preview. ISA Server 2004.
1 STATO DELLINTEGRAZIONE TRA I 4 PROGETTI AVVISO 1575/2004 Riunione del Comitato Tecnico sullInteroperabilità MUR, 29/11/2007 S.Pardi.
1 STATO DELLINTEGRAZIONE TRA I 4 PROGETTI AVVISO 1575/2004 Riunione del Comitato Tecnico sullInteroperabilità MUR, 20/12/2007 S.Pardi.
Consorzio COMETA - Progetto PI2S2 UNIONE EUROPEA Restyling della rete Cluster Cometa Gianluca Passaro –
Layered Grid Architecture. Application Fabric “Controlling elements locally”: Access to, & control of, resources Connectivity “Talking to Grid elements”:
BOLOGNA Prin-STOA Report L. Rinaldi Bari – 12/11/2015.
Overview del middleware gLite Guido Cuscela INFN-Bari II Corso di formazione INFN su aspetti pratici dell'integrazione.
Stato Unità Gestione Operativa Paolo Veronesi. Stato revisione blueprint I task oggetto dell’Unita’ Gestione Operativa Personale afferente all’Unita’
SCOPE: stato e piano di integrazione Phd. Silvio Pardi CNAF
1 Le macchine di questo pool fanno parte di una lan privata (la 125 illustrata a pag.2), di cui t2cmcondor è il gateway. Sono presenti 3 macchine su rete.
Virtualizzazione nell’INFN Andrea Chierici 11 Dicembre 2008.
Attività Gruppo Virtualizzazione Andrea Chierici CNAF Riunione CCR
INFN-AAI Stato dell’infrastruttura centrale Dael Maselli Workshop INFN CCR 2010.
Monitoraggio siti COMETA “Promemoria” Danilo Reitano.
Sistema Informativo. Mansioni Gestione della piattaforma hardware e sistemistica del sistema informativo INFN In realta’ il mansionario e’ in continua.
EGEE is a project funded by the European Union under contract IST L'infrastruttura di produzione attuale A. Cavalli - INFN- CNAF D. Cesini.
EGI-InSPIRE RI EGI-InSPIRE EGI-InSPIRE RI Gruppo CNAF (2010/2011) 7/10/2016 CdC 03/12/
FlowLineXL Flowline XL e' il sistema integrato per la gestione del recruitment tramite web per enti e societa' di selezione Fornito in modalita' ASP (application.
HLRmon per IGI: nuove funzionalità Enrico Fattibene INFN – CNAF
GARR WS08 - Milano, 2-4 Aprile Grid Tutorial Parte 3 gLite e la LAN practicals Mario Reale GARR GRID GARR WS08-Milano-2-Aprile-2008.
Alessandro De Salvo Status dei Tier2 di ATLAS Alessandro De Salvo
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
SCoPE - Stato dei Lavori
Resoconto delle attività del Gruppo di Lavoro DR
Gestione Farm Tema centrale della sessione: utilizzo del batch- system nelle varie sedi T1 e T2, ma anche altre farm grid e farm di sezione requirements,
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Problema T1 30 settembre Andrea Chierici CDG T1.
Integrazione tier3 in Grid Paolo Veronesi, Luciano Gaido
FlowLine Flowline e' il sistema integrato per la gestione del recruitment aziendale tramite web. Fornito in modalita' ASP (application service provider)
INFN-Bari.
FlowLineXL Flowline XL e' il sistema integrato per la gestione del recruitment tramite web per enti e societa' di selezione Fornito in modalita' ASP (application.
Tiziana Ferrari (INFN CNAF), Luciano Gaido (INFN TO)
Risultati ultimi mesi Piano di lavoro prossimi mesi Reclutamento
Problemi aperti Luciano Gaido (INFN - Torino)
HLRmon: visualizzazione di dati di accounting
Guido Cuscela INFN-Bari
Stato della Grid di produzione
Cloud per HA nei Servizi
Giuseppe Andronico 1 Marzo 2010 Riunione CCR
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Servizi per CCRC, INFN Grid release, stato dei servizi centrali e T2
Introduzione al progetto INFNGRID
Sicurezza e Grid Computing
GridFlex: gestione di software
CMS T2: monitoring Cosa c’e’ / cosa vorremmo / cosa manca
Introduzione alla sessione sull’analisi per gli esperimenti LHC
Stato e caratterizzazione della Grid di produzione italiana ed europea
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
FOOT Pixel tracker daq view.
Valeria Ardizzone INFN Catania Martina Franca (TA),
Portal Architecture Data Management
Belle II Computing: Accesso alle risorse di storage via http/webdav
Job Application Monitoring (JAM)
Grid2Win : La Grid per Microsoft Windows
Panoramica sul middleware gLite
Interfacce SRM: l'utilizzo di STORM - Overview e prospettive (ALICE)
R.Gomezel Commissione Calcolo e Reti CNAF
Sviluppo di un'applicazione web per l'utilizzo del framework SparkER
Windows Admin Center La rivoluzione della gestione di Windows Server
GENIUS Grid Portal Lorenzo Neri INFN Catania
STATO DEL PROTOTIPO DI SCoPE E DELL’INTEGRAZIONE TRA I 4 PON
Job Management Systems ovvero
INFN-Grid DI PRODUZIONE grid-use-model grid.infn.it
SAGE – Un sistema per l’accounting dello storage in gLite
Sistemi di supporto.
Evolution of Information Modeling and Discovery of Grid Resources
ATLAS PRIN Roma1 - status Alessandro De Salvo
EMI Fine progetto 30 Aprile 2013 Andamento progetto generale
PowerDNS + Zabbix soluzione HA per servizi core di INFN-CC
Transcript della presentazione:

Monitoring e loadbalancing dei servizi Grid D.Dongiovanni (INFN-CNAF) D.Cesini (INFN-CNAF)

Monitoring servizi grid MONITORING GENERALE DI SITI e ROC: NAGIOS – vedi presentazione “Nagios di sito e Nagios di ROC” GSTAT SAM, GRIDMAP GRIDICE MONITORING SPECIFICO DI SERVIZI CENTRALI: HLRMON – vedi presentazione “Accounting e HLRMON” FTSMON, FTM WMSMON

WMSMON : gLiteWMS/LB service and Job flow monitor Monitora un pool di istanze gLite WMS/LB distribuite Rileva fallimenti dei servizi e stato HW, supportando l'amministratore nella fault prevention Monitora il Job Flow su ogni istanza permettendo di analizzare la complessa dinamica interna del WMS/LB Le statistiche di utilizzo delle varie istanze vengono aggregate secondo due chiavi: per WMS e per VO su intervalli di tempo configurabili Offre statistiche di utilizzo delle computing resource Offre statistiche di utilizzo delle istanze per utente Notifica a NAGIOS in caso di failure detection VO view WMS view

WMSMON : WMS instance details page

WMSMON : Resource usage N.B. : Non Visibile a utenti non iscritti and user statistics N.B. : Non Visibile a utenti non iscritti

Load Balancing e Failover (1/2) BDII: DNS Alias di 5 istanze (3 cnaf, 1 pd, 1 ferrara) round robin semplice, ripartisce il carico Failover dato da controlli nagios: toglie un ip dal dns se fallisce test VOMS: Server readwrite al cnaf,  replica readonly a pd.  Non c'e' load balancing. Ma al momento non serve. Il failover e' lato UI, se correttamente configurata, se fallisce un server il client prova ad utilizzare l’altro NAGIOS monitora le porte del server per ciascuna VO e manda sms se falliscono entrambe

Load Balancing e Failover (2/2) FTS: FRONT END: BDII e WEBSERVICE sono replicati con dns alias Failover dato da controlli nagios, se una macchina non risponde viene tolta da alias. AGENTS: repliche in dns alias + controlli nagios, la macchina viene tolta dall’alias, ma i canali a quel punto non sono piu' disponibili BACKEND su cluster oracle, la ridondanza e' intrensica nel cluster oracle STORM: front end ridondato con macchine in alias DNS Gridftp server ridondati con macchine in alias DNS LFC: esiste replica readonly replica di atlas, readwrite replica di LHCB

WMS load balancing e failover - Implementato sistema di loadbalancing basato su DNS N wms in loadbalancing ciascuno pubblica una metrica di stato funzionalita' e carico Metrica = M1(stato demoni, drain) * M2(load, dischi, memoria, traversal time)‏ Metrica: < 0 per problemi demoni, drain ; > 0 altrimenti gli N wms vengono ordinati per metrica crescente, quelli con metrica <0 vengono esclusi gli L <= N-1 wms piu' scarichi e funzionanti vengono pubblicati in round robin dietro un alias ogni 15 min viene il ciclo e aggiornato il DNS - Test con CMS ripetuto sistema funziona ed e' robusto, pero'... necessita' di integrare un test di sottomissione nella metrica - Job submission Test Implementato utilizzo status dei job di latency test per CMS Implementato utilizzo status dei job submission test nagios di sito

WMS load balancing e failover Working on e Problemi Aperti integrazione di arbiter in WMSMonitor definizione standard per job submission tests: url con pubblicazione risultati ? e' opportuno inglobare nella metrica pubblicata dal servizio dei test esterni ? Load Balancing di LB ancora tutto da implementare anche se esite gia’ la possibilita di utilizzare piu’ LB per un WMS

Problema Sincronizzazione Se le istanze nel pool dns non sono sincronizzate sia a livello di versione di m/w che di configurazione possono sorgere problemi veramente difficili da debuggare - Es. BDII con glue schema differenti perche’ un istanza non era stata aggiornata – anche se il servizio era up ci sono stati parecchi problemi Possibile soluzione – gestione centralizzata delle istanze anche quelle remote - Quattor? - altri tool di gestione istanze remote?