Ganglia e Nagios Strumenti di monitor per la Cloud Attilio Santocchia Dipartimento di Fisica – UNIPG 4 aprile 2013 A. Santocchia - Ancona 04.04.2013 1.

Slides:

Advertisements

Presentazioni simili

Scheduling (Schedulazione) Susanna Pelagatti – Università di Pisa

Advertisements

CONCLUSIONE - Nucleo (o Kernel) Interagisce direttamente con lhardware Interagisce direttamente con lhardware Si occupa dellesecuzione.

Gestione della memoria centrale

Connessione con MySQL.

DATAWAREHOUSE - Microstrategy

IL NOSTRO LABORATORIO. Di INFORMATICA..

Cluster openMosix Linux Day ’04 Caserta Ing. Diego Bovenzi.

I modelli di riferimento OSI e TCP/IP

La rete in dettaglio: rete esterna (edge): applicazioni e host

1 9: Progettazione Architetturale Obiettivo: stabilire la struttura globale di un sistema software Descriveremo diversi tipi di modello di architettura,

NetSaint: una soluzione OpenSource per il network monitoring

Architettura Three Tier

Perché.Net e non più COM/DCOM ? Superamento dei problemi di COM: Richiede una infrastruttura "non semplice" da ogni applicazione (ad esempio Class Factory.

IDUL 2010 RETI E PROTOCOLLI. INTERNET.. IDEE PRINCIPALI IN QUESTA LEZIONE Reti: Aspetto logico della rete e tipologie: peer-to-peer, a hub, a bus Trasmissione.

IDUL 2009 RETI E PROTOCOLLI. INTERNET. IDEE PRINCIPALI IN QUESTA LEZIONE Reti: Aspetto logico della rete e tipologie: peer-to-peer, a hub, a bus Trasmissione.

Gestione di Progetti Software 2 (A.A. 2004/2005) - Lezione 2 1 JAVA: obiettivi di progetto del linguaggio Nota storica: Il linguaggio JAVA (inizialmente.

Struttura dei sistemi operativi (panoramica)

Sistemi Operativi GESTIONE DEI PROCESSI.

Reti di Calcolatori IL LIVELLO RETE.

Supporto per servizi di File Hosting Presentazione di progetto per lesame di Reti di Calcolatori LS Valerio Guagliumi

M.A.E.A.I. Mobile Agent and Enterprise Architecture Integration Il gestore delle politiche Valerio Siri Reti di Calcolatori LS Docente: Antonio Corradi.

Progetto di una architettura per lesecuzione distribuita e coordinata di azioni Progetto per lesame di Reti di Calcolatori L-S Prof. Antonio Corradi Finistauri.

Reti di Calcolatori L-S Un Sistema Decentrato di Allocazione del Carico per Applicazioni di Calcolo Distribuito Mauro Bampo.

+ Gestione Intelligente dellEnergia. + C OSTO DELL E NERGIA In Italia i costi dellenergia sono tra i più alti al mondo L efficienza Energetica da sola.

System for Card MESSENGER Gestione Messaggi Presentazione.

L’applicazione integrata per la gestione proattiva delle reti IT

U N INFRASTRUTTURA DI SUPPORTO PER SERVIZI DI FILE HOSTING Matteo Corvaro Matricola Corso di Reti di Calcolatori LS – Prof. A. Corradi A.A.

Architettura di storage ad alta affidabilita e bilanciamento di carico per volumi centrali e di esperimento A.Brunengo, M.Corosu INFN Sezione di Genova.

Amministrazione della rete: web server Apache

Reti di calcolatori 14 novembre 2003 INFORMATICA GENERALE Scienze per Operatori dei Servizi Giuridici Anno Accademico

Aziende con sedi operative distribuite sul territorio che necessitano di un monitoraggio dei processi; Raccolta dati sul campo, necessari alla gestione.

Reti di calcolatori LS Manni Tiziano  IT e nuovi scenari applicativi …  … portabilità dei dati …  … condivisione dati …  … disponibilità.

L’architettura a strati

Dischi in RAID  Redundant Array of Independent Disk Configurazione che permette di combinare più dischi secondo obiettivi di performance e ridondanza.

Creato da Riccardo Nuzzone

INTERFACCE Schede elettroniche che permettono al calcolatore di comunicare con le periferiche, che possono essere progettate e costruite in modo molto.

Dal click alla pagina web... Centro di Calcolo Corso Internet 22 Novembre 1996 Stefano Bistarelli Università di Chieti-Pescara “G. D’Annunzio” Dipartimento.

TW Asp - Active Server Pages Nicola Gessa. TW Nicola Gessa Introduzione n Con l’acronimo ASP (Active Server Pages) si identifica NON un linguaggio di.

MCSA Mobile Code System Architecture Infrastruttura a supporto della code mobility Pierfrancesco Felicioni Reti di Calcolatori L.S. 2005/2006.

Reti di computer Condivisione di risorse e

Mobile Agent and Enterprise Architecture Integration Il gestore della mobilità degli agenti Raffaelli Massimo matricola

OSSEC HIDS, Host Based Intrusion Detection System

1 Sommario degli argomenti  Sistemi operativi: DOS, Unix/Linux,Windows  Word processors: Word  Fogli elettronici: Excel  Reti: TCP/IP, Internet, ftp,

1 Input/Output. 2 Livelli del sottosistema di I/O Hardware Gestori delle interruzioni Driver dei dispositivi Software di sistema indipendente dal dispositivo.

Studio di una soluzione distribuita per la gestione di un centro sondaggi.

Supporto per la replicazione attiva di servizi Progetto per il corso di Reti di Calcolatori LS Montanari Mirko Matr:

Sistemi di elaborazione dell’informazione Modulo 3 - Protocolli applicativi Unità didattica 2 - Telnet, FTP e altri Ernesto Damiani Lezione 2 – Da FTP.

1 Migrazione dei processi: Mosix. 2 Cosa è Mosix/OpenMOSIX ? OpenMOSIX è un è una patch del kernel di Linux che aggiunge funzionalit à avanzate di clustering.

Reti di calcolatori LS1 Service Middleware Reti di calcolatori LS progetto di Andrea Belardi Infrastruttura dedicata alla gestione di servizi disponibili.

Reti di calcolatori e sicurezza “Configurare il web-server Apache” a cura di Luca Sozio.

Sistemi operativi di rete Ing. A. Stile – Ing. L. Marchesano – 1/18.

Corso di Reti di Calcolatori LS Progetto di un server FTP in grado di coordinarsi con altri mirror per garantire QoS di Marco Buccione.

SnippetSearch Database di snippet bilanciato e replicato di Gianluigi Salvi Reti di calcolatori LS – Prof. A.Corradi.

Corso di Laurea in Biotecnologie corso di Informatica Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.

Informatica Generale Marzia Buscemi

INTRODUZIONE AI SISTEMI OPERATIVI. Introduzione Il software può essere diviso un due grandi classi: Il software può essere diviso un due grandi classi:

Architetture software

Realizzazione di hotspot wireless per l’Università degli Studi di Milano Marcello Meroni, Michele de Varda, DIVISIONE TELECOMUNICAZIONI UNIVERSITÀ DEGLI.

Applicazione Presentazione Sessione Trasporto Rete Data link Fisico OSI Processo / Applicazione Trasporto Rete- Internet Interfaccia di.

PPT- Postecert PEC – 05/2009 Postecert Posta Elettronica Certificata.

Implementazioni di un analizzatore di protocollo Esistono quattro fondamentali tradeoff per la realizzazione di un analizzatore di protocollo:  Analisi.

1 Il livello transport. Concetti fondamentali - Canale logico e canale fisico 2 Quando un segnale deve essere trasmesso, viene inviato su un Canale, cioè.

La Famiglia di Prodotti Network Analyzer. L’analizzatore J6801A DNA è un probe di cattura dati ultra leggero che comprende un sistema di acquisizione.

Domenico Elia1Riunione PRIN STOA-LHC / Bologna Attività per ALICE: sommario e prospettive Domenico Elia Riunione PRIN STOA-LHC Bologna, 18 Giugno.

Monitoring applicativo SaaS Tutorial 30/09/2015. Finalità Il monitoraggio applicativo per verificare, quantificare e controllare l’automazione introdotta.

Triggers and actions L’inizializzazione di un trigger permette di avviare delle azioni automatiche a partire da eventi significativi. Possibili azioni.

Sistema di Monitoraggio Integrato Paolo Mastroserio, Gennaro Tortone, Silvio Pardi Presenta per il gruppo Silvio Pardi.

La gestione della rete e dei server. Lista delle attività  Organizzare la rete  Configurare i servizi di base  Creare gli utenti e i gruppi  Condividere.

Transcript della presentazione:

Ganglia e Nagios Strumenti di monitor per la Cloud Attilio Santocchia Dipartimento di Fisica – UNIPG 4 aprile 2013 A. Santocchia - Ancona

Perché Nagios e Ganglia Richieste Monitoring delle performance Sistema di allarmi Logging Interfaccia user-friendly Espandibilità Supporto di ambienti multi SO (linux, windos) Necessità di monitorare l’infrastruttura cloud … e le applicazioni A. Santocchia - Ancona

Perché Nagios e Ganglia Performance monitor User friendly AllarmiLogging monitor Windows support Plugin for openstack Popularity Collectd ★★★★ Ganglia ★★★★★ Nagios ★★★★★★ Zenoss ★★★★★★ A. Santocchia - Ancona

Perché Nagios e Ganglia Performance monitor User friendly AllarmiLogging monitor Windows support Plugin for openstack Popularity Collectd ★★★★ Ganglia ★★★★★ Nagios ★★★★★★ Zenoss ★★★★★★ A. Santocchia - Ancona

Perché Nagios e Ganglia Performance monitor User friendly AllarmiLogging monitor Windows support Plugin for openstack Popularity Collectd ★★★★ Ganglia ★★★★★ Nagios ★★★★★★ Zenoss ★★★★★★ Non maturo per un ambiente di produzione A. Santocchia - Ancona

Perché Nagios e Ganglia Ganglia + Nagios permettono di sviluppare un ambiente di monitor completo e configurabile per OpenStack A. Santocchia - Ancona

Perché Nagios e Ganglia Nagios è perfetto per il monitoring e la gestione degli allarmi per i sistemi e i servizi… Ma dove runnano questi servizi? In una infrastruttura cloud dobbiamo monitorare: Le macchine reali dell’infrastruttura I controller dell’infrastruttura Le istanze accese (dinamicamente!) Nagios non è pronto a monitorare istanze che si accendono/spengono dinamicamente A. Santocchia - Ancona

Perché Nagios e Ganglia Soluzione ad hoc per ovviare al problema esistono Nagios è usato per il monitoring dell’infrastruttura di rete di Call of Duty (12 milioni di utenti di cui 2.3 milioni premium) Come faccio ad adeguare la mia infrastruttura di monitor ad un ambiente dove accendo e spengo centinaia di server in funzione del numero di utenti attivi? Il problema principale non è quando accendo nuovi server… Ma quando li spengo! Noi abbiamo sviluppato un sistema analogo A. Santocchia - Ancona

Nagios Nagios e ̀ una applicazione per monitorare: servizi di network (SMTP, POP3, HTTP, NNTP…) risorse dei server (carico della CPU, uso dei dischi…) raggiungibilità (ping) Permette di avere sotto controllo la situazione senza perdere troppo tempo inutilmente A. Santocchia - Ancona

Nagios GUI intuitiva e visibilità immediata dei problemi Training semplice e veloce Possibile realizzare grafici delle performance Cruscotto (dashboard) e Reports configurabili Scalabile e adatto a sistemi complessi e distribuiti Sistema di monitor 24/7 Sistema open-source e con una vasta comunità di utenti A. Santocchia - Ancona

Nagios Modulare e espandibile Una struttura centrale che schedula e coordina Per ogni servizio/sistema si utilizza un plugin specifico Vasta libreria di plugin esistenti già pronti all’uso Possibile sviluppare nuovi plugin in autonomia Controllabile da remoto tramite interfaccia WEB Può interagire con altre applicazioni per gestire allarmi e cambiamenti di stato A. Santocchia - Ancona

Nagios: il core Nagios coordina… Schedula il check dei servizi I controlli sono eseguiti da plugin Gestisce le informazioni passate ai plugin I plugin eseguono le misure e restituiscono i risultati …ed esegue valutazioni di stato, gestione dei logs, sa chi, come e perché contattare in caso di problemi E’ possibile modificare i parametri di configurazione senza riavviare il servizio di monitoring A. Santocchia - Ancona

Nagios: i plugin A. Santocchia - Ancona

Nagios: i plugin Esiste uno standard per lo sviluppo dei plugin Utilizzo di una sintassi consistente di passaggio dei parametri Soglie di attenzione (warning) e criticità Utilizzo di uno stesso plugin per controlli parametrizzati spazio su disco ping di hosts larghezza di banda A. Santocchia - Ancona

Nagios: i servizi Oggetto delle misure Controllati ad intervalli di tempo regolare Possono essere controllati in parallelo Possiamo scrivere un plugin per controllare un nostro servizio Possiamo impostare regole ad hoc per ogni servizio A. Santocchia - Ancona

Nagios: stati ed eventi A. Santocchia - Ancona

Nagios: gli Host Nel nostro caso macchine reali o istanze virtuali Se un servizio fallisce si controlla l'host se il controllo fallisce si fermano le notifiche e si procede alla verifica della rete testando l'host collegato logicamente come padre Tre stati UP – DOWN – UNREACHABLE Perché un host è down? Reale problema o istanza chiusa? A. Santocchia - Ancona

Nagios: gli Host Se un host non risponde possono esserci molteplici cause: Problema dell’istanza Problema di rete Istanza chiusa A. Santocchia - Ancona

Nagios: gli Host Se un host non risponde possono esserci molteplici cause: Problema dell’istanza Problema di rete Istanza chiusa A. Santocchia - Ancona Notifiche Fuori linea schedulato Fluttuazioni di stato (flap)

Nagios: gli Host Se un host non risponde possono esserci molteplici cause: Problema dell’istanza Problema di rete Istanza chiusa A. Santocchia - Ancona Notifiche Fuori linea schedulato Fluttuazioni di stato (flap) Nulla da fare Nessun allarme

Nagios: Notifiche Posso generare una notifica (allarme) Alla prima occorrenza di un problema Ogni X minuti se il problema persiste Per un cambiamento di stato In conseguenza di un flap A chi vengono inoltrate e come Ad un singolo utente e/o servizio Tramite , sms, piccione viaggiatore… Escalation: è possibile implementare un meccanismo automatico se il problema non viene risolto Entro un tempo prefissato Se l’errore si ripresenta A. Santocchia - Ancona

Nagios: Notifiche E’ fondamentale prevenire i falsi allarmi Nagios permette di considerare i periodi di downtime schedulati  Fixed, Flexible, Triggered E’ fondamentale gestire i flap (fluttuazione rapida e imprevedibile di un host o di un servizio) Nagios permette di spedire una sola notifica all’inizio e alla fine del periodo di flapping (tramite algoritmi decisionali specifici) A. Santocchia - Ancona

Nagios: gli eventi E’ possibile eseguire dei comandi/programmi esterni durante i cambiamenti di stato Dopo ogni controllo di un servizio o di un host è possibile inviare ad applicazioni esterne il risultato del controllo Utile per implementare la ridondanza dei servizi Utile per la realizzazioni di grafici e report A. Santocchia - Ancona

Nagios e la rete Posso distribuire il monitoring su più server Posso monitorare servizi e host su tronconi di rete nascosti da firewall (utile in ambiente cloud) E usare un unico controller centrale (eventualmente ridondato) Due server master and slave (se il master fallisce lo slave prende il suo posto) Che raccogli i dati inoltrati dai diversi server di monitoring collocati nei diversi sotto-rami di rete A. Santocchia - Ancona

Nagios: parallelismo Posso parallelizzare l’esecuzione dei plugin e il controllo dei servizi/host Non posso parallelizzare L’event handler: solo un singolo gestore può decidere di provare a far ripartire un servizio e/o mandare una notifica Il gestore delle notifiche: non voglio mandare notifiche inutili o multiple A. Santocchia - Ancona

Ganglia E’ un altro esempio di applicazione per il monitoring largamente usate e con una vastissima comunità di utenti Permette nativamente di monitorare ambienti distribuiti Sviluppata su standard open Si basa su un protocollo multi-cast e listen/announce A. Santocchia - Ancona

Ganglia: l’architettura gmond : è l’agente istallato su tutte le macchine da monitorare e trasmette i dati al controllore In una infrastruttura cloud tutte le VM istanziate possono includere Gmond e permettere quindi l’immediata fotografia dello stato della cloud gmetad : è l’agente istallato su uno o più server per la raccolta dei dati e l’elaborazione delle metriche scelte Apache Web Front-end : è il server web che permette l’analisi e la presentazione dei dati monitorati A. Santocchia - Ancona

Ganglia: l’architettura Multicast : tutti i nodi con Gmond istallato possono ascoltare e riportare informazioni sullo stato del cluster Failover : gmetad permette di cambiare il nodo da interrogare per ricevere i dati Leggero e non invasivo : gmond e gmetad occupano poca memoria e non caricano i nodi con richieste elevate di risorse Multipiattaforma : Linux e MS windows più altri… A. Santocchia - Ancona

Ganglia: l’architettura A. Santocchia - Ancona

gmond Moduli per metriche standard: CPU, Network I/O, Disk I/O, memoria e parametri di sistema Espandibile: Si possono sviluppare moduli per accedere a dati complessi o metriche multiple In alternativa si possono invocare comandi di sistema o scipt tramite l’utility gmetric. A. Santocchia - Ancona

gmond Scoperta automatica dei nodi Si può aggiungere un nodo da monitorare senza cambiare i file di configurazione (basta che abbia gmond istallato) Ogni nodo è configurato indipendentemente dagli altri Ogni nodo può ascoltare o parlare (multicast) ma, se necessario, può essere configurato in modalità unicast La frequenza di monitoring è ovviamente configurabile A. Santocchia - Ancona

gmond Esiste un file di configurazione globale per tutti le istanze gmond accese Ma è possibile configurare un sotto-insieme di nodi (un cluster) in modo specifico E’ possibile configurare la rete secondo specifici parametri per la modalità di trasmissione dati in trasmissione e ricezione E’ possibile raggruppare le varie metriche in gruppi (collezioni) per specificare diverse modalità di raccoltà dati alcune metriche devono essere raccolte più frequentemente di altre A. Santocchia - Ancona

gmond In sostanza: Esegue in monitoring delle metriche nell’istanza dove è istallato (host) Annuncia i cambiamenti rilevanti Ascolta lo stato degli alti nodi del suo cluster tramite un canale multicast o unicast Risponde alle richiesta del gmetad con lo stato globale del cluster descritto tramite un file XML La trasmissione dei dati avviene: Tramite messaggi UDP tra i nodi del cluster Tramite file XML su connessione TCP con gmetad A. Santocchia - Ancona

gmetad Interroga un cluster (un nodo del cluster) per raccogliere le informazioni su quel cluster …ma può interrogare un altro server (con gmetad istallato) per raccogliere le informazione dei cluster Include un tool grafico e un DB per memorizzare le informazioni raccolte alla massima granularità I grafici possono mostrare differenti gradi di granularità Dimensione fissata (non mantiene lo storico indefinitamente)  Round Robin DB A. Santocchia - Ancona

gmetad In sostanza: Interroga periodicamente i diversi cluster Esegue il parsing dei file XML che riceve Riempe il DB con i dati raccolti Esporta il file XML aggregato ai client (web GUI front- end ad esempio) A. Santocchia - Ancona

Il flusso dati di Ganglia A. Santocchia - Ancona /etc/gmond.conf /etc/gmetad.conf PHP Script Apache+PHP File access Network Web

Nagios + Ganglia considerazioni finali Domande da porsi quando di progetta un sistema di monitor: Quanti sistemi dobbiamo monitorare? Quanti servizi vengono offerti dai sistemi? Quali sono i processi critici da monitorare? Chi gestisce e controlla e sistemi e i servizi offerti? Quali sono i report che servono per la gestione del sistema e chi li deve visionare? A. Santocchia - Ancona

Nagios + Ganglia considerazioni finali Occorre stabilire inizialmente i ruoli e le responsabilità… Chi segue il report X (o il cruscotto Y)? E’ un servizio 24/7 o no? Occorre organizzare un team di persone in grado di gestire le problematiche… In che tempi? Decidere inizialmente i tempi di risposta (SLA) A. Santocchia - Ancona

Nagios + Ganglia la fase progettuale I costi principali di un sistema di monitor che funziona non è mai il sistema di monitor Sono le persone che operano quando il sistema accede un allarme Un sistema di monitor può crescere nel tempo e diventare molto sofisticato… E funzionare molto male se la responsabilità del sistema di monitoring non è chiara e ben definita A. Santocchia - Ancona