CMS T2: monitoring Cosa c’e’ / cosa vorremmo / cosa manca

Slides:



Advertisements
Presentazioni simili
C. Aiftimiei 1, S. Andreozzi 2, S. Dal Pra 1, G. Donvito 3, S. Fantinel 4, E. Fattibene 2, G. Cuscela 3, G. P. Maggi 3, G. Misurelli 2, A. Pierro 3 1 INFN-Padova.
Advertisements

FESR Trinacria Grid Virtual Laboratory Rosanna Catania Rita Ricceri INFN Catania 25 Luglio 2006 Grid Monitoring: GridICE – bacct - lsload.
JOB MONITORING Donvito Giacinto INFN-Bari. OUTLINE ● Use-case ● Informazioni utilizzate e metodologie di raccolta per il job monitoring ● Informazioni.
Virtualizzazione nell’INFN Andrea Chierici 11 Dicembre 2008.
Computing CMS Richieste 2010 M.Paganoni, 22/7/09.
Monitoraggio siti COMETA “Promemoria” Danilo Reitano.
IL blueprint e le esigenze per il progetti internazionali (EMI e EGI- InSPIRE) L. Gaido, INFN Torino Riunione del Comitato di Coordinamento IGI Roma, 12.
Dynamic Farm Espansione Dinamica di una Farm Vincenzo Ciaschini CCR 31/3/2015.
+ Call di Big Data (EINFRA- 1). + La call … + + Cosa abbiamo in mano (come INFN) 1. L’infrastruttura 1 Tier Tier2 O(25000) cores O(20) PB di Disco.
Mind map e luce 391 mind map e luce. 394 una mappa mentale proibita senza censura >>>>
HLRmon per IGI: nuove funzionalità Enrico Fattibene INFN – CNAF
Web quest. Immagina di essere uno scrittore... Hai deciso di scrivere un romanzo ambientato in Inghilterra e, siccome uno scrittore deve conoscere bene.
Presentazione della piattaforma e - learning MOODLE a cura di Davide Afretti Bologna, 24 aprile 2013.
Alessandro De Salvo Status dei Tier2 di ATLAS Alessandro De Salvo
Acquisti TIER T2 team e Pistoni per la consulenza sull’hardware.
PGDay 2009 FSGateway Ing. Torello Querci Resp. Architetture SW - Negens S.r.l. 4 Dicembre 2009, Pisa.
VO-Neural Project e GRID Giovanni d’Angelo Dipartimento di Scienze Fisiche Università degli Studi di Napoli Federico II Martina Franca 12 – 23 Novembre.
Procedura di certificazione di un sito
Facile da usare Un'interfaccia amministrativa completamente rinnovata, iniziare con Drupal è più facile!
Corso per Webmaster base
SCoPE - Stato dei Lavori
Gestione Farm Tema centrale della sessione: utilizzo del batch- system nelle varie sedi T1 e T2, ma anche altre farm grid e farm di sezione requirements,
Gestione Farm Tema centrale della sessione: utilizzo del batch-system nelle varie sedi T1 e T2, ma anche altre farm grid e farm di sezione requirements,
Status Report Gruppo Storage CCR CCR 14-15/03/2006.
Monitoring e loadbalancing dei servizi Grid
INFN-Bari.
Comput-ER l'infrastruttura di calcolo distribuito in Emilia Romagna
Metodologie Quantitative per il Calcolo Scientifico
EasyGraph Dynamic web-based dashboard
Richieste di upgrade dei link di accesso alla rete Geografica
HLRmon: visualizzazione di dati di accounting
Nuovo sito della Commissione Calcolo e Reti
Speranza Falciano - Meeting a LNF su INFN nel Lazio - 13/10/2016
PNSD - Modulo M5 e M11 Ravenna
Università di Messina - C.E.C.U.M.
PRIN Roma1 – status Luciano Barone, Alessandro De Salvo
Servizi per CCRC, INFN Grid release, stato dei servizi centrali e T2
Pisa.
Sicurezza e Grid Computing
Introduzione alla sessione sull’analisi per gli esperimenti LHC
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
PNSD - Modulo M6 Faenza 6 settembre 2017
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Tier 2 Legnaro-Padova Update luglio 2010
Divulgare il DISF attraverso il social network
Attvità Computing – Inverno 08/09
Parlando di network i discorsi naturalmente diventano complessi (creazione di un intero ecosistema virtuale comparabile ad uno reale): Separazione layers.
(Breve) Riassunto del workshop WLCG
Luciano Gaido (INFN - Torino) Workshop CCR/INFNGRID – Palau
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Alla Ricerca di una Rete Libera
ATLAS PRIN Next Steps Alessandro De Salvo
Introduzione Francesco Forti INFN e Università di Pisa
Job Application Monitoring (JAM)
Modulo 3 Costituzione del consorzio dei partner
PNSD - 24 ottobre 2017 Piattaforma e risorse educative aperte (OER) per la costruzione di contenuti digitali - G Suite For Education - Storage e repository.
Calcolo “locale” ATLAS-Mi
R.Gomezel Commissione Calcolo e Reti CNAF
ai termini e ai principi informatici utili per utilizzare Linux
Risultati del questionario sui servizi middleware aggiuntivi
PNSD - Modulo M6 Lugo 4 settembre 2017
Comitato Paritetico Strategia Nazionale Biodiversità
Per supporto contatta il Motorola Service Desk
INIZIO LEZIONE DEL LEZIONE DEL
Formazione interna e strumenti
© 2007 SEI-Società Editrice Internazionale, Apogeo
Il nuovo concetto Leitner
PNSD novembre 2017 Piattaforma e risorse educative aperte (OER) per la costruzione di contenuti digitali - G Suite For Education - Storage e repository.
Modulo 6 Colombo Claudio  EU Web Agency Academy 
Utenza potenziale L’attenzione della biblioteca non può essere rivolta soltanto a chi già fruisce dei suoi servizi, ma anche a quella utenza che viene.
Transcript della presentazione:

CMS T2: monitoring Cosa c’e’ / cosa vorremmo / cosa manca T.BOCCALI PER I T2 DI CMS

Monitoring - cosa serve? Un po’ di statement generali Sono necessari due livelli: uno dettagliato (per site admin e … referees) e uno condensato (per gli utenti afferenti al T2) In prima approssimazione il compito dei T2 dovrebbe essere quello di _aggregare_ informazioni esistenti in altri sistemi di monitoring. Ricordate infatti che Il monitoring delle risorse sotto grid e’ una responsabilita’ (ben finanziata) di LCG/EGEE ecc ecc I T2 non hanno personale sviluppatore pagato detto questo, e’ chiaro che se qualcosa manca si fa _il possibile_ per realizzarlo (questo chiaramente NON e’ valido per informazioni di monoting tipo temperatura, monitoring di allarmi hardware ecc, ma non era nelle richieste)

Monitoring centralizzato – cosa esiste CPU: numero di ore CPU(tempo, VO): cesga Mensile, non + fine Non CPU totali, ma si possono ricavare da Gstat Gridice: numeri presenti ma spesso moltiplicati per xN (N == numero di CE attivi) HLRMon: ok ma con limiti (per esempio non da’ il totale delle CPU, il denominatore dell’efficienza) v

Storage Molto poco, a parte qualcosa in Gstat Gridice: numeri poco affidabili, ancora qualche problema per esempio nell’interfacciare dCache e Gridice Monitoring interno di dCache: funziona ma tecnicamente e’ un prodotto esterno Se sono definiti gruppi distinti per VO, puo’ dare occupato/libero per gruppo

Network Di centralizzato solo la Pagin del GARR In pratica piu’ o meno tutte le sezioni hanno ganglia o equivalente in funzione

Un’altra cosa … Non era esplicitamente nei requirements, ma poi c’e’ tutta la questione del monitoring del funzionamento. A parte I SAM di OPS, gli esperimenti grandi (e fra questi CMS) hanno sovrastrutture di controllo CMS ha SAM specifici Sottomissione continua di Job Una SiteView che condensa

Per la rete … C’e’ tutta la complessa machinery del monitoring di phedex Sia di dataset veri Sia di roba iniettata ad arte per controllare I trasferimenti

Cosa manca … CPU/Jobs: un monitoring piu’ granulare (per esempio, cesga giornaliero o per ora) che dia anche un’efficienza dell’utilizzo del Sito Un monitoring delle priorita’ delle code che permetta ad un utente di avere un’idea di quando girera’ il suo job (Gstat ci prova ma con una metrica troppo semplicistica) Storage: un monitoring che tenga conto di di gruppi, quote, ecc ecc

Questo ha fatto si’ … … che I vari T2, per il momento in modo sostanzialmente autonomo e guidato dai bisogni locali, abbiano sviluppato Non solo le pagine di aggregazione di cui sopra Ma anche tool aggiuntivi Non sempre condivisibili facimlente: PBS vs LSF, siti mono VO e siti aperti a tutti, ecc ecc Adesso (== nell’ultimo mese) sono partite delle discussioni su come avere qualcosa di uniforme almeno sotto il profilo dei contenuti Una carrellata dei tentativi esistenti:

Bari Mon2: Raccoglie informazioni mandati dai vari host (CE,SE, WN…) Li pubblica sul WEB e crea feed RSS Manda allarmi Email/SMS Crea un DB locale con l’archivio storico Per il momento focus sul monitoring Hardware del Sito (raid, temperatura, stato delle code) A breve, presentera’ la pagina di aggregazione di cui sopra; per il momento un prototipo di questa e’ stato realizzato tramite link

Legnaro Site Admin: Ganglia Monitoring LSF (vedi Pisa) Storage: pagina nativa di dCache

Dal lato utente Prototipizzata una pagina pensata per l’utente del T2

Pisa SiteAdminView: un sacco di tools sviluppati LSFMON: monitor di LSF (ora usato anche a LNL) WNMon: effettua tests basilari dei WN ogni 6 ore

Tools di debug JobMON: permette di andare a “sbirciare” cosa fanno I singoli Job (utilizzo RAM/CPU, controllare log files etc) Phedex Status Mon: permette di tracciare I sample presenti la loro storia

Tool di aggregazione Cominciato da poco, utilizzando tecnologia widget (netvibes) e lavoro preesistente di Isidro Gonzales

Roma Pagina di aggregazione complessa scritta in perl/javascript Aggrega informazioni hardware/locali (LSF)/cms specific (trasferimenti, release software …) Comprende una collezione completa di link utili per debuggare il sito hardware (T° racks) e software (test CMS) e a documentazione varia per problem solving

Conclusioni Siamo ben contenti di pensare a pagine di aggregazione Possibilmente comuni fra I T2 italiani, ci stiamo muovendo in questa direzione gia’ adesso Un po’ meno contenti di dover disegnare nuovi tool di monitoring; speriamo a regime di poter utilizzare solo quelli ufficiali (a parte chiaramente monitoring di hardware ecc ecc) Tutto il lavoro qui presentato e’ chiaramente a disposizione di tutti, ma il supporto potrebbe essere un problema (di risorse umane)