Summary di (quasi) tutti gli utenti non presentati…

Slides:



Advertisements
Presentazioni simili
JOB MONITORING Donvito Giacinto INFN-Bari. OUTLINE ● Use-case ● Informazioni utilizzate e metodologie di raccolta per il job monitoring ● Informazioni.
Advertisements

Aggiornamento attività gruppo Windows Gian Piero Siroli, Dip. di Fisica, Univ. di Bologna e INFN CCR, Giugno 2009.
Security Group – Cnaf-Bologna - 7 Novembre 2007 Security Gruppo Auditing Franco Brasolin Servizio di Calcolo e Reti Sezione INFN di Bologna.
Giuseppe Andronico CCR-WS10 Santa Tecla, 18 Maggio 2010 Introduzione MPI & GPU.
FESR Catania, Trigrid Open Day, Trinacria Grid Virtual Laboratory PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno.
+ Call di Big Data (EINFRA- 1). + La call … + + Cosa abbiamo in mano (come INFN) 1. L’infrastruttura 1 Tier Tier2 O(25000) cores O(20) PB di Disco.
D. Talia - UNICAL 1. 1 Sistemi Operativi Domenico Talia Facoltà di Ingegneria Università della Calabria.
Aggiornamento software Comunicazione mediante newsletter Pagina con istruzioni e changelog su
Corso gratuito di Linux. Linux User Group Mantova
Attività PRIN STOA a Cagliari Alessandro De Falco Università/INFN Cagliari.
HLRmon per IGI: nuove funzionalità Enrico Fattibene INFN – CNAF
IL SISTEMA OPERATIVO (seconda parte) PROGRAMMI UTENTE INTERPRETE COMANDI FILE SYSTEM GESTIONE DELLE PERIFERICHE GESTIONE DELLA MEMORIA GESTIONE DEI PROCESSI.
VO-Neural Project e GRID Giovanni d’Angelo Dipartimento di Scienze Fisiche Università degli Studi di Napoli Federico II Martina Franca 12 – 23 Novembre.
Chi siamo.
Smart HMS: Smart Health Management System
Valutazione proposte di corsi di formazione S. Arezzini, L
Ricerca e studio sulla non autosufficienza
PROCEDURA BASE PER ACCEDERE AL FASCICOLO SANITARIO ELETTRONICO
Corso per Webmaster base
SCoPE - Stato dei Lavori
Office WPC049 Strumenti di supporto e analisi per Office 365
dCache Test effettuati al CNAF
La comunicazione scritta
Il Sistema Operativo Gestione dei Processi
Infratel Italia Il Sinfi
I PROCESSI.
Comput-ER l'infrastruttura di calcolo distribuito in Emilia Romagna
I CODICI COLORE (TRIAGE)
SAL WP11 Bologna – CNAF – 5 Giugno 2015.
Applicazione web basata su web service e web socket
CRITTOGRAFIA Per crittografia si intende la protezione delle informazioni mediante l'utilizzo di codici e cifre. La crittografia è un componente fondamentale.
Office 365: un primo bilancio
Microcontrollori e microprocessori
Incontro annuale utenti ReCaS ALICE, CMS, CTA, DAMPE, FERMI, PAMELA
Halina Bilokon Vitaliano Chiarella Simonetta Gentile
Giuseppe Andronico 1 Marzo 2010 Riunione CCR
Sicurezza e Grid Computing
Meccanismi di caricamento e aggiornamento dei dati
Introduzione alla sessione sull’analisi per gli esperimenti LHC
Metriche SE monitoring G.Donvito G.Cuscela INFN Bari
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
(Breve) Riassunto del workshop WLCG
INFN-TS INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo.
MC-INFN.
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
PI2S2 Regional Operation Centre Sistema di Supporto Sistema di Monitoring Rita Ricceri Consorzio Cometa Tutorial per Site Administrator Messina,
Grid Monitoring: bacct - lsload
INFN Il calcolo scientifico presso la sede INFN di Padova e di Legnaro
Job Application Monitoring (JAM)
COLLEGIO DI DIREZIONE 24 ottobre 2017
PROGETTO “ISOSPIN” Supporters : AnnaMaria Muoio, Marcello IaconoManno
Servizi web per la bioinformatica strutturale
analizzatore di protocollo
Recupero polizze assicurative
IL DISASTER RECOVERY Ing. Massimiliano Zuffi
Introduzione alle basi di dati
Processi e Thread Meccanismi di IPC (1).
Sistemi Operativi.
Impresa Formativa Simulata
Commercialisti & Revisori
Introduzione alla nuova versione di PowerPoint
Scheduling in Linux (Kernel 2.4 e 2.6)
Introduzione alla nuova versione di PowerPoint
CHE NOVITA‘ ALL’orizzonte?
Processi e thread in Windows 2000
Introduzione alla nuova versione di PowerPoint
Job Management Systems ovvero
LE PARTI INTERNE DEL COMPUTER
Scheduling (Schedulazione)
CLOUD.
Transcript della presentazione:

Summary di (quasi) tutti gli utenti non presentati… Giacinto Donvito (INFN)

Use case scientifici

Descrizione degli use case scientifici Bioinformatica (RNA, DNA, Genoma Mitocondriale) Hierarchical probabilistic modeling Earth Observations from remote sensing  Dati Satellitari Medicina-psichiatria Risolutore di problemi differenziali ai valori al contorno Fisica Medica Servizi a supporto di progetti (FIWIRE, Living Labs) Codice cinetico a particelle per la simulazione del plasma E tanti altri… Siti di musei scientifici

Statistiche di utilizzo

Problemi più frequenti e/o più fastidiosi: Cloud Prima dell’aggiornamento eseguito in Maggio: problemi di performance, e affidabilità Possibilità di scegliere più immagini per le macchine virtuali Complicato far interagire le macchine in cloud con la farm di calcolo HTC/HPC

Problemi più frequenti e/o più fastidiosi: HPC Poche risorse disponibili: tempi di attesa difficilmente prevedibili per i job in coda A volte i job hanno tempi di esecuzioni molto più lunghi della media Si possono sottomettere pochi job alla volta Alcune applicazioni hanno bisogno di un tempo di esecuzione maggiore di quello messo a disposizione della coda Non è facile allocare una GPU in modo esclusivo, se non riservando le 40 CPU della macchina Alcune volte il sistema di scheduling rimane bloccato anche se ci sono risorse disponibili.

Problemi più frequenti e/o più fastidiosi: HTC Lunghi tempi di attesa per richieste più importati (più di una CPU o dimensioni di RAM maggiori di 4GB) Problemi con i permessi di accesso al file-system per utenti dello stesso gruppo o che hanno attività a cavallo di più gruppi. Le operazioni di manutenzione sul file-system sottostante (GPFS) a volte impattano pesantemente sulle attività degli utenti, o addirittura le bloccano.  Risolto Tempo di esecuzione corto per le richieste di alcune applicazioni. Alcuni errori sono di difficile debug, necessario l’intervento degli admin di ReCaS Alcune volte è necessario interagire con gli amministratori per installazioni dei sw più complessi. In alcuni casi il singolo core della farm è più lento di CPU high-end sui PC degli utenti

Problemi più frequenti e/o più fastidiosi: generali Migliore comunicazione dei problemi e/o manutenzione in atto Difficoltà di registrazione degli account Memoria e tempo di CPU su frontend

Suggerimenti e/o richieste La possibilità di conoscere meglio i tempi di attesa di un job in coda La possibilità di pre-allocare (avere un’altissima priorità) le risorse di calcolo dopo un periodo che non si è usato il cluster Allungare il running time o almeno avere la possibilità di eseguire pochi job più lunghi in qualche modo Migliorare la documentazione e organizzare workshop formativi per gli utenti Migliori informazioni circa il numero di nodi disponibili Un catalogo di sw già disponibile da deployare/usare: sia sulla farm che in ambiente cloud (Compilatori, etc,) Un sistema di smart “brokering” per allocare le giuste risorse di calcolo (HPC, HTC) in base al job sottomesso (e magari alla disponibilità delle risorse)

Suggerimenti e/o richieste Un sistema di più “alto livello” per gestire le interazioni con il batch system Avere una dashboard in cui sia semplice per gli utenti sapere se ci sono disservizi, con il punto di vista di chi i vari servizi deve solo usarli Continuare ed incrementare il contatto diretto con gli utenti per il supporto alle loro attività Sistema usato: (HTC/HPC/Cloud) JobID / Virtual Image ID Username Logfile Messaggio di errore, etc