Summary di (quasi) tutti gli utenti non presentati… Giacinto Donvito (INFN)
Use case scientifici
Descrizione degli use case scientifici Bioinformatica (RNA, DNA, Genoma Mitocondriale) Hierarchical probabilistic modeling Earth Observations from remote sensing Dati Satellitari Medicina-psichiatria Risolutore di problemi differenziali ai valori al contorno Fisica Medica Servizi a supporto di progetti (FIWIRE, Living Labs) Codice cinetico a particelle per la simulazione del plasma E tanti altri… Siti di musei scientifici
Statistiche di utilizzo
Problemi più frequenti e/o più fastidiosi: Cloud Prima dell’aggiornamento eseguito in Maggio: problemi di performance, e affidabilità Possibilità di scegliere più immagini per le macchine virtuali Complicato far interagire le macchine in cloud con la farm di calcolo HTC/HPC
Problemi più frequenti e/o più fastidiosi: HPC Poche risorse disponibili: tempi di attesa difficilmente prevedibili per i job in coda A volte i job hanno tempi di esecuzioni molto più lunghi della media Si possono sottomettere pochi job alla volta Alcune applicazioni hanno bisogno di un tempo di esecuzione maggiore di quello messo a disposizione della coda Non è facile allocare una GPU in modo esclusivo, se non riservando le 40 CPU della macchina Alcune volte il sistema di scheduling rimane bloccato anche se ci sono risorse disponibili.
Problemi più frequenti e/o più fastidiosi: HTC Lunghi tempi di attesa per richieste più importati (più di una CPU o dimensioni di RAM maggiori di 4GB) Problemi con i permessi di accesso al file-system per utenti dello stesso gruppo o che hanno attività a cavallo di più gruppi. Le operazioni di manutenzione sul file-system sottostante (GPFS) a volte impattano pesantemente sulle attività degli utenti, o addirittura le bloccano. Risolto Tempo di esecuzione corto per le richieste di alcune applicazioni. Alcuni errori sono di difficile debug, necessario l’intervento degli admin di ReCaS Alcune volte è necessario interagire con gli amministratori per installazioni dei sw più complessi. In alcuni casi il singolo core della farm è più lento di CPU high-end sui PC degli utenti
Problemi più frequenti e/o più fastidiosi: generali Migliore comunicazione dei problemi e/o manutenzione in atto Difficoltà di registrazione degli account Memoria e tempo di CPU su frontend
Suggerimenti e/o richieste La possibilità di conoscere meglio i tempi di attesa di un job in coda La possibilità di pre-allocare (avere un’altissima priorità) le risorse di calcolo dopo un periodo che non si è usato il cluster Allungare il running time o almeno avere la possibilità di eseguire pochi job più lunghi in qualche modo Migliorare la documentazione e organizzare workshop formativi per gli utenti Migliori informazioni circa il numero di nodi disponibili Un catalogo di sw già disponibile da deployare/usare: sia sulla farm che in ambiente cloud (Compilatori, etc,) Un sistema di smart “brokering” per allocare le giuste risorse di calcolo (HPC, HTC) in base al job sottomesso (e magari alla disponibilità delle risorse)
Suggerimenti e/o richieste Un sistema di più “alto livello” per gestire le interazioni con il batch system Avere una dashboard in cui sia semplice per gli utenti sapere se ci sono disservizi, con il punto di vista di chi i vari servizi deve solo usarli Continuare ed incrementare il contatto diretto con gli utenti per il supporto alle loro attività Sistema usato: (HTC/HPC/Cloud) JobID / Virtual Image ID Username Logfile Messaggio di errore, etc