La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Summary di (quasi) tutti gli utenti non presentati…

Presentazioni simili


Presentazione sul tema: "Summary di (quasi) tutti gli utenti non presentati…"— Transcript della presentazione:

1 Summary di (quasi) tutti gli utenti non presentati…
Giacinto Donvito (INFN)

2 Use case scientifici

3 Descrizione degli use case scientifici
Bioinformatica (RNA, DNA, Genoma Mitocondriale) Hierarchical probabilistic modeling Earth Observations from remote sensing  Dati Satellitari Medicina-psichiatria Risolutore di problemi differenziali ai valori al contorno Fisica Medica Servizi a supporto di progetti (FIWIRE, Living Labs) Codice cinetico a particelle per la simulazione del plasma E tanti altri… Siti di musei scientifici

4 Statistiche di utilizzo

5 Problemi più frequenti e/o più fastidiosi: Cloud
Prima dell’aggiornamento eseguito in Maggio: problemi di performance, e affidabilità Possibilità di scegliere più immagini per le macchine virtuali Complicato far interagire le macchine in cloud con la farm di calcolo HTC/HPC

6 Problemi più frequenti e/o più fastidiosi: HPC
Poche risorse disponibili: tempi di attesa difficilmente prevedibili per i job in coda A volte i job hanno tempi di esecuzioni molto più lunghi della media Si possono sottomettere pochi job alla volta Alcune applicazioni hanno bisogno di un tempo di esecuzione maggiore di quello messo a disposizione della coda Non è facile allocare una GPU in modo esclusivo, se non riservando le 40 CPU della macchina Alcune volte il sistema di scheduling rimane bloccato anche se ci sono risorse disponibili.

7 Problemi più frequenti e/o più fastidiosi: HTC
Lunghi tempi di attesa per richieste più importati (più di una CPU o dimensioni di RAM maggiori di 4GB) Problemi con i permessi di accesso al file-system per utenti dello stesso gruppo o che hanno attività a cavallo di più gruppi. Le operazioni di manutenzione sul file-system sottostante (GPFS) a volte impattano pesantemente sulle attività degli utenti, o addirittura le bloccano.  Risolto Tempo di esecuzione corto per le richieste di alcune applicazioni. Alcuni errori sono di difficile debug, necessario l’intervento degli admin di ReCaS Alcune volte è necessario interagire con gli amministratori per installazioni dei sw più complessi. In alcuni casi il singolo core della farm è più lento di CPU high-end sui PC degli utenti

8 Problemi più frequenti e/o più fastidiosi: generali
Migliore comunicazione dei problemi e/o manutenzione in atto Difficoltà di registrazione degli account Memoria e tempo di CPU su frontend

9 Suggerimenti e/o richieste
La possibilità di conoscere meglio i tempi di attesa di un job in coda La possibilità di pre-allocare (avere un’altissima priorità) le risorse di calcolo dopo un periodo che non si è usato il cluster Allungare il running time o almeno avere la possibilità di eseguire pochi job più lunghi in qualche modo Migliorare la documentazione e organizzare workshop formativi per gli utenti Migliori informazioni circa il numero di nodi disponibili Un catalogo di sw già disponibile da deployare/usare: sia sulla farm che in ambiente cloud (Compilatori, etc,) Un sistema di smart “brokering” per allocare le giuste risorse di calcolo (HPC, HTC) in base al job sottomesso (e magari alla disponibilità delle risorse)

10 Suggerimenti e/o richieste
Un sistema di più “alto livello” per gestire le interazioni con il batch system Avere una dashboard in cui sia semplice per gli utenti sapere se ci sono disservizi, con il punto di vista di chi i vari servizi deve solo usarli Continuare ed incrementare il contatto diretto con gli utenti per il supporto alle loro attività Sistema usato: (HTC/HPC/Cloud) JobID / Virtual Image ID Username Logfile Messaggio di errore, etc


Scaricare ppt "Summary di (quasi) tutti gli utenti non presentati…"

Presentazioni simili


Annunci Google