Parfois il arrive que des utilisateurs aient lancé des jobs sur une queue avec une QOS (de temps) trop courte et que leurs calculs ne puissent pas se finir dans le temps imparti. Pour leur accorder du temps supplémentaire, il faut modifier le TimeLimit
à l’aide de la commande scontrol
avec un update
.
Créer une limite de temps
Normalement on définie une QOS valable pour un groupe d’utilisateurs ou pour une queue/noeud mais il est possible de modifier une valeur (ici de temps) au cas par cas.
Afficher le temps restant
Pour afficher le TimeLimit
d’un job :
# sacct --format="Jobid,TimeLimit,CPUTime,MaxRSS" | grep <JodID> |
Définir un TimeLimit
Pour (re)définir une valeur au TimeLimit
:
# scontrol update jobid=$job TimeLimit=25-00:00:00 |
Pour ajouter du temps supplémentaire au TimeLimit
:
# scontrol update jobid=$job TimeLimit=+20-00:00:00 |
Pour retrancher du temps au TimeLimit
:
# scontrol update jobid=$job TimeLimit=-5-00:00:00 |
Script pour MAJ plusieurs jobs
Script bash :
#bin/bash |
Documentation
https://slurm.schedmd.com/scontrol.html
https://stackoverflow.com/questions/28413418/adding-time-to-a-running-slurm-job