SLURM - Modifier temps de calcul

Parfois il arrive que des utilisateurs aient lancé des jobs sur une queue avec une QOS (de temps) trop courte et que leurs calculs ne puissent pas se finir dans le temps imparti. Pour leur accorder du temps supplémentaire, il faut modifier le TimeLimit à l’aide de la commande scontrol avec un update.

Créer une limite de temps

Normalement on définie une QOS valable pour un groupe d’utilisateurs ou pour une queue/noeud mais il est possible de modifier une valeur (ici de temps) au cas par cas.

Afficher le temps restant

Pour afficher le TimeLimit d’un job :

# sacct --format="Jobid,TimeLimit,CPUTime,MaxRSS"  | grep <JodID>

Définir un TimeLimit

Pour (re)définir une valeur au TimeLimit :

# scontrol update jobid=$job TimeLimit=25-00:00:00

Pour ajouter du temps supplémentaire au TimeLimit :

# scontrol update jobid=$job TimeLimit=+20-00:00:00

Pour retrancher du temps au TimeLimit :

# scontrol update jobid=$job TimeLimit=-5-00:00:00

Script pour MAJ plusieurs jobs

Script bash :

#bin/bash

Jobid=(1111,1112,1113,1114,1115,1116,1117,
1118,1119,1120,1121,1122,…)

for job in ${jobid[@]}
do
Scontrol update jobid=$job
TimeLimit=25-00:00:00
done

Documentation

https://slurm.schedmd.com/scontrol.html
https://stackoverflow.com/questions/28413418/adding-time-to-a-running-slurm-job

> Partager <