La commande sinfo
permets d’afficher des informations comme le statut des noeuds ou des partitions sous SLURM.
Cette commande affiche à la fois l’état des noeuds et peut renseigner un complément d’information, le code d’état (*, +, %, etc.)
Pour des informations plus détaillées (non troquées), il faut utiliser les options N
(--Node
), e
(--exact
) et l
(--long
), la commande est :
# sinfo -Nel |
Flag d’états possibles des noeuds
Flag | Description |
---|---|
* |
Le noeud ne répond pas actuellement et ne se verra attribuer aucun nouveau job. Si le noeud ne répond toujours pas, il sera placé dans l’état DOWN (sauf di déjà COMPLETING, DRAINED, DRAINING, FAIL, FAILING) |
~ |
Le noeud est actuellement hors tension |
# |
Le noeud est en cours de mise sous tension ou de configuration |
! |
Le noeud est en attente de mise hors tension |
% |
Le noeud est actuellement mis hors tension |
$ |
Le noeud est actuellement dans une réservation avec un flag “maintenance” |
@ |
Le noeud est en attente de redémarrage |
^ |
Le redémarrage du noeud a été émis |
- |
Le noeud est désigné par l’ordonnanceur pour une tâche de priorité plus élevée |
Etats possibles des noeuds
Etat | Description |
---|---|
ALLOCATED |
Le noeud est entièrement alloué |
ALLOCATED+ |
Le noeud est entièrement alloué et des jobs sont terminés (COMPLETING) |
COMPLETING |
Tous les jobs associés au noeud sont terminés (COMPLETING) |
DOWN |
Le noeud est indisponible |
DRAINED |
Le noeud n’est pas disponible |
DRAINING |
Le noeud exécute actuellement une tâche, mais aucune autre ne lui sera allouée. L’état du noeud passera à DRAINED à la fin de la dernière tâche |
FAIL |
Le noeud sera bientôt indisponible |
FAILING |
Le noeud exécute actuellement une tâche, mais sera ensuite indisponible |
FUTURE |
Le noeud n’est actuellement pas entièrement configuré, mais sera disponible une fois fait |
IDLE |
Le noeud est inacatif et attend d’être utilisé |
INVAL |
Le noeud ne s’est pas enregistré correctement : moins de ressources que celles configurées dans le fichier slurm.conf . Le noeud quittera cet état avec un enregistrement valide (redémarrage slurmd requis) |
MAINT |
Le noeud est réservé avec un flag “maintenance” |
REBOOT_ISSUED |
Une demande de redémarrage de ce noeud a été envoyée |
REBOOT_REQUESTED |
Une demande de redémarrage de ce noeud a été faite, mais n’a pas encore été traitée |
MIXED |
Le noeud a à la fois des CPU occupés et incatifs. |
PERFCTRS (NPC) |
Les compteurs de performances réseau associés à ce noeud sont en cours d’utilisation, ce qui rend ce noeud inutilisable pour d’autres jobs |
PLANNED |
Le noeud est désigné par l’ordonnanceur pour un job de priorité plus élevée |
POWER_DOWN |
Le noeud est en attente de mise hors tension |
POWERED_DOWN |
Le noeud est est actuellement hors tension et incapable d’exécuter des travaux |
POWERING_DOWN |
Le noeud est en cours de mise hors tension et incapable d’exécuter des jobs |
POWERING_UP |
Le noeud est en cours de mise sous tension |
RESERVED |
Le noeud est réservé et indiponible |
UNKNOWN |
Slurm vient de démarrer et le statut du noeud n’est pas encore déterminé |
Exemples
Affiche les configurations de base des nœuds et des partitions :
# sinfo |
Affiche un récapitulatif sur les partitions :
# sinfo -s |
Affiche des informations plus complètes sur la partition “débug” :
# sinfo --long --partition=debug |
Affiche uniquement les noeuds avec le statut DRAINED :
# sinfo --states=drained |
Affiche de façon détaillée les informations sur les noeuds :
# sinfo -Nel |
Affiche uniquement la raison des noeuds en down, drained and draining :
# sinfo -R |
Documentation
https://slurm.schedmd.com/sinfo.html
RTFM scontrol(1)
RTFM slurm.conf(5)
Commande update node