SLURM - Statut des noeuds

La commande sinfo permets d’afficher des informations comme le statut des noeuds ou des partitions sous SLURM.
Cette commande affiche à la fois l’état des noeuds et peut renseigner un complément d’information, le code d’état (*, +, %, etc.)

Pour des informations plus détaillées (non troquées), il faut utiliser les options N (--Node), e (--exact) et l (--long), la commande est :

# sinfo -Nel

Flag d’états possibles des noeuds

Flag Description
* Le noeud ne répond pas actuellement et ne se verra attribuer aucun nouveau job. Si le noeud ne répond toujours pas, il sera placé dans l’état DOWN (sauf di déjà COMPLETING, DRAINED, DRAINING, FAIL, FAILING)
~ Le noeud est actuellement hors tension
# Le noeud est en cours de mise sous tension ou de configuration
! Le noeud est en attente de mise hors tension
% Le noeud est actuellement mis hors tension
$ Le noeud est actuellement dans une réservation avec un flag “maintenance”
@ Le noeud est en attente de redémarrage
^ Le redémarrage du noeud a été émis
- Le noeud est désigné par l’ordonnanceur pour une tâche de priorité plus élevée

Etats possibles des noeuds

Etat Description
ALLOCATED Le noeud est entièrement alloué
ALLOCATED+ Le noeud est entièrement alloué et des jobs sont terminés (COMPLETING)
COMPLETING Tous les jobs associés au noeud sont terminés (COMPLETING)
DOWN Le noeud est indisponible
DRAINED Le noeud n’est pas disponible
DRAINING Le noeud exécute actuellement une tâche, mais aucune autre ne lui sera allouée. L’état du noeud passera à DRAINED à la fin de la dernière tâche
FAIL Le noeud sera bientôt indisponible
FAILING Le noeud exécute actuellement une tâche, mais sera ensuite indisponible
FUTURE Le noeud n’est actuellement pas entièrement configuré, mais sera disponible une fois fait
IDLE Le noeud est inacatif et attend d’être utilisé
INVAL Le noeud ne s’est pas enregistré correctement : moins de ressources que celles configurées dans le fichier slurm.conf. Le noeud quittera cet état avec un enregistrement valide (redémarrage slurmd requis)
MAINT Le noeud est réservé avec un flag “maintenance”
REBOOT_ISSUED Une demande de redémarrage de ce noeud a été envoyée
REBOOT_REQUESTED Une demande de redémarrage de ce noeud a été faite, mais n’a pas encore été traitée
MIXED Le noeud a à la fois des CPU occupés et incatifs.
PERFCTRS (NPC) Les compteurs de performances réseau associés à ce noeud sont en cours d’utilisation, ce qui rend ce noeud inutilisable pour d’autres jobs
PLANNED Le noeud est désigné par l’ordonnanceur pour un job de priorité plus élevée
POWER_DOWN Le noeud est en attente de mise hors tension
POWERED_DOWN Le noeud est est actuellement hors tension et incapable d’exécuter des travaux
POWERING_DOWN Le noeud est en cours de mise hors tension et incapable d’exécuter des jobs
POWERING_UP Le noeud est en cours de mise sous tension
RESERVED Le noeud est réservé et indiponible
UNKNOWN Slurm vient de démarrer et le statut du noeud n’est pas encore déterminé

Exemples

Affiche les configurations de base des nœuds et des partitions :

# sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
particule up infinite 2 alloc myNode[8-9]
particule up infinite 6 idle myNode[10-15]
debug* up 30:00 8 idle myNode[0-7]

Affiche un récapitulatif sur les partitions :

# sinfo -s
PARTITION AVAIL TIMELIMIT NODES(A/I/O/T) NODELIST
particule up infinite 2/6/0/8 myNode[8-15]
debug* up 30:00 0/8/0/8 myNode[0-7]

Affiche des informations plus complètes sur la partition “débug” :

# sinfo --long --partition=debug
PARTITION AVAIL TIMELIMIT JOB_SIZE ROOT OVERSUBS GROUPS NODES STATE NODELIST
debug* up 30:00 8 no no all 8 idle nodeXP[0-7]

Affiche uniquement les noeuds avec le statut DRAINED :

# sinfo --states=drained
PARTITION AVAIL NODES TIMELIMIT STATE NODELIST
debug* up 2 30:00 drain myNode[6-7]

Affiche de façon détaillée les informations sur les noeuds :

# sinfo -Nel
NODELIST NODES PARTITION STATE CPUS MEMORY TMP_DISK WEIGHT FEATURES REASON
myNode[0-1] 2 debug* idle 2 3448 38536 16 (null) (null)
myNode[2,4-7] 5 debug* idle 2 3384 38536 16 (null) (null)
myNode3 1 debug* idle 2 3394 38536 16 (null) (null)
myNode[8-9] 2 particule allocated 2 246 82306 16 (null) (null)
myNode[10-15] 6 particule idle 2 246 82306 16 (null) (null)

Affiche uniquement la raison des noeuds en down, drained and draining :

# sinfo -R
REASON NODELIST
Memory errors nodeXP[0,5]
Not Responding nodeXP8

Documentation

https://slurm.schedmd.com/sinfo.html
RTFM scontrol(1)
RTFM slurm.conf(5)
Commande update node

> Partager <