SLURM - Down ?

SLURM semble down ? Voici un récapitulatif des vérifications préliminaires.

Vérifications

Slurm répond

Exécutez scontrol ping pour vérifier que le serveur maître est joignable :

# scontrol ping
Slurmctld(primary) at <ServerName> is UP

Si la commande indique qu’il répond, il peut s’agir d’un problème de mise en réseau ou de configuration spécifique à un utilisateur ou à un nœud du cluster.

Slurm ne répond pas

Exécutez scontrol ping pour vérifier que le serveur maître est joignable :

# scontrol ping
Slurmctld(primary) at <ServerName> is not responding

Se connecter directement à la machine pour éliminer les problèmes de réseau et de configuration.

S’il ne répond toujours pas, vérifiez le statut de slurmctld :

# ps -el | grep slurmctld

Au besoin :

# /etc/init.d/slurm start
# /etc/init.d/slurm stop // si vraiment nécessaire

Consulter les logs SlurmctldLog dans le fichier slurm.conf.
Au besoin, augmenter la verbosité SlurmctldDebug dans le fichier slurm.conf et redémarrez.

Si les logs ne donnent aucune indication :

# /etc/init.d/slurm stop
# /etc/init.d/slurm startclean /!\

/!\ Attention : Toutes les tâches en cours d’exécution et les autres informations d’état seront perdues.

Documentation

https://slurm.schedmd.com/troubleshoot.html
https://newbedev.com/how-to-undrain-slurm-nodes-in-drain-state

> Partager <