SLURM semble down ? Voici un récapitulatif des vérifications préliminaires.
Vérifications
Slurm répond
Exécutez scontrol ping
pour vérifier que le serveur maître est joignable :
# scontrol ping |
Si la commande indique qu’il répond, il peut s’agir d’un problème de mise en réseau ou de configuration spécifique à un utilisateur ou à un nœud du cluster.
Slurm ne répond pas
Exécutez scontrol ping
pour vérifier que le serveur maître est joignable :
# scontrol ping |
Se connecter directement à la machine pour éliminer les problèmes de réseau et de configuration.
S’il ne répond toujours pas, vérifiez le statut de slurmctld
:
# ps -el | grep slurmctld |
Au besoin :
# /etc/init.d/slurm start |
Consulter les logs SlurmctldLog
dans le fichier slurm.conf
.
Au besoin, augmenter la verbosité SlurmctldDebug
dans le fichier slurm.conf
et redémarrez.
Si les logs ne donnent aucune indication :
# /etc/init.d/slurm stop |
/!\ Attention : Toutes les tâches en cours d’exécution et les autres informations d’état seront perdues.
Documentation
https://slurm.schedmd.com/troubleshoot.html
https://newbedev.com/how-to-undrain-slurm-nodes-in-drain-state