Un script en bash pour surveiller vos noeuds sous SLURM, le script vérifie si les noeuds tombent en drain
ou drng
et les relance automatiquement, il récupère ensuite les logs d’erreurs de SLURM sur le noeud et les place dans LOG_EXPORT_REPOSITORY
.
Le script est à lancer avec la commande watch
:
# watch -n <IntervaleSecondes> <CheminScript> |
Ou dans un cron
:
# crontab –e |
Le script :
#! /bin/bash |