Pour effectuer des diagnostics et sortir des statistiques sous SLURM, on peut utiliser 3 commandes :
# sdiag |
Commande sdiag
Utilité
La commande sdiag
permet d’obtenir de nombreuses informations sur :
- le nombre de jobs (lancés, annulés, terminés, échoués, etc.)
- les appels RCP et qui les exécute
- les temps des traitements
Exemple
Exemple de sortie :
# sdiag |
Commande sacctmgr
Options show stats
La commande sacctmgr show stats
permet d’obtenir de nombreuses informations sur :
- les statistiques “Rollups”
- les appels sur la DB exécutés et par qui
Exemple
Exemple de sortie :
# sacctmgr show stats |
Options show problem
La commande sacctmgr show problem
permet d’obtenir de nombreuses informations sur les problème rencontrés par Slurm.
Exemple
Exemple de sortie :
# sacctmgr show problem |
Documentation
http://loxop4biz.minibird.jp/slurm2002/SLUG19/Troubleshooting.pdf
Troubleshooting.pdf
https://manpages.org/sacctmgr