SLURM - Daemons

SLURM (Simple Linux Utility for Resource Management) est un planificateur de tâches gratuit et open source pour les noyaux de type Linux et Unix, utilisé par de nombreux superordinateurs et grappes d’ordinateurs dans le monde.

Daemons SLURM

Daemons and Other Définition
slurmctld Contrôleur central (généralement un par cluster)
- Sauvegarde facultative avec failover automatique
- Surveille l’état et les ressources
- Gère les queues et les jobs
- Contrôleur central (généralement un par cluster)
slurmd Démon de nœud de calcul (généralement un par nœud de calcul)
- Lance et gère les tâches
- Petit et très léger (faible utilisation de la mémoire et du processeur)
- Au repos après le lancement (sauf pour la comptabilité facultative)
- Prend en charge les communications hiérarchiques avec sortance configurable
slurmdbd Démon de base de données (généralement un par entreprise)
- Recueille les informations des comptes
- Télécharge les informations de configuration (limites, partage, etc.)
- Sauvegarde facultative avec failover automatique
slurmrestd Démon de l’API REST
slurmstepd Gestionnaire d’étapes de travail pour Slurm
SPANK Slurm Architecture de plug-in pour le contrôle des nœuds et des job

Commandes

Pour obtenir le statut du démon slurmd, il faut se connecter sur le noeud et utiliser la commande scontrol show slurmd :

# scontrol show slurmd
Active Steps = NONE
Actual CPUs = 80
Actual Boards = 1
Actual sockets = 4
Actual cores = 40
Actual threads per core = 1
Actual real memory = 397125 MB
Actual temp disk space = 4857347 MB
Boot time = 2021-08-17T18:22:40
Hostname = mynode42
Last slurmctld msg time = 2022-02-20T10:25:50
Slurmd PID = 4726
Slurmd Debug = 6
Slurmd Logfile = /var/log/slurm/slurmd.log
Version = 18.09

Documentation

https://pmcs2i.ec-lyon.fr/documentation/run/commands.html
https://hpc.llnl.gov/banks-jobs/running-jobs/slurm-commands
https://slurm.schedmd.com/man_index.html
https://www.tigrillolinux.net/index.php/Slurm_daemons

> Partager <