[ CATEGORIE ] : Calcul

SLURM - Stats & Diagnostic

Pour effectuer des diagnostics et sortir des statistiques sous SLURM, on peut utiliser 3 commandes : # sdiag# sacctmgr show stats# sacctmgr show problem Commande sdiagUtilitéLa commande sdiag permet

SGE - Proprietes des queues

Il est possible de paramétrer des queues sous SGE avec la commande qconf. Lister les propriétés des queuesLister toutes les queues : # qconf -sql Détails d’une queue en particulier : # qconf -sq <

SLURM - Modifier temps de calcul

Parfois il arrive que des utilisateurs aient lancé des jobs sur une queue avec une QOS (de temps) trop courte et que leurs calculs ne puissent pas se finir dans le temps imparti. Pour leur accorder du

Bascule de noeuds sous SGE vers SLURM

Dans notre cas nous devons basculer 3 noeuds actuellement sous gestion SGE vers SLURM, les noeuds à basculer sont mynode05, mynode06, mynode07 et mynode08. Administration sous SGEAffichageOn affiche l

SGE - Observer des jobs

Pour observer de plus près le comportement d’un job, on peut utiliser la commandes qstat. Extrait du manL’aide de la commande précise : # qstat --helpusage: qstat [options] [-ext]

SGE - Status des jobs

Les commandes qstat et qmod affichent les informations des jobs dans la file d’attente. Les jobs passent généralement par plusieurs statuts au cours de leur exécution. Les statuts typiques sont pendin

SLURM - Status des jobs

La commande squeue affiche les informations des jobs dans la file d’attente sous forme de plusieurs colonnes dont ST et NODELIST (REASON). La colonne ST indique le statut du job et NODELIST (REASON) d

SLURM - Observer des jobs

Pour observer de plus près le comportement d’un job, on peut utiliser les commandes sstat, ssacct, scontrol et même squeue. Extrait du manL’aide des commandes précise : squeue : afficher les info

SGE - Surcharge des noeuds

Parfois les clusters de calcul subissent de fortes charges, dûes à des résidus de calculs terminés qui peuvent toujours apparaître dans la liste des processus, SGE est censépourvoir gérer ce type de p

SGE - Limiter le nombre de job

Pour limiter le nombre de calcul lancé par un utilisateur, il est possible de paramétrer un script dans le fichier prolog de SGE en appelant un autre fichier, ici nomé MaxJobs contenant les restrictio

SGE - Prolog et Epilog

Le dossier <$SGE_ROOT>/site/ comporte un certain nombre de fichiers définissant le comportement de SGE, ce dossier contient également les fichiers prolog et epilog. Fichiers de configurationSi c

SGE - Les classes

Parfois un script ne peut pas se lancer car la queue a été paramétrée avec une classe Les classesLes classes sous SGE ? A Job Class is :A set of jobs that are equivalent in some sense and treated sim

SLURM - Script de soumission

Vous trouverez ci-dessous un certain nombre d’exemples de scripts pouvant être utilisés comme modèle pour créer vos propres scripts de soumission SLURM. Simple scripts de soumissionLes jobs nécessiten

SLURM/SGE Cheat Sheet

Equivalences des commandes SLURM/SGE Commandes utilisateur Explications Commande Slurm Commande SGE Interactive login # srun --pty bash # qlogin # srun -p "part_name" --pty bash

SLURM - Comptes/Associations/Groupes

Il existe quatre composants principaux dans Slurm : le compte Unix, les groupes Unix, les comptes Slurm et les associations Slurm. Sous UnixCompte/utilisateur UnixTout utilisateur doit avoir un compte

SLURM - QOS Gestion

Il est possible de spécifier une QOS (Quality Of Service) pour chaque jobs soumis dans Slurm, la commande sacctmgr permet de les gérer. Gérer les QOSManipulation des QOSAjoutAjouter une nouvelle QOS :

SLURM - QOS généralités

Il est possible de spécifier une QOS (Quality Of Service) pour chaque job soumis dans Slurm, la QOS affectera le job de 3 façons : Priorité Préemption Limites C’est la commande sacctmgr permet de g

SGE - Commandes Utiles

SGE est l’ordonnanceur de taches qui permet aux utilisateurs de soumettre leurs jobs. Chaque noeud de calcul execute un daemon sgeexecd pour dialoguer avec le daemon qmaster. Ce dernier permet de tout

SLURM - Watch Nodes

Un script en bash pour surveiller vos noeuds sous SLURM, le script vérifie si les noeuds tombent en drain ou drng et les relance automatiquement, il récupère ensuite les logs d’erreurs de SLURM sur le

SGE et ACL

SGE est capable de gérer les ACl en interne. Les ACL sont utilisées pour définir des projets auxquels des utilisateurs peuvent avoir accès (ou pas) pour exécuter des tâches. Il est possible de défini

Clubak

La commande clubak permet de rassembler et d’afficher les résultats de clush et pdsh Documentationhttps://linux.die.net/man/1/clubak

Clush - Cluster Sh

La commande clush permet d’exécuter des commandes sur un cluster. Cette commande est interactive ou peut être utilisé dans un scripts shell. Les fonctionnalités diponibles de clush sont : Modes d’exé

Nodeset

La commande nodeset permet de gérer les ensembles et les groupes de noeuds d’un cluster.

Clustershell

Créé à l’origine par l’équipe de développement système HPC Linux du CEA en France, ClusterShell est une bibliothèque de commandes qui permet d’administrer les principaux composants d’un centre de calc

SLURM - Statut des noeuds

La commande sinfo permets d’afficher des informations comme le statut des noeuds ou des partitions sous SLURM.Cette commande affiche à la fois l’état des noeuds et peut renseigner un complément d’info

SGE - Fichiers de config et logs

Fichiers principaux de SGE Fichiers de logsLes fichiers de logs sous SGE se trouvent : $SGE_ROOT/default/spool/qmaster/messages$SGE_ROOT/default/spool/qmaster/schedd/messages$SGE_ROOT/default/spool/&l