SLURM (Simple Linux Utility for Resource Management) est un planificateur de tâches gratuit et open source pour les noyaux de type Linux et Unix, utilisé par de nombreux superordinateurs et grappes d’ordinateurs dans le monde. Commandes de baseFile d’attente = queue = partition dans SLURM Commande Définition sinfo interrogation des files d’attente sbatch soumission d’un job dans une file d’attente (appelées partitions dans SLURM) salloc réservation de ressources en intera
[ CATEGORIE ] : Calcul
Problème rencontrés avec des noeuds sous gestions SLURM. Etats possibles des noeuds2022/10/01/SLURM-Status-des-noeuds/ Commandes de baseVérifier l’état des noeudsAffiche uniquement la raison des noeuds en down, drained and draining : # sinfo -R Pour des informations plus détaillées (non troquées) : # sinfo -Nel Affiche le détail d’un noeud en particulier : # scontrol show nodes=<mynode> Equivalent à (sans le “s” à node) : # scontrol show node <mynode> Affiche tous les noeuds en
Dans un premier temps : s’assurer que les noeuds en questions sont bien gérés par SGE Etats des queuesStatuts d’erreur possibleSous SGE, les statuts possibles pour une queue sont : a : alarm c : configuration ambiguous d : disable o : ? (operator) s : Suspending u : unreachable A : Alarm - Quand le noeud est full ou a utilisé toutes ses ressources AU : Alarm - Unreachable AS : Alarm - Suspended - Si le noeud a atteint ses limites, SGE lui interdit de prendre un autre job et attent
Les quotas sour SGE permettent d’appliquer des limites à plusieurs types de ressources en fonctions des consommateurs. Types de ressources et types de consommateursRessourcesLes ressources peuvent être des : slots (coeurs) arch (architectures) mem_total (mémoire) num_proc (nombre de processeur) swap_total (mémoire swap) built-in resources (ressources interne) custom-defined resource (ressources ajoutées, comme un compilateur de licence) ConsommateursLes consommateurs de ressources peuvent être
Certains users ont besoin de plus de ressources pour réaliser des calculs et il est possible de leur allouer personnellement plus de coeurs sous SGE. Lister les quotasCommandesPour lister tous les quotas définis, on utilise la commande qconf avec les options s, r, q, s, et l : # qconf -srqsl Pour voir tous les quotas détaillés : # qconf -srqs Pour voir un quotas en particulier il suffit de préciser son nom : # qconf -srqs [nom] ExemplesLister tous les quotas définis : # qconf -srqslmax_slots
Créer des utilisateurs SLURM. Lister l’ensemble des utilisateurs et comptes SLURMLes comptes SLURM se différentient des utilisateurs SLURM. UtilisateursSur votre cluster : # sacctmgr list user Exemple de sortie : User Def Acct Admin------ ----------- ---------dustin ST Nonejim ST Noneeleven ST NoneErica ST Nonedartagn+ DG Noneroot Administ+mike ST Nonewill ST Nonebilly ST
Pour monter un volume calculs sur le point de montage /home/calculs pour les différents nœuds SLURM concernés Sur NetApp GUIVérifier la version de NFSNetApp propose aussi NFS version 4, pour le vérifier, aller dans l’interface Web NetApp. Récupérer les @IPRécupérer les “IP_ADDRESS_NFS“ : Dans > Volumes > vol_calculs > Déplier la flèche > Récupérer les @IP NFS @IP_A:/vol/vol_calculs @IP_B:/vol/vol_calculs Sur le clusterInformations sur les noeudsRécupérer les infos sur les noeuds : #
xCAT offre une gestion complète pour les clusters HPC, RenderFarms, Grids, WebFarms, Online Gaming Infrastructure, Clouds, Datacenters, etc. Résumé des commandesManipuler les objets Commandes Créer un objet mkdef Modifier un objet chdef Modifier nom osimage chdef –t osimage <ancien_nom> -n <nouveau_nom> Lister les objets lsdef Lister une image lsdef -t osimage Supprimer un objet rmdef Initialisation nœud pour déploiement (full) nodeset <noden
xCAT offre une gestion complète pour les clusters HPC, RenderFarms, Grids, WebFarms, Online Gaming Infrastructure, Clouds, Datacenters, etc. Installation et configuration du maîtrePréparation du serveur maîtreProcédure : Installation de l’OS sur le nœud maître Copie de l’ISO du DVD d’installation et montage sur le maître Création d’un fichier repo yum qui pointe vers le montage de l’ISO Paramétrer le nom d’hôte et l’IP statique Paramétrer les domaines de recherche et les DNS Installation de xC
xCAT offre une gestion complète pour les clusters HPC, RenderFarms, Grids, WebFarms, Online Gaming Infrastructure, Clouds, Datacenters, etc. xCAT et les HPCDans le cadre d’un HPC, xCAT permet de : Déployer des clusters Installer des nœuds de manière diskful ou diskless Contrôler à distance les machines Installer et configurer les applications utilisateur ArchitectureNomenclatureLes termes principaux de xCAT : Mgmt Node : Serveur maître sur lequel xCAT est installé Service node : En cas de trè
Présentation du serveur de calcul de l’université de Bourgogne : https://ccub.u-bourgogne.fr/dnum-ccub/spip.php?article959 Documentationhttps://ccub.u-bourgogne.fr/dnum-ccub/spip.php?article959
TORQUE is an open source resource manager providing control over batch jobs and distributed compute nodes. It is a community effort based on the original *PBS projecand, with more than 1,200 patches, has incorporated significant advances in the areas of scalability, fault tolerance, and feature extensions contributed by NCSAOSC, USC , the U.S. Dept of Energy, Sandia, PNNL, U of Buffalo, TeraGrid, and many other leading edge HPC organizations. This version may be freely modified anredistributed s
Procédure d’installation et de configuration, d’arrêt et de démarrage de serveur maître et de noeuds dans un cluster Installation/configurationInstallation et configuration du maître pour un cluster InstallationLa procédure générale pour installer le maître d’un cluster est la suivante : Installation du système d’exploitation à partir du DVD Partitionnement : séparation du /, boot et /home configurationLa procédure générale pour le maître d’un cluster est la suivante : Désactivation de SELi
Concepts d’administration d’un HPC (High Performance Computing) Accès SSHPour administrer le cluster, le compte root est activé sur toutes les machines et pour plus de facilité, on peut déployer la clé SSH du compte root du maître sur les nœuds afin que la connexion sans mot de passe puisse s’effectuer : Commande ssk-keygen sur le maître, qui génère /root/.ssh/id_rsa.pub Copie du fichier id_rsa.pub dans /root/.ssh/authorized_keys sur nœuds Il existe des solutions de gestion de cluster : xCAT,
Un High Performance Computing (ou HPC) permet d’effectuer des calculs hautes performances sur un “super ordinateur” ou “cluster” avec une forte puissance de calcul (CPU, RAM, GPU).Les HPC nécessitent du matériels adaptés : serveurs bi/quadri lames (2/4 nœuds dans un même châssis) -> rapport volume/puissance(densité)Ils jouent un rôle très important dans les sciences (applications “intensives”) : mécanique quantique, prévisions météo, recherches sur le climat, exploitation de gaz et de pétrole