[ CATEGORIE ] : Serveur

[ TITLE    ] : Nodeset
[ CATEGORY ] : //
[ DATE     ] :

La commande nodeset permet de gérer les ensembles et les groupes de noeuds d’un cluster.

[ TITLE    ] : Clustershell
[ CATEGORY ] : //
[ DATE     ] :

Créé à l’origine par l’équipe de développement système HPC Linux du CEA en France, ClusterShell est une bibliothèque de commandes qui permet d’administrer les principaux composants d’un centre de calcul : clusters de calcul, clusters de stockage et fermes de serveurs en fournissant principalement 3 outils d’administration qui, depuis le cluster principal, sont exécutés sur un ou plusieurs noeuds. Les 3 outils sont : nodeset: gérer les ensembles et les groupes de noeuds du cluster clush : exéc

[ TITLE    ] : SLURM - Statut des noeuds
[ CATEGORY ] : //
[ DATE     ] :

La commande sinfo permets d’afficher des informations comme le statut des noeuds ou des partitions sous SLURM.Cette commande affiche à la fois l’état des noeuds et peut renseigner un complément d’information, le code d’état (*, +, %, etc.) Pour des informations plus détaillées (non troquées), il faut utiliser les options N (--Node), e (--exact) et l (--long), la commande est : # sinfo -Nel Flag d’états possibles des noeuds Flag Description * Le noeud ne répond pas actuellement et ne se ver

[ TITLE    ] : SGE - Fichiers de config et logs
[ CATEGORY ] : //
[ DATE     ] :

Fichiers principaux de SGE Fichiers de logsLes fichiers de logs sous SGE se trouvent : $SGE_ROOT/default/spool/qmaster/messages$SGE_ROOT/default/spool/qmaster/schedd/messages$SGE_ROOT/default/spool/<node>/messages Exemple : /opt/sge/default/spool/qmaster/messages Les panicLogs se trouvent dans : /var/spool/var/tmp/spool Les sorties standards STDOUT/STDERR des jobs utilisateurs sont une bonne ressource pour debug Documentationhttps://linux.die.net/man/8/sge_execdhttps://bioteam.net/wp-c

[ TITLE    ] : SLURM - Fichiers de config et logs
[ CATEGORY ] : //
[ DATE     ] :

Fichiers principaux de SLURM Fichiers de configuration Configuration Files Définition acct_gather.conf Slurm configuration file for the acct_gather plugins burst_buffer.conf Slurm burst buffer configuration cgroup.conf Slurm configuration file for the cgroup support ext_sensors.conf Slurm configuration file for the external sensor support gres.conf Slurm configuration file for generic resource management helpers.conf Slurm configuration f

[ TITLE    ] : SGE - Daemons
[ CATEGORY ] : //
[ DATE     ] :

SGE est l’ordonnanceur de taches qui permet aux utilisateurs de soumettre leurs jobs. Chaque noeud de calcul execute un daemon sgeexecd pour dialoguer avec le daemon qmaster. Ce dernier permet de tout orchestrer. Daemons SGE Daemons and Other Définition sgeexecd Sur les noeuds qmaster Sur le master Documentationhttps://pmcs2i.ec-lyon.fr/documentation/run/commands.htmlhttps://hpc.llnl.gov/banks-jobs/running-jobs/slurm-commandshttps://slurm.schedmd.com/man_index.html

[ TITLE    ] : SLURM - Daemons
[ CATEGORY ] : //
[ DATE     ] :

SLURM (Simple Linux Utility for Resource Management) est un planificateur de tâches gratuit et open source pour les noyaux de type Linux et Unix, utilisé par de nombreux superordinateurs et grappes d’ordinateurs dans le monde. Daemons SLURM Daemons and Other Définition slurmctld Contrôleur central (généralement un par cluster) - Sauvegarde facultative avec failover automatique - Surveille l’état et les ressources - Gère les queues et les jobs - Contrôleur central (génér

[ TITLE    ] : SLURM - Down ?
[ CATEGORY ] : //
[ DATE     ] :

SLURM semble down ? Voici un récapitulatif des vérifications préliminaires. VérificationsSlurm répondExécutez scontrol ping pour vérifier que le serveur maître est joignable : # scontrol pingSlurmctld(primary) at <ServerName> is UP Si la commande indique qu’il répond, il peut s’agir d’un problème de mise en réseau ou de configuration spécifique à un utilisateur ou à un nœud du cluster. Slurm ne répond pasExécutez scontrol ping pour vérifier que le serveur maître est joignable : # scontrol

[ TITLE    ] : SGE - Commandes de base
[ CATEGORY ] : //
[ DATE     ] :

L’interface utilisateur de ligne de commande de Sun Grid Engine consiste en un jeu de programmes (commandes) auxiliaires qui vous permet de gérer des files d’attente, de soumettre et de supprimer des travaux, de vérifier l’état d’un travail et d’interrompre ou d’activer des files d’attente et des travaux. Le système Sun Grid Engine se sert du jeu de programmes auxilliaires suivant : Commandes Commande Définition qacct extrait des informations de comptabilité arbitraire du fichier journ

[ TITLE    ] : SLURM - Commandes de base
[ CATEGORY ] : //
[ DATE     ] :

SLURM (Simple Linux Utility for Resource Management) est un planificateur de tâches gratuit et open source pour les noyaux de type Linux et Unix, utilisé par de nombreux superordinateurs et grappes d’ordinateurs dans le monde. Commandes de baseFile d’attente = queue = partition dans SLURM Commande Définition sinfo interrogation des files d’attente sbatch soumission d’un job dans une file d’attente (appelées partitions dans SLURM) salloc réservation de ressources en intera

[ TITLE    ] : SLURM - Erreur sur les noeuds
[ CATEGORY ] : //
[ DATE     ] :

Problème rencontrés avec des noeuds sous gestions SLURM. Etats possibles des noeuds2022/10/01/SLURM-Status-des-noeuds/ Commandes de baseVérifier l’état des noeudsAffiche uniquement la raison des noeuds en down, drained and draining : # sinfo -R Pour des informations plus détaillées (non troquées) : # sinfo -Nel Affiche le détail d’un noeud en particulier : # scontrol show nodes=<mynode> Equivalent à (sans le “s” à node) : # scontrol show node <mynode> Affiche tous les noeuds en

[ TITLE    ] : SGE - Statut des queues
[ CATEGORY ] : //
[ DATE     ] :

Dans un premier temps : s’assurer que les noeuds en questions sont bien gérés par SGE Etats des queuesStatuts d’erreur possibleSous SGE, les statuts possibles pour une queue sont : a : alarm c : configuration ambiguous d : disable o : ? (operator) s : Suspending u : unreachable A : Alarm - Quand le noeud est full ou a utilisé toutes ses ressources AU : Alarm - Unreachable AS : Alarm - Suspended - Si le noeud a atteint ses limites, SGE lui interdit de prendre un autre job et attent

[ TITLE    ] : SGE - Attribuer des quotas
[ CATEGORY ] : //
[ DATE     ] :

Les quotas sour SGE permettent d’appliquer des limites à plusieurs types de ressources en fonctions des consommateurs. Types de ressources et types de consommateursRessourcesLes ressources peuvent être des : slots (coeurs) arch (architectures) mem_total (mémoire) num_proc (nombre de processeur) swap_total (mémoire swap) built-in resources (ressources interne) custom-defined resource (ressources ajoutées, comme un compilateur de licence) ConsommateursLes consommateurs de ressources peuvent être

[ TITLE    ] : SGE - Allouer des coeurs
[ CATEGORY ] : //
[ DATE     ] :

Certains users ont besoin de plus de ressources pour réaliser des calculs et il est possible de leur allouer personnellement plus de coeurs sous SGE. Lister les quotasCommandesPour lister tous les quotas définis, on utilise la commande qconf avec les options s, r, q, s, et l : # qconf -srqsl Pour voir tous les quotas détaillés : # qconf -srqs Pour voir un quotas en particulier il suffit de préciser son nom : # qconf -srqs [nom] ExemplesLister tous les quotas définis : # qconf -srqslmax_slots

[ TITLE    ] : SLURM - Création d'utilisateurs
[ CATEGORY ] : //
[ DATE     ] :

Créer des utilisateurs SLURM. Lister l’ensemble des utilisateurs et comptes SLURMLes comptes SLURM se différentient des utilisateurs SLURM. UtilisateursSur votre cluster : # sacctmgr list user Exemple de sortie : User Def Acct Admin------ ----------- ---------dustin ST Nonejim ST Noneeleven ST NoneErica ST Nonedartagn+ DG Noneroot Administ+mike ST Nonewill ST Nonebilly ST

[ TITLE    ] : SLURM - Monter un noeud
[ CATEGORY ] : //
[ DATE     ] :

Pour monter un volume calculs sur le point de montage /home/calculs pour les différents nœuds SLURM concernés Sur NetApp GUIVérifier la version de NFSNetApp propose aussi NFS version 4, pour le vérifier, aller dans l’interface Web NetApp. Récupérer les @IPRécupérer les “IP_ADDRESS_NFS“ : Dans > Volumes > vol_calculs > Déplier la flèche > Récupérer les @IP NFS @IP_A:/vol/vol_calculs @IP_B:/vol/vol_calculs Sur le clusterInformations sur les noeudsRécupérer les infos sur les noeuds : #

[ TITLE    ] : xCAT - Résumé des commandes
[ CATEGORY ] : //
[ DATE     ] :

xCAT offre une gestion complète pour les clusters HPC, RenderFarms, Grids, WebFarms, Online Gaming Infrastructure, Clouds, Datacenters, etc. Résumé des commandesManipuler les objets Commandes Créer un objet mkdef Modifier un objet chdef Modifier nom osimage chdef –t osimage <ancien_nom> -n <nouveau_nom> Lister les objets lsdef Lister une image lsdef -t osimage Supprimer un objet rmdef Initialisation nœud pour déploiement (full) nodeset <noden

[ TITLE    ] : xCAT - Installation de Maîtres/Noeuds
[ CATEGORY ] : //
[ DATE     ] :

xCAT offre une gestion complète pour les clusters HPC, RenderFarms, Grids, WebFarms, Online Gaming Infrastructure, Clouds, Datacenters, etc. Installation et configuration du maîtrePréparation du serveur maîtreProcédure : Installation de l’OS sur le nœud maître Copie de l’ISO du DVD d’installation et montage sur le maître Création d’un fichier repo yum qui pointe vers le montage de l’ISO Paramétrer le nom d’hôte et l’IP statique Paramétrer les domaines de recherche et les DNS Installation de xC

[ TITLE    ] : xCAT - Extreme Cloud Admin. Toolkit
[ CATEGORY ] : //
[ DATE     ] :

xCAT offre une gestion complète pour les clusters HPC, RenderFarms, Grids, WebFarms, Online Gaming Infrastructure, Clouds, Datacenters, etc. xCAT et les HPCDans le cadre d’un HPC, xCAT permet de : Déployer des clusters Installer des nœuds de manière diskful ou diskless Contrôler à distance les machines Installer et configurer les applications utilisateur ArchitectureNomenclatureLes termes principaux de xCAT : Mgmt Node : Serveur maître sur lequel xCAT est installé Service node : En cas de trè

[ TITLE    ] : Serveur NTP
[ CATEGORY ] : //
[ DATE     ] :

Un serveur de temps lit l’heure à partir d’une horloge de référence et distribue ces informations à ses clients. Les clients interrogent à intervalles réguliers le serveur et corrige l’heure pour être synchronisés (correction de décalage ou offset) Protocole NTPhttps://n0tes.fr/2022/01/24/NTP/ Serveur et client NTPDans un premier temps, faire les maj sur le serveur et le client : # apt update Et configurer iptables pour que les clients puissent y accéder : # iptables -A OUTPUT -p udp --dport 12

[ TITLE    ] : Centre de calcul
[ CATEGORY ] : //
[ DATE     ] :

Présentation du serveur de calcul de l’université de Bourgogne : https://ccub.u-bourgogne.fr/dnum-ccub/spip.php?article959 Documentationhttps://ccub.u-bourgogne.fr/dnum-ccub/spip.php?article959

[ TITLE    ] : Torque and Maui
[ CATEGORY ] : //
[ DATE     ] :

TORQUE is an open source resource manager providing control over batch jobs and distributed compute nodes. It is a community effort based on the original *PBS projecand, with more than 1,200 patches, has incorporated significant advances in the areas of scalability, fault tolerance, and feature extensions contributed by NCSAOSC, USC , the U.S. Dept of Energy, Sandia, PNNL, U of Buffalo, TeraGrid, and many other leading edge HPC organizations. This version may be freely modified anredistributed s

[ TITLE    ] : HPC Noeuds et maître
[ CATEGORY ] : //
[ DATE     ] :

Procédure d’installation et de configuration, d’arrêt et de démarrage de serveur maître et de noeuds dans un cluster Installation/configurationInstallation et configuration du maître pour un cluster InstallationLa procédure générale pour installer le maître d’un cluster est la suivante : Installation du système d’exploitation à partir du DVD Partitionnement : séparation du /, boot et /home configurationLa procédure générale pour le maître d’un cluster est la suivante : Désactivation de SELi

[ TITLE    ] : HPC Concept d'administration
[ CATEGORY ] : //
[ DATE     ] :

Concepts d’administration d’un HPC (High Performance Computing) Accès SSHPour administrer le cluster, le compte root est activé sur toutes les machines et pour plus de facilité, on peut déployer la clé SSH du compte root du maître sur les nœuds afin que la connexion sans mot de passe puisse s’effectuer : Commande ssk-keygen sur le maître, qui génère /root/.ssh/id_rsa.pub Copie du fichier id_rsa.pub dans /root/.ssh/authorized_keys sur nœuds Il existe des solutions de gestion de cluster : xCAT,

[ TITLE    ] : HPC High Performance Computing
[ CATEGORY ] : //
[ DATE     ] :

Un High Performance Computing (ou HPC) permet d’effectuer des calculs hautes performances sur un “super ordinateur” ou “cluster” avec une forte puissance de calcul (CPU, RAM, GPU).Les HPC nécessitent du matériels adaptés : serveurs bi/quadri lames (2/4 nœuds dans un même châssis) -> rapport volume/puissance(densité)Ils jouent un rôle très important dans les sciences (applications “intensives”) : mécanique quantique, prévisions météo, recherches sur le climat, exploitation de gaz et de pétrole

[ TITLE    ] : Compiler NGINX
[ CATEGORY ] : //
[ DATE     ] :

Compiler NGINX peut permettre d’augmenter la sécurité (utilisation d’une autre bibliothèque comme LibreSSL ou BoringSSL) ou en utilisant la toute dernière version d’OpenSSL. Il est également possible de directement rajouter des modules ou de supprimer ceux de base. PréparationMise à jour et installation des paquetsMise à jour des paquets déjà présents # apt-get update Installation des paquets nécessaires, l’option -y permet de valider automatique la confirmation d’installation # apt-get install

[ TITLE    ] : Changer les en-têtes NGINX
[ CATEGORY ] : //
[ DATE     ] :

Le changement ou l’ajout d’en-têtes sur un serveur peut être utile pour se cacher, pour s’amuser, ou pas… Plus sérieusement, l’ajout de headers est utilisé pour sécuriser son serveur web, mais pas de cette façon, ici, c’est pour (un peu) s’amuser Note : si vous utilisez CloudFlare, il ne va pas du tout aprécier que vous changiez les en-têtes de votre serveur et vos certificats SSL ne fonctionneront plus (Erreur 525 : SSL Handshake Failed) Les en-têtes sous NGINXEn faisant un curl sur l’ip de vo

[ TITLE    ] : Termes du cloud
[ CATEGORY ] : //
[ DATE     ] :

Différents types de termes, de fonctionnalités et de services entrent en jeu lorsqu’on utilise le cloud IaaSInfrastructure as a Service : service qui offre aux clients une série de ressources, à la fois physiques et virtuelles Elément fondamental du cloud computing, utilisés par exemple pour virtualiser des ordinateurs dans le cloud, plus besoin d’avoir plusieurs ordinateurs physiques, avec leurs ressources physiques respectives, mais simplement d’utiliser le cloud et les services avec lesquels

[ TITLE    ] : CloudFlare et IP
[ CATEGORY ] : //
[ DATE     ] :

Résumé concernant l’exposition des adresses IP d’origines via des enregistrements DNS dans CloudFlare. Adresse IPLorsque l’adresse IP d’un serveur est exposée, il devient plus vulnérable aux attaques directes. Si le domaine racine est protégé par CloudFlare (en nuage orange) une requête dig sur le domaine renverra une l’adresse IP de Cloudflare et celle du serveur d’origine restera cachée au public (Ceci ne s’appliquent qu’au trafic HTTP). Il est cependant toujours possible de déterminer l’adre

[ TITLE    ] : Postfix Installation
[ CATEGORY ] : //
[ DATE     ] :

Postfix est un serveur mail (ou MTA) permettant de gérer presque tous les cas d’une utilisation professionnelle. Postfix supporte le protocole IPv6 depuis sa version 2.24. Pré-requis : Un nom de domaine + enregistrements DNS accessibles.Il est maintenant presque indispensable de configurer un DMARC, DKIM ou SPF pour que les e-mails ne finissent pas dans les spams ou ne soient pas systématiquement rejetés par certaines messageries. Deux adresses mails de tests pour recevoir le courrier. Il est

[ TITLE    ] : Serveur Mail - Généralités
[ CATEGORY ] : //
[ DATE     ] :

Termes utilisés dans le cadre des serveurs mail. MUA (Mail User Agent) : Pour lire et envoyer des mails Protocoles : POP, IMAP, SMTP Exemples : Outlook, Thunderbird, RoudCube, Rainloop, Zimbra MTA (Mail Transfer Agent) : Redistribue les courriers à des Mail Delivery Agent (MDA) ou d’autres MTA. Protocoles : SMTP Exemples: qmail, exim, postfix, Exchange, sendmail MDA (Mail Delivery Agent) : Dépose/Distribue le message dans la boîte aux lettres de l’utilisateur Protocoles : POP, IMAP

[ TITLE    ] : Customiser les logs de NGINX
[ CATEGORY ] : //
[ DATE     ] :

Si vos logs NGINX ne sont pas assez détaillés il est possible de les customiser en ajoutant des variables. Il est également possible de faire une mise en page pour faciliter la lecture. Notez que sur un grand volume de logs, ajouter des informations ou une mise en page peut, sur le long terme, les faire occuper un espace disque plus conséquent. Logs par défautPar défaut les logs sont écrit au format prédéfinis combined, c’est à dire qu’ils affichent le résultat des variables $remote_addr, $remot