La commande printenv peut être utilisée pour répertorier toutes les variables d’environnement sur le système, certaines de ces valeurs changent en fonction de l’utilisateur connecté. Pour afficher toutes les variables d’environnement : # printenv Exemple de sortie : SHELL=/bin/bashPWD=/rootLOGNAME=alineXDG_SESSION_TYPE=ttyMOTD_SHOWN=pamHOME=/rootLANG=fr_FR.UTF-8LS_COLORS=rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=00:su=37;41:sg=30;43:ca=30;41:
[ ARCHIVE ] :
Si vous avez perdu le fils entre les bandes présentes dans le robot et ce qu’indique le logiciel, il est possible de faire le point avec Netbackup pour refaire l’inventaire des médias. Mode graphiquePour accéder à l’inventaire des bandes :Media and Device Management > Media > Clic droit > Inventory Robot > Compare contentes with volume configuration > Start --------------------------------------------------------------------18 oct. 2022 16:14:58Robot: TLD(0) on MonServeurBackupOpe
Un script en bash pour surveiller vos noeuds sous SLURM, le script vérifie si les noeuds tombent en drain ou drng et les relance automatiquement, il récupère ensuite les logs d’erreurs de SLURM sur le noeud et les place dans LOG_EXPORT_REPOSITORY. Le script est à lancer avec la commande watch : # watch -n <IntervaleSecondes> <CheminScript> Ou dans un cron : # crontab –e*/5 * * * * /root/scripts/Watchnode_SLURM.sh >> /var/log/slurm/custom/nodes.log 2>> /var/log/slurm/cust
Dans grep il existe des options équivalentes aux opérateurs OR et NOT mais l’opérateur AND n’existe pas, cependant une alternative est possible. Fichier de testLe fichier suivant a été utilisé : # cat ponies.txt100 TwilightSparkle Organisation Unicorn 500€200 RainbowDash Sport Pegase 550€300 Fluttershy Veterinaire Pegase 700€400 PinkiePie Organisation Pouliche 950€500 Rarity Organisation Unicorn 600
Pour enlever le lock suite à plusieurs echecs de connexion à un compte (mauvais mdp) on utilise les commandes faillock, faillog ou pam_tally. Parfois faillock et faillog ne fonctionnent pas. Dans ce cas, utilisez pam_tally. Problèmes rencontrésSur certains sytèmes la commande faillock n’existe pas mais la commande faillog fait à peu près la même chose : faillock : outil d’affichage et de modification des fichiers d’enregistrement des échecs d’authentification faillog : affiche les enregistreme
Pour désactiver un compte, les mesures principales de sécurité permettant d’assurer une protection minimale sont : Lister les accès : serveurs et machines locales Réinitialisation du mot de passe du compte avec une valeur aléatoire Verrouillage du compte Retrait du compte de l’ensemble des groupes secondaires Créer un groupe spécial pour les comptes désactivés Pour un compte administrateur ou un utilisateur élevé : Vérifier les paramètres du fichier /etc/sudoers Retrait des %sudoers Retrai
SGE est capable de gérer les ACl en interne. Les ACL sont utilisées pour définir des projets auxquels des utilisateurs peuvent avoir accès (ou pas) pour exécuter des tâches. Il est possible de définir ces ACL en fonction des ressources du cluster Pricipe de baseCes ACL contiennent des noms d’utilisateur et de groupes UNIX et sont ajoutées aux listes access-allowed ou access-denied dans les files d’attente (queues) ou dans les environnement parallèle. Les utilisateurs appartenant aux ACL acces
La commande clush permet d’exécuter des commandes sur un cluster. Cette commande est interactive ou peut être utilisé dans un scripts shell. Les fonctionnalités diponibles de clush sont : Modes d’exécution parallèle des commandes pour les clusters : flat mode tree mode Affichage intelligent des résultats : collecte de sortie intégrée, tri par nœud, ensemble de nœuds ou groupes de nœuds Redirection d’entrée standard vers des nœuds distants Coppie de fichiers en parallèle Options rétrocompatibi
Créé à l’origine par l’équipe de développement système HPC Linux du CEA en France, ClusterShell est une bibliothèque de commandes qui permet d’administrer les principaux composants d’un centre de calcul : clusters de calcul, clusters de stockage et fermes de serveurs en fournissant principalement 3 outils d’administration qui, depuis le cluster principal, sont exécutés sur un ou plusieurs noeuds. Les 3 outils sont : nodeset: gérer les ensembles et les groupes de noeuds du cluster clush : exéc
La commande sinfo permets d’afficher des informations comme le statut des noeuds ou des partitions sous SLURM.Cette commande affiche à la fois l’état des noeuds et peut renseigner un complément d’information, le code d’état (*, +, %, etc.) Pour des informations plus détaillées (non troquées), il faut utiliser les options N (--Node), e (--exact) et l (--long), la commande est : # sinfo -Nel Flag d’états possibles des noeuds Flag Description * Le noeud ne répond pas actuellement et ne se ver
Ne pas confondre sigle et acronyme : Sigle : abréviation formée par une suite de lettres qui sont les initiales d’un groupe de mots Exemples : DSI, RSI. Acronyme : sigle qui se prononce comme un mot ordinaire Exemples : OTAN, OVNI. Et parmi les acronymes, il y a les acronymes récursifs : GNU, pour GNU is not Unix GNU(GNU(GNU(GNU(…)is not Unix)is not Unix)is not Unix)is not Unix DéfinitionFrançais Sigle/Acronyme Définition ATCRI A Titre de Compte Rendu Immédiat DAT Document d’Archit
Pour effectuer une rotation des bandes dans Veritas Netbackup il faut lancer l’utilitaire de Veritas via la console, généralement sur votre serveur de sauvegarde avec la commande suivante : # jnbSA & Vue d’ensembleDans la console d’administration NetBackup : Media and Device Management > Media Les médias à sortir du robot de sauvegarde sont ceux indiqués comme étant full et en TLD : Volume Pool = Mensuelle (par exemple) Robot Type = TLD (bande dans le robot) Media Status = Full Dat
La commande get_license_key de Veritas Netbackup lance le script suivant /usr/openv/netbackup/bin/admincmd/get_license_key. Informations sur la licenceSur votre serveur backup, entrer la commande suivante : # get_license_key Vous obtiendrez un menu interactif : License Key Utility-------------------A) Add a License KeyD) Delete a License KeyF) List Active License KeysL) List Registered License KeysH) Helpq) Quit License Key Utility Exemple avec F : […]License Key: <CléLicense>Date Add
Dans la console de Veritas Netbackup, dans le menu à gauche, aller dans “Backup, Archive, and Restore”, la fenêtre sur la droite comporte 3 onglets : Backup Files : il s’agit de l’arboressence sur le serveur de backup Restore Files : tout ce qui concerne les backups effectués Task Progress : les tâches de restauration en cours Restauration de fichiersNetAppSi vous disposez d’un NetApp, vous devrier normalement pouvoir restaurer des fichiers dans les .snapshot s’ils sont assez récents. Veritas
La commande ls liste les informations sur les fichiers/dossiers Utilisation : ls [OPTION]... [FICHIER]... Afichage étenduAffiche le chemin complet : # ls -ld $PWD/* Affiche l’auteur de chaque fichier # ls -l --author Affiche le numéro d’index de chaque fichier (l’inode) # ls -li Affiche la taille d’allocation de chaque fichier en bloc # ls -ls Affiche uniquement les UID et GID pour les groupes et propriétaires # ls -ln
Fichiers principaux de SGE Fichiers de logsLes fichiers de logs sous SGE se trouvent : $SGE_ROOT/default/spool/qmaster/messages$SGE_ROOT/default/spool/qmaster/schedd/messages$SGE_ROOT/default/spool/<node>/messages Exemple : /opt/sge/default/spool/qmaster/messages Les panicLogs se trouvent dans : /var/spool/var/tmp/spool Les sorties standards STDOUT/STDERR des jobs utilisateurs sont une bonne ressource pour debug Documentationhttps://linux.die.net/man/8/sge_execdhttps://bioteam.net/wp-c
Fichiers principaux de SLURM Fichiers de configuration Configuration Files Définition acct_gather.conf Slurm configuration file for the acct_gather plugins burst_buffer.conf Slurm burst buffer configuration cgroup.conf Slurm configuration file for the cgroup support ext_sensors.conf Slurm configuration file for the external sensor support gres.conf Slurm configuration file for generic resource management helpers.conf Slurm configuration f
SGE est l’ordonnanceur de taches qui permet aux utilisateurs de soumettre leurs jobs. Chaque noeud de calcul execute un daemon sgeexecd pour dialoguer avec le daemon qmaster. Ce dernier permet de tout orchestrer. Daemons SGE Daemons and Other Définition sgeexecd Sur les noeuds qmaster Sur le master Documentationhttps://pmcs2i.ec-lyon.fr/documentation/run/commands.htmlhttps://hpc.llnl.gov/banks-jobs/running-jobs/slurm-commandshttps://slurm.schedmd.com/man_index.html
SLURM (Simple Linux Utility for Resource Management) est un planificateur de tâches gratuit et open source pour les noyaux de type Linux et Unix, utilisé par de nombreux superordinateurs et grappes d’ordinateurs dans le monde. Daemons SLURM Daemons and Other Définition slurmctld Contrôleur central (généralement un par cluster) - Sauvegarde facultative avec failover automatique - Surveille l’état et les ressources - Gère les queues et les jobs - Contrôleur central (génér
SLURM semble down ? Voici un récapitulatif des vérifications préliminaires. VérificationsSlurm répondExécutez scontrol ping pour vérifier que le serveur maître est joignable : # scontrol pingSlurmctld(primary) at <ServerName> is UP Si la commande indique qu’il répond, il peut s’agir d’un problème de mise en réseau ou de configuration spécifique à un utilisateur ou à un nœud du cluster. Slurm ne répond pasExécutez scontrol ping pour vérifier que le serveur maître est joignable : # scontrol
L’interface utilisateur de ligne de commande de Sun Grid Engine consiste en un jeu de programmes (commandes) auxiliaires qui vous permet de gérer des files d’attente, de soumettre et de supprimer des travaux, de vérifier l’état d’un travail et d’interrompre ou d’activer des files d’attente et des travaux. Le système Sun Grid Engine se sert du jeu de programmes auxilliaires suivant : Commandes Commande Définition qacct extrait des informations de comptabilité arbitraire du fichier journ
SLURM (Simple Linux Utility for Resource Management) est un planificateur de tâches gratuit et open source pour les noyaux de type Linux et Unix, utilisé par de nombreux superordinateurs et grappes d’ordinateurs dans le monde. Commandes de baseFile d’attente = queue = partition dans SLURM Commande Définition sinfo interrogation des files d’attente sbatch soumission d’un job dans une file d’attente (appelées partitions dans SLURM) salloc réservation de ressources en intera
Problème rencontrés avec des noeuds sous gestions SLURM. Etats possibles des noeuds2022/10/01/SLURM-Status-des-noeuds/ Commandes de baseVérifier l’état des noeudsAffiche uniquement la raison des noeuds en down, drained and draining : # sinfo -R Pour des informations plus détaillées (non troquées) : # sinfo -Nel Affiche le détail d’un noeud en particulier : # scontrol show nodes=<mynode> Equivalent à (sans le “s” à node) : # scontrol show node <mynode> Affiche tous les noeuds en
Dans un premier temps : s’assurer que les noeuds en questions sont bien gérés par SGE Etats des queuesStatuts d’erreur possibleSous SGE, les statuts possibles pour une queue sont : a : alarm c : configuration ambiguous d : disable o : ? (operator) s : Suspending u : unreachable A : Alarm - Quand le noeud est full ou a utilisé toutes ses ressources AU : Alarm - Unreachable AS : Alarm - Suspended - Si le noeud a atteint ses limites, SGE lui interdit de prendre un autre job et attent
La commande wc (World Count) accepte un ou plusieurs noms de fichiers mais peut aussi lire la sortie de la console. Sans options, la commande WC imprimera quatre colonnes : nombre de lignes nombre de mots nombre d’octets nom du fichier (si recherche dans fichier) UtilisationsExtrait du manuelL’aide console : -l, –lines Imprimez (que) le nombre de lignes-w, –words Imprimez (que) le nombre de mots-m, –chars Imprimez (que) le nombre de caractères-c, –bytes Imprimez (que) le nombre d’octets-L, –Ma
Pour ajouter/changer un groupe à un utilisateur on utilise usermod - mais - il faut faire attention aux options sinon tous les anciens groupes de l’utilisateur seront supprimés. UtilisationExtrait du manuelExtrait du manuel : -d, --home HOME_DIR new home directory for the user account-e, --expiredate EXPIRE_DATE set account expiration date to EXPIRE_DATE-f, --inactive INACTIVE set password inactive after expiration to INACTIVE-g, --gid GROUP force use GROUP as new
Pour changer des droits en fonction d’un répertoire ou d’un fichier en parcourant une arboressence : UtilisationManuelDéfinition dans les manuels : xargs — build and execute command lines from standard input exec — execute commands and open, close, or copy file descriptors Find et execLa commande find couplée à exec : # find <path> -type d -exec chmod 755 {} \;# find <path> -type f -exec chmod 644 {} \; Son équivalent avec les droits rxw : # find <path>
Le caractère * permet de selectionner tous les fichiers dans un répertoire mais un message d’erreur peut apparaitre : ls: cannot access *: No such file or directory. La plupart du temps cette erreur, malgré la connexion en root, peut être dûe au fait que le volume sur lequel on accèdent soit partagé, ou sous couvert de NetApp par exemple. $ sudo ls /<path>/*ls: cannot access *: No such file or directory Autre exemple : $ grep "word" /<path>/*grep: *.*: No such file or direc
La commande chage (change age) permet de modifier les informations de validité d’un mot de passe d’un utilisateur : nombre de jours entre les changements de mot de passe et la date du dernier changement. Elle est également très pratique pour forcer un utilisateur à changer son mot de passe lorsqu’un mot de passe temporaire lui a été attribué lors d’un oubli. Commande chageL’aide (extrait) : -d, --lastday LAST_DAY Configurer le nombre du jour où le mot de passe a été changé la dernière foi
Les quotas sour SGE permettent d’appliquer des limites à plusieurs types de ressources en fonctions des consommateurs. Types de ressources et types de consommateursRessourcesLes ressources peuvent être des : slots (coeurs) arch (architectures) mem_total (mémoire) num_proc (nombre de processeur) swap_total (mémoire swap) built-in resources (ressources interne) custom-defined resource (ressources ajoutées, comme un compilateur de licence) ConsommateursLes consommateurs de ressources peuvent être