Pour observer de plus près le comportement d’un job, on peut utiliser la commandes qstat
.
Extrait du man
L’aide de la commande précise :
# qstat --help |
Statut des jobs
Les jobs passent généralement par plusieurs statuts au cours de leur exécution. Les statuts typiques sont pending, running, suspending, hold et queue wait :
p
: pendingr
: runningz
: zombieqw
: queue waith
: hold
Les autres status se trouvent également dans le MAN de qstat
ou ici : http://n0tes.fr/2022/12/04/SGE-Statut-des-jobs
Les jobs dans les queues
Observer les jobs
Pour observer les jobs sur SGE on utilise qstat
:
# qstat |
Selon la configuration de votre SGE, vous ne verrez que les queues et leurs états sans voir les jobs. Pour y remédier on peut toujours préciser l’option -u
:
# qstat -u \* |
Jobs en erreur
Pour avoir des informations les jobs en erreur, on utilise l’option -j
:
# qstat -j // donne information générale sur toutes les erreur |
Et pour cibler un job en particulier on précise son jobID :
# qstat -j <job> // donne information générale sur erreur sur 1 job en particulier |
Exemples
Plusieurs jobs en erreur :
# qstat -j |
Problème de groupe
Le problème ici était que l’utilisateur “farnsworth” ne figurait pas dans le bon groupe et n’était pas autorisé à utiliser la queue.
# qstat -explain c -j 8347 |
Problème d’OS
Ici le script envoie sur toutes les queues mais le système spécifié n’est pas disponible.
# qstat -j 466796 |
Problème de volume
Le script cherche à atteindre un répertoire/volume qui n’existe pas.
# qstat -j 186666 |
Il faut vérifier que le répertoire/volume soit bien monté sur tous les noeuds. Dans un 1er temps, récupérer les informations dans Netapp (agreggat par exemple) et ajouter le volume sur le noeud dans son /etc/fstab
:
[adm@node66 ~] cat /etc/fstab |
Relancer un job en erreur
Pour relancer un job en erreur, il est possible d’utiliser la commande qmod
en spécifiant le jobID :
# qmod -cj <jobID 1> .... <jobID N> |
Supprimer un job
pour supprimer un job, on utilise qdel
suivi du jobID :
# qdel -f <jobid> |
Documentation
MAN qmod
https://manpages.ubuntu.com/manpages/jammy/en/man5/sge_status.5.html