SGE - Statut des queues

Dans un premier temps : s’assurer que les noeuds en questions sont bien gérés par SGE

Etats des queues

Statuts d’erreur possible

Sous SGE, les statuts possibles pour une queue sont :

  • a : alarm

  • c : configuration ambiguous

  • d : disable

  • o : ? (operator)

  • s : Suspending

  • u : unreachable

  • A : Alarm - Quand le noeud est full ou a utilisé toutes ses ressources

  • AU : Alarm - Unreachable

  • AS : Alarm - Suspended - Si le noeud a atteint ses limites, SGE lui interdit de prendre un autre job et attent qu’il ait plus de ressources

  • U : Unreachable - Généralement SGE est down sur le client

  • D : Disable

  • E : Error state - Utiliser la commande qmod -c

  • C : Configuration ambiguous

  • S : Suspending

  • T : Suspended by alarm

Voir le statut des queues

Status des queues

La commande qstat permet de voir l’état des queues :

# qstat -f

On voit 2 queues en erreur (E) et complètement vide (0/0/60 et 0/0/40) :

queuename                  qtype   resv/used/tot.   load_avg   arch   states
------------------------------------------------------------------------------
[email protected] BIP 0/35/40 21.11 amd
------------------------------------------------------------------------------
[email protected] BIP 0/0/60 0.01 amd E
------------------------------------------------------------------------------
[email protected] BIP 0/0/40 0.01 int E
------------------------------------------------------------------------------
[email protected] BIP 0/25/50 20.03 amd
------------------------------------------------------------------------------
[email protected] BIP   0/1/12         -NA-     amd au
------------------------------------------------------------------------------

Statut détaillé

La commande qstat avec l’option -explain <status> permet de voir la raisnon du statut :

# qstat -explain a
queuename qtype resv/used/tot. load_avg arch states
------------------------------------------------------------------------------
[email protected] BIP 0/35/40 21.11 amd
------------------------------------------------------------------------------
[email protected] BIP 0/0/60 0.01 amd E
------------------------------------------------------------------------------
[email protected] BIP 0/0/40 0.01 int E
------------------------------------------------------------------------------
[email protected] BIP 0/25/50 20.03 amd
------------------------------------------------------------------------------
[email protected] BIP   0/1/12         -NA-     amd au
        error: no value for "np_load_avg" because execd is in unknown state
408443 0.55500 scriptSuper   john    dr    08/04/2022 21:07:52     1
------------------------------------------------------------------------------

Relancer une queue

Pour relancer une queue en erreur, on utilise qmod avec les option -c (clear) et -q (queue) :

# qmod -cq <NameOfMyQueue>

Exemple :

# qmod -cq [email protected]
[email protected] changed state of "[email protected]" (no error)

Un qstat -f montre maintenant que la file s’est re-remplie :

queuename                  qtype  resv/used/tot.  load_avg  arch  state
-----------------------------------------------------------------------
[email protected] BIP 0/0/60 0.01 amd
-----------------------------------------------------------------------
[email protected] BIP 0/0/40 0.01 int
-----------------------------------------------------------------------

Surveiller les queues

Pour afficher toutes les 30 sec la commande qstat -f

# watch -n30 qstat -f

Documentation

RTFM qmod
RTFM qstat

> Partager <