Dans un premier temps : s’assurer que les noeuds en questions sont bien gérés par SGE
Etats des queues
Statuts d’erreur possible
Sous SGE, les statuts possibles pour une queue sont :
a
: alarmc
: configuration ambiguousd
: disableo
: ? (operator)s
: Suspendingu
: unreachableA
: Alarm - Quand le noeud est full ou a utilisé toutes ses ressourcesAU
: Alarm - UnreachableAS
: Alarm - Suspended - Si le noeud a atteint ses limites, SGE lui interdit de prendre un autre job et attent qu’il ait plus de ressourcesU
: Unreachable - Généralement SGE est down sur le clientD
: DisableE
: Error state - Utiliser la commandeqmod -c
C
: Configuration ambiguousS
: SuspendingT
: Suspended by alarm
Voir le statut des queues
Status des queues
La commande qstat
permet de voir l’état des queues :
# qstat -f |
On voit 2 queues en erreur (E) et complètement vide (0/0/60 et 0/0/40) :
queuename qtype resv/used/tot. load_avg arch states |
Statut détaillé
La commande qstat
avec l’option -explain <status>
permet de voir la raisnon du statut :
# qstat -explain a |
Relancer une queue
Pour relancer une queue en erreur, on utilise qmod avec les option -c
(clear) et -q
(queue) :
# qmod -cq <NameOfMyQueue> |
Exemple :
# qmod -cq [email protected] |
Un qstat -f
montre maintenant que la file s’est re-remplie :
queuename qtype resv/used/tot. load_avg arch state |
Surveiller les queues
Pour afficher toutes les 30 sec la commande qstat -f
# watch -n30 qstat -f |
Documentation
RTFM qmod
RTFM qstat