Parfois les clusters de calcul subissent de fortes charges, dûes à des résidus de calculs terminés qui peuvent toujours apparaître dans la liste des processus, SGE est censé
pourvoir gérer ce type de problème grâce au fichier prolog
et/ou epilog
, situés dans <$SGE_ROOT>/site/
mais les problèmes peuvent persister.
Load Average
Le load_avg
est une valeur fournie par la commande uptime
ou celles du type top
, htop
, etc. et indique la charge processeur moyenne. La commande qstat
affiche également
cette moyenne pour chaque noeud :
# qstat -f |
On voit que ce noeud a seulement 5 proceseurs d’utilisés sur 20, avec un load_avg
assez haut, ce noeud est d’ailleurs en statut “a”.
Pour avoir plus de précision sur cette erreur on utilise le paramètre -explain
de qstat
:
# qstat -explain a -q *@myNode24 |
Ceci nous indique que le noeud a déplacé le plafond.
Processus zombies
Pour alléger la charge du noeud, une solution est de voir les processus lancés par les utilisateurs, il est possible que certains n’aient pas été tués.
Ici nous avons 2 utilisateurs qui ont des jobs en cours : rick et morty, et nous devrions trouver des processus leurs appartenant sur le noeud myNode24 mais pas ceux d’autre
utilisateur.
ps aux | grep -v root |
On voit l’utilisateur “621” (identifiable dans le /etc/passwd) qui possède encore des processus qui tournent sur le noeud. Il faut les tuer (et/ou demander à l’utilisateur si c’est normal)
Documentation
Doc SGE