Monitoring slurm efficiency
Avant de me lancer plus en profondeur dans ce petit projet, je fais un sondage pour savoir si le travail a déjà été fait ou commencé ...
Mon projet comprend :
-
Proposer une alternative à seff qui ne fonctionne plus sur les dernières versions d’Ubuntu (perl) -
Un module de status_bars pour l’efficience des jobs slurm d’un utilisateur sur les 7 derniers jours par exemple ou plus simplement de la semaine passée -> ifb-elixirfr/cluster/utils/status_bars!9 (merged) -
Un rapport pour les admins type : hall-of-shame des moins bons élèves pour les contacter et les taper sensibiliser -
Eventuellement, un rapport hebdo par email par semaine avec des recommandations
Le but est que les utilisateurs ciblent mieux leurs besoins et que nous admin nous ne soyons pas dans la course à l’achat de machine de plus en plus grosses par exemple en RAM.
C’est donc une démarche :
-
🌱 moins d’achat de matériel, moindre consommation électrique -
💸 économique : moindre consommation électrique donc coût en fonctionne, (... pour le matériel, nous sommes plutôt bien pourvus pour le moment)
En divaguant, j’ai trouvé par mal de truc du Princeton :
- https://rse.princeton.edu/2020/01/monitoring-slurm-efficiency-with-reportseff/ (GitHub) : j’ai testé, ça marche out-of-the-box
- https://github.com/PrincetonUniversity/monthly_sponsor_reports : demandera pas mal d’adaptation
- https://github.com/jdh4/job_defense_shield : je suis dessus mais pareil, pas vraiment adaptable comme ça. Beaucoup de truc en dur
- https://github.com/PrincetonUniversity/jobstats : solution complète avec grafana et même une app Open OnDemand
Du coup, je répète ma question : avez-vous déjà quelque chose en cours ou en prod à ce sujet ?
Edited by Gildas Le Corguillé