Implementar monitoreo de GPU's
Descripción
El objetivo de la tarea es incluir en el software de monitoreo un exportador para tener métricas propias de las GPU ya que en devodds/admin-devodds/infrastructure#7 se implementó el monitoreo del nodo Linux pero esto no es lo más importante a monitorear en el caso de un RIG de GPU para minería.
Para esto se propone implementar un exportador propio de NVIDIA y crear un Dashboard en Grafana para visualizar las métricas de este.
Analizar lo propuesto en: https://github.com/NVIDIA/gpu-monitoring-tools
Tareas a realizar:
-
Instalar exporter
sudo apt-get update
sudo apt-get install \
apt-transport-https \
ca-certificates \
curl \
gnupg \
lsb-release
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
echo \
"deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu \
$(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update
sudo apt-get install docker-ce docker-ce-cli containerd.io
sudo docker run hello-world
-
Instalar DCGM-Exporter
sudo docker run -d --gpus all --rm -p 9400:9400 nvcr.io/nvidia/k8s/dcgm-exporter:2.0.13-2.1.2-ubuntu18.04
curl localhost:9400/metrics
-
Crear dashboard en Grafana https://devodds.grafana.net/d/NGPKmnWnz/nvidia-dcgm-exporter-dashboard -
Configurar alertas -
Documentar
Edited by Gabriel Lourenco