Skip to content

Add Gitaly disk operation saturation metrics

Corrective action from www-gitlab-com#4997 (closed)

Adds Saturation metrics based for disk IOPs and throughput, based on the estimated thresholds that GCP states:

image

Whats really interesting is that if these values are correct, we are regularly hitting saturation on disk writes on some machines in the fleet.


See these saturation metrics broken down per host:

https://prometheus.gprd.gitlab.net/graph?g0.range_input=7d&g0.expr=%20%20%20%20%20%20max(%0A%20%20%20%20%20%20%20%20rate(node_disk_reads_completed_total%7Btype%3D%22gitaly%22%2C%20device%3D%22sdb%22%7D%5B1m%5D)%20%2F%20(60000)%0A%20%20%20%20%20%20)%20by%20(environment%2C%20tier%2C%20type%2C%20stage%2C%20fqdn)&g0.tab=0&g1.range_input=7d&g1.expr=%20%20%20%20%20%20max(%0A%20%20%20%20%20%20%20%20rate(node_disk_writes_completed_total%7Btype%3D%22gitaly%22%2C%20device%3D%22sdb%22%7D%5B1m%5D)%20%2F%20(30000)%0A%20%20%20%20%20%20)%20by%20(environment%2C%20tier%2C%20type%2C%20stage%2C%20fqdn)&g1.tab=0&g2.range_input=7d&g2.expr=%20%20%20%20%20%20max(%0A%20%20%20%20%20%20%20%20rate(node_disk_read_bytes_total%7Btype%3D%22gitaly%22%2C%20device%3D%22sdb%22%7D%5B1m%5D)%20%2F%20(1200%20*%201024%20*%201024)%0A%20%20%20%20%20%20)%20by%20(environment%2C%20tier%2C%20type%2C%20stage%2C%20fqdn)&g2.tab=0&g3.range_input=7d&g3.expr=%20%20%20%20%20%20max(%0A%20%20%20%20%20%20%20%20rate(node_disk_written_bytes_total%7Btype%3D%22gitaly%22%2C%20device%3D%22sdb%22%7D%5B1m%5D)%20%2F%20(400%20*%201024%20*%201024)%0A%20%20%20%20%20%20)%20by%20(environment%2C%20tier%2C%20type%2C%20stage%2C%20fqdn)&g3.tab=0

Edited by Andrew Newdigate

Merge request reports

Loading