]> git-server-git.apps.pok.os.sepia.ceph.com Git - ceph.git/commit
mgr/prometheus: Add healthcheck metric for SLOW_OPS
authorPaul Cuzner <pcuzner@redhat.com>
Thu, 8 Oct 2020 03:30:56 +0000 (16:30 +1300)
committerPaul Cuzner <pcuzner@redhat.com>
Sun, 28 Feb 2021 23:49:50 +0000 (12:49 +1300)
commitcb0d3154a676edb955467dea42eb931743dd67a1
tree684e8cf9ba9aba6c8b47c38f65446eee74f97b95
parent7116a18837b90d838d9dc91c64b26e86a44a400c
mgr/prometheus: Add healthcheck metric for SLOW_OPS

SLOW_OPS is triggered by op tracker, and generates a health
alert but healthchecks do not create metrics for prometheus to
use as alert triggers. This change adds SLOW_OPS metric, and
provides a simple means to extend to other relevant health
checks in the future

If the extract of the value from the health check message fails
we log an error and remove the metric from the metric set. In
addition the metric description has changed to better reflect
the scenarios where SLOW_OPS can be triggered.

Signed-off-by: Paul Cuzner <pcuzner@redhat.com>
(cherry picked from commit 2010432b5045c8f1dd0c052def497e590a1bf2fe)

Conflicts:
src/pybind/mgr/prometheus/module.py
- Nautilus doesn't have the profile_method decorator, so needed to be removed
monitoring/prometheus/alerts/ceph_default_alerts.yml
src/pybind/mgr/prometheus/module.py