]> git-server-git.apps.pok.os.sepia.ceph.com Git - ceph.git/commit
mgr/prometheus: Add healthcheck metric for SLOW_OPS
authorPaul Cuzner <pcuzner@redhat.com>
Thu, 8 Oct 2020 03:30:56 +0000 (16:30 +1300)
committerPaul Cuzner <pcuzner@redhat.com>
Mon, 2 Nov 2020 02:30:49 +0000 (15:30 +1300)
commit2010432b5045c8f1dd0c052def497e590a1bf2fe
treec87f5113c93673e064b014a2b1d88368de3a5d5e
parentec649358610835d75de937f68d3b711a40993fff
mgr/prometheus: Add healthcheck metric for SLOW_OPS

SLOW_OPS is triggered by op tracker, and generates a health
alert but healthchecks do not create metrics for prometheus to
use as alert triggers. This change adds SLOW_OPS metric, and
provides a simple means to extend to other relevant health
checks in the future

If the extract of the value from the health check message fails
we log an error and remove the metric from the metric set. In
addition the metric description has changed to better reflect
the scenarios where SLOW_OPS can be triggered.

Signed-off-by: Paul Cuzner <pcuzner@redhat.com>
monitoring/prometheus/alerts/ceph_default_alerts.yml
src/pybind/mgr/prometheus/module.py