]> git-server-git.apps.pok.os.sepia.ceph.com Git - ceph.git/commit
qa: add a YAML to ignore MGR_DOWN warning 57565/head
authorDhairya Parmar <dparmar@redhat.com>
Thu, 18 Apr 2024 14:37:36 +0000 (20:07 +0530)
committerDhairya Parmar <dparmar@redhat.com>
Mon, 20 May 2024 11:47:15 +0000 (17:17 +0530)
commitb7fdaf02f2c577fcc03a9badc1a4e3d6098578ae
tree2aeae5eaa8ff5268fdc1ca6014e4fbf84c8fad04
parentb9b067bc6d30ec00e391f0fa43f50affe981ba2f
qa: add a YAML to ignore MGR_DOWN warning

RCA showed that it is not the NFS code that lead to the warning since the
warning occurred before the test cases started to execute, later on after
some discussion with the venky and greg, it was found that there were some
clog changes made recently which leads to this warning being added to the
clog.

Digging more further, it was found that the warning is generated when mgr fail
is run when there is no mgr available. The reason for unavailability is when
`setup_mgrs()` in class `MgrTestCase` stops the mgr daemons, sometimes the mgr
just crashes - `mgr handle_mgr_signal  *** Got signal Terminated ***`  and
after which `mgr fail` (again part of `setup_mgrs()`) is run and the `MGR_DOWN`
warning is generated.

This warning is only evident in nfs is because this is the only fs suite that
makes use of class `MgrTestCase`. To support my analysis, I had ran about eight
jobs in teuthology and I could not reproduce this warning. Since this is not
harming the NFS test cases execution and the logs do mention that the mgr
daemon did get restarted (`INFO:tasks.cephadm.mgr.x:Restarting mgr.x
(starting--it wasn't running)...`), it is good to conclude that ignoring this
warning is the simplest solution.

Fixes: https://tracker.ceph.com/issues/65265
Signed-off-by: Dhairya Parmar <dparmar@redhat.com>
(cherry picked from commit 7d954cefb1139011e90cd33e999aa357cbcdabb1)
qa/suites/fs/nfs/overrides/ignore_mgr_down.yaml [new file with mode: 0644]