]> git.apps.os.sepia.ceph.com Git - ceph.git/commitdiff
qa: failfast mount for better performance 58547/head
authorMilind Changire <mchangir@redhat.com>
Fri, 12 Jul 2024 03:26:41 +0000 (08:56 +0530)
committerMilind Changire <mchangir@redhat.com>
Fri, 23 Aug 2024 09:36:13 +0000 (15:06 +0530)
During teuthology tests, the tearing down of the cluster between two
tests causes the config to be reset and a config_notify generated. This
leads to a race to create a new mount using the old fscid. But by the
time the mount is attempted the new fs gets created with a new fscid.
This situation leads to the client mount waiting for a connection
completion notification from the mds for 5 minutes (default timeout)
and eventually giving up.
However, the default teuthology command timeout is 2 minutes. So,
teuthology fails the command and declares the job as failed way before
the mount can timeout.

The resolution to this case is to lower the client mount timeout to 30
seconds so that the config_notify fails fast paving the way for
successive commands to get executed with the new fs.

An unhandled cluster warning about an unresponsive client also gets
emitted later during qa job termination which leads to teuthology
declaring the job as failed. As of now this warning seems harmless since
it is emitted during cluster cleanup phase.
So, this warning is added to the log-ignorelist section in the
snap-schedule YAML.

Fixes: https://tracker.ceph.com/issues/66009
Signed-off-by: Milind Changire <mchangir@redhat.com>
qa/cephfs/conf/mgr.yaml
qa/suites/fs/functional/tasks/snap-schedule.yaml

index fb6e9b09fa1553ee110ad3f6d5556d2687a0c3c5..d7e95b9feb9328d8c84b837f0c27d95fe545b4a2 100644 (file)
@@ -2,6 +2,7 @@ overrides:
   ceph:
     conf:
       mgr:
+        client mount timeout: 30
         debug client: 20
         debug mgr: 20
         debug ms: 1
index 26922abeda4b7bc170f3c3d28850e28452f943ca..7d7f62f16a881988d9ca856a071db49f38a7d608 100644 (file)
@@ -15,6 +15,7 @@ overrides:
       - is full \(reached quota
       - POOL_FULL
       - POOL_BACKFILLFULL
+      - cluster \[WRN\] evicting unresponsive client
 
 tasks:
   - cephfs_test_runner: