]> git-server-git.apps.pok.os.sepia.ceph.com Git - ceph.git/commit
common/options: Change HDD OSD shard configuration defaults for mClock 59972/head
authorSridhar Seshasayee <sseshasa@redhat.com>
Tue, 3 Sep 2024 05:39:08 +0000 (11:09 +0530)
committerSridhar Seshasayee <sseshasa@redhat.com>
Thu, 28 Nov 2024 08:38:00 +0000 (14:08 +0530)
commita34fc8875bdaceb244e878e991586625327d7a00
tree5ea9f2d8f9c10c32cf69ddfa480015c73eb4af46
parent4f71f009c4f36b748cfc7c5838d004cafa4a731e
common/options: Change HDD OSD shard configuration defaults for mClock

Based on tests performed at scale on a HDD based cluster, it was found
that scheduling with mClock was not optimal with multiple OSD shards. For
e.g., in the scaled cluster with multiple OSD node failures, the client
throughput was found to be inconsistent across test runs coupled with
multiple reported slow requests.

However, the same test with a single OSD shard and with multiple worker
threads yielded significantly better results in terms of consistency of
client and recovery throughput across multiple test runs.

For more details see https://tracker.ceph.com/issues/66289.

Therefore, as an interim measure until the issue with multiple OSD shards
(or multiple mClock queues per OSD) is investigated and fixed, the
following change to the default HDD OSD shard configuration is made:

 - osd_op_num_shards_hdd = 1 (was 5)
 - osd_op_num_threads_per_shard_hdd = 5 (was 1)

The other changes in this commit include:
 - Doc change to the OSD and mClock config reference describing
   this change.
 - OSD troubleshooting entry on the procedure to change the shard
   configuration for clusters affected by this issue running on older
   releases.
 - Add release note for this change.

Fixes: https://tracker.ceph.com/issues/66289
Signed-off-by: Sridhar Seshasayee <sseshasa@redhat.com>
(cherry picked from commit 0d81e721378e6d7a647c5a4f6aab3cede1a828d3)

Conflicts:
        doc/rados/troubleshooting/troubleshooting-osd.rst
- Included the troubleshooting entry before the "Flapping OSDs" section.
        PendingReleaseNotes
- Moved the release note under 18.2.4 section and removed unrelated entries
PendingReleaseNotes
doc/rados/configuration/mclock-config-ref.rst
doc/rados/configuration/osd-config-ref.rst
doc/rados/troubleshooting/troubleshooting-osd.rst
src/common/options/osd.yaml.in