osd/ECBackend: only check required shards when finishing recovery reads

author Josh Durgin <jdurgin@redhat.com>

Fri, 6 Apr 2018 06:43:13 +0000 (02:43 -0400)

committer David Zafman <dzafman@redhat.com>

Wed, 9 May 2018 22:41:34 +0000 (15:41 -0700)
author Josh Durgin <jdurgin@redhat.com>
Fri, 6 Apr 2018 06:43:13 +0000 (02:43 -0400)
committer David Zafman <dzafman@redhat.com>
Wed, 9 May 2018 22:41:34 +0000 (15:41 -0700)
diff --git a/qa/standalone/erasure-code/test-erasure-eio.sh b/qa/standalone/erasure-code/test-erasure-eio.sh

index 4bfc898c8e4c97438c9619195790437145d9ed8f..62ac49dbba46b55b8b87f2ddc9120d77fc1a4a01 100755 (executable)
--- a/qa/standalone/erasure-code/test-erasure-eio.sh
+++ b/qa/standalone/erasure-code/test-erasure-eio.sh
@@ -379,6 +379,65 @@ function TEST_ec_recovery_errors() {
      delete_erasure_coded_pool $poolname
  }
  
+# Test recovery when there's only one shard to recover, but multiple
+# objects recovering in one RecoveryOp
+function TEST_ec_recovery_multiple_objects() {
+    local dir=$1
+    local objname=myobject
+
+    export CEPH_ARGS
+    CEPH_ARGS+=' --osd-recovery-max-single-start 3 --osd-recovery-max-active 3 '
+    setup_osds 7 || return 1
+
+    local poolname=pool-jerasure
+    create_erasure_coded_pool $poolname 3 2 || return 1
+
+    rados_put $dir $poolname test1
+    rados_put $dir $poolname test2
+    rados_put $dir $poolname test3
+
+    ceph osd out 0 || return 1
+
+    # Cluster should recover these objects all at once
+    wait_for_clean || return 1
+
+    rados_get $dir $poolname test1
+    rados_get $dir $poolname test2
+    rados_get $dir $poolname test3
+
+    delete_erasure_coded_pool $poolname
+}
+
+# test multi-object recovery when the one missing shard gets EIO
+function TEST_ec_recovery_multiple_objects_eio() {
+    local dir=$1
+    local objname=myobject
+
+    export CEPH_ARGS
+    CEPH_ARGS+=' --osd-recovery-max-single-start 3 --osd-recovery-max-active 3 '
+    setup_osds 7 || return 1
+
+    local poolname=pool-jerasure
+    create_erasure_coded_pool $poolname 3 2 || return 1
+
+    rados_put $dir $poolname test1
+    rados_put $dir $poolname test2
+    rados_put $dir $poolname test3
+
+    # can't read from this shard anymore
+    inject_eio ec data $poolname $objname $dir 0 || return 1
+    ceph osd out 0 || return 1
+
+    # Cluster should recover these objects all at once
+    wait_for_clean || return 1
+
+    rados_get $dir $poolname test1
+    rados_get $dir $poolname test2
+    rados_get $dir $poolname test3
+
+    delete_erasure_coded_pool $poolname
+}
+
  # Test backfill with unfound object
  function TEST_ec_backfill_unfound() {
      local dir=$1
diff --git a/src/osd/ECBackend.cc b/src/osd/ECBackend.cc

index a0fecedda32a793cd4da1ad77c42e89eb17cbdbf..6bdc4e351e4a59f25350abab3506571272d3ec53 100644 (file)
--- a/src/osd/ECBackend.cc
+++ b/src/osd/ECBackend.cc
@@ -1208,10 +1208,9 @@ void ECBackend::handle_sub_read_reply(
          have.insert(j->first.shard);
          dout(20) << __func__ << " have shard=" << j->first.shard << dendl;
        }
-      set<int> want_to_read, dummy_minimum;
-      get_want_to_read_shards(&want_to_read);
+      set<int> dummy_minimum;
        int err;
-      if ((err = ec_impl->minimum_to_decode(want_to_read, have, &dummy_minimum)) < 0) {
+      if ((err = ec_impl->minimum_to_decode(rop.want_to_read[iter->first], have, &dummy_minimum)) < 0) {
         dout(20) << __func__ << " minimum_to_decode failed" << dendl;
          if (rop.in_progress.empty()) {
           // If we don't have enough copies and we haven't sent reads for all shards
author	Josh Durgin <jdurgin@redhat.com>
	Fri, 6 Apr 2018 06:43:13 +0000 (02:43 -0400)
committer	David Zafman <dzafman@redhat.com>
	Wed, 9 May 2018 22:41:34 +0000 (15:41 -0700)
qa/standalone/erasure-code/test-erasure-eio.sh		patch \| blob \| history
src/osd/ECBackend.cc		patch \| blob \| history