osd/ECBackend: only check required shards when finishing recovery reads

author Josh Durgin <jdurgin@redhat.com>

Fri, 6 Apr 2018 06:43:13 +0000 (02:43 -0400)

committer Josh Durgin <jdurgin@redhat.com>

Fri, 20 Apr 2018 23:42:14 +0000 (19:42 -0400)
author Josh Durgin <jdurgin@redhat.com>
Fri, 6 Apr 2018 06:43:13 +0000 (02:43 -0400)
committer Josh Durgin <jdurgin@redhat.com>
Fri, 20 Apr 2018 23:42:14 +0000 (19:42 -0400)
diff --git a/qa/standalone/erasure-code/test-erasure-eio.sh b/qa/standalone/erasure-code/test-erasure-eio.sh

index c0515a478204b27336e6c236479549e515b42f8b..f4c3a7318f20226cd2fdba2bb510d27d457d3807 100755 (executable)
--- a/qa/standalone/erasure-code/test-erasure-eio.sh
+++ b/qa/standalone/erasure-code/test-erasure-eio.sh
@@ -379,6 +379,65 @@ function TEST_ec_recovery_errors() {
      delete_erasure_coded_pool $poolname
  }
  
+# Test recovery when there's only one shard to recover, but multiple
+# objects recovering in one RecoveryOp
+function TEST_ec_recovery_multiple_objects() {
+    local dir=$1
+    local objname=myobject
+
+    export CEPH_ARGS
+    CEPH_ARGS+=' --osd-recovery-max-single-start 3 --osd-recovery-max-active 3 '
+    setup_osds 7 || return 1
+
+    local poolname=pool-jerasure
+    create_erasure_coded_pool $poolname 3 2 || return 1
+
+    rados_put $dir $poolname test1
+    rados_put $dir $poolname test2
+    rados_put $dir $poolname test3
+
+    ceph osd out 0 || return 1
+
+    # Cluster should recover these objects all at once
+    wait_for_clean || return 1
+
+    rados_get $dir $poolname test1
+    rados_get $dir $poolname test2
+    rados_get $dir $poolname test3
+
+    delete_erasure_coded_pool $poolname
+}
+
+# test multi-object recovery when the one missing shard gets EIO
+function TEST_ec_recovery_multiple_objects_eio() {
+    local dir=$1
+    local objname=myobject
+
+    export CEPH_ARGS
+    CEPH_ARGS+=' --osd-recovery-max-single-start 3 --osd-recovery-max-active 3 '
+    setup_osds 7 || return 1
+
+    local poolname=pool-jerasure
+    create_erasure_coded_pool $poolname 3 2 || return 1
+
+    rados_put $dir $poolname test1
+    rados_put $dir $poolname test2
+    rados_put $dir $poolname test3
+
+    # can't read from this shard anymore
+    inject_eio ec data $poolname $objname $dir 0 || return 1
+    ceph osd out 0 || return 1
+
+    # Cluster should recover these objects all at once
+    wait_for_clean || return 1
+
+    rados_get $dir $poolname test1
+    rados_get $dir $poolname test2
+    rados_get $dir $poolname test3
+
+    delete_erasure_coded_pool $poolname
+}
+
  # Test backfill with unfound object
  function TEST_ec_backfill_unfound() {
      local dir=$1
diff --git a/src/osd/ECBackend.cc b/src/osd/ECBackend.cc

index edd17c85ffbffe64d45908b3d101f49dd04b554a..ec503e4e0018f4fad13309c1a58c9809a088035a 100644 (file)
--- a/src/osd/ECBackend.cc
+++ b/src/osd/ECBackend.cc
@@ -1186,11 +1186,9 @@ void ECBackend::handle_sub_read_reply(
          have.insert(j->first.shard);
          dout(20) << __func__ << " have shard=" << j->first.shard << dendl;
        }
-      set<int> want_to_read;
        map<int, vector<pair<int, int>>> dummy_minimum;
-      get_want_to_read_shards(&want_to_read);
        int err;
-      if ((err = ec_impl->minimum_to_decode(want_to_read, have, &dummy_minimum)) < 0) {
+      if ((err = ec_impl->minimum_to_decode(rop.want_to_read[iter->first], have, &dummy_minimum)) < 0) {
         dout(20) << __func__ << " minimum_to_decode failed" << dendl;
          if (rop.in_progress.empty()) {
           // If we don't have enough copies and we haven't sent reads for all shards
author	Josh Durgin <jdurgin@redhat.com>
	Fri, 6 Apr 2018 06:43:13 +0000 (02:43 -0400)
committer	Josh Durgin <jdurgin@redhat.com>
	Fri, 20 Apr 2018 23:42:14 +0000 (19:42 -0400)
qa/standalone/erasure-code/test-erasure-eio.sh		patch \| blob \| history
src/osd/ECBackend.cc		patch \| blob \| history