rgw: fix race b/w bucket reshard and ops waiting on reshard completion

author J. Eric Ivancich <ivancich@redhat.com>

Wed, 27 Mar 2019 20:33:38 +0000 (16:33 -0400)

committer J. Eric Ivancich <ivancich@redhat.com>

Thu, 28 Mar 2019 00:42:39 +0000 (20:42 -0400)
author J. Eric Ivancich <ivancich@redhat.com>
Wed, 27 Mar 2019 20:33:38 +0000 (16:33 -0400)
committer J. Eric Ivancich <ivancich@redhat.com>
Thu, 28 Mar 2019 00:42:39 +0000 (20:42 -0400)
diff --git a/src/rgw/rgw_rados.cc b/src/rgw/rgw_rados.cc

index 1468457a3cb0e604c8437510700db46250a673cd..4fdb49aa952b3e7f31d89a0d34c572f665532537 100644 (file)
--- a/src/rgw/rgw_rados.cc
+++ b/src/rgw/rgw_rados.cc
@@ -2403,6 +2403,7 @@ int RGWRados::Bucket::update_bucket_id(const string& new_bucket_id)
  
    auto obj_ctx = store->svc.sysobj->init_obj_ctx();
  
+  bucket_info.objv_tracker.clear();
    int ret = store->get_bucket_instance_info(obj_ctx, bucket, bucket_info, nullptr, nullptr);
    if (ret < 0) {
      return ret;
@@ -6448,7 +6449,7 @@ int RGWRados::Bucket::UpdateIndex::guard_reshard(BucketShard **pbs, std::functio
        return r;
      }
      invalidate_bs();
-  }
+  } // for loop
  
    if (r < 0) {
      return r;
@@ -7082,7 +7083,7 @@ int RGWRados::guard_reshard(BucketShard *bs,
      obj = *pobj;
      obj.bucket.update_bucket_id(new_bucket_id);
      pobj = &obj;
-  }
+  } // for loop
  
    if (r < 0) {
      return r;
@@ -7099,21 +7100,47 @@ int RGWRados::block_while_resharding(RGWRados::BucketShard *bs,
    int ret = 0;
    cls_rgw_bucket_instance_entry entry;
  
-  const int num_retries = 10;
-  for (int i=0; i < num_retries; i++) {
+  // since we want to run this recovery code from two distinct places,
+  // let's just put it in a lambda so we can easily re-use; if the
+  // lambda successfully fetches a new bucket id, it sets
+  // new_bucket_id and returns 0, otherwise it returns a negative
+  // error code
+  auto fetch_new_bucket_id =
+    [this, bucket_info](const std::string& log_tag,
+                       std::string* new_bucket_id) -> int {
+      RGWBucketInfo fresh_bucket_info = bucket_info;
+      int ret = try_refresh_bucket_info(fresh_bucket_info, nullptr);
+      if (ret < 0) {
+       ldout(cct, 0) << __func__ <<
+         " ERROR: failed to refresh bucket info after reshard at " <<
+         log_tag << ": " << cpp_strerror(-ret) << dendl;
+       return ret;
+      }
+      *new_bucket_id = fresh_bucket_info.bucket.bucket_id;
+      return 0;
+    };
+
+  constexpr int num_retries = 10;
+  for (int i = 1; i <= num_retries; i++) { // nb: 1-based for loop
      ret = cls_rgw_get_bucket_resharding(bs->index_ctx, bs->bucket_obj, &entry);
-    if (ret < 0) {
-      ldout(cct, 0) << __func__ << " ERROR: failed to get bucket resharding :"  <<
-       cpp_strerror(-ret)<< dendl;
+    if (ret == -ENOENT) {
+      return fetch_new_bucket_id("get_bucket_resharding_failed", new_bucket_id);
+    } else if (ret < 0) {
+      ldout(cct, 0) << __func__ <<
+       " ERROR: failed to get bucket resharding : " << cpp_strerror(-ret) <<
+       dendl;
        return ret;
      }
+
      if (!entry.resharding_in_progress()) {
-      *new_bucket_id = entry.new_bucket_instance_id;
-      return 0;
+      return fetch_new_bucket_id("get_bucket_resharding_succeeded",
+                                new_bucket_id);
      }
-    ldout(cct, 20) << "NOTICE: reshard still in progress; " << (i < num_retries - 1 ? "retrying" : "too many retries") << dendl;
  
-    if (i == num_retries - 1) {
+    ldout(cct, 20) << "NOTICE: reshard still in progress; " <<
+      (i < num_retries ? "retrying" : "too many retries") << dendl;
+
+    if (i == num_retries) {
        break;
      }
  
@@ -7156,11 +7183,14 @@ int RGWRados::block_while_resharding(RGWRados::BucketShard *bs,
  
      ret = reshard_wait->wait(y);
      if (ret < 0) {
-      ldout(cct, 0) << __func__ << " ERROR: bucket is still resharding, please retry" << dendl;
+      ldout(cct, 0) << __func__ <<
+       " ERROR: bucket is still resharding, please retry" << dendl;
        return ret;
      }
-  }
-  ldout(cct, 0) << __func__ << " ERROR: bucket is still resharding, please retry" << dendl;
+  } // for loop
+
+  ldout(cct, 0) << __func__ <<
+    " ERROR: bucket is still resharding, please retry" << dendl;
    return -ERR_BUSY_RESHARDING;
  }
author	J. Eric Ivancich <ivancich@redhat.com>
	Wed, 27 Mar 2019 20:33:38 +0000 (16:33 -0400)
committer	J. Eric Ivancich <ivancich@redhat.com>
	Thu, 28 Mar 2019 00:42:39 +0000 (20:42 -0400)