cephadm: retry cleaning old cgroups when it fails

author Adam King <adking@redhat.com>

Thu, 22 Jan 2026 16:25:02 +0000 (11:25 -0500)

committer Adam King <adking@redhat.com>

Thu, 22 Jan 2026 16:25:02 +0000 (11:25 -0500)
author Adam King <adking@redhat.com>
Thu, 22 Jan 2026 16:25:02 +0000 (11:25 -0500)
committer Adam King <adking@redhat.com>
Thu, 22 Jan 2026 16:25:02 +0000 (11:25 -0500)
diff --git a/src/cephadm/cephadm.py b/src/cephadm/cephadm.py

index 4e255e551656bf9e793c3bfa7916937c0730adf9..03234518cc74ec25c71c73954dc99c41a345dfa7 100755 (executable)
--- a/src/cephadm/cephadm.py
+++ b/src/cephadm/cephadm.py
@@ -1015,10 +1015,18 @@ def clean_cgroup(ctx: CephadmContext, fsid: str, unit_name: str) -> None:
              if p.is_dir():
                  cg_trim(p)
          path.rmdir()
-    try:
-        cg_trim(cg_path)
-    except OSError:
-        logger.warning(f'Failed to trim old cgroups {cg_path}')
+
+    for s in [0.5, 1.0, 2.0, False]:
+        try:
+            cg_trim(cg_path)
+        except OSError:
+            if not s:
+                logger.warning(f'Failed 4 times to trim old cgroups <{cg_path}>. Giving up!')
+            else:
+                logger.warning(f'Failed to trim old cgroups <{cg_path}>. Retrying in {s} seconds...')
+                time.sleep(s)
+        else:
+            break
  
  
  def deploy_daemon_units(
author	Adam King <adking@redhat.com>
	Thu, 22 Jan 2026 16:25:02 +0000 (11:25 -0500)
committer	Adam King <adking@redhat.com>
	Thu, 22 Jan 2026 16:25:02 +0000 (11:25 -0500)