]> git-server-git.apps.pok.os.sepia.ceph.com Git - ceph.git/commitdiff
parquet release notes
authorgal salomon <gal.salomon@gmail.com>
Fri, 14 Jan 2022 07:00:43 +0000 (09:00 +0200)
committergal salomon <gal.salomon@gmail.com>
Fri, 14 Jan 2022 07:18:19 +0000 (09:18 +0200)
Signed-off-by: gal salomon <gal.salomon@gmail.com>
PendingReleaseNotes

index 71e17c5806c1f841f172af6ae5896e3ff6085930..e79b04fdf9fd385e984449deb77082e9e62c17d3 100644 (file)
 * MDS upgrades no longer require stopping all standby MDS daemons before
   upgrading the sole active MDS for a file system.
 
+* Parquet implementation is about accessing columnar objects(Parquet format) 
+  using s3select queries.
+  The s3select-engine contains a Parquet-reader(apache/arrow) that enables access
+  to specific columns according to query, which saves a lot of IOPS.
+  The s3select-engine is using (call-back) GetObj-RangeScan to access these types 
+  of objects.
+  The Parquet object is identified by its name(*.parquet) and magic-number exists 
+  in objects. thus, upon sending s3select query, there are 2 main flows, one 
+  for CSV the other for Parquet format.
+  RGW chooses the flow according the object name.
+
 * RGW: RGW now supports rate limiting by user and/or by bucket.
   With this feature it is possible to limit user and/or bucket, the total operations and/or
   bytes per minute can be delivered.