繁体   English   中英

存储在 AWS S3 中时,parquet 文件是否可拆分?

[英]Are parquet files splittable when stored in AWS S3?

  • 我知道镶木地板文件如果存储在块存储中是可拆分的。 例如存储在 HDFS
  • 当存储在 AWS s3 等 object 存储中时,它们是否也可拆分?
  • 这让我很困惑,因为 object 存储应该是原子的。 您要么访问整个文件,要么不访问文件。 您甚至无法在不重写整个文件的情况下更改 S3 文件上的元数据。 另一方面,AWS 建议在 S3 中使用可拆分文件格式来提高 Athena 和 hadoop 生态系统中其他框架的性能。

是的,Parquet 文件是可拆分的。

S3 支持定位读取(范围请求),可用于仅读取输入文件(对象)的选定部分。

我不是 100% 确定你在这里的意思,但通常(我认为)你在分区键上有 parquet 分区并将列保存到行块中。 当我在其中使用 AWS S3 时,它已保存如下:

|-Folder
|--Partition Keys
|---Columns
|----Rows_1-100.snappy.parquet
|----Rows_101-200.snappy.parquet

这可以处理您提到的拆分效率。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM