![](/img/trans.png)
[英]How to convert headerless, compressed, pipe-delimited files stored in S3 into parquet using AWS Glue
[英]Are parquet files splittable when stored in AWS S3?
是的,Parquet 文件是可拆分的。
S3 支持定位读取(范围请求),可用于仅读取输入文件(对象)的选定部分。
我不是 100% 确定你在这里的意思,但通常(我认为)你在分区键上有 parquet 分区并将列保存到行块中。 当我在其中使用 AWS S3 时,它已保存如下:
|-Folder
|--Partition Keys
|---Columns
|----Rows_1-100.snappy.parquet
|----Rows_101-200.snappy.parquet
这可以处理您提到的拆分效率。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.