繁体   English   中英

如何从 s3 将镶木地板文件读入 PCollection?

[英]How to read a parquet file into a PCollection from s3?

我的问题很简单:我想使用 Python Sdk 将 parquet 文件从 s3 读入 Apache Beam 中的 PCollection。

我知道apache_beam.io.parquetio模块,但这个模块似乎无法直接从 s3 读取(或者可以吗?)。

我知道apache_beam.io.aws.s3io模块,但这个模块似乎返回一个 s3 文件 object 或无论如何都不是 PCollection 的东西(或者是吗?)。

那么最好的方法是什么?

如果你安装符合 aws 要求的 beam

pip install 'apache-beam[aws]'

你可以只传入一个 s3 文件名来读取它

filename = "s3://bucket-name/...
beam.io.ReadFromParquet(filenam)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM