繁体   English   中英

Google DataFlow和阅读Parquet文件

[英]Google DataFlow & Reading Parquet files

尝试使用Google DataFlow Java SDK,但对于我的用例,我的输入文件是.parquet文件。

无法找到任何开箱即用的功能,可以将镶木地板作为有界数据源读取到DataFlow管道中。 据我所知,我可以创建一个编码器和/或下沉像基于Parquet阅读器的 AvroIO。

有没有人可以建议如何实施它的最佳方式? 或者指向我使用How-to \\ examples的参考?

感谢您的帮助!

- 一种

您可以在https://issues.apache.org/jira/browse/BEAM-214找到ParquetIO的进展(开箱即用的功能)。

与此同时,应该可以在BeamDataflow SDK中使用Hadoop FileInputFormat读取Parquet文件。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM