
[英]reading parquet into Google DataFlow using AvroParquetInputFormat
[英]Google DataFlow & Reading Parquet files
尝试使用Google DataFlow Java SDK,但对于我的用例,我的输入文件是.parquet文件。
无法找到任何开箱即用的功能,可以将镶木地板作为有界数据源读取到DataFlow管道中。 据我所知,我可以创建一个编码器和/或下沉像基于Parquet阅读器的 AvroIO。
有没有人可以建议如何实施它的最佳方式? 或者指向我使用How-to \\ examples的参考?
感谢您的帮助!
- 一种
您可以在https://issues.apache.org/jira/browse/BEAM-214找到ParquetIO的进展(开箱即用的功能)。
与此同时,应该可以在Beam和Dataflow SDK中使用Hadoop FileInputFormat读取Parquet文件。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.