[英]Google Cloud Dataflow consume external source
因此,我对数据流背后的概念有些疑问。 特别是关于管道的构造方式。
我正在尝试使用一个外部API,该API提供了索引XML文件以及指向单独XML文件的链接。 一旦有了所有XML文件的内容,就需要将它们拆分成单独的PCollection,以便可以完成其他PTransforms。
在可以下载和读取产品XML之前,必须先下载并读取第一个xml文件这一事实令人难以理解。 正如文档所述,管道以Source开头,以Sink结尾。
所以我的问题是:
注意事项:我正在为此使用Python SDK,但这可能并不相关,因为这更多是架构问题。
是的,这绝对可以做到。 现在,刚开始时有点笨拙,但是即将在名为SplittableDoFn的新原语上进行的工作将使这种模式在将来更加容易。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.