繁体   English   中英

Apache Beam/Dataflow- 将文件路径传递给 ReadFromText

[英]Apache Beam/Dataflow- passing file path to ReadFromText

我有一个用例,我想从 metadata.table 中读取文件名,我编写了一个管道 function 来读取 metadata.table,但我不确定如何将此信息传递给 ReadFromText,因为它只将字符串作为输入,是否可以将此值分配给 ReadFromText()。 请提出一些解决方法或想法如何实现这一目标,谢谢

代码:管道| 'Read from a File' >> ReadFromText(我想在这里传递文件路径?,skip_header_lines=1)

注意:存储中会有各种文件夹和文件,文件是csv格式,但在我的用例中我不能直接将存储位置或文件名传递给ReadFromText中的文件路径。 我想从元数据中读取它并传递值。 希望我清楚,谢谢

我不明白你为什么需要阅读元数据。 如果你想读取一个文件夹中的所有文件,你可以只提供一个 blob。 此解决方案适用于 python,不确定 java。

p|readfromtext("./folder/*.csv") 

“*”是这里的blob,它允许管道读取所有匹配的模式。csv。 您也可以在开头添加一些内容。

您想要的是textio.ReadAllFromText ,它从 PCollection 中读取而不是直接获取字符串。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM