![](/img/trans.png)
[英]How do I skip header files when reading from google cloud storage in a dataflow job?
[英]Google dataflow job to read avro files from Cloud storage based on file patterns
假設 gcs 中的文件以以下格式存儲: -.avro 。 嘗試使用 apache beam 的 FileIO.matchAll 庫在谷歌數據流作業中使用讀取文件來讀取基於時間戳間隔的文件。 示例, gcs 中的文件:
gs://test-bucket/abc_20200101000000.txt
gs://test-bucket/abc_20200201000000.txt
gs://test-bucket/abc_20200301000000.txt
現在我們想要獲取所有大於時間戳 20200101000000 直到當前時間戳的文件,我可以使用什么文件模式?
我不知道,如果你能做到這一點與正則表達式,但你應該能夠添加一個ParDo
到您的管道下面FileIO.matchAll
到過濾元件(類型MatchResult.Metadata
基於文件)( MatchResult.Metadata.resourceId()
)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.