簡體   English   中英

谷歌數據流作業根據文件模式從雲存儲中讀取 avro 文件

[英]Google dataflow job to read avro files from Cloud storage based on file patterns

假設 gcs 中的文件以以下格式存儲: -.avro 。 嘗試使用 apache beam 的 FileIO.matchAll 庫在谷歌數據流作業中使用讀取文件來讀取基於時間戳間隔的文件。 示例, gcs 中的文件:

   gs://test-bucket/abc_20200101000000.txt
    gs://test-bucket/abc_20200201000000.txt
    gs://test-bucket/abc_20200301000000.txt

現在我們想要獲取所有大於時間戳 20200101000000 直到當前時間戳的文件,我可以使用什么文件模式?

我不知道,如果你能做到這一點與正則表達式,但你應該能夠添加一個ParDo到您的管道下面FileIO.matchAll到過濾元件(類型MatchResult.Metadata基於文件)( MatchResult.Metadata.resourceId() )。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM