[英]How to apply a DoFn PTransform to a PCollectionTuple in Apache Beam
[英]How to get fileName inside DoFn in apache beam while processing input file pattern
我正在處理一個目錄中的大量文件。 我想在已處理數據 output 的元數據中添加文件名。 因此,如果在處理過程中出現問題,我們可以檢查處理記錄的輸入文件是什么。
有沒有辦法我可以在我的 DoFn 中獲取文件名。 我用的是apache梁2.19.0版
輸入文件位置 - gs://bucket/extracted-files/*
為此,您可以使用FileIO class中可用的轉換。
特別是您可以使用FileIO.match()
后跟FileIO.readMatches()
,這會導致ReadableFile
對象的PCollection
。 對於每個ReadableFile
,您都可以訪問一個字節通道進行讀取,以及一個包含文件名稱的Metadata
object。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.