簡體   English   中英

處理輸入文件模式時如何在 apache 光束中的 DoFn 中獲取文件名

[英]How to get fileName inside DoFn in apache beam while processing input file pattern

我正在處理一個目錄中的大量文件。 我想在已處理數據 output 的元數據中添加文件名。 因此,如果在處理過程中出現問題,我們可以檢查處理記錄的輸入文件是什么。

有沒有辦法我可以在我的 DoFn 中獲取文件名。 我用的是apache梁2.19.0版

輸入文件位置 - gs://bucket/extracted-files/*

為此,您可以使用FileIO class中可用的轉換。

特別是您可以使用FileIO.match()后跟FileIO.readMatches() ,這會導致ReadableFile對象的PCollection 對於每個ReadableFile ,您都可以訪問一個字節通道進行讀取,以及一個包含文件名稱的Metadata object。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM