簡體   English   中英

如何獲取多個文件作為 apache 光束輸入?

[英]How to get muliple files as apache beam input?

我正在處理這種情況:在 Google Cloud Storage 中,我的文件存儲在這種結構中:

PS*:這兩個文件在同一個文件夾中(這是一個縮進錯誤)

在此處輸入圖像描述

我想做的是:

1]每天讀取2個文件“client_info.csv”+“client_events.csv”

2]基於每個文件內的公共列連接列以獲得1個pcollection

3] 進行轉換

4]將數據加載到bigquery

我寫了一個只能從 1 個日期讀取的代碼,它運行良好,但我無法解決所有日期的迭代部分

如果您有任何建議,請提供。

一個解決方案可能是考慮合並兩個分支的管道。 在每個分支中,您分別考慮一個輸入文件,然后加入它們。

在此處查看插圖和示例代碼

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM