簡體   English   中英

azure數據工廠:如何將一個文件夾中的所有文件合並為一個文件

[英]azure data factory: how to merge all files of a folder into one file

我需要通過合並分散在Azure Blob存儲中包含的幾個子文件夾中的多個文件來創建一個大文件,還需要完成轉換,每個文件都包含單個元素的JSON數組,因此最終文件將包含一個JSON元素數組。

最終目的是在Hadoop和MapReduce作業中處理該Big文件。

原始文件的布局與此類似:

folder
 - month-01
   - day-01
        - files...

- month-02
    - day-02
        - files...

我根據您的描述進行了測試,請按照我的步驟進行。

我的模擬數據:

test1.json駐留在以下文件夾中: date/day1

在此處輸入圖片說明

test2.json駐留在以下文件夾中: date/day2

在此處輸入圖片說明

Source DataSet集,將文件格式設置設置為Array of Objects並將文件路徑設置為root path

在此處輸入圖片說明

Sink DataSet ,將文件格式設置設置為Array of Objects並將文件路徑設置為要存儲最終數據的文件。

在此處輸入圖片說明

創建Copy Activity並將Copy behavior設置為Merge Files

在此處輸入圖片說明

執行結果:

在此處輸入圖片說明

我的測試目標仍然是Azure Blob存儲,您可以參考此鏈接以了解Hadoop支持Azure Blob存儲。

如果我不需要括號[],該怎么辦? 當方括號位於源JSON中時,我的COPY活動令人窒息....任何建議? 謝謝MIke

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM