[英]azure data factory: how to merge all files of a folder into one file
我需要通過合並分散在Azure Blob存儲中包含的幾個子文件夾中的多個文件來創建一個大文件,還需要完成轉換,每個文件都包含單個元素的JSON數組,因此最終文件將包含一個JSON元素數組。
最終目的是在Hadoop和MapReduce作業中處理該Big文件。
原始文件的布局與此類似:
folder
- month-01
- day-01
- files...
- month-02
- day-02
- files...
我根據您的描述進行了測試,請按照我的步驟進行。
我的模擬數據:
test1.json
駐留在以下文件夾中: date/day1
test2.json
駐留在以下文件夾中: date/day2
Source DataSet
集,將文件格式設置設置為Array of Objects
並將文件路徑設置為root path
。
Sink DataSet
,將文件格式設置設置為Array of Objects
並將文件路徑設置為要存儲最終數據的文件。
創建Copy Activity
並將Copy behavior
設置為Merge Files
。
執行結果:
我的測試目標仍然是Azure Blob存儲,您可以參考此鏈接以了解Hadoop支持Azure Blob存儲。
如果我不需要括號[],該怎么辦? 當方括號位於源JSON中時,我的COPY活動令人窒息....任何建議? 謝謝MIke
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.