簡體   English   中英

從多個目錄加載多個文件到 Pig

[英]Load multiple files from multiple directory into Pig

你好,我有一個類似於a1,a2,..a8.子目錄的目錄a1,a2,..a8. 並且每個目錄都有多個文件,例如

  bat-a1-0-0
  bat-a1-0-1
  bat-a1-1-0
  bat-a1-1-1
  ...
  bat-a1-31-0
  bat-a1-31-1

和子目錄 a2 類似

bat-a2-0-0
bat-a2-0-1
bat-a2-1-0
bat-a2-1-1
...
bat-a2-31-0
bat-a2-31-1

為了不使事情復雜化,我決定做的是使用多個 LOAD 語句來加載每個目錄並找到一種方法 UNION 來獲取所有內容。 但我不知道如何使用Apache Pig version 0.10.0-cdh4.2.1加載每個目錄中的文件,因為它們似乎不遵循簡單的模式。 需要幫助謝謝。

事實上,這可能比你想象的要簡單。 如果你在 pig 中加載文件,你可以簡單地指向一個目錄,pig 將遞歸加載所有文件。 甚至那些可能嵌套很深的。

所以解決方案是:確保您的所有數據都在 1 個(或幾個)目錄下,並將它們加載進來。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM