Hadoop作業從多個目錄中獲取輸入文件

Question

我有一種情況，我有多個目錄中存在壓縮gz格式的多個（每個2-3 MB以上）100個文件。 例如
A1 / B1 / C1 /部分0000.gz
A2 / B2 / C2 /部分0000.gz
A1 / B1 / C1 /部分0001.gz

我必須將所有這些文件都提供給一個Map作業。 從我看到，對於使用MultipleFileInputFormat，所有輸入文件都需要在同一目錄中。 是否可以將多個目錄直接傳遞到作業中？
如果沒有，那么是否可以有效地將這些文件放入一個目錄而不會發生命名沖突或將這些文件合並為一個單獨的壓縮gz文件。
注意：我使用普通的java來實現Mapper而不使用Pig或hadoop流。

任何有關上述問題的幫助將深表感謝。
謝謝，
ANKIT

Answer 1

FileInputFormat.addInputPaths（）可以采用逗號分隔的多個文件列表，例如

FileInputFormat.addInputPaths("foo/file1.gz,bar/file2.gz")

Hadoop作業從多個目錄中獲取輸入文件

問題描述

1 個解決方案

解決方案1
16 已采納 2011-01-04 14:47:43

Hadoop作業從多個目錄中獲取輸入文件

問題描述

1 個解決方案

解決方案1 16 已采納 2011-01-04 14:47:43

解決方案1
16 已采納 2011-01-04 14:47:43