[英]Hadoop job taking input files from multiple directories and detecting each one in map phase
[英]Hadoop job taking input files from multiple directories
我有一種情況,我有多個目錄中存在壓縮gz格式的多個(每個2-3 MB以上)100個文件。 例如
A1 / B1 / C1 /部分0000.gz
A2 / B2 / C2 /部分0000.gz
A1 / B1 / C1 /部分0001.gz
我必須將所有這些文件都提供給一個Map作業。 從我看到,對於使用MultipleFileInputFormat,所有輸入文件都需要在同一目錄中。 是否可以將多個目錄直接傳遞到作業中?
如果沒有,那么是否可以有效地將這些文件放入一個目錄而不會發生命名沖突或將這些文件合並為一個單獨的壓縮gz文件。
注意:我使用普通的java來實現Mapper而不使用Pig或hadoop流。
任何有關上述問題的幫助將深表感謝。
謝謝,
ANKIT
FileInputFormat.addInputPaths()可以采用逗號分隔的多個文件列表,例如
FileInputFormat.addInputPaths("foo/file1.gz,bar/file2.gz")
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.