繁体   English   中英

Hadoop MapReduce通过多个输入

[英]Hadoop MapReduce over multiple inputs

我想在一个作业中使用多种输入格式。 我已经使用了org.apache.hadoop.mapreduce.lib.input.MultipleInputs,但是此实用程序似乎仅适用于HDFS(具有路径)上存在的输入。

有没有办法使用来自不同来源的多种输入格式?

我的具体需求如下...

我想要一个可以从现有弹性搜索索引(利用https://github.com/elasticsearch/elasticsearch-hadoop提供的ESInputFormat)执行减少侧连接的单一作业,其中包含一组序列信息,以被索引。 我想从这些多个输入中读取到合并到reduce阶段并插入到另一个索引(带有一些附加逻辑)中以供以后使用。

建议?

您仍然可以使用MultipleInputs并仅传递非null路径。 它无需指向有效位置即可继续工作,只是不能为null。

我想这可以。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM