繁体   English   中英

没有输入文件的Hadoop流作业

[英]Hadoop Streaming Job with no input file

是否可以执行没有输入文件的Hadoop Streaming作业?

在我的用例中,我能够使用单个映射器和执行参数为化简器生成必要的记录。 目前,我正在使用单行存根输入文件,我想删除此要求。

我们有2个用例。
1)

  1. 我想从对所有节点可用的网络位置将文件的负载分布到hdfs中。 基本上,我将在映射器中运行ls并将输出发送到一小组reducer。
  2. 我们将针对几个模型利用几个不同的参数范围进行拟合。 模型名称不会更改,而将在映射器中生成要运行的测试列表时,将其作为键转到化简器。

根据文档,这是不可能的。 以下是执行所需的参数:

  • 输入目录名或文件名
  • 输出目录名
  • 映射器可执行文件或JavaClassName
  • reducer可执行文件或JavaClassName

看起来提供虚拟输入文件是当前的方法。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM