繁体 English 中英

即时将输入数据添加到Hadoop Map-Reduce Job？

[英]Add input data on the fly to Hadoop Map-Reduce Job?

原文 2015-01-26 17:33:39 4 2 java/ hadoop/ hdfs

我可以在运行时将输入文件或输入数据追加到map-reduce作业中而不创建竞争条件吗？

2 个解决方案

我认为理论上您可以在输入中添加更多文件，只要它可以：

匹配您的FileInputFormat模式
发生在InputFormat.getSplits（）调用之前，这实际上使您在提交作业后很短的时间。

关于计算拆分后的竞争条件，请注意，自版本0.21.0起，追加到现有文件仅可用。

即使您可以修改文件，拆分点也已经预先计算，并且映射器很可能不会提取新数据。 不过，我怀疑这是否会导致您的流量崩溃。

您可以尝试的是禁用文件中的拆分（即为每个文件分配一个映射器）并尝试追加。 我认为一些有机会被刷新的数据可能最终会在映射器中出现（这只是我的猜测）。

有效的答案是“否”。 拆分是在游戏开始时计算的：之后，将不包含新文件。

运行Hadoop Map-Reduce作业

[英]Running a Hadoop Map-Reduce Job

在Hadoop map-reduce中对联接的数据进行分组

[英]Grouping joined data in Hadoop map-reduce

使用MongoDB作为hadoop map-reduce作业的I / O

[英]Use MongoDB as I/O for hadoop map-reduce job

远程运行Hadoop map-reduce作业会导致EOFException？

[英]Runnning Hadoop map-reduce job remotely causes EOFException?

Hadoop Map-Reduce。记录阅读器

[英]Hadoop Map-Reduce . RecordReader

Hadoop map-reduce 编程

[英]Hadoop map-reduce programming

如何将外部库添加到Hadoop映射减少任务

[英]How to add external library to Hadoop map-reduce task

多个mysql表中的数据到hadoop map-reduce

[英]data from mutiple mysql tables to hadoop map-reduce

运行本地hadoop map-reduce不会按预期对数据进行分区

[英]Running a local hadoop map-reduce does not partition data as expected

如何将多个输入格式文件传递给map-reduce作业？

[英]How to pass multiple input format files to map-reduce job?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 运行Hadoop Map-Reduce作业在Hadoop map-reduce中对联接的数据进行分组使用MongoDB作为hadoop map-reduce作业的I / O 远程运行Hadoop map-reduce作业会导致EOFException？ Hadoop Map-Reduce。记录阅读器 Hadoop map-reduce 编程如何将外部库添加到Hadoop映射减少任务多个mysql表中的数据到hadoop map-reduce 运行本地hadoop map-reduce不会按预期对数据进行分区如何将多个输入格式文件传递给map-reduce作业？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM