hadoop：支持Map Reduce作业的多个输出

Question

似乎它在Hadoop受支持（参考），但是我不知道如何使用它。

我想要：

a.) Map - Read a huge XML file and load the relevant data and pass on to reduce  
b.) Reduce - write two .sql files for different tables

之所以选择map / reduce是因为我必须对驻留在磁盘上的超过100k(may be many more) xml文件执行此操作。 任何更好的建议都欢迎

任何解释如何使用它的资源/教程都将受到赞赏。

我正在使用Python ，并且想学习如何使用streaming来实现

谢谢

Answer 1

可能不是一个好的解决方案，但是您可以创建两个模板，以在作业完成后将reduce任务的输出转换为所需的格式。 通过编写一个shell脚本可以自动完成许多工作，该脚本将查找reduce输出并将模板应用于它们。 使用shell脚本时，转换是按顺序进行的，不会处理群集中的n台计算机。

否则，在化简任务中，您可以将两个输出格式创建为带有定界符的单个文件，然后稍后使用定界符将它们拆分。 在这种方法中，由于转换发生在化简中，因此转换会分布在群集中的所有节点上。

hadoop：支持Map Reduce作业的多个输出

问题描述

1 个解决方案

解决方案1
0 已采纳 2011-09-24 02:28:33

hadoop：支持Map Reduce作业的多个输出

问题描述

1 个解决方案

解决方案1 0 已采纳 2011-09-24 02:28:33

解决方案1
0 已采纳 2011-09-24 02:28:33