繁体   English   中英

hadoop:支持Map Reduce作业的多个输出

[英]hadoop : supporting multiple outputs for Map Reduce jobs

似乎它在Hadoop受支持( 参考 ),但是我不知道如何使用它。

我想要 :

a.) Map - Read a huge XML file and load the relevant data and pass on to reduce  
b.) Reduce - write two .sql files for different tables  

之所以选择map / reduce是因为我必须对驻留在磁盘上的超过100k(may be many more) xml文件执行此操作。 任何更好的建议都欢迎

任何解释如何使用它的资源/教程都将受到赞赏。

我正在使用Python ,并且想学习如何使用streaming来实现

谢谢

可能不是一个好的解决方案,但是您可以创建两个模板,以在作业完成后将reduce任务的输出转换为所需的格式。 通过编写一个shell脚本可以自动完成许多工作,该脚本将查找reduce输出并将模板应用于它们。 使用shell脚本时,转换是按顺序进行的,不会处理群集中的n台计算机。

否则,在化简任务中,您可以将两个输出格式创建为带有定界符的单个文件,然后稍后使用定界符将它们拆分。 在这种方法中,由于转换发生在化简中,因此转换会分布在群集中的所有节点上。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM