[英]hadoop : supporting multiple outputs for Map Reduce jobs
似乎它在Hadoop
受支持( 参考 ),但是我不知道如何使用它。
我想要 :
a.) Map - Read a huge XML file and load the relevant data and pass on to reduce
b.) Reduce - write two .sql files for different tables
之所以选择map / reduce是因为我必须对驻留在磁盘上的超过100k(may be many more)
xml文件执行此操作。 任何更好的建议都欢迎
任何解释如何使用它的资源/教程都将受到赞赏。
我正在使用Python
,并且想学习如何使用streaming
来实现
谢谢
可能不是一个好的解决方案,但是您可以创建两个模板,以在作业完成后将reduce任务的输出转换为所需的格式。 通过编写一个shell脚本可以自动完成许多工作,该脚本将查找reduce输出并将模板应用于它们。 使用shell脚本时,转换是按顺序进行的,不会处理群集中的n台计算机。
否则,在化简任务中,您可以将两个输出格式创建为带有定界符的单个文件,然后稍后使用定界符将它们拆分。 在这种方法中,由于转换发生在化简中,因此转换会分布在群集中的所有节点上。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.