简体繁体 English

hadoop-streaming：作业完成后自动进行后处理吗？

[英]hadoop-streaming: automate post-processing once job is completed?

原文 2012-04-03 13:52:30 2 1 python/ mongodb/ hadoop/ mapreduce/ hadoop-streaming

Step 1- I have a hadoop streaming job that takes variable time based on amount of data to process Step 2- Once the job is done, I need to import all that data dump into mongodb and create a flat csv file out of it 第1步，我有一个hadoop流工作，它根据要处理的数据量花费可变的时间。第2步，完成工作后，我需要将所有数据转储导入mongodb并从中创建一个平面的csv文件

Question 题
Is there any way I can glue Step 2 to Step 1 using hadoop streaming and avoid doing Step 2 manually? 有什么方法可以使用hadoop流将步骤2粘贴到步骤1，并避免手动执行步骤2？

1 个解决方案

I would recommend using something like https://github.com/Yelp/mrjob or https://github.com/klbostee/dumbo . 我建议使用类似https://github.com/Yelp/mrjob或https://github.com/klbostee/dumbo之类的东西。 Specifically for mrjob and your problem http://packages.python.org/mrjob/job.html#writing-multi-step-jobs 专门针对mrjob和您的问题http://packages.python.org/mrjob/job.html#writing-multi-step-jobs

Python后处理 - Python post-processing

在Hadoop流应用程序中运行Python脚本时出错 - Error in running Python script in Hadoop-Streaming application

hadoop流：Reducer处于挂起状态，不会启动吗？ - hadoop-streaming: reducer in pending state, doesn't start?

Hadoop流：映射器运行时，PYTHONPATH不起作用 - Hadoop-streaming : PYTHONPATH not working when mapper runs

SQLAlchemy结果后处理 - Sqlalchemy results post-processing

用于后处理 vtu 或 pvd 文件的脚本 - Script for post-processing vtu or pvd files

python中的后处理wrf输出 - Post-processing wrf output in python

Scrapy CrawlSpider后处理：查找平均值 - Scrapy CrawlSpider Post-processing: Finding an Average

如何在 CherryPy 中执行异步后处理？ - How to execute asynchronous post-processing in CherryPy?

在python或ImageMagick中对热图进行后处理 - Post-processing the heatmap in python or ImageMagick

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Python后处理 - Python post-processing 在Hadoop流应用程序中运行Python脚本时出错 - Error in running Python script in Hadoop-Streaming application hadoop流：Reducer处于挂起状态，不会启动吗？ - hadoop-streaming: reducer in pending state, doesn't start? Hadoop流：映射器运行时，PYTHONPATH不起作用 - Hadoop-streaming : PYTHONPATH not working when mapper runs SQLAlchemy结果后处理 - Sqlalchemy results post-processing 用于后处理 vtu 或 pvd 文件的脚本 - Script for post-processing vtu or pvd files python中的后处理wrf输出 - Post-processing wrf output in python Scrapy CrawlSpider后处理：查找平均值 - Scrapy CrawlSpider Post-processing: Finding an Average 如何在 CherryPy 中执行异步后处理？ - How to execute asynchronous post-processing in CherryPy? 在python或ImageMagick中对热图进行后处理 - Post-processing the heatmap in python or ImageMagick

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM