如何在Hadoop流中使用opt解析器作为映射器指定python脚本

Question

How do I specify a python script which as opt parser (and accepts multiple arguments ) as a mapper in Hadoop Streaming ?? 如何在Hadoop Streaming中指定一个python脚本作为opt解析器（并接受多个参数）作为映射器？

For example , 例如，

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -mapper myPythonScript.py \
    -reducer /bin/wc \
    -file myPythonScript.py

This the normal command to execute python script using hadoop streaming. 这是使用hadoop流执行python脚本的正常命令。 How to mention if the myPythonScript.py has opt parser. 如何提及myPythonScript.py是否具有opt解析器。 For eg. 例如。

python myPythonscript.py -g --inputfile=Inputfilename --output=Ouputfilename -r

How do I specify this as mapper ?? 如何将其指定为mapper？

Answer 1

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input myInputDirs \
    -output myOutputDir \
    -mapper "python myPythonscript.py -g --inputfile=Inputfilename --output=Ouputfilename -r" \
    -reducer /bin/wc \
    -file myPythonScript.py

如何在Hadoop流中使用opt解析器作为映射器指定python脚本

问题描述

1 个解决方案

解决方案1
0 2015-01-24 14:15:47

如何在Hadoop流中使用opt解析器作为映射器指定python脚本

问题描述

1 个解决方案

解决方案1 0 2015-01-24 14:15:47

解决方案1
0 2015-01-24 14:15:47