[英]Run a python spark job in yarn-cluster mode
当我在spark python的示例中使用spark run pi.py脚本时,出现了一个问题,当我使用yarn-client模式时,一切正常。 但是,当我使用yarn-cluster模式时,作业无法启动,并且容器返回如下语法错误:
日志类型:标准输出
日志上传时间:2015年5月21日星期四08:48:16 +0800
LogLength:111
日志内容:
文件“ pi.py”,第40行
return 1 if x ** 2 + y ** 2 < 1 else 0
我确定脚本是正确的,有人可以帮我吗。
注意新版本的Python中包含语法错误,因此我认为这可能是Spark正在使用的Python版本的问题。
我在中添加了一个属性
/etc/spark/conf.cloudera.spark_on_yarn/spark-defaults.conf:
spark.yarn.appMasterEnv.PYSPARK_PYTHON
指定Python二进制路径。
spark目前不支持在集群模式下运行python脚本(将驱动程序部署到集群)
或者,如果您的应用程序是从远离工作计算机的计算机(例如,在笔记本电脑本地)提交的,则通常使用群集模式来最大程度地减少驱动程序和执行程序之间的网络延迟。 请注意,Mesos群集或Python应用程序当前不支持群集模式。
https://spark.apache.org/docs/1.3.1/submitting-applications.html
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.