[英]Why does spark-submit in YARN cluster mode not find python packages on executors?
我正在使用spark-submit
(Spark 2.0)在AWS EMR上运行boo.py
脚本。
我使用时文件成功完成
python boo.py
但是,我跑步时失败了
spark-submit --verbose --deploy-mode cluster --master yarn boo.py
yarn logs -applicationId ID_number
上的yarn logs -applicationId ID_number
显示:
Traceback (most recent call last):
File "boo.py", line 17, in <module>
import boto3
ImportError: No module named boto3
我正在使用的python
和boto3
模块是
$ which python
/usr/bin/python
$ pip install boto3
Requirement already satisfied (use --upgrade to upgrade): boto3 in /usr/local/lib/python2.7/site-packages
如何附加此库路径,以便spark-submit
可以读取boto3
模块?
当您运行spark时,部分代码在驱动程序上运行,部分代码在执行程序上运行。
您仅在驱动程序上安装了boto3,还是在驱动程序+可能运行您的代码的所有执行程序(节点)上安装了boto3?
一种解决方案可能是-在所有执行程序(节点)上安装boto3
如何在Amazon EMR节点上安装python模块 :
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.