繁体   English   中英

提交火花之前安装pyspark作业的要求

[英]installing requirements of pyspark job before spark-submit

我想在Spark集群上运行Python应用程序,然后通过spark-submit将其发送到那里。 该应用程序具有多个依赖项,例如pandasnumpyscikit-learn 有什么干净的方法可以确保在提交作业之前安装依赖项?

当我使用virtualenv进行开发时,可以轻松生成requirements.txt

您必须以群集模式运行作业。 假设您使用Yarn作为调度程序。

spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip

也尝试以下

from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV

关于熊猫,如果您具有确切的数据结构,则可以调用toPandas()

numpy通常集成到许多pyspark调用中,但是不确定。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM