提交火花之前安装pyspark作业的要求

Question

我想在Spark集群上运行Python应用程序，然后通过spark-submit将其发送到那里。 该应用程序具有多个依赖项，例如pandas ， numpy ， scikit-learn 。 有什么干净的方法可以确保在提交作业之前安装依赖项？

当我使用virtualenv进行开发时，可以轻松生成requirements.txt 。

Answer 1

您必须以群集模式运行作业。 假设您使用Yarn作为调度程序。

spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip

也尝试以下

from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV

关于熊猫，如果您具有确切的数据结构，则可以调用toPandas()

numpy通常集成到许多pyspark调用中，但是不确定。