提交火花之前安裝pyspark作業的要求

Question

我想在Spark集群上運行Python應用程序，然后通過spark-submit將其發送到那里。 該應用程序具有多個依賴項，例如pandas ， numpy ， scikit-learn 。 有什么干凈的方法可以確保在提交作業之前安裝依賴項？

當我使用virtualenv進行開發時，可以輕松生成requirements.txt 。

Answer 1

您必須以群集模式運行作業。 假設您使用Yarn作為調度程序。

spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip

也嘗試以下

from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV

關於熊貓，如果您具有確切的數據結構，則可以調用toPandas()

numpy通常集成到許多pyspark調用中，但是不確定。