簡體   English   中英

提交火花之前安裝pyspark作業的要求

[英]installing requirements of pyspark job before spark-submit

我想在Spark集群上運行Python應用程序,然后通過spark-submit將其發送到那里。 該應用程序具有多個依賴項,例如pandasnumpyscikit-learn 有什么干凈的方法可以確保在提交作業之前安裝依賴項?

當我使用virtualenv進行開發時,可以輕松生成requirements.txt

您必須以群集模式運行作業。 假設您使用Yarn作為調度程序。

spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip

也嘗試以下

from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV

關於熊貓,如果您具有確切的數據結構,則可以調用toPandas()

numpy通常集成到許多pyspark調用中,但是不確定。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM