[英]installing requirements of pyspark job before spark-submit
我想在Spark集群上運行Python應用程序,然后通過spark-submit
將其發送到那里。 該應用程序具有多個依賴項,例如pandas
, numpy
, scikit-learn
。 有什么干凈的方法可以確保在提交作業之前安裝依賴項?
當我使用virtualenv進行開發時,可以輕松生成requirements.txt
。
您必須以群集模式運行作業。 假設您使用Yarn作為調度程序。
spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip
也嘗試以下
from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV
關於熊貓,如果您具有確切的數據結構,則可以調用toPandas()
numpy通常集成到許多pyspark調用中,但是不確定。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.