簡體   English   中英

如何在遠程Spark集群上運行本地Python腳本?

[英]How do I run a local Python script on a remote Spark cluster?

我在Jupyter筆記本中運行了本地Python腳本,該腳本在計算機上運行的本地Spark集群上運行作業:

sc = pyspark.SparkContext(appName="test")
sqlCtx = pyspark.SQLContext(sc)

如何將其更改為連接字符串,以在AWS的EMR Spark集群上運行作業?

這是否可行,或者在SSH進入遠程集群時是否必須使用spark-submit功能?

您必須使用spark-submit 我不認為您可以將本地腳本連接到EMR群集,因為您的主節點必須是本地節點。

這是類似的帖子,可能對您有所幫助: 如何從本地運行的Spark Shell連接到Spark EMR但是,如果希望重復使用代碼,則將Spark作業添加為EMR步驟只是提交代碼的另一種方法。

如果您的目標是在EMR群集頂部使用Jupyter Notebook,請參閱此處。 https://aws.amazon.com/blogs/big-data/running-jupyter-notebook-and-jupyterhub-on-amazon-emr/

如果要使用Jupyter筆記本電腦並想在遠程EMR群集上運行代碼,則也可以使用EMR筆記本電腦。

此處提供更多信息: https : //docs.aws.amazon.com/emr/latest/ManagementGuide/emr-managed-notebooks.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM