繁体   English   中英

spark-submit 和 pyspark 有什么区别?

[英]What is the difference between spark-submit and pyspark?

如果我启动 pyspark 然后运行以下命令:

import my_script; spark = my_script.Sparker(sc); spark.collapse('./data/')

一切都很好。 但是,如果我尝试通过命令行和 spark-submit 执行相同的操作,则会收到错误消息:

Command: /usr/local/spark/bin/spark-submit my_script.py collapse ./data/
  File "/usr/local/spark/python/pyspark/rdd.py", line 352, in func
    return f(iterator)
  File "/usr/local/spark/python/pyspark/rdd.py", line 1576, in combineLocally
    merger.mergeValues(iterator)
  File "/usr/local/spark/python/pyspark/shuffle.py", line 245, in mergeValues
    for k, v in iterator:
  File "/.../my_script.py", line 173, in _json_args_to_arr
    js = cls._json(line)
RuntimeError: uninitialized staticmethod object

我的脚本:

...
if __name__ == "__main__":
    args = sys.argv[1:]
    if args[0] == 'collapse':
        directory = args[1]
        from pyspark import SparkContext
        sc = SparkContext(appName="Collapse")
        spark = Sparker(sc)
        spark.collapse(directory)
        sc.stop()

为什么会这样? 运行 pyspark 和运行 spark-submit 会导致这种分歧的区别是什么? 我怎样才能在 spark-submit 中完成这项工作?

编辑:我尝试通过pyspark my_script.py collapse ./data/从 bash shell 运行它,但我遇到了同样的错误。 一切正常的唯一时间是当我在 python shell 中并导入脚本时。

  1. 如果您构建了一个 spark 应用程序,则需要使用spark-submit来运行该应用程序

    • 代码可以用python/scala编写

    • 模式可以是本地/集群

  2. 如果你只想测试/运行几个单独的命令,你可以使用 spark 提供的shell

    • pyspark(用于python中的spark)
    • spark-shell(用于 scala 中的 spark)

spark-submit是一个将您的 spark 程序(或作业)提交到 Spark 集群的实用程序。 如果您打开 spark-submit 实用程序,它最终会调用 Scala 程序

org.apache.spark.deploy.SparkSubmit 

另一方面, pysparkspark-shell是 REPL(读取-评估-打印循环)实用程序,它允许开发人员在编写时运行/执行他们的 Spark 代码,并且可以即时评估。

最终,它们都在幕后运行一个作业,如果您使用以下命令,大多数选项是相同的

spark-submit --help
pyspark --help
spark-shell --help

spark-submit有一些额外的选项可以将你的 spark 程序(scala 或 python)作为一个包(python 的 jar/zip)或单独的 .py 或 .class 文件。

spark-submit --help
Usage: spark-submit [options] <app jar | python file | R file> [app arguments]
Usage: spark-submit --kill [submission ID] --master [spark://...]
Usage: spark-submit --status [submission ID] --master [spark://...]

它们还提供了一个 WebUI 来跟踪 Spark 作业进度和其他指标。

当您使用 Ctrl+c 终止 spark-shell(pyspark 或 spark-shell)时,spark 会话将终止,WebUI 无法再显示详细信息。

如果您查看 spark-shell,它还有一个附加选项可以使用 -I 逐行运行脚本

Scala REPL options:
  -I <file>                   preload <file>, enforcing line-by-line interpretation

pyspark 命令是 REPL(读取-评估-打印循环),用于启动交互式 shell 以测试一些 PySpark 命令。 这在开发期间使用。 我们在这里谈论 Python。

要在集群上或本地运行用 Scala 或 Python 编写的 Spark 应用程序,您可以使用 spark-submit。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM