繁体 English 中英

为什么我们需要完全在Spark中分发文件，例如--py-files？

[英]Why we need to distribute files in Spark at all, e.g. --py-files?

原文 2017-04-01 04:09:05 8 1 python/ apache-spark/ pyspark/ spark-streaming

正如我从SO的许多博客和帖子中读到的，例如，这个（在前几段中），引用如下：

为了不涉及太多细节，但是当您在RDD上运行不同的转换（地图，flatMap，过滤器和其他）时，转换代码（关闭）为：

在驱动程序节点上序列化，

运送到群集中的相应节点，

反序列化，

最后在节点上执行

好，这是我的看法：

我在驱动程序中定义了一些自定义转换/动作函数，然后这些自定义函数将被序列化到所有执行程序以运行作业。

那么将多余的py文件运送到所有节点的意义何在？ 既然执行者需要的所有东西都将被序列化给他们，那么到底发生了什么？

1 个解决方案

不确定，但可以使用spark 2.x和DataFrame API避免序列化并将scala代码发送到您的节点，而无需在节点上处理额外的python容器。

我似乎无法在 Spark 上使用 --py-files

[英]I can't seem to get --py-files on Spark to work

使用带有--py文件的.zip文件（使用zipfile包在python中创建）导入模块时出现问题

[英]Problem importing modules from a .zip file (created in python using zipfile package) with --py-files on an EMR in Spark

Pyspark --py文件不起作用

[英]Pyspark --py-files doesn't work

使用 py 文件导入压缩库失败

[英]Failing import of zipped library with py-files

如何在 VSCode 中配置自动同步 Jupyter notebook .ipynb 和 .py 文件，例如使用 Jupytext

[英]How to config automatic sync Jupyter notebook .ipynb and .py files in VSCode e.g. by using Jupytext

Spark：如果已经通过`--py-files`选项传递，从站是否应该具有源代码？

[英]Spark: should slaves have source code if already passed with ` --py-files` option?

在什么情况下我必须使用spark-submit的py-files选项？

[英]Under what circumstances must I use py-files option of spark-submit?

为什么我的py文件中没有任何注释？（Django的）

[英]Why don't I have any comments in my py-files? (Django)

Pyspark：是否需要在项目中将其他模块作为--py-files参数传递

[英]Pyspark: Is it required to pass additional modules as --py-files argument in a project

在需要在导入期间创建文件的 Singularity 容器中安装 Python package（例如，启用了 GPU 渲染的 mujoco_py）

[英]Installing a Python package (e.g. mujoco_py with GPU rendering enabled) in a Singularity container that requires creating files during import

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 我似乎无法在 Spark 上使用 --py-files 使用带有--py文件的.zip文件（使用zipfile包在python中创建）导入模块时出现问题 Pyspark --py文件不起作用使用 py 文件导入压缩库失败如何在 VSCode 中配置自动同步 Jupyter notebook .ipynb 和 .py 文件，例如使用 Jupytext Spark：如果已经通过`--py-files`选项传递，从站是否应该具有源代码？在什么情况下我必须使用spark-submit的py-files选项？为什么我的py文件中没有任何注释？（Django的） Pyspark：是否需要在项目中将其他模块作为--py-files参数传递在需要在导入期间创建文件的 Singularity 容器中安装 Python package（例如，启用了 GPU 渲染的 mujoco_py）

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM