在 jupyter notebook 中的 python3 内核上运行 pyspark 程序

Question

我使用pip install pyspark来安装 PySpark。 我没有设置任何路径等； 但是，我发现所有内容都已下载并复制到C:/Users/Admin/anaconda3/scripts 。 我在 Python3 内核中打开了 jupyter notebook，并尝试运行 SystemML 脚本，但它给了我一个错误。 我意识到我还需要将 winutils.exe 放在C:/Users/Admin/anaconda3/scripts中，所以我这样做了，脚本按预期运行。

现在，我的程序包括 GridSearch，当我在我的个人笔记本电脑上运行它时，它明显比它在云数据平台上运行的速度慢，我可以在云数据平台上使用 Spark（例如 IBM Watson Studio）启动内核。

所以我的问题是：

(i) 如何将 PySpark 添加到 Python3 内核？ 或者当我import pyspark时它已经在后台工作了吗？

(ii) 当我使用 pandas 和 scikit-learn 在同一个数据集上运行相同的代码时，性能没有太大差异。 PySpark 什么时候比 Pandas 和 scikit-learn 更受欢迎/有益？

另一件事是，即使 PySpark 似乎工作正常并且我能够导入它的库，但当我尝试运行时

import findspark
findspark.init()

它抛出错误（在第 2 行），说list is out of range 。 我用SPARK_HOME='C:/Users/Admin/anaconda3/Scripts'搜索了一下，发现一个建议说我必须明确设置SPARK_HOME='C:/Users/Admin/anaconda3/Scripts' ; 但是当我这样做时，pyspark 停止工作（findspark.init() 仍然不工作）。

如果有人可以解释发生了什么，我将不胜感激。 谢谢你。

Answer 1

如何将 PySpark 添加到 Python3 内核

pip install ，就像你说的那样

性能差别不大

你只使用一台机器，所以不会有

PySpark 什么时候比 Pandas 和 scikit-learn 更受欢迎/有益？

当您想将相同的代码部署到实际的 Spark 集群并且您的数据集存储在分布式存储中时

如果您的环境变量已经设置，您不一定需要findspark

在 jupyter notebook 中的 python3 内核上运行 pyspark 程序

问题描述

1 个解决方案

解决方案1
1 2020-09-11 18:04:55

在 jupyter notebook 中的 python3 内核上运行 pyspark 程序

问题描述

1 个解决方案

解决方案1 1 2020-09-11 18:04:55

解决方案1
1 2020-09-11 18:04:55