[英]Running a pyspark program on python3 kernel in jupyter notebook
我使用pip install pyspark
来安装 PySpark。 我没有设置任何路径等; 但是,我发现所有内容都已下载并复制到C:/Users/Admin/anaconda3/scripts
。 我在 Python3 内核中打开了 jupyter notebook,并尝试运行 SystemML 脚本,但它给了我一个错误。 我意识到我还需要将 winutils.exe 放在C:/Users/Admin/anaconda3/scripts
中,所以我这样做了,脚本按预期运行。
现在,我的程序包括 GridSearch,当我在我的个人笔记本电脑上运行它时,它明显比它在云数据平台上运行的速度慢,我可以在云数据平台上使用 Spark(例如 IBM Watson Studio)启动内核。
所以我的问题是:
(i) 如何将 PySpark 添加到 Python3 内核? 或者当我import pyspark
时它已经在后台工作了吗?
(ii) 当我使用 pandas 和 scikit-learn 在同一个数据集上运行相同的代码时,性能没有太大差异。 PySpark 什么时候比 Pandas 和 scikit-learn 更受欢迎/有益?
另一件事是,即使 PySpark 似乎工作正常并且我能够导入它的库,但当我尝试运行时
import findspark
findspark.init()
它抛出错误(在第 2 行),说list is out of range
。 我用SPARK_HOME='C:/Users/Admin/anaconda3/Scripts'
搜索了一下,发现一个建议说我必须明确设置SPARK_HOME='C:/Users/Admin/anaconda3/Scripts'
; 但是当我这样做时,pyspark 停止工作(findspark.init() 仍然不工作)。
如果有人可以解释发生了什么,我将不胜感激。 谢谢你。
如何将 PySpark 添加到 Python3 内核
pip install
,就像你说的那样
性能差别不大
你只使用一台机器,所以不会有
PySpark 什么时候比 Pandas 和 scikit-learn 更受欢迎/有益?
当您想将相同的代码部署到实际的 Spark 集群并且您的数据集存储在分布式存储中时
如果您的环境变量已经设置,您不一定需要findspark
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.