我从GH开发大师那里构建了Spark 1.4,并且构建很顺利。 但是当我做bin/pyspark我得到了Python 2.7.9版本。 我怎么能改变这个?

===============>>#1 票数:109

只需设置环境变量:

export PYSPARK_PYTHON=python3

如果您希望将其作为永久性更改,请将此行添加到pyspark脚本中。

===============>>#2 票数:24

PYSPARK_PYTHON=python3 
./bin/pyspark

如果你想在IPython Notebook中运行,请写:

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

如果无法访问python3则需要将路径传递给它。

请记住, 当前的文档(从1.4.1开始)已经过时了。 幸运的是, 它已被修补

===============>>#3 票数:9

1,编辑个人资料: vim ~/.profile

2,将代码添加到文件中: export PYSPARK_PYTHON=python3

3,执行命令: source ~/.profile

4,。/ ./bin/pyspark

===============>>#4 票数:4

看看文件。 shebang行可能指向'env'二进制文件,它在路径中搜索第一个兼容的可执行文件。

你可以将python改为python3。 更改env直接使用硬编码的python3二进制文件。 或者直接用python3执行二进制文件并省略shebang行。

===============>>#5 票数:2

对于Jupyter Notebook,请从命令行编辑spark-env.sh文件,如下所示

$ vi $SPARK_HOME/conf/spark-env.sh

转到文件的底部并复制粘贴这些行

export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

然后,只需运行以下命令即可在笔记本中启动pyspark

$ pyspark

  ask by tchakravarty translate from so

未解决问题?本站智能推荐:

2回复

如何使用spark-env.sh.template在Python 3中设置Pyspark

因为我的ipython3笔记本中存在此问题,所以我想我必须以某种方式更改“ spark-env.sh.template”。 例外:worker中的Python版本与驱动程序3.4中的版本不同,PySpark无法以其他次要版本运行
2回复

无法使用Jupyter Notebook上的pyspark从Apache Spark连接到MS SQL

我正在尝试使用Jupyter Notebook中的pyspark从MS SQL服务器加载数据。 Spark经过测试,工作正常。 我正在使用以下内容: 我的MS SQL驱动程序( mssql-jdbc-7.4.1.jre8.jar )jar与我的python脚本位于同一位置。 我
1回复

Pyspark RDD操作! (Python3,Spark2)

我有一个包含以下内容的“ input.txt”文件: 因为我是初学者,所以我尝试使用RDD操作对上述文件执行以下操作。 (我能够通过将RDD元素复制到列表中来执行此操作): 我想显示上面给定的列表和列表的第一个元素。 我想通过RDD显示排序的输出(升序和降序),并使用
1回复

Python 3中Pyspark的takeOrdered键错误

我在使用Python 3.4.2和Spark 1.4.1的PySpark中的takeOrdered函数遇到错误,该功能应该支持Python 3。 仅当我使用Python 3时才会发生此错误。它在Python 2.7中工作得很好。 另外,作为比较,以下代码行在Python 3中也能正
2回复

如何在Pyspark中一起使用partitionBy和orderBy

我正在尝试从https://www.arundhaj.com/blog/calculate-difference-with-previous-row-in-pyspark.html中获取答案,从lastfm数据集中拆分会话 但是收到以下错误: py4j.protocol.Py4JJava
1回复

Pyspark-Python3使用configparser从文件获取变量

我正在尝试使用Configparser从文件获取变量,但它总是返回字符串而不是变量。 请协助 当前结果: 预期:
2回复

从Web UI杀死Apache Spark作业不会杀死其python子进程

pyspark代码编写,以使用subprocess.Popen(command)调用另一个python作业 尝试从Spark Master Web UI http:// localhost:8080手动杀死Sparkcontext,并成功杀死 到python子进程被触发并作为pyth
10回复

环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON

我最近安装了pyspark。 它已正确安装。 当我在python中使用以下简单程序时,出现错误。 在运行最后一行时,出现错误,其关键行似乎是 我在.bashrc中有以下变量 我正在使用Python 3。
1回复

似乎已安装Spark,但无法导入pyspark模块

我的pip install pyspark工作正常,我在命令提示符下收到一条消息,指出SparkSession可以作为“ spark”使用。 但是,当我这样做时: 它给我一个: 有什么问题,我该如何解决?
1回复

如何在spark数据帧的不同列中应用许多操作并使用新别名保存它们

我有以下spark数据框 我想对url进行groupby并在df上执行以下操作,并将结果分配给新列: pdate min (min_pdate作为别名) pdate max (max_pdate作为别名) imp sum (sum_imp作为别名) im