繁体 English 中英

用于 Pandas UDF 的 PySpark 加载包

[英]PySpark Load Packages for Pandas UDF's

原文 2021-07-20 14:54:23 2 1 python/ pandas/ apache-spark/ pyspark/ databricks

我曾尝试在此处关注 Databricks 博客文章，但不幸的是不断收到错误消息。 我正在尝试安装 pandas、pyarrow、numpy 和 h3 库，然后能够在我的 PySpark 集群上访问这些库，但是按照这些说明操作不起作用。

conda init --all（然后关闭并重新打开终端）
conda create -y -n pyspark_conda_env -c conda-forge pyarrow pandas h3 numpy python=3.7.10 conda-pack
conda 激活 pyspark_conda_env
conda pack -f -o pyspark_conda_env.tar.gz

import os
from pyspark.sql import SparkSession

os.environ['PYSPARK_PYTHON'] = "./environment/bin/python"
spark = SparkSession.builder.config(
    "spark.yarn.archive",  # 'spark.yarn.dist.archives' in YARN.
    "~/gzk/pyspark_conda_env.tar.gz#environment").getOrCreate()

我能够做到这一点，但是当我实际尝试运行ModuleNotFoundError: No module named 'numpy' ，出现错误： ModuleNotFoundError: No module named 'numpy'

我该如何解决这个问题并使用 pandas udf 的？

1 个解决方案

我最终通过为我的 AWS EMR 集群编写引导脚本来解决这个问题，该脚本将在所有节点上安装我需要的所有包。 我永远无法按照上述说明正常工作。

可以在此处找到有关引导程序脚本的文档： https : //docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-bootstrap.html

pyspark 中的 Pandas UDF

[英]Pandas UDF in pyspark

PySpark UDF 到 Pandas UDF 用于刺柱

[英]PySpark UDF to Pandas UDF for sting columns

Pandas UDF 的 PySpark 环境设置

[英]PySpark Environment Setup for Pandas UDF

PySpark Pandas UDF 最佳实践

[英]PySpark Pandas UDF Best Practices

pyspark pandas UDF EOFError on macOS

[英]pyspark pandas UDF EOFError on macOS

PySpark-熊猫UDF的顺序计数

[英]PySpark - Sequential Counts with Pandas UDF

如何在pyspark中使用Pandas UDF功能

[英]How to use Pandas UDF Functionality in pyspark

在 pyspark 中使用 pandas_udf 中的外部库

[英]Use external library in pandas_udf in pyspark

使用pyspark中的pandas_udf过滤数据帧

[英]filtering a dataframe using pandas_udf in pyspark

如何在 PySpark 中将 function 转换为 Pandas UDF？

[英]How to convert a function to a Pandas UDF in PySpark?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 pyspark 中的 Pandas UDF PySpark UDF 到 Pandas UDF 用于刺柱 Pandas UDF 的 PySpark 环境设置 PySpark Pandas UDF 最佳实践 pyspark pandas UDF EOFError on macOS PySpark-熊猫UDF的顺序计数如何在pyspark中使用Pandas UDF功能在 pyspark 中使用 pandas_udf 中的外部库使用pyspark中的pandas_udf过滤数据帧如何在 PySpark 中将 function 转换为 Pandas UDF？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM