繁体 English 中英

pyspark.sql'pandas_udf（）'函数之前的冒号（:)？

[英]Colon (:) before pyspark.sql 'pandas_udf()' function?

原文 2019-07-24 14:09:27 5 1 python/ pyspark/ pyspark-sql

在pyspark.sql模块的apply（）文档中，提供了在函数“ pandas_udf（）”之前包含冒号的代码。 这是什么意思，为什么包括在内？ 我在尝试运行该行时遇到语法错误。 文档中的代码如下。

这是文档的链接。

运行代码显然给了我一个语法错误。 还尝试了去除结肠，但没有运气。

from pyspark.sql.functions import pandas_udf, PandasUDFType
df = spark.createDataFrame(
    [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],
    ("id", "v"))
:pandas_udf("id long, v double", PandasUDFType.GROUPED_MAP)  # doctest: +SKIP
def normalize(pdf):
    v = pdf.v
    return pdf.assign(v=(v - v.mean()) / v.std())`enter code here`
df.groupby("id").apply(normalize).show()  # doctest: +SKIP

1 个解决方案

这是文档错误。 pandas_udf旨在用作装饰器，因此应在@之前而不是: 。

这个例子应该工作：

from pyspark.sql.functions import pandas_udf, PandasUDFType

# Use pandas_udf to define a Pandas UDF
@pandas_udf('double', PandasUDFType.SCALAR)
# Input/output are both a pandas.Series of doubles

def pandas_plus_one(v):
    return v + 1

df.withColumn('v2', pandas_plus_one(df.v))

如何在 pyspark 中的 pandas_udf function 中使用正则表达式？

[英]How to use regex within pandas_udf function in pyspark?

在 pyspark 中使用 pandas_udf 中的外部库

[英]Use external library in pandas_udf in pyspark

使用pyspark中的pandas_udf过滤数据帧

[英]filtering a dataframe using pandas_udf in pyspark

Pyspark：如何申请pandas_udf？

[英]Pyspark: how to apply pandas_udf?

PySpark 中 pandas_udf 的隐式模式？

[英]Implicit schema for pandas_udf in PySpark?

无法在pyspark中应用pandas_udf

[英]Can't apply a pandas_udf in pyspark

在 pyspark -pandas_udf 中每组应用 function（没有名为 pyarrow 的模块）

[英]Apply function per group in pyspark -pandas_udf (No module named pyarrow)

如何在 Pyspark 中使用 @pandas_udf 返回多个数据帧？

[英]How to return multiple dataframes using @pandas_udf in Pyspark?

PySpark 中使用腌制 MLFlow model 和 pandas_udf 的预测

[英]Predictions in PySpark using pickled MLFlow model and pandas_udf

有没有办法在 PySpark 中为 pandas_udf 设置最小批量大小？

[英]Is there a way to set a minimum batch size for a pandas_udf in PySpark?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在 pyspark 中的 pandas_udf function 中使用正则表达式？在 pyspark 中使用 pandas_udf 中的外部库使用pyspark中的pandas_udf过滤数据帧 Pyspark：如何申请pandas_udf？ PySpark 中 pandas_udf 的隐式模式？无法在pyspark中应用pandas_udf 在 pyspark -pandas_udf 中每组应用 function（没有名为 pyarrow 的模块）如何在 Pyspark 中使用 @pandas_udf 返回多个数据帧？ PySpark 中使用腌制 MLFlow model 和 pandas_udf 的预测有没有办法在 PySpark 中为 pandas_udf 设置最小批量大小？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM